Concept DW

58
CONCEPT & ARCHITECTURE DU DATAMINING & WAREHOUSING ABDELLAH DAISSAOUI 1 Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Transcript of Concept DW

Page 1: Concept DW

CONCEPT&

ARCHITECTUREDU DATAMINING& WAREHOUSINGABDELLAH DAISSAOUI

1

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 2: Concept DW

2

… Mon problème est de pouvoir disposer de la bonne information au bon moment pour être en mesure de prendre la meilleure décision.

Je n’ai pas un problème de manque de données…

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 3: Concept DW

PROBLÉMATIQUE

Ex1 : prédire le changement de loyauté des clients par rapport à un marché très compétitif

Ex2 : quelles sont les vaches à garder dans la ferme et celles à vendre à un abattoir

Ex3 : quels sont les clients susceptibles de s’intéresser à un nouveau produit

Ex4: Anticiper les changements de comportement Ex5: Gestion de la date limite de conservation Ex6: le WinBack

3

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 4: Concept DW

POURQUOI FOUILLER LES DONNÉES ?De nombreuses données sont collectées et

entreposées Données du Web, e-commerce Achats dans les supermarchés Transactions de cartes bancaires Capteurs : RFID, supervision de procédé Télescopes Puces à ADN générant des expressions de gènes Simulations générant de téraoctets de données …..

4

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 5: Concept DW

POURQUOI FOUILLER LES DONNÉES ?

Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants.

La pression de la compétition est de plus en plus forte.Une absence de réaction : une entreprise qui perd 10 %

de ses stocks réagit, mais, lorsqu’elle perd 10 % de ses clients au profit de ses concurrents, elle n’est souvent pas capable de le voir !

Une absence de suivi : alors que 87 % des entreprises mentionnent la satisfaction client comme un des points essentiels dans la réussite de l’entreprise, moins de 18 % ont mis en place une méthode de mesure de cette satisfaction !

Fournir de meilleurs services, s’adapter aux besoins des clients CRM. 5

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 6: Concept DW

POURQUOI FOUILLER LES DONNÉES ?

La gestion de la relation client (GRC<=>CRM) est la capacité à identifier, à acquérir et à fidéliser les meilleurs clients dans l’optique d’augmenter le chiffre d’affaires et les bénéfices.

Le terme de gestion de la relation client est devenu le fédérateur de nombreux fournisseurs de solutions informatiques. Des logiciels d’automatisation de la force de vente aux outils de data mining, de centres d’appels ou de géomarketing, tout le monde fait de la gestion de la relation client ou du capital client. Il est évident que le discours marketing arrive à donner un côté neuf à des préoccupations anciennes et constantes des entreprises. 6

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 7: Concept DW

CALCULE DE STOCKAGE DES DONNÉES

1 byte = 8 bits 1 kilobyte (K/KB) = 2 ^ 10 bytes = 1,024 bytes 1 megabyte (M/MB) = 2 ^ 20 bytes = 1,048,576 bytes 1 gigabyte (G/GB) = 2 ^ 30 bytes = 1,073,741,824 bytes 1 terabyte (T/TB) = 2 ^ 40 bytes = 1,099,511,627,776 bytes 1 petabyte (P/PB) = 2 ^ 50 bytes = 1,125,899,906,842,624 bytes 1 exabyte (E/EB) = 2 ^ 60 bytes = 1,152,921,504,606,846,976

bytes 1 zettabyte (Z/ZB) =1 000 000 000 000 000 000 000 bytes 1 yottabyte (Y/YB) =1 000 000 000 000 000 000 000 000 bytes

7

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 8: Concept DW

POURQUOI FOUILLER LES DONNÉES ?

Les techniques traditionnelles ne sont plus adaptées Volume de données trop grands (trop de tuple,trop d’attributs)« Comment explorer des millions d’enregistrements avec des milliers

d’attributs ? » Besoins de répondre rapidement aux opportunités Requêtes traditionnelles (SQL) impossibles« Rechercher tous les enregistrements indiquant une fraude » Croyance dans la présence de données importantes

8

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 9: Concept DW

RÉSULTAT

Clients et leurs comportements

Croissance dramatique des données

DATA RICH but INFORMATION POOR 9

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 10: Concept DW

DONNÉE VS INFORMATION

« Une donnée décrit des exemples ou des événementsprécis, elle peut être recueillie de manière automatiqueou par écrit, son exactitude peut être vérifiée parréférence au monde réel »

Ex: le détail des achats d’un client tels qu’ils apparaissent sur son ticket de caisse illustre ce concept de donnée.

« une information décrit une catégorie abstraite, chaquecatégorie peut couvrir plusieurs exemples, des expertsont nécessaire pour recueillir et formaliser cetteinformation »

Ex: l’interprétation des données relatives à un client peut conduire à le classer comme bon ou client à risque; ces deux qualités illustrent ce concept de catégorie abstraite. 10

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 11: Concept DW

DATAWAREHOUSE Le data warehouse est une collection de données orientées sujet,

intégrées, non volatiles et historisées, organisées pour le supportd’un processus d’aide à la décision

Désigne une BD utilisée pour collecter et stocker de manièredéfinitive des informations volatiles provenant d'autres bases dedonnées.

Chaque information collectée se voit affecter une date, ou unnuméro de version.

les informations des différentes bases de données d'une entreprisesont collectées dans un seul entrepôt de données.

On dit que le datawarehouse est orienté « métier » Le datawarehouse est conçu pour contenir les données en

adéquation avec les besoins actuels et futurs de l’organisation, etrépondre de manière centralisée à tous les besoins des utilisateursen terme d’information d’aide à la décision. 11

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 12: Concept DW

OLTP VS DATAWAREHOUSE

OLTP DW

Orienté transaction Orienté analyse

Orienté application Orienté sujet

Données courantes Données historisées

Données détaillées Données agrégées

Données évolutives Données statiques

Utilisateurs nombreux Utilisateurs peu nombreux

Temps d’exécution : court Temps d’exécution : long

12

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 13: Concept DW

DATAWAREHOUSE : CONCEPTS

présentées selon différents axes d'analyse ou« dimensions » (par exemple : le temps, les types ousegments de clientèle, les différentes gammes deproduits, les différents secteurs régionaux oucommerciaux, etc.).

non volatiles : stables, en lecture seule, nonmodifiables.

intégrées en provenance de sources hétérogènes oud'origines diverses

archivées et donc datées

13

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 14: Concept DW

DATAMART

Le DataMart est un ensemble de données ciblées, organisées, regroupées et agrégées pour répondre à un besoin spécifique à un métier ou un domaine donné.

Un DataMart (littéralement en anglais magasin de données) est un sous-ensemble d’un Datawarehouse

utiliser via des logiciels d’interrogation de bases de données (notamment des outils de reporting) afin de renseigner ses utilisateurs sur l’état de l’entreprise à un moment donné (stock) ou sur son activité (flux). 14

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 15: Concept DW

PLACE DU DATAMART

15

Gestion de stock CRM Etc…

Outils de gestion de la production

Datamartcommercial

DatamartRH Etc…

DB décisionnelle

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 16: Concept DW

ARCHITECTURE GÉNÉRALE

Sources de données 16

EXTRACTION

Transformation

Nettoyage

Normalisation

CHARGEMENT

DATAWAREHOUSE

DataMart

Requêtes(OLAP)

Rapports(BI)

Datamining

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 17: Concept DW

MODÉLISATION DW

Nouvelle méthode de conception autour des concepts métiers.

Introduction de nouveaux types de table:Table de faitsTable de dimensions

Introduction de nouveaux modèlesModèle en étoileModèle en flocon

17

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 18: Concept DW

TABLE DE FAIT

Table principale du modèle dimensionnel Contient les données observables (les faits) sur le

sujet étudié selon divers axes d’analyse (dimension)

Clé étrangèresvers les dimensions

FAITS18

Table de faits des ventes

Clé date (CE)Clé produit (CE)Clé magasin (CE)Quantité vendueCoûtMontant des ventes

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 19: Concept DW

TABLE DE DIMENSION

Axe d’analyse selon lequel vont être étudiées les données observables (faits)

Contient le détail sur les faits

19

Dimension produitClé produit (CP)Code produitDescription de produitGroupe de produitMarqueEmballagePoids

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 20: Concept DW

ALIMENTATION DU DW Un data warehouse est mis à jour réguliérement Besoin d’un outils permettant d’automatiser les

chargements des données dans le DW.

ETL => Extract, Transform, Load

Permet de découvrir, analyser et extraire les données à partir e sources hétérogènes.

Permet de nettoyer et standardiser les données. Permet de charger les données dans un DW.

20

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 21: Concept DW

21

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 22: Concept DW

ARCHITECTURE : INTRODUCTION Il ya un éventail d'opinions en ce qui concerne

l'architecture optimale des entrepôts de données. tout le monde sera d'accord à ceci: une architecture

des d'entrepôt de données varient considérablement. Certaines architectures place de lourd accent sur le

schéma en étoile, tandis que d'autres l'utilise dans une capacité limitée.

Les principes de conception dimensionnelle sont les mêmes, partout où ils sont mis à utiliser. Ce chapitre est concerné par ces principes.cependant, avec la diversité des architectures, vient

une confusion. Les mêmes termes sont utilisés pour décrire des

choses différentes. Différents termes sont utilisés pour décrire la même

chose.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 23: Concept DW

OBJECTIF Trois catégories d’approche. Les deux premiers sont souvent appelés architectures

d’entrepôt de données , et sont étroitement associés àBill Inmon et Ralph Kimball, respectivement. Letroisième n'a pas une figure de proue bien connus.

Bien que ces architectures diffèrent de façonfondamentale, il ya une place pour le schéma en étoiledans chacun d'eux.

«Quel la meilleures architecture d'entrepôt dedonnées?.

les objectifs de ce chapitre sont simples:

1.Comprendre l'approche à un niveau élevé de détail2.Comprendre la place du schéma en étoile danschaque architecture.3.Eliminer certaines idées fausses

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 24: Concept DW

FEUILLE DE ROUTE

Chaque mise en œuvre dans le monde réel est différente.

Vous devriez faire un effort pour comprendre les solutions de rechange.

Cela vous donnera une meilleure idée de ce qui est et sur ce n'est pas vrai sur la conception dimensionnelle.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 25: Concept DW

APPROCHE 1 : INFORMATION CORPORATE FACTORY

... Si je devais concevoir un entrepôt de données de demain, je ne serais pas envisager d'utiliser une autre approche.

Bien que ce n'est pas une surprise pour les gens qui suivent l'approche Inmon à l'entreposage de données, ces paroles ne cessent jamais d'étonner les adeptes d'autres approches.

Inmon est un écrivain prolifique et un contributeur à l'entreposage de données communautaires.Grâce à des centaines d'articles et des dizaines de livres, il a développé et partagé une approche à l'entreposage de données qu'il appelle la Information Corporate Factory .

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 26: Concept DW

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 27: Concept DW

APPROCHE 2 :ARCHITECTURE KIMBALL Ralph Kimball a apporté de nombreuses contributions

importantes dans le monde de l'entreposage de données, et ses deux meilleurs contributions à la fois liées à la conception tridimensionnelle. Tout d'abord, dans les années 1990, il a été en grande partie responsable pour avoir popularisé la conception avec le schéma en étoile.

Par ses écrits, Kimball a synthétisé et systématisé une série de techniques qui avaient été en usage dès les années 1960. Il a expliqué comment la conception dimensionnelle fournies une manière compréhensible et puissante pour développer des bases de données analytiques.

Deuxièmement, Kimball a développé une architecture pour les entrepôts de données, fondée sur le concept de la conception tridimensionnelle.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 28: Concept DW

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 29: Concept DW

29

Avantages du modèle Dimensionnel

• Conçu pour un requêteur : performances;• Peut être modifié sans peine (faits nouveaux, dimensions nouvelles ,attributs dimensionnels nouveaux, granularité variable);• Doit être capable d’intégrer de nouvelles sources.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 30: Concept DW

30

Cube de données

Dans un modèle dimensionnel, on cherche à représenter les données dans un cube (ou hypercube).• analyse ascendante : « synthétiser »• analyse descendante : « détailler »

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 31: Concept DW

31

• Construction de l’ED datamart par datamart, pouréviter une trop grande complexité

• Eviter les « tuyaux de poêle »

• élaborer un « bus décisionnel » grâce auxdimensions conformes

Planification

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 32: Concept DW

32

• Une table de dimension en relation avec plusieurstables de fait est dite conforme

• Cohérence des interfaces utilisateurs et descontenus

• Cohérence de l’interprétation des attributs

Grande importance dans la conception

Dimension conforme

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 33: Concept DW

33

1 - voyages aériens

Quel est le chiffre d’affaires (CA) par client, par datede voyage (et par mois, trimestre et année), parcompagnie aérienne, par ville de destination ? Lestableaux de bord doivent pouvoir présenter lestotaux et sous totaux de CA : tous clients confondus,et/ou toutes dates, et/ou toutes compagnies, et/outoutes destinations.

Exemple de l’agence de voyage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 34: Concept DW

34

Exemple de l’agence de voyage

Fact_AVcc, ca, cv, ct,

PrixDim_Client

Dim_CompAer Dim_Temp

Dim_Ville

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 35: Concept DW

35

2 – location de voiture

Dans le cas de la location de voiture, on souhaiteéditer le CA, le nombre de jours de location, et lekilométrage pour chaque :client, date de réservation, ville, loueur, et catégoriede véhicule, ainsi que toutes les sommations de lamême manière que pour les déplacements.

Exemple de l’agence de voyage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 36: Concept DW

36

Schéma dimensionnelDimension Dimension

client ville

Code clientLoueur

Ville de locationDate de location

Dimension Prix payé Dimensionloueur Date Distance parcourue

Exemple de l’agence de voyage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 37: Concept DW

37

3 - hôtel

Dans le cas de l’hôtellerie, on veut des tableaux debord par client, hôtel, ville, date de début de séjour,faisant apparaître le nombre de nuitées et le prixtotal payé .

Exemple de l’agence de voyage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 38: Concept DW

38

Schéma dimensionnelDimension Dimension

client villeCode clientHôtelier

Ville de séjourDate de début

Nombre de nuitées Dimension Prixpayé Dimension

Hôtelier Date

Exemple de l’agence de voyage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 39: Concept DW

39

RegroupementOn veut maintenant regrouper ces trois ED en un seul, afinde répondre aux questions supplémentaires suivantes :Quel est le CA total induit par un déplacement en avion ?Quelle est la durée du séjour ? Quel est le CA en location devoiture ? En hôtellerie ?On veut pouvoir éditer les détails de CA par période detemps et par client, ville, compagnie aérienne, loueur ethôtelier, et faire tous les regroupements utiles.Figurer le modèle dimensionnel d’un tel ED, en montrant enparticulier comment l’on peut retrouver location de voitureet/ou hôtellerie, si elles existent, à partir d’un déplacement enavion. Un voyage en avion n’implique pas forcément locationde voiture et/ou hôtellerie, et inversement.

Exemple de l’agence de voyage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 40: Concept DW

40

• On privilégie le niveau le plus fin

Evolutivité

Puissance

Efficacité du Data mining

Niveau de détail

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 41: Concept DW

41

• Définition : dimension dont les champs àfaible cardinalité sont dans des tablesséparées, reliées à la table d’origine aumoyen de clés artificielles.

• Non recommandé : performances,complexité

• Gain en espace disque non déterminant

Floconnage

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 42: Concept DW

LES DIMENSIONS CONFORMES

L'entrepôt de données dimensionnel n'est pas nécessairement centralisées dans une base de données unique.

La notion de conformité est utilisé pour assurer la capacité du data warehouse.

provenant de fournisseurs différents. Le terme ETL sera utilisé au sens large, se référant à

une activité qui déplace les données d'une base de données à un autre.

De même, des outils et des applications qui accèdent aux données analytiques, y compris outils emballés de business intelligence, outils de reporting, et les applications analytiques, seront regroupés sous le terme d'outils de business intelligence.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 43: Concept DW

KDD – DATA MINING

Gregory Piatetsky-Shapiro et Christopher J. Matheus ‘Data Mining, or Knowledge Discovery in Databases

(KDD) as it is also known, is the nontrivial extraction of implicit, previously unknown, and potentially useful information from data’.

Arno Siebes ‘Data mining is the search for relationships and global patterns that exist in large databases but are ‘hidden’ among the vast amount of data, such as a relationship between patient data and their medical diagnosis’.

43

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 44: Concept DW

OUTILS DU DATA MINING

IBM DB2

INFORMIX-On Line XPS

ORACLE 9i, 10g et 11g.

Clementine SPSS.

Intelligent Miner.

SYBASE Sys. 44

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 45: Concept DW

EMERGENCE ECD :DOMAINES D’APPLICATIONS

Banque : Identifier les clients fidèles. Prédire les clients qui peuvent changer leur affiliation

de carte de crédit. Prédire si un client remboursera sont prés ou nonVente & Marketing Identifier les habitudes d’achat des clients Prédire la réponse au mail des compagnes de COM Constitution des rayonnagesAssurance analyse des risques (caractérisation des clients à

hauts risques, etc.) automatisation du traitement des demandes 45

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 46: Concept DW

EMERGENCE KDD :DOMAINES D’APPLICATIONS

46

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 47: Concept DW

TYPES D’APPRENTISSAGE

Apprentissage simple => SQLEx : la somme totale des ventes d’un produits en

2008.

Apprentissage multidimensionnel => OLAPEx: le produit le plus vendu, dans le pays P, la

région R, le département D, en mois 12, dans les 5 derniers années.

Apprentissage cacher => DATA MININGEx: le produit qui sera le mieux vendu en mois 12,

dans le pays P, la région R, le département D. 47

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 48: Concept DW

PRÉ-PROCESSUS

Avant de s’engager dans un processus de data mining,il faut exposer le problème et définir les objectifs, lerésultat attendu ainsi que les moyens permettent demesurer le succès. Il s’agit de comprendre le contextede la recherche et recueillir les intuitions et lesconnaissances des experts afin d’orienter le processus.1- formulation du problème2- définir la typologie du problème3- définir les résultats

48

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 49: Concept DW

PRÉ-PROCESSUS

Formulation du problème: Cette étape consiste à formuler le problème sous une forme qui

peut être traitée avec les outils de modélisation. Est-ce qu’ils’agit d’un problème de détection de fraude, diagnostic depannes…

Découper le problème complexe on sous problème de complexitémoindre, et à collecter les données en relation avec chaque souspartie.

Définir la typologie du problème: Vise à comprendre un phénomène précis et identifiable, c-à-d

est ce que c’est un problème d’affectation ou structuration.Définir les résultats définir les attentent, les individus qui utilisent les résultat et

les décision à prendre.

49

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 50: Concept DW

PROCESSUS DU DATA MINING

50

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 51: Concept DW

RECHERCHE ET SÉLECTION DES DONNÉES

51

Il s’agit de déterminer la structure générale des données, identifierles données exploitables et vérifier la qualité et la facilité d’accès.1- investigation : définir les attributs les plus aptes àdécrire la problème2- Etudier l’exhaustivité des données ou bien un échantillon. leniveau de précision, le budget alloué et la puissance des outils.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 52: Concept DW

NETTOYAGE DES DONNÉES

52

Corriger et/ou contourner les inexactitudes ou les erreurs qui sont glissées dans les données, imposent une phase de nettoyage.En générale c’est le problème des valeurs aberrantes,manquantes et nulle.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 53: Concept DW

ENRICHISSEMENT DES DONNÉES

53

C’est la phase responsable d’ajout d’autre attributs , soit à partir dessources externes, ou le calcul d’autre attributs pour trouver l’attributmanquant.

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 54: Concept DW

EXEMPLE DU PROCESSUS

54

transformation des données

Données finales

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 55: Concept DW

LES TECHNIQUES DU DATAMINING

il existe plusieurs méthodes permettentl’élaboration d’un concept datamining, cesméthodes implique l’utilisation d’algorithmesspécifiques.Les méthodes datamining peuvent être divisées en deux grandes familles

DESCRIPTIVE vs PREDECTIVE

55

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 56: Concept DW

MÉTHODES DESCRIPTIVES

Ces méthodes visent à mettre en évidence des informations présentes mais cachées par le volume des données, On parle de la classification non supervisée « eng: Clustering »

recherche des groupes « clusters » dans un ensemble de données avec la plus grande similarité possible intra-groupe et la plus grande dissimilarité possible inter-groupe.

Ex : c’est le cas de segmentation de la clientèle et de recherche d’association des produits sur les tickets de caisse.

56

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 57: Concept DW

MÉTHODES DESCRIPTIVES

Le clustering admet deux types de méthodes :

méthode non hiérarchique « par partitionnement » elle regroupe en K groupes ‘classes’ toutes les observations simultanément « algorithme k-means »

Méthode hiérarchique procède séquentiellement à regrouper les observation les plus semblable comme premier pas « algorithme d’agglomération », ou le résultat est représenté sous forme d’une structure arborescente que l’on appelle dendrogramme

57

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Page 58: Concept DW

MÉTHODES PRÉDICTIVE

Elles visent à extrapoler de nouvelles informations à partir des informations existantes c’est le cas du SCORING, on parle ici du classement ou bien classification supervisée.

Classement : utilise des algorithmes disponibles dans l’ensemble des environnements de fouille de données, produisons des graphes avec des règles qui sont interprétable facilement par les utilisateurs.

58

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)