Post on 13-Mar-2016
description
Introduction au entrepts de donnes - Bernard ESPINASSE - 1
Introduction aux entrepts de donnes
(2) Bernard ESPINASSE
Professeur Aix-Marseille Universit (AMU) Ecole Polytechnique Universitaire de Marseille
Septembre 2013
Introduction et dfinition dun entrept de donnes Architecture fonctionnelle dun entrept Modlisation d'un entrept de donnes Implantation dun ED Alimentation dun entrept de donnes Exploitation dun entrept Domaines dapplication des entrepts, succs stories
Introduction au entrepts de donnes - Bernard ESPINASSE - 2
Bibliographie Ouvrages : ! Benitez-Guerrero E., C. Collet, M. Adiba, Entrepts de donnes : Synthse et
analyse , Rapport de recherche IMAG NIMAG-RR - 99-1017-I, 1999. ! Franco J-M., Le Data Warehouse (Le Data Mining) . Ed. Eyrolles, Paris,
1997. ISBN 2-212-08956-2 ! Gardarin G., Internet/intranet et bases de donnes , Ed. Eyrolles, 1999,
ISBN 2-212-09069-2. ! Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan
Kaufmann Publishers, 2004. ! Kimball R., M. Ross, Entrepts de donnes : guide pratique de modlisation
dimensionnelle , 2dition, Ed. Vuibert, 2003, ISBN : 2-7117-4811-1. Cours : ! Cours de F. Bentayeb, O. Boussaid, J. Darmont, S. Rabaseda, Univ. Lyon 2 ! Cours de P. Marcel, Univ. de Tours ! Cours de G. Gardarin, Univ. de Versailles ! Cours de M. Adiba et M.C. Fauvet, Univ. Grenoble ! Cours de G. Gamper, Univ. Bolzano.
Introduction au entrepts de donnes - Bernard ESPINASSE - 3
Plan 1. Introduction et dfinition dun entrept de donnes (ED)
2. Architecture fonctionnelle dun ED
3. Modlisation d'un ED
4. Implantation d'un ED
5. Alimentation dun ED
6. Exploitation dun ED
7. Domaines dapplication des entrepts et succes stories
Introduction au entrepts de donnes - Bernard ESPINASSE - 4
1. Introduction et dfinition dunentrept de donnes
! Dfinition dun entrept de donnes ! Entrept de donnes versus bases de donnes oprationnelles ! Entrept de donnes versus infocentre ! Processus gnral de construction et exploitation dun entrept
PROJET
Introduction au entrepts de donnes - Bernard ESPINASSE - 5
Dfinition dun entrept de donnes (Data Warehouse) Dfinition de Inmon (1992) : Lentrept de donnes (ED) est une collection de donnes thmatiques, intgres, non volatiles et historises, organises pour le support d'un processus d'aide la dcision
Introduction au entrepts de donnes - Bernard ESPINASSE - 6
Caractristiques des donnes dun ED Orientes sujet : un ED rassemble et organise des donnes
associes aux diffrentes structures fonctionnelles de lentreprise, pertinentes pour un sujet ou thme et ncessaire aux besoins danalyse
Intgres : les donnes rsultent de lintgration de donnes provenant de diffrentes sources pouvant tre htrognes
Historises : les donnes dun ED reprsentent lactivit dune entreprise durant une certaine priode (plusieurs annes) permettant de danalyser les variations dune donne dans le temps
Non-volatiles : les donnes de lED sont essentiellement utilises en interrogation (consultation) et ne peuvent pas tre modifies (sauf certain cas de rafrachissement).
Introduction au entrepts de donnes - Bernard ESPINASSE - 7
De lentrept laide la dcision Entreposage des donnes : avant dtre charges dans lentrept, les donnes
slectionnes doivent tre : extraites des sources (internes : BD oprationnelles, externes : BD et fichiers
notamment issus du Web) soigneusement pures afin dliminer des erreurs et rconcilier les diffrentes
smantiques associes aux sources)
Exploitation des donnes de lED : systmes dcisionnels A partir des donnes dun ED diverses analyses peuvent tre faites, notamment par
des techniques On-Line Analitical processing (OLAP) ou de fouille de donnes (Data Mining) et de visualisation.
Notons que les informations et connaissances obtenues par exploitation de lED ont un impact direct sur les bnfices de lentreprise (augmentation des ventes par un marketing plus cibl, amlioration de la rotation des stocks, )
Introduction au entrepts de donnes - Bernard ESPINASSE - 8
Entrept de donnes versus Bases de donnes oprationnelles
BD oprationnelles Entrept de donnes Niveau de dtail des
informations ! Trs dtaill ! Donnes agrges,
mtadonnes
Homognit des informations ! Informations homognes
! Information pas ncessairement homognes,
! intgration de donnes souvent ncessaire
Fonctions de lentreprise concernes par les
donnes ! Donnes organises par
processus fonctionnel ! Donnes orientes sujet
Comparaison de donnes sur plusieurs annes
! Non : Archivage ou mise jour des donnes
! Oui : Donnes non volatiles, donnes historises
Oprations ralises sur les donnes
! Consultation, mais surtout mise jour et ajout de donnes
! Consultation de donnes uniquement
Introduction au entrepts de donnes - Bernard ESPINASSE - 9
Entrept de donnes versus Infocentre
Infocentre Entrept = collection de donnes orientes sujet,
intgres, volatiles, actuelles, organises pour le support d'un processus de dcision ponctuel
= collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support d'un processus d'aide la dcision
Introduction au entrepts de donnes - Bernard ESPINASSE - 10
Processus gnral de construction et exploitation dun ED Processus en 3 phases :
1 - Construction de la BD dcisionnelle : ! Modlisation conceptuelle des donnes multiformes et multi-sources ! Conception de lentrept de donnes ! Alimentation de lentrept (extraire, nettoyer, transformer, charger) ! Stockage physique des donnes
2 - Slection des donnes analyser : ! Besoins danalyse de lutilisateur ! Data marts (Magasins de donnes) ! Cubes multidimensionnels ! Tableaux ou tables bidimensionnels
3 - Analyse des donnes : ! Stastiques et reporting, OLAP, Data Mining
Introduction au entrepts de donnes - Bernard ESPINASSE - 11
Processus gnral de construction et exploitation dun ED Processus en 3 phases :
Introduction au entrepts de donnes - Bernard ESPINASSE - 12
2. Architecture fonctionnelle dun entrept de donnes
! Axes historique et synthtique des donnes ! Entrepts de donnes (ED) et Magasins de donnes (MD) ! Architecture fonctionnelle dun ED ! Composants logiciels dun ED
Introduction au entrepts de donnes - Bernard ESPINASSE - 13
Axes historique et synthtique des donnes dun ED (1) Les donnes dun ED se structurent selon 2 axes : synthtique et historique :
Axe synthtique
Donnes dtailles historises
Axe historique
Donnes dtailles
Donnes agrges
Donnes fortement agrges
Introduction au entrepts de donnes - Bernard ESPINASSE - 14
Axes historique et synthtique des donnes dun ED (1) Axe synthtique :
tablit une hirarchie dagrgation comprenant : les donnes dtailles reprsentant les vnements les plus rcents au
bas de la hirarchie les donnes agrges synthtisant les donnes dtailles les donnes fortement agrges synthtisant un niveau suprieur les
donnes agrges Axe historique :
comprenant les donnes dtailles historises reprsentant les vnements passs
Ncessaire de stocker des mta-donnes : informations concernant les donnes
de lED (provenance, structure, mthode utilises pour lagrgation, )
Introduction au entrepts de donnes - Bernard ESPINASSE - 15
Entrept et Magasins de donnes (1) L'entrept de donnes - ED (Data Warehouse - DW) :
! collecte l'ensemble de l'information utile aux dcideurs partir des sources de donnes (BD oprationnelle, BD externes, Web )
! centralise l'information dcisionnelle en assurant l'intgration des donnes extraites, leur prennit dans le temps
Les magasins de donnes MD (Data Marts - DM) : ! objectif : supporter efficacement des processus d'analyse de type OLAP ! extraire pour chacun une partie de l'information dcisionnelle de
l'entrept dune partie des donnes utile : ! pour une classe d'utilisateurs ou ! pour un besoin d'analyse spcifique
! ils sont orients sujet
Introduction au entrepts de donnes - Bernard ESPINASSE - 16
Entrepts et magasins de donnes (2) Les entrepts de donnes :
ncessitent de puissantes machines pour grer de trs grandes bases de donnes contenant des donnes de dtail historises
est le lieu de stockage centralis d'un extrait des bases de production. lorganisation des donnes est faite selon un modle facilitant la gestion efficace
des donnes et leur historisation.
Les magasins de donnes (Data Marts) : sont de petits entrepts ncessitant une infrastructure plus lgre et sont mis en
uvre plus rapidement (6 mois environs) conus pour laide la dcision partir de donnes extraites dun ED plus
consquent ou de BD sources existantes les donnes extraites sont adaptes pour laide la dcision (pour classe de
dcideurs, usage particulier, recherche de corrlation, logiciel de statistiques,...) lorganisation des donnes est faite selon un modle facilitant les traitements
dcisionnels
Introduction au entrepts de donnes - Bernard ESPINASSE - 17
Entrepts et magasins de donnes (3)
ODS Operational Data Store : regroupe les donnes intgres rcupres des sources CDW Corporate Data Warehouse : regroupe les vues agrges
Introduction au entrepts de donnes - Bernard ESPINASSE - 18
Architecture fonctionnelle dun ED : 3 niveaux
Source
Bd entrept
Entrept
Donnes externes BD source
BD lgataires
BD source Donnes oprationnelles
Transformation, fusion
Exploration Analyse Client dcisionnel
Extraction, filtrage Extraction, filtrage Extraction, filtrage
Niveau fusion
Niveau extraction
Niveau exploitation Prsentation
Introduction au entrepts de donnes - Bernard ESPINASSE - 19
Architecture fonctionnelle dun entrept : 3 niveaux Niveau extraction : Extraction de donnes des BD oprationnelles (SGBD traditionnel en OLTP) et de
lextrieur : approche push : dtection instantane des mises jour sur les BD
oprationnelles pour intgration dans lED approche pull : dtection priodique des mises jour des BD
oprationnelles pour intgration dans lED Niveau fusion : Intgration, chargement et stockage des donnes dans la BD entrept
organise par sujets Rafrachissement au fur et mesure des mises jour
Niveau exploitation : Rapports, tableaux de bords, visualisation graphiques diverses, Analyse et lexploration des donnes entreposes (OLAP) Requtes complexes pour analyse de tendance, extrapolation, dcouverte de
connaissance, (Fouille de donnes)
Introduction au entrepts de donnes - Bernard ESPINASSE - 20
Composants logiciels dun ED
Niveau extraction
Source
moniteur adaptateur
Bd entrept
Entrept
mdiateur
Donnes externes BD source
moniteur adaptateur
BD lgataires
BD source
moniteur adaptateur
Donnes oprationnelles
Transformation, fusion
Exploration Analyse Client dcisionnel
Extraction, filtrage Extraction, filtrage Extraction, filtrage
Niveau fusion
Niveau exploitation
Introduction au entrepts de donnes - Bernard ESPINASSE - 21
Niveau extraction : sources dinformations htrognes Les donnes sources alimentant lED sont : ! gnralement modifies quotidiennement ! fortement htrognes :
! issues de diffrentes sources : BD relationnelles, BD objets, BD rseaux, fichiers (flat files), documents HTML, bases de connaissances,
! issues de diffrents environnements Exemple dhtrognit (Goglin 88):
Source dinformation Environnement gestion commerciale progiciel sybase/unix gestion marketing progiciel SQL server/NT gestion financire, paye mainframe DB2/IBM suivi de production oracle/NT contrle qualit oracle/NT gestion du temps progiciel oracle/unix gestion des stocks progiciel oracle/HP fichier mailings fichier ASCII rfrences nationales document excel
Ncessit de composants dalimentation pour lhomognisation et lintgration de donnes
Introduction au entrepts de donnes - Bernard ESPINASSE - 22
Niveaux extraction : Moniteur et Adaptateur de sources Le moniteur (source monitor) : composant logiciel dtectant les mises jour effectues sur la source dinformation et reprerant les donnes envoyer lED pour sa mise jour ultrieure :
! Utilisation de triggers si les SGBD en disposent
! Sinon interrogation priodique de chaque base locale ou son journal afin de rcuprer les mises jour effectues durant la dernire priode
Ladaptateur de source (source wrapper) : composant logiciel traduisant les requtes et les donnes depuis le modle dune source dinformation locale vers le modle de lED et vice-versa :
! Les bases locales prexistent et sont souvent relationnelles, voire hirarchiques ou rseaux ou parfois des fichiers
Introduction au entrepts de donnes - Bernard ESPINASSE - 23
Niveau fusion : Mdiateur Le mdiateur (mediator) : composant logiciel capable de :
donner une vision intgre des diffrentes sources dinformation
dextraire par des requtes des parties de ces vues intgres :
! avant dtre dverses dans lED, les donnes doivent tre nettoyes, transformes, rorganises et souvent filtres
! les donnes, en provenance de sources multiples, doivent gnralement tre intgres ou fusionnes
! cette fusion en gnral assure par union ou jointures de sources multiples, des slections et agrgats
le mdiateur sappuie principalement sur le SGBD de lED
Introduction au entrepts de donnes - Bernard ESPINASSE - 24
Niveau exploitation : Moteur OLAP et Outils de fouille Moteur OLAP : composant logiciel permettant sur les donnes de lED ou des Magasins de donnes : dexcuter des requtes interactives complexes danalyser interactivement les donnes selon des axes danalyse et niveaux
de dtail particuliers : changement de points de vue, de niveau de dtail visualiser des rsultats de ces analyses deffectuer les oprations OLTP classiques
Outils de fouille de donnes (Data Mining) : composants logiciels permettant sur les donnes de lED ou des Magasins de donnes : lextraction automatique de proprits caches lextraction automatique de connaissances : connaissances valides,
nouvelles, comprhensibles, pertinentes, implicites, )
Introduction au entrepts de donnes - Bernard ESPINASSE - 25
Dictionnaire et mta-donnes Le dictionnaire contient des informations (mta donnes) sur :
! toutes les donnes de lED. ! sur chaque tape lors de la construction de lED; ! sur le passage dun niveau de donnes un autre lors de lexploitation
de lED
Le rle de ces mta-donnes est ainsi de permettre : ! la dfinition des donnes ! la fabrication des donnes ! le stockage des donnes ! laccs aux donnes ! la prsentation des donnes
Introduction au entrepts de donnes - Bernard ESPINASSE - 26
3 - Modlisation d'un entrept de donnes
! Problmatique de la modlisation multidimensionnelle ! concept de fait ! concept de dimension ! paramtres de hirarchies de dimension
Introduction au entrepts de donnes - Bernard ESPINASSE - 27
Problmatique de la modlisation multidimensionnelle Les analyses dcisionnelles (OLAP) sont directement relies une
modlisation de l'information conceptuelle :
! proche de la perception qu'en a l'analyste
! base sur une vision multidimensionnelle des donnes
Cest la modlisation multidimensionnelle :
considre un sujet analys comme un point dans un espace plusieurs dimensions
les donnes y sont organises de faon mettre en vidence le sujet analys et les diffrentes perspectives de l'analyse.
Introduction au entrepts de donnes - Bernard ESPINASSE - 28
Modlisation multidimensionnelle (1) Soit les donnes relatives aux ventes de 1999 dune entreprise de distribution :
On peut distinguer diffrentes perspectives pour observer ces donnes : une dimension relative la catgorie des produits une dimension relative la rgion
Introduction au entrepts de donnes - Bernard ESPINASSE - 29
Modlisation multidimensionnelle (2) Considrons plusieurs tables des ventes de chaque anne entre 1997 et 1999 On peut alors observer les donnes dans un espace 3 dimensions : la dimension catgories produit la dimension rgions la dimension temps
Chaque intersection de ces dimensions reprsente une cellule comportant le montant des ventes :
La modlisation multidimensionnelle a donn naissance aux concepts de fait et de
dimension [Kimball 1996] Introduction au entrepts de donnes - Bernard ESPINASSE - 30
Modlisation multidimensionnelle : concept de fait Un fait : modlise le sujet de l'analyse est form de mesures correspondant aux informations de l'activit analyse. ces mesures sont numriques et gnralement valorises de faon continue,
on peut les additionner, les dnombrer ou bien calculer le minimum, le maximum ou la moyenne.
Exemple : le fait de Vente peut tre constitu des mesures d'activits suivantes : quantit de produits vendus et montant total des ventes
VENTE
quantitmontant
F
mesure d'activit
fait
Introduction au entrepts de donnes - Bernard ESPINASSE - 31
Modlisation multidimensionnelle : concept de dimension Le sujet analys, le fait, est analys suivant diffrentes perspectives ou axes
caractrisant ses mesures de lactivit : on parle de dimensions. Une dimension : modlise un axe d'analyse se compose de paramtres correspondant aux informations faisant varier les
mesures de l'activit. Ex: Dans l'exemple prcdent, le fait Vente peut tre analys suivant diffrentes perspectives correspondant trois dimensions : la dimension Temps, la dimension Geographie et la dimension Categorie :
TEMPS
annetrimestresaisonmoisjour
GEOGRAPHIE
rgiondpartementville
CATEGORIE
typeProduitgammenomProduitcouleur
Introduction au entrepts de donnes - Bernard ESPINASSE - 32
Modlisation multidimensionnelle : hirarchie des paramtres dune dimension en OLAP les mesures dun fait sont gnralement analyses selon les
dimensions qui le caractrisent ncessaire de dfinir pour chaque dimension ses diffrents niveaux de dtail
dfinissant ainsi une (ou plusieurs) hirarchie(s) de paramtres La hirarchie de paramtre dune dimension : dfinis des niveaux de dtail de l'analyse sur cette dimension
Ex: Dimension temps : H1 : jour ! mois ! trimestre ! anne ; H2 : jour ! mois ! trimestre ! anne ; H3 : jour ! mois ! saison ! anne ;
Dimension gographie : ville ! dpartement ! rgion (chaque ville appartient un dpartement qui est situ dans une rgion)
Dimension catgorie : couleur ! nomProduit ! gamme ! typeProduit (chaque produit appartient une gamme de produit qui appartient un type de produit)
Introduction au entrepts de donnes - Bernard ESPINASSE - 33
4 - Implantation d'un entrept de donnes
! Stratgies dimplantation dun ED ! Schma en toile (star schema) ! Schma en flocon (snowflake schema) ! Schma en constellation (fact constellation schema)
Introduction au entrepts de donnes - Bernard ESPINASSE - 34
Stratgies dimplantation dun ED 3 stratgies : 1 - Usage dun SGBD Relationnel (systmes ROLAP) ! les SGBDR reprsentant plus de 80% des SGBD : ils sont principalement
envisags pour le dveloppement dED mais doivent tre adapts ! Ils doivent cependant tre adapts car ils nont pas les caractristiques
adquates pour rpondre aux besoins des ED. 2 - Usage dun SGBD Multidimensionnel (systmes MOLAP) ! Un SGBD Multidimensionnel (SGBDM) est un SGBD capable de stocker et
traiter des donnes multidimensionnelles ! A ce jour pas encore de cadre technologique commun pour le dveloppement
de tels systmes : chaque produit est spcifique 3 - Usage dun SGBD Hybride (systmes HOLAP) ! Tire profit des avantages des technologies ROLAP et MOLAP :
! un ROLAP pour stocker, grer les donnes dtailles ET ! un MOLAP pour stocker, grer les donnes agrges
Introduction au entrepts de donnes - Bernard ESPINASSE - 35
Schma dun entrept de donnes Niveau logique ROLAP :
3 grands types de schmas :
schma en toile (star schema)
schma en flocon (snowflake schema)
schma en constellation (fact constellation)
le schma en toile est souvent utilis pour l'implantation physique
Introduction au entrepts de donnes - Bernard ESPINASSE - 36
Schma en toile (1) Caractristiques :
structure simple
une table centrale : la table des faits :
objets de l'analyse
taille trs importante
nombreux champs
des table priphriques : les tables de dimensions :
dimensions de l'analyse
taille peu importante
peu de champs
Introduction au entrepts de donnes - Bernard ESPINASSE - 37
Schma en toile (2) Ex 1 : Vente de mdicaments dans des pharmacies
Schma en toile modlisant les analyses des quantits et des montants des mdicaments dans les pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique Table de faits : Vente Tables de dimension : Temps, Catgorie, Gographie
TEMPS
annetrimestresaisonmoisjour
GEOGRAPHIE
rgiondpartementville
CATEGORIE
typeProduitgammenomProduitcouleur
VENTE
annergiontypProduitquantitmontant
F
Introduction au entrepts de donnes - Bernard ESPINASSE - 38
Schma en toile (3) Ex 2 : Ventes darticles dans un supermarch
BASKET
basketIdpayment
DATE
dateIddaymonthquarteryear
PRODUCT
productIdproductNamebrandbrandGroupsubCategorypricepriceRange
SALE
basketIdcustomerIdpromotionIdstoreIddateIdproductIdquantitprix
F
CUSTOMER
customerIdincomeincome rangegenderageage range
PROMOTION
promotionIdstartDateendDatediscountType
LOCATION
storeIdstoreNamecityregioncountry
Introduction au entrepts de donnes - Bernard ESPINASSE - 39
Schma en toile (4) Associ Ex 2 : un fait :
il a t achet 3 exemplaires 1 euro (SALE) du produit pid3 par le client cid1 la date did3 dans le magasin mid2 (store) dans le chariot cid8 (basket) correspondant la promotion prid1
un lment de la dimension location : store id mid2 store name rondpoint city blois region centre country France
Introduction au entrepts de donnes - Bernard ESPINASSE - 40
Schma en toile (5) Normalisation de la table de faits :
! normalisation en Boyce-Codd Normal Form (BCNF) Rappel : une relation R est en BCNF si :
"x ! y DF dfinie sur r , x contient une cl de R soit : chaque attribut non cl dpend fonctionnellement de la seule cl de
la relation
Normalisation des tables de dimensions : elles reprsentent une ou plusieurs hirarchies elles contiennent des donnes redondantes
faut-il les normaliser ? la table des faits constitue l'essentiel du stockage pas/peu de mises jour des dimensions la perte d'espace n'est donc pas significative
! tables de dimensions : NON normalises
Introduction au entrepts de donnes - Bernard ESPINASSE - 41
Schma en flocon (1) Un modle en flocon : une volution du schma en toile avec :
une dcomposition des dimensions du modle en toile en sous hirarchies. le fait est conserv et les dimensions sont clates conformment sa hirarchie des
paramtres cela conduit une normalisation des tables de dimensions :
! structure hirarchique des dimensions ! un niveau infrieur identifie un niveau suprieur
Avantage de cette modlisation :
! formaliser une hirarchie au sein d'une dimension. ! maintenance des tables de dimensions simplifie ! rduction de la redondance
Inconvnient de cette modlisation : ! induit une dnormalisation des dimensions gnrant une plus grande
complexit en termes de lisibilit et de gestion. ! navigation coteuse
Introduction au entrepts de donnes - Bernard ESPINASSE - 42
Schma en flocon (2) Ex 3: Vente de mdicaments dans des pharmacies
Chaque dimension du schma en toile prcdent est dnormalise
TEMPSjournomMoisnomSaison
VENTE
jourvillenomProduitquantitmontant
FSAISON
nomSaison
MOISnomMoisnumeroMoistrimestre
TRIMESTREtrimestreanne
ANNEE
anne
GEOGRAPHIEvilledpartement
DEPARTEMENTdpartementcodePostalrgion
REGION
rgion
CATEGORIEnomProduittypeproduitnomGamenomCouleur
GAMME
nomGamme
COULEUR
nomCouleur
TYPE
typeProduit
Introduction au entrepts de donnes - Bernard ESPINASSE - 43
Schma en constellation Un modle en constellation : fusionne plusieurs modles en toile qui utilisent des dimensions communes. comprend en consquence plusieurs faits et des dimensions communes ou non
Ex : Vente de mdicaments dans des pharmacies
une constellation est constitue de 2 schmas en toile :
! l'un correspond aux VENTEs effectues dans les pharmacies et ! l'autre analyse les PRESCRIPTIONs des mdecins
les dimensions Temps et Gographie sont partages par les faits PRESCRIPTION et VENTE.
TEMPSannetrimestresaisonmoisjour
VENTEannetypeproduitrgionquantitmontant
F
GEOGRAPHIE
rgiondpartementville
CATEGORIE
typeproduitgammenomProduitcouleur
PRESCRIPTIONannecatgoriergionnbMdicamenthonoraires
FMEDICAMENTS
catgoriemolculeeffetsSecondairesposologie
Introduction au entrepts de donnes - Bernard ESPINASSE - 44
Pr-agrgation
Agrgation des faits selon une ou plusieurs dimensions
2 moyens de les reprsenter :
1. une table des faits spars/ddis avec les tables pour les dimensions correspondantes
2. dans la mme table des faits, en codant les niveaux hirarchiques dans les tables de dimensions
Introduction au entrepts de donnes - Bernard ESPINASSE - 45
5 - Alimentation dun Entrept de donnes
! Processus gnral dalimentation dun ED ! Prparation des donnes ! Intgration des donnes ! Agrgation des donnes ! Personnalisation des donnes (customisation)
Introduction au entrepts de donnes - Bernard ESPINASSE - 46
Processus dalimentation dun ED Le processus dalimentation dun ED (ou entreposage des donnes)
consiste :
! rassembler de multiples donnes sources souvent htrognes ! les homogniser
Homognisation faite selon des rgles prcises
Ces rgles :
! sont mmorises sous forme de mta-donnes (information sur les donnes) stockes dans le dictionnaire de donnes
! permettent dassurer des tches dadministration et de gestion des donns entreposes.
Introduction au entrepts de donnes - Bernard ESPINASSE - 47
Processus dalimentation dun ED Aprs avoir conu le modle des donnes, comment alimenter lED ?
! problmatique de lETL (Extracting Transforming and Loading) 4 tapes :
1. Slection des donnes sources
2. Extraction des donnes
3. Nettoyage et Transformation
4. Chargement
Introduction au entrepts de donnes - Bernard ESPINASSE - 48
ETL tools (Extract Transform Load) Support et/ou automatisation des tches suivantes :
TACHES SUPPORT Extraction accs aux diffrentes sources Nettoyage recherche et rsolution des
inconsistances dans les sources Transformation entre diffrents formats, langages, etc.
Chargement des donnes dans lentrept Rplication des sources dans lentrept
Analyse Ex : dtection de valeurs non valides ou inattendues
Transfert de donnes haut dbit pour les trs grands entrepts Test de qualit Ex : pour correction et compltude
Analyse des mta donnes aide la conception
Introduction au entrepts de donnes - Bernard ESPINASSE - 49
1 - Tche de slection des donnes sources Quelles donnes de production faut-il slectionner pour alimenter lED? ! Toutes les donnes sources ne sont forcment pas utiles
Ex : Doit-on prendre ladresse complte ou sparer le code postal ?
! Les donnes slectionnes seront rorganises pour devenir des informations.
! La synthse de ces donnes sources a pour but de les enrichir. ! La dnormalisation des donnes cre des liens entre les donnes et
permet des accs diffrents
Introduction au entrepts de donnes - Bernard ESPINASSE - 50
2 - Tche dExtraction des donnes
Un extracteur (wrapper) est associ chaque source de donnes :
! Il slectionne et extrait les donnes
! Il les formate dans un format cible commun
! Utilisation dinterfaces comme ODB, OCI, JDBC.
! Le format cible est en gnral le modle Relationnel
Introduction au entrepts de donnes - Bernard ESPINASSE - 51
3 - Tche de Nettoyage et Transformation des donnes Objectifs du nettoyage :
! rsoudre le problme de consistance des donnes au sein de chaque source
! une centaine de type dinconsistances ont t rpertories ! 5 30 % des donnes des BD commerciales sont errones
Types dinconsistances : ! prsence de donnes fausses ds leur saisie :
! fautes de frappe ! diffrents formats dans une mme colonne ! texte masquant de linformation (e.g., N/A) ! valeur nulle ! incompatibilit entre la valeur et la description de la colonne ! duplication dinformation,
! persistance de donnes obsoltes ! confrontation de donnes smantiquement quivalentes mais syntaxiquement
diffrentes
Introduction au entrepts de donnes - Bernard ESPINASSE - 52
3.1 Tche de Nettoyage des donnes ! fonctions de normalisation ! fonctions de conversion ! usage de dictionnaires de synonymes ou dabrviations
Dfinition de table de rgles : valeur source remplac par Valeur cible
Mr M monsieur M Masculin M
M M Msieur M
Exemple de conversions :
nettoyage = jointure + projection
Introduction au entrepts de donnes - Bernard ESPINASSE - 53
3.2 Tche de Transformation des donnes Objectifs :
Suppression des incohrences smantiques entre les sources pouvant survenir lors de lintgration :
! des schmas : ! problme de modlisation : diffrents modles de donnes sont utiliss ! problmes de terminologie : un objet est dsign par 2 noms diffrents, un
mme nom dsigne 2 objets diffrents ! incompatibilits de contraintes : 2 concepts quivalents ont des
contraintes incompatibles ! conflit smantique : choix de diffrents niveaux dabstraction pour un mme
concept ! conflits de structures : choix de diffrentes proprits pour un mme
concept ! conflits de reprsentation : 2 reprsentations diffrentes choisies pour les
mmes proprits dun mme objet ! des donnes :
! Equivalence de champs ! Equivalence denregistrements : fusion denregistrements
Introduction au entrepts de donnes - Bernard ESPINASSE - 54
4 - Tche de Chargement des donnes Objectif :
charger les donnes nettoyes et prpares dans lED
Cest une opration : ! qui risque dtre assez longue ! plutt mcanique et la moins complexe.
Il est ncessaire de dfinir et mettre en place : ! des stratgies pour assurer de bonnes conditions sa
ralisation ! une politique de rafrachissement.
Introduction au entrepts de donnes - Bernard ESPINASSE - 55
6 Exploitation dun entrept de donnes
Stratgies dimplantation dun ED: Exploitation dun ED Visualisation autour dun ED
Introduction au entrepts de donnes - Bernard ESPINASSE - 56
Principales applications autour dun ED
Ralisation de rapports divers (Reporting) Ralisation de tableaux de bords (Dashboards) Analyse en ligne diverses (OLAP) Fouille de donnes (Data Mining) Visualisations autour dun ED (visualizations)
Introduction au entrepts de donnes - Bernard ESPINASSE - 57
Exploitation dun ED (1) Rapports (Reporting) : ! Pour des les utilisateurs qui ont besoin d'un accs rgulier des informations
d'une manire presque statique Ex: les hpitaux doivent envoyer des rapports mensuels des agences nationales
! Un rapport est dfini par une requte (plusieurs requtes) et une mise en page (diagrammes, histogrammes, etc)
! Les rapports peuvent tre excuts automatiquement ou manuellement
! J. Gamper, Free University of Bolzano, DWDM 2012-13 61
!"#$%%&'()*'+,-.#/0%+1*',2
! !"#$%&'()#'-#3+1#4-01-#56+#,007#)#%")*+,%-,.."//#*+#',3+18)*'+,#',#),#,+0$/&-/&,&'.-1,2! 0929:#&+()'5'5 Trait en dtail plus loin
Fouille de donnes (Data Mining) : ! Recherche de connaissance, sous forme de modle de comportement,
cachs dans les donnes ! Domaine jeune lintersection de lIntelligence Artificielle, les Statistiques, les BD ! Nombreuses techniques de fouille : rgression linaire, induction darbres de
dcision, algorithmes gnriques, rseaux de neurones, ! Les techniques de fouille sont en pleine volution et sont de plus en plus
intgres dans les ED -> Trait en dtail plus loin
Introduction au entrepts de donnes - Bernard ESPINASSE - 60
Exploitation dun ED (4) Visualisation autour dun ED Facilitent lanalyse et linterprtation de donnes convertissent des donnes complexes en images, graphiques en 2 et 3
dimensions, voire en animations Sont de plus en plus intgres dans les ED
J. Gamper, Free University of Bolzano, DWDM 2012-13 68
!"#$%%&'()*'+,-.#/'-0)&'1)*'+,
! 23)%4'()%35-5,*)*'+,#+6#(+7%&58#35-0&*
! 9+&+3:#-'15:#),;#6+37#45&%#*+#
Introduction au entrepts de donnes - Bernard ESPINASSE - 61
6 Domaines dapplication des entrepts et succs stories
Les domaines privilgis : ! Domaine bancaire ! Domaine de la grande distribution ! Domaine des tlcommunications ! Domaines de lassurance et de la pharmacie ! Domaine de la sant,
Succs stories : ! Casino, Walmart, Camaieu, ! FranceTlcom,
Introduction au entrepts de donnes - Bernard ESPINASSE - 62
Domaines privilgis : Bancaire Domaine bancaire : un des premiers utilisateurs des ED ! Pour une banque, il est important de pouvoir regrouper les informations
relatives un client afin de rpondre ses demandes de crdit par exemple
! Des mailing cibls doivent aussi tre rapidement labors partir de toutes les informations disponibles sur un client lors de la commercialisation dun nouveau produit
! Lutilisation de cartes de crdit ncessite des contrles posteriori, par exemple pour la recherche de fraudes : la mmorisation des mouvements peut rendre de grands services
! Les changes dactions et de conseils de courtages sont facilits par une mmorisation de lhistoire et une exploitation par des outils dcisionnels avancs par exemple pour dterminer des tendances de marchs
Introduction au entrepts de donnes - Bernard ESPINASSE - 63
Domaines privilgis : Grande distribution Domaine de la grande distribution fortement demandeur dED : ! intressant de regrouper les informations de ventes pour dterminer les
produits succs, mieux suivre les modes, dtecter les habitudes dachats, les prfrences des clients par secteur gographique
! La fouille de donnes (Data Mining) a permis de dvelopper des techniques sophistiques dexploitation de donnes qui aident mettre en vidence les rgles de consommation
! Explorer le panier de la mnagre est devenu un exercice dcole : il sagit de trouver partir de lenregistrement des transactions quelles sont les habitudes dachats, plus prcisment quels sont les produits achets en mme temps
Apports constats dans la grande distribution : ! augmentation des ventes grce un meilleur marketing ! amlioration des taux de rotation de stocks ! limination des produits obsoltes ! rduction des rabais, remises, ristournes ! meilleure ngociation des achats
Introduction au entrepts de donnes - Bernard ESPINASSE - 64
Domaines privilgis : Tlcommunications Domaine trs concurrentiel des tlcommunications : utilise beaucoup les ED ! grande masse de donnes concernant les abonns et les appels est enregistre ! Plusieurs mois de description dtaille des appels comprenant, pour chaque
appel appelant, appel, heure et dure sont disponibles chez les oprateurs En respectant les lois de scurit et libert, que peut-on faire de telles donnes ? Couples ou non avec des informations comptables, lexploitation de ces donnes regroupes en ED par des techniques danalyse et dexploration permet :
! Danalyser le trafic ! De mieux cerner les besoins des clients, ! De classer les clients par catgories, ! De comprendre pourquoi certains changent doprateurs et mieux
rpondre leur besoins
Introduction au entrepts de donnes - Bernard ESPINASSE - 65
Domaines privilgis : Assurance et de la pharmacie Domaines de lassurance et de la pharmacie : trs friands de techniques dcisionnelles ! Lexercice de base de lassureur est de dterminer le facteur de risque dun
assur ! Celui dun producteur pharmaceutique est de dtecter limpact dun
mdicament ! Plus gnralement, le suivi des informations relatives la liaison produit-
client sur un ED est souvent synonyme de gains importants : meilleure connaissance des produits, dtection des dfauts, meilleure connaissance des clients, dtection de rejets, ciblage du marketing, etc
! Le couplage aux technologies du Web ouvre aussi des horizons nouveaux pour le suivi des produits, des clients, des concurrents : notion mergente de Data Webhouse
Introduction au entrepts de donnes - Bernard ESPINASSE - 66
Succs story dans la grande distribution (1) Exemple du groupe Casino : Projet : ! un des premiers entrepts en France ! plusieurs millions de dollars conomiss en sapercevant que les stocks de
coca-cola faisaient souvent dfaut... ! 1994 : 80 Go et 50 utilisateurs ! 2002 : + de 10 To, 1500 utilisateurs, 25000 requtes/jour
Solution : Teradata Exemple du groupe Walmart : Projet : ! le plus gros entrept de donnes du monde, en 2006 : 0.5 Po de donnes ! distributeurs, magasins, clients (> 108 ), produits (> 109 )... ! un des plus secret galement...
Solution : Teradata Wal-Mart, for example, discovered that people who buy Pampers often buy beer, so they
moved Pampers and beer close together. The result was that sales of both increased (Computer Business Review, October 1996).
Introduction au entrepts de donnes - Bernard ESPINASSE - 67
Succs story dans la grande distribution (2) Exemple du groupe Camaieu: Projet : ! plusieurs systmes de production (magasin, logistique, comptable, etc.)
Solution : ! 1996 : agrgs dans un entrept de donnes, via lETL Sunopsis ! base Oracle dcoupe en rfrentiels mtier (datamarts achat, marketing...) ! consultation des datamarts via le systme de reporting de Business Objects ! 2003 : ajout d'un cube OLAP intgr la base relationnelle Oracle9i :
! meilleure ergonomie, ! permet des requtes complexes avec prise en compte de plusieurs
niveaux au sein de la BD (types d'articles, collections, produits, zones gographiques, )
! base de composants Java (BI Beans) livre par l'diteur au sein de son environnement de dveloppement (JDeveloper).
Introduction au entrepts de donnes - Bernard ESPINASSE - 68
Succs story dans les tlcommunications Exemple de France Tlcom : Le projet : ! 12 BD sources ! rcupration des donnes : 1,5 anne ! donnes rgionales et nationales ! parfois chez des prestataires de services ! parfois au prix dun intense lobbying ! en 2003 : environ 5 annes de travail
Solution : ! entreposage : SQL server ! DW de 3 bimestres, vid priodiquement ! 1,2 million dindividus ! 1 fait = 1 client ! 250 colonnes ! intgration faite la main priodiquement
Exploitation : progiciel de DM dvelopp spcifiquement