1-Generalites-decisionnel.pdf
-
Upload
moustapha-sy -
Category
Documents
-
view
18 -
download
0
Transcript of 1-Generalites-decisionnel.pdf
-
12/11/2015
1
Les Entrepts de Donnes
(Data Warehouses)Pr. Omar Boussaid
Dpartement d'Informatique et de Statistique - ICOM
Universit Lyon2 France
2015-2016
1. Gnralits, sur le dcisionnel
2. Le processus d'entreposage des donnes (Datawarehousing)a) Modlisationmultidimensionnelleb) Intgration des donnes (E.T.L.)
3. L'analyse en ligne (OLAP)a) Diffrentes approches OLAPb) Oprateurs OLAP
Les Entrepts de Donnes
2015-2016-- O. Boussaid
-
12/11/2015
2
La Business Intelligence ( BI )
Dfi : Transformer une partie de leur systmed'information en un SI dcisionnel dont lavocation de pilotage devientmajeure.
2015-2016-- O. Boussaid
Ere de l'information.
Th . Estier - HEC Lau sanne 4
Des donnes aux dcisions
Donne Information Connaissance - Dcision
Donnes C.A. , Lieux des supermarchs, Nombre demploys
Informations Dominique Dupont est responsable des ventes chez Carrefour. Cest une femme
Connaissances Dans la grande distribution, Lorsquun cadre est une femme, elle occupe un poste de responsabilit de catgorie A.
Dcisions A chaque fte religieuse lancer une promotion de produits associs lvnement.
-
12/11/2015
3
Types de donnes
qDonnes dtailles courantes rplication des donnes oprationnelles (des systmes transactionnels)
qDonnes dtailles anciennes idem mais plus ges (parfois archives)
qDonnes faiblement agrgespour mieux rpondre aux questions des gestionnairesquilibre entre dtails et agrgats
quels attributs doivent tre agrgs? Avec quelle unit de temps?
qDonnes fortement agrges idem, encore plus agrgs (genre EIS pour cadres presss)
qMta-donnesdonnes sur les donnes
rpertoire, rgles d extraction et de conversion, rgle d agrgation, ...
Th. Estier - HEC Lausanne
Evolution des units de volumtrie des donnes :
Unit Symbole
Valeur Observation
Octet Octet 1 o reprsente un caractre d'imprimerie (8 bits)
KiloOctet Ko 1 000 (1024) 30 Ko : une page de texte100 Ko : image numrique basse rsolution
MegaOctet Mo 10 6 5 Mo : un morceau de musique500 Mo :un CD-Rom
GigaOctet Go 10 9 1 Go : 1 film de 2 heures500 Go un HD de PC
TeraOctet To 10 12 1 To : 6 millions de livres ; la moitis du catalogue de la BN de France 10 To : presque la volumtrie de la bibliothque du Congrs Amricain
PetaOctet Po 10 15 1 Po : 2 milliards de photos numriques de rsolution moyenne8 Po : trs grande partie de l'information sur Internet
ExaOctet Eo 10 18 5 Eo : Toutes les informations produites jusqu 2003
ZettaOctet Zo 10 21 1,8 Zo : La totalit des informations produites jusqu 2011
YottaOctet Yo 1024 1 Yo : Cest ce que pourra traiter un data center simultanment
BI & donnes massives
-
12/11/2015
4
De la donne laction
Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla
De la donne laction
Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla
Processus de BI
-
12/11/2015
5
De la donne laction
Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla
Cycle de la BI
Entrept de Donnes
Systme d'Info. de ProductionOrientation : Gestion
Systme d'Info. DcisionnelOrientation : Pilotage
BD Magasins
BD Clients
BD Produits
BD Compta
BD DRH
BD Marketing
BD Fournisseurs
Flux de donnes externes
2015-2016-- O. Boussaid
-
12/11/2015
6
2015-2016 -- O. Boussaid
Un systme d'information dcisionnel (S.I.D.) est un ensemble de donnes organis de faon spcifique, appropri la prise de dcision.
Connatre l'environnement dans lequel on volue
Finalit d'un systme dcisionnel :
Pilotage de l'entreprise
La Business Intelligence ( BI )
Outils : Entrepts de donnes ; OLAP
S.I.D. : pilotage de l'entreprise :
2015-2016-- O. Boussaid
La Business Intelligence ( BI )
-
12/11/2015
7
2015-2016-- O. Boussaid
q Business Intelligence (BI) : Technologie pour comprendre le pass et prdire le futur Une large catgorie de technologies permettant de :
o Collecter, stocker, accder & analyser les donnes pour une meilleure prise de dcisiono Analyser la performance de l'entreprise travers un aperu pilot par les donnes (data-driven)
q Une large catgorie dapplications qui inclut les activits de : S.I.A.D. (D.S.S.) Requtage et Reporting Analyse en ligne (OLAP) Analyses statistique, Prvisions et Data mining
q Les applications BI peuvent tre : Mission critique faisant partie intgrale des activits d'une entreprise ou peut tre
occasionnelle pour rpondre une demande particulire A lchelle dune entreprise, ou locales une division, un dpartement, ou d'un projet Inities de faon centrale ou la demande dun utilisateur
Business Intelligence ( BI )
Les donnes peuvent tre supportes par des outils spcialisspermettant le pilotage de l'entreprise
Besoin accru de donnes d'horizons multiples et divers : rorganisation du SI ractivit ncessaire
Les systmes de gestion sont ddis aux mtiers ; tandis que lessystmes dcisionnels sont ddis au pilotage de l'entreprise
L'entreprise ne doit pas seulement avoir une vue verticale de ses mtiers(Systme de gestion) mais une vue transversale (SystmeDcisionnel)
2015-2016-- O. Boussaid
La Business Intelligence ( BI )
-
12/11/2015
8
Les bases de production : toutes les sources de donnes(lgales, juridiques, fiscales, politiques, techniques, marketing)
Comment organiser ces diffrentes donnes dans un ensemblecohrent afin de procder toutes les analyses ncessairespour construire les indicateurs indispensables au pilotagede l'entreprise ?
Par un processus d'entreposagede donnes
(Data Warehousing)
Passage des donnes de production aux donnes dcisionnelles
2015-2016-- O. Boussaid
Architecture Dcisionnelle
Entrept de donnes
Mta donnes
Data Marts
Administrateur
OLAP
Data Mining
Analyses statistiques
E TL
Bases de
production
OLAP Reporting
2015-2016-- O. Boussaid
-
12/11/2015
9
Architecture Dcisionnelle
Administrateur
Entrept de donnes
Mta donnes
Data Marts
OLAPE TL
Bases de
production
OLAP Reporting
Data Mining
Analyses statistiques
2015-2016-- O. Boussaid
Qu'est ce que l'Entreposage des donnes ?
Phase ETL Phase Structuration Phase OLAP
2015-2016-- O. Boussaid
E TL
Bases de
production
OLAP Reporting
Data Mining
Analyses statistiques
Entrept de donnes
Mta donnes
Data Marts
OLAP
Administrateur
-
12/11/2015
10
Travail technique. Extraction des donnes des diffrentes BD de production (internes ou externes)
Nettoyage des donnes, rgles d'homognisation des donnes sous formes de mtadonnes.
Techniques d'alimentation : Chargement des donnes dans l'ED ; Frquences de rafrachissement :
par des applications sur les sources de donnes et l'ED ; par des serveurs de rplication du SGBD ou par des outils
spcialiss.
v Phase ETL
2015-2016-- O. Boussaid
Il s'agit de dfinir la finalit de l'ED :
Cibler l'activit de l'entreprise piloter ; Dterminer et recenser les donnes entreposer ; Dfinir les aspects techniques de la ralisation ; Modle de donnes ; Dfinir des dmarches d'alimentation ; Arrter des stratgies d'administration ; Dfinir des espaces d'analyse ; Choisir un mode de restitution
v Phase Structuration
2015-2016-- O. Boussaid
-
12/11/2015
11
Elle est constitue de plusieurs tches pour assurer :
la qualit et la prennit des donnes aux diffrents applicatifs ; la maintenance ; la gestion de configuration ; les mises jour ; l'organisation, l'optimisation du SID ; la mise en scurit du SID.
v Phase (transversale) Administration
2015-2016-- O. Boussaid
C'est le but du processus d'entreposage des donnes.
Elle conditionne le choix de l'architecture de l'ED et de sa construction.
Elle doit permettre toutes les analyses ncessaires pour la construction des indicateurs recherchs.
v Phase OLAP
2015-2016-- O. Boussaid
-
12/11/2015
12
OLAP (On-Line Analytical Processing) est dfini comme tant :
... le nom donn l'analyse dynamique requise pour crer, manipuler, animer et synthtiser l'information par des modles d'analyse de donnes exgtiques, contemplatifs et selon des formules (Codd et al., 1993).
En d'autres termes, il s'agit d'applications de modlisation descriptive et d'analyse exploratoire des donnes, conues des fins de prise de dcision.
v Analyse en ligne (OLAP)
2015-2016-- O. Boussaid
Nigel Pendse auteur de OLAP Report (www.olapreport.com/fasmi.htm) rcapitule la dfinition de l'OLAP en cinq mots :
FastAnalysis of SharedMultidimensional Information (FASMI) traduit en franais comme suit : ''Analyse Rapide d'Information Multidimensionnelle Partage''(http://www.linux-france.org/prj/jargonf/F/FASMI.htm)
Critres retenus pour simplifier les rgles de Codd et faciliter l'valuation des outils OLAP.
vOLAP
2015-2016-- O. Boussaid
-
12/11/2015
13
Les combinaisons possibles des dimensions, avec les mesures qui en dcoulent, forment les faits. Il est possible d'appliquer des fonctions agrgatives (somme, moyenne, mdiane, etc.) pour obtenir les mesures partir des donnes transactionnelles ou de mesures de membres de niveau infrieur.
Ainsi, on peut calculer une valeur pour un fait caractris par les membres d'une dimension du niveau hirarchique infrieur qui s'agrgent vers un membre d'un niveau suprieur (ex. la population du Canada est la somme de la population de chacune de ses provinces).
Un jeu de donnes multidimensionnelles est nomm cube ou hypercube : l'organisation des faits selon des axes dimensionnels.
v Phase OLAP
2015-2016-- O. Boussaid
v Phase OLAP
2015-2016-- O. Boussaid
-
12/11/2015
14
q Un ED est une structure informatique dans laquelle est centralis un volumeimportant de donnes consolides partir des diffrentes sources derenseignements d'une entreprise (notamment les BDs internes) et qui est conuede manire que les personnes intresses aient accs rapidement l'informationstratgique dont elles ont besoin. (daprs B. Devlin, Journal of Data Warehouses, nov. 1997)
q Dans un ED , les donnes sont : slectionnes et prpares (pour rpondre auxquestions vitales de l'entreprise), intgres ( partir des diffrentes sources derenseignements) et dates (elles gardent la trace de leur origine).
q Le terme entrept de donnes supplante ceux de dpt de donnes et decentrale de donnes (se rapproche de magasin de donnes) .
v Data warehouse : Dfinition(ou entrept de donnes)
2015-2016-- O. Boussaid
Bill Inmon a propos les termes de :Entreprise Data warehouse (EDW) ou Corporate Information Factory (CIF)
Le DWH est orient sujets : les donnes collectes doivent tre orientes ''mtier'' et donc tries par thme
Le DWH est compos de donnes intgres : un ''nettoyage'' pralable des donnes est ncessaire dans un souci de rationalisation et de normalisation
Les donnes du DWH sont non volatiles : une donne entre dans l'entrept l'est pour de bon et n'a pas vocation tre supprime ;
Les donnes du DWH doivent tre historises, donc dates
v Data warehouse : Dfinition
2015-2016-- O. Boussaid
-
12/11/2015
15
Qu'est ce qu'un Entrept de Donnes ?
D'aprs BILL Inmon :
Un ED est une collection de donnes thmatiques, intgres, non volatiles et historises, organises pour la prise de dcision.
Thmatiques : thmes par activits majeures ;Intgres : divers sources de donnes ;Non volatiles : ne pas supprimer les donnes du DW;Historises : trace des donnes, suivre l'volution des indicateurs.
Pb de volumtrie, de stockage, d'accs.2015-2016-- O. Boussaid
v Architecture de Data warehouse
End UserPresentation ToolsSources Data Systems
Data staging Area(Operational Data Store)
O.D.S.
Data et Metadata Storage Area
DWH
DM1 DM2
DM3
DSc1DSc2
DSc3 DSc4
DScn
2015-2016-- O. Boussaid
-
12/11/2015
16
Staging area : C'est une zone temporaire qui sert stocker l es donnes extraites dessystmes sources. C'est l que s'effec tuent les diffrentes transformati ons : le nettoyage desdonnes, l e merge, la standardisation, le dduplication des donnes . Les donnes dans lestaging area sont dtruites une fois le chargement des data-marts termin.
Data warehouse : Les donnes du s taging area sont transfres vers le DWH. Lesmtadatas sont aussi stockes dans le DWH. Ce der nier est centr al et devrait contenir toutesles donnes de l'entreprise.
Zone prsentation : A partir du DWH, les utilisateurs peuvent y accder pour excuterleurs requtes ad hoc, programmer les rapports, analyser et visualiser l'information...
v Architecture de Data warehouse
2015-2016-- O. Boussaid
Architecture prne par Bill Inmon
L'ODS : est l'acronyme pour Operational Data Store ou (Magasin de donnes oprationnelles). Il joue deux rles :
1. sert stocker les donnes extraites des systmes sources (donnes transactionnelles).
2. intgre les donnes sources dans le but de prsenter toute l'information ncessaire prendre des dcisions tactiques.
L'Entreprise Data warehouse : Les donnes de l'ODS sont transfres vers le DWH. Ce dernier est central (d'o son appellation Entreprise Data Warehouse (EDW)). Il contient toutes les donnes de l'entreprise.
Les Data marts dpendants : Ils peuvent tre aliments soit de l'EDW soit de l'ODS.
La zone prsentation : Une fois les donnes charges dans le Data warehouse et les Data marts dpendants, les utilisateurs peuvent y accder pour excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l'information
v Architecture de Data warehouse
2015-2016-- O. Boussaid
-
12/11/2015
17
Il est souvent mis en place pour rpondre au moins un des besoins suivants :
- Intgrer les donnes provenant de plusieurs sources. Normalement ce genre d'intgration devrait tre ralis dans les systmes sources, mais parce que cela peut couter cher ( temps, dispo. et rentabilit) : on met en place un ODS.
- Fournir les donnes pour prendre des dcisions tactiques (reporting)
- Permettre de consolider les mises jour communes aux systmes sources.
Un ODS peut servir de staging area pour alimenter un DW, cependant cela ne doit pas tre sa raison d'tre.
vOparational Data Storage (ODS)
2015-2016-- O. Boussaid
v Architecture de Data warehouse
End UserPresentation ToolsSources Data Systems
Data staging Area(Operational Data Store)
O.D.S.
Bases multidimensionnelles
DWH
DM1
DM2
DM3DSc1 DSc2
DSc3 DSc4
DScn
Cubes OLAP
2015-2016-- O. Boussaid
-
12/11/2015
18
Business Intelligence LIKE Business Analytics
Exploitation des donnes directement (Business Analytics) ou indirectement (Business Intelligence)
Socle Big data : intgration en temps rel des flux de donnes structures et non structures, NoSQL et relationnelles
Donnes sources (internes, externes, structures, non structures)
v Approches de mise en place de DW
Il existe plusieurs approches pour mettre en place un DW.
Par contre seulement trois approches sont communes. ils'agit de l'approche "Top-Down" prne par Inmon,l'approche "Bottom-up" de Kimball et de l'approche"Hybride" qui drivent des deux premires approches.
2015-2016-- O. Boussaid
-
12/11/2015
19
vApproches de mise en place de DW
Top-Down de Bill Inmon et le CIFCaractristiques majeures
L'emphase est mise sur le DW.
Commence par concevoir un modle de DW au niveau de l'entreprise.
Dploies une architecture multi-tiers compose de staging area, de DW et des data- marts dpendants.
Le staging area est permanent.
Le DW est orient entreprise; les data-marts sont orients processus.
Le DW contient des donnes atomiques ; Les data-marts contiennent les donnes agrges.
Le DW utilise un modle de donnes normalis de toute l'entreprise ; Les data-marts utilisent des modles multidimensionnels orients sujet.
Les utilisateurs peuvent effectuer des requtes sur le DW et les data-marts.
2015-2016-- O. Boussaid
vApproches de mise en place de DW
Bottom-Up de Ralph Kimball et le Bus Architecture
L'emphase est mise sur les data-marts.
Commence par concevoir un modle multidimensionnel pour un data-mart.
Utilise une architecture qui consiste en un staging area et des data-marts.
Le staging area est en gnral non permanent, mais il peut devenir permanent pour implanter l'architecture en BUS ( Dimensions et faits conformes)
Les data-marts contiennent les donnes atomiques et les donnes agrges.
Les data-marts peuvent fournir une vue entreprise ou processus.
Un data-mart consiste en un seul star schema physique.
Les data-marts sont implants d'une faon incrmentale et intgre en utilisant les dimensions conformes.
Les utilisateurs ne peuvent effectuer des requtes sur le staging area .
2015-2016-- O. Boussaid
-
12/11/2015
20
vApproches de mise en place de DW
Hybride L'emphase est sur le DW et les data-marts ; utilise les deux approches top-down etbottom-up
Commence par concevoir un modle de donnes de l'entreprise en mme temps que les modles spcifiques.
Cre un modle normalis d'entreprise de haut niveau ; gnre les modles des premiers data-marts.
Charge les data-marts avec les donnes atomiques en utilisant un staging area temporaire.
Les modles des data-marts sont composs d'un ou plusieurs star schmas.
Utilise un outil ETL pour charger les data-marts et pour changer les mtadata avec ces derniers.
Charge le DW partir des data-marts lorsqu'il y'a besoin de faire des requtes travers plusieurs data-marts en mme temps.
2015-2016-- O. Boussaid
2015-2016-- O. Boussaid
-
12/11/2015
21
2015-2016-- O. Boussaid
2015-2016-- O. Boussaid
-
12/11/2015
22
2015-2016-- O. Boussaid