1-Generalites-decisionnel.pdf

download 1-Generalites-decisionnel.pdf

of 22

Transcript of 1-Generalites-decisionnel.pdf

  • 12/11/2015

    1

    Les Entrepts de Donnes

    (Data Warehouses)Pr. Omar Boussaid

    Dpartement d'Informatique et de Statistique - ICOM

    Universit Lyon2 France

    2015-2016

    1. Gnralits, sur le dcisionnel

    2. Le processus d'entreposage des donnes (Datawarehousing)a) Modlisationmultidimensionnelleb) Intgration des donnes (E.T.L.)

    3. L'analyse en ligne (OLAP)a) Diffrentes approches OLAPb) Oprateurs OLAP

    Les Entrepts de Donnes

    2015-2016-- O. Boussaid

  • 12/11/2015

    2

    La Business Intelligence ( BI )

    Dfi : Transformer une partie de leur systmed'information en un SI dcisionnel dont lavocation de pilotage devientmajeure.

    2015-2016-- O. Boussaid

    Ere de l'information.

    Th . Estier - HEC Lau sanne 4

    Des donnes aux dcisions

    Donne Information Connaissance - Dcision

    Donnes C.A. , Lieux des supermarchs, Nombre demploys

    Informations Dominique Dupont est responsable des ventes chez Carrefour. Cest une femme

    Connaissances Dans la grande distribution, Lorsquun cadre est une femme, elle occupe un poste de responsabilit de catgorie A.

    Dcisions A chaque fte religieuse lancer une promotion de produits associs lvnement.

  • 12/11/2015

    3

    Types de donnes

    qDonnes dtailles courantes rplication des donnes oprationnelles (des systmes transactionnels)

    qDonnes dtailles anciennes idem mais plus ges (parfois archives)

    qDonnes faiblement agrgespour mieux rpondre aux questions des gestionnairesquilibre entre dtails et agrgats

    quels attributs doivent tre agrgs? Avec quelle unit de temps?

    qDonnes fortement agrges idem, encore plus agrgs (genre EIS pour cadres presss)

    qMta-donnesdonnes sur les donnes

    rpertoire, rgles d extraction et de conversion, rgle d agrgation, ...

    Th. Estier - HEC Lausanne

    Evolution des units de volumtrie des donnes :

    Unit Symbole

    Valeur Observation

    Octet Octet 1 o reprsente un caractre d'imprimerie (8 bits)

    KiloOctet Ko 1 000 (1024) 30 Ko : une page de texte100 Ko : image numrique basse rsolution

    MegaOctet Mo 10 6 5 Mo : un morceau de musique500 Mo :un CD-Rom

    GigaOctet Go 10 9 1 Go : 1 film de 2 heures500 Go un HD de PC

    TeraOctet To 10 12 1 To : 6 millions de livres ; la moitis du catalogue de la BN de France 10 To : presque la volumtrie de la bibliothque du Congrs Amricain

    PetaOctet Po 10 15 1 Po : 2 milliards de photos numriques de rsolution moyenne8 Po : trs grande partie de l'information sur Internet

    ExaOctet Eo 10 18 5 Eo : Toutes les informations produites jusqu 2003

    ZettaOctet Zo 10 21 1,8 Zo : La totalit des informations produites jusqu 2011

    YottaOctet Yo 1024 1 Yo : Cest ce que pourra traiter un data center simultanment

    BI & donnes massives

  • 12/11/2015

    4

    De la donne laction

    Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla

    De la donne laction

    Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla

    Processus de BI

  • 12/11/2015

    5

    De la donne laction

    Extrait de Introduction to Business Intelligence, Mykola Pechenizkiy, university od Jyvskyla

    Cycle de la BI

    Entrept de Donnes

    Systme d'Info. de ProductionOrientation : Gestion

    Systme d'Info. DcisionnelOrientation : Pilotage

    BD Magasins

    BD Clients

    BD Produits

    BD Compta

    BD DRH

    BD Marketing

    BD Fournisseurs

    Flux de donnes externes

    2015-2016-- O. Boussaid

  • 12/11/2015

    6

    2015-2016 -- O. Boussaid

    Un systme d'information dcisionnel (S.I.D.) est un ensemble de donnes organis de faon spcifique, appropri la prise de dcision.

    Connatre l'environnement dans lequel on volue

    Finalit d'un systme dcisionnel :

    Pilotage de l'entreprise

    La Business Intelligence ( BI )

    Outils : Entrepts de donnes ; OLAP

    S.I.D. : pilotage de l'entreprise :

    2015-2016-- O. Boussaid

    La Business Intelligence ( BI )

  • 12/11/2015

    7

    2015-2016-- O. Boussaid

    q Business Intelligence (BI) : Technologie pour comprendre le pass et prdire le futur Une large catgorie de technologies permettant de :

    o Collecter, stocker, accder & analyser les donnes pour une meilleure prise de dcisiono Analyser la performance de l'entreprise travers un aperu pilot par les donnes (data-driven)

    q Une large catgorie dapplications qui inclut les activits de : S.I.A.D. (D.S.S.) Requtage et Reporting Analyse en ligne (OLAP) Analyses statistique, Prvisions et Data mining

    q Les applications BI peuvent tre : Mission critique faisant partie intgrale des activits d'une entreprise ou peut tre

    occasionnelle pour rpondre une demande particulire A lchelle dune entreprise, ou locales une division, un dpartement, ou d'un projet Inities de faon centrale ou la demande dun utilisateur

    Business Intelligence ( BI )

    Les donnes peuvent tre supportes par des outils spcialisspermettant le pilotage de l'entreprise

    Besoin accru de donnes d'horizons multiples et divers : rorganisation du SI ractivit ncessaire

    Les systmes de gestion sont ddis aux mtiers ; tandis que lessystmes dcisionnels sont ddis au pilotage de l'entreprise

    L'entreprise ne doit pas seulement avoir une vue verticale de ses mtiers(Systme de gestion) mais une vue transversale (SystmeDcisionnel)

    2015-2016-- O. Boussaid

    La Business Intelligence ( BI )

  • 12/11/2015

    8

    Les bases de production : toutes les sources de donnes(lgales, juridiques, fiscales, politiques, techniques, marketing)

    Comment organiser ces diffrentes donnes dans un ensemblecohrent afin de procder toutes les analyses ncessairespour construire les indicateurs indispensables au pilotagede l'entreprise ?

    Par un processus d'entreposagede donnes

    (Data Warehousing)

    Passage des donnes de production aux donnes dcisionnelles

    2015-2016-- O. Boussaid

    Architecture Dcisionnelle

    Entrept de donnes

    Mta donnes

    Data Marts

    Administrateur

    OLAP

    Data Mining

    Analyses statistiques

    E TL

    Bases de

    production

    OLAP Reporting

    2015-2016-- O. Boussaid

  • 12/11/2015

    9

    Architecture Dcisionnelle

    Administrateur

    Entrept de donnes

    Mta donnes

    Data Marts

    OLAPE TL

    Bases de

    production

    OLAP Reporting

    Data Mining

    Analyses statistiques

    2015-2016-- O. Boussaid

    Qu'est ce que l'Entreposage des donnes ?

    Phase ETL Phase Structuration Phase OLAP

    2015-2016-- O. Boussaid

    E TL

    Bases de

    production

    OLAP Reporting

    Data Mining

    Analyses statistiques

    Entrept de donnes

    Mta donnes

    Data Marts

    OLAP

    Administrateur

  • 12/11/2015

    10

    Travail technique. Extraction des donnes des diffrentes BD de production (internes ou externes)

    Nettoyage des donnes, rgles d'homognisation des donnes sous formes de mtadonnes.

    Techniques d'alimentation : Chargement des donnes dans l'ED ; Frquences de rafrachissement :

    par des applications sur les sources de donnes et l'ED ; par des serveurs de rplication du SGBD ou par des outils

    spcialiss.

    v Phase ETL

    2015-2016-- O. Boussaid

    Il s'agit de dfinir la finalit de l'ED :

    Cibler l'activit de l'entreprise piloter ; Dterminer et recenser les donnes entreposer ; Dfinir les aspects techniques de la ralisation ; Modle de donnes ; Dfinir des dmarches d'alimentation ; Arrter des stratgies d'administration ; Dfinir des espaces d'analyse ; Choisir un mode de restitution

    v Phase Structuration

    2015-2016-- O. Boussaid

  • 12/11/2015

    11

    Elle est constitue de plusieurs tches pour assurer :

    la qualit et la prennit des donnes aux diffrents applicatifs ; la maintenance ; la gestion de configuration ; les mises jour ; l'organisation, l'optimisation du SID ; la mise en scurit du SID.

    v Phase (transversale) Administration

    2015-2016-- O. Boussaid

    C'est le but du processus d'entreposage des donnes.

    Elle conditionne le choix de l'architecture de l'ED et de sa construction.

    Elle doit permettre toutes les analyses ncessaires pour la construction des indicateurs recherchs.

    v Phase OLAP

    2015-2016-- O. Boussaid

  • 12/11/2015

    12

    OLAP (On-Line Analytical Processing) est dfini comme tant :

    ... le nom donn l'analyse dynamique requise pour crer, manipuler, animer et synthtiser l'information par des modles d'analyse de donnes exgtiques, contemplatifs et selon des formules (Codd et al., 1993).

    En d'autres termes, il s'agit d'applications de modlisation descriptive et d'analyse exploratoire des donnes, conues des fins de prise de dcision.

    v Analyse en ligne (OLAP)

    2015-2016-- O. Boussaid

    Nigel Pendse auteur de OLAP Report (www.olapreport.com/fasmi.htm) rcapitule la dfinition de l'OLAP en cinq mots :

    FastAnalysis of SharedMultidimensional Information (FASMI) traduit en franais comme suit : ''Analyse Rapide d'Information Multidimensionnelle Partage''(http://www.linux-france.org/prj/jargonf/F/FASMI.htm)

    Critres retenus pour simplifier les rgles de Codd et faciliter l'valuation des outils OLAP.

    vOLAP

    2015-2016-- O. Boussaid

  • 12/11/2015

    13

    Les combinaisons possibles des dimensions, avec les mesures qui en dcoulent, forment les faits. Il est possible d'appliquer des fonctions agrgatives (somme, moyenne, mdiane, etc.) pour obtenir les mesures partir des donnes transactionnelles ou de mesures de membres de niveau infrieur.

    Ainsi, on peut calculer une valeur pour un fait caractris par les membres d'une dimension du niveau hirarchique infrieur qui s'agrgent vers un membre d'un niveau suprieur (ex. la population du Canada est la somme de la population de chacune de ses provinces).

    Un jeu de donnes multidimensionnelles est nomm cube ou hypercube : l'organisation des faits selon des axes dimensionnels.

    v Phase OLAP

    2015-2016-- O. Boussaid

    v Phase OLAP

    2015-2016-- O. Boussaid

  • 12/11/2015

    14

    q Un ED est une structure informatique dans laquelle est centralis un volumeimportant de donnes consolides partir des diffrentes sources derenseignements d'une entreprise (notamment les BDs internes) et qui est conuede manire que les personnes intresses aient accs rapidement l'informationstratgique dont elles ont besoin. (daprs B. Devlin, Journal of Data Warehouses, nov. 1997)

    q Dans un ED , les donnes sont : slectionnes et prpares (pour rpondre auxquestions vitales de l'entreprise), intgres ( partir des diffrentes sources derenseignements) et dates (elles gardent la trace de leur origine).

    q Le terme entrept de donnes supplante ceux de dpt de donnes et decentrale de donnes (se rapproche de magasin de donnes) .

    v Data warehouse : Dfinition(ou entrept de donnes)

    2015-2016-- O. Boussaid

    Bill Inmon a propos les termes de :Entreprise Data warehouse (EDW) ou Corporate Information Factory (CIF)

    Le DWH est orient sujets : les donnes collectes doivent tre orientes ''mtier'' et donc tries par thme

    Le DWH est compos de donnes intgres : un ''nettoyage'' pralable des donnes est ncessaire dans un souci de rationalisation et de normalisation

    Les donnes du DWH sont non volatiles : une donne entre dans l'entrept l'est pour de bon et n'a pas vocation tre supprime ;

    Les donnes du DWH doivent tre historises, donc dates

    v Data warehouse : Dfinition

    2015-2016-- O. Boussaid

  • 12/11/2015

    15

    Qu'est ce qu'un Entrept de Donnes ?

    D'aprs BILL Inmon :

    Un ED est une collection de donnes thmatiques, intgres, non volatiles et historises, organises pour la prise de dcision.

    Thmatiques : thmes par activits majeures ;Intgres : divers sources de donnes ;Non volatiles : ne pas supprimer les donnes du DW;Historises : trace des donnes, suivre l'volution des indicateurs.

    Pb de volumtrie, de stockage, d'accs.2015-2016-- O. Boussaid

    v Architecture de Data warehouse

    End UserPresentation ToolsSources Data Systems

    Data staging Area(Operational Data Store)

    O.D.S.

    Data et Metadata Storage Area

    DWH

    DM1 DM2

    DM3

    DSc1DSc2

    DSc3 DSc4

    DScn

    2015-2016-- O. Boussaid

  • 12/11/2015

    16

    Staging area : C'est une zone temporaire qui sert stocker l es donnes extraites dessystmes sources. C'est l que s'effec tuent les diffrentes transformati ons : le nettoyage desdonnes, l e merge, la standardisation, le dduplication des donnes . Les donnes dans lestaging area sont dtruites une fois le chargement des data-marts termin.

    Data warehouse : Les donnes du s taging area sont transfres vers le DWH. Lesmtadatas sont aussi stockes dans le DWH. Ce der nier est centr al et devrait contenir toutesles donnes de l'entreprise.

    Zone prsentation : A partir du DWH, les utilisateurs peuvent y accder pour excuterleurs requtes ad hoc, programmer les rapports, analyser et visualiser l'information...

    v Architecture de Data warehouse

    2015-2016-- O. Boussaid

    Architecture prne par Bill Inmon

    L'ODS : est l'acronyme pour Operational Data Store ou (Magasin de donnes oprationnelles). Il joue deux rles :

    1. sert stocker les donnes extraites des systmes sources (donnes transactionnelles).

    2. intgre les donnes sources dans le but de prsenter toute l'information ncessaire prendre des dcisions tactiques.

    L'Entreprise Data warehouse : Les donnes de l'ODS sont transfres vers le DWH. Ce dernier est central (d'o son appellation Entreprise Data Warehouse (EDW)). Il contient toutes les donnes de l'entreprise.

    Les Data marts dpendants : Ils peuvent tre aliments soit de l'EDW soit de l'ODS.

    La zone prsentation : Une fois les donnes charges dans le Data warehouse et les Data marts dpendants, les utilisateurs peuvent y accder pour excuter leurs requtes Ad hoc, programmer les rapports, analyser et visualiser l'information

    v Architecture de Data warehouse

    2015-2016-- O. Boussaid

  • 12/11/2015

    17

    Il est souvent mis en place pour rpondre au moins un des besoins suivants :

    - Intgrer les donnes provenant de plusieurs sources. Normalement ce genre d'intgration devrait tre ralis dans les systmes sources, mais parce que cela peut couter cher ( temps, dispo. et rentabilit) : on met en place un ODS.

    - Fournir les donnes pour prendre des dcisions tactiques (reporting)

    - Permettre de consolider les mises jour communes aux systmes sources.

    Un ODS peut servir de staging area pour alimenter un DW, cependant cela ne doit pas tre sa raison d'tre.

    vOparational Data Storage (ODS)

    2015-2016-- O. Boussaid

    v Architecture de Data warehouse

    End UserPresentation ToolsSources Data Systems

    Data staging Area(Operational Data Store)

    O.D.S.

    Bases multidimensionnelles

    DWH

    DM1

    DM2

    DM3DSc1 DSc2

    DSc3 DSc4

    DScn

    Cubes OLAP

    2015-2016-- O. Boussaid

  • 12/11/2015

    18

    Business Intelligence LIKE Business Analytics

    Exploitation des donnes directement (Business Analytics) ou indirectement (Business Intelligence)

    Socle Big data : intgration en temps rel des flux de donnes structures et non structures, NoSQL et relationnelles

    Donnes sources (internes, externes, structures, non structures)

    v Approches de mise en place de DW

    Il existe plusieurs approches pour mettre en place un DW.

    Par contre seulement trois approches sont communes. ils'agit de l'approche "Top-Down" prne par Inmon,l'approche "Bottom-up" de Kimball et de l'approche"Hybride" qui drivent des deux premires approches.

    2015-2016-- O. Boussaid

  • 12/11/2015

    19

    vApproches de mise en place de DW

    Top-Down de Bill Inmon et le CIFCaractristiques majeures

    L'emphase est mise sur le DW.

    Commence par concevoir un modle de DW au niveau de l'entreprise.

    Dploies une architecture multi-tiers compose de staging area, de DW et des data- marts dpendants.

    Le staging area est permanent.

    Le DW est orient entreprise; les data-marts sont orients processus.

    Le DW contient des donnes atomiques ; Les data-marts contiennent les donnes agrges.

    Le DW utilise un modle de donnes normalis de toute l'entreprise ; Les data-marts utilisent des modles multidimensionnels orients sujet.

    Les utilisateurs peuvent effectuer des requtes sur le DW et les data-marts.

    2015-2016-- O. Boussaid

    vApproches de mise en place de DW

    Bottom-Up de Ralph Kimball et le Bus Architecture

    L'emphase est mise sur les data-marts.

    Commence par concevoir un modle multidimensionnel pour un data-mart.

    Utilise une architecture qui consiste en un staging area et des data-marts.

    Le staging area est en gnral non permanent, mais il peut devenir permanent pour implanter l'architecture en BUS ( Dimensions et faits conformes)

    Les data-marts contiennent les donnes atomiques et les donnes agrges.

    Les data-marts peuvent fournir une vue entreprise ou processus.

    Un data-mart consiste en un seul star schema physique.

    Les data-marts sont implants d'une faon incrmentale et intgre en utilisant les dimensions conformes.

    Les utilisateurs ne peuvent effectuer des requtes sur le staging area .

    2015-2016-- O. Boussaid

  • 12/11/2015

    20

    vApproches de mise en place de DW

    Hybride L'emphase est sur le DW et les data-marts ; utilise les deux approches top-down etbottom-up

    Commence par concevoir un modle de donnes de l'entreprise en mme temps que les modles spcifiques.

    Cre un modle normalis d'entreprise de haut niveau ; gnre les modles des premiers data-marts.

    Charge les data-marts avec les donnes atomiques en utilisant un staging area temporaire.

    Les modles des data-marts sont composs d'un ou plusieurs star schmas.

    Utilise un outil ETL pour charger les data-marts et pour changer les mtadata avec ces derniers.

    Charge le DW partir des data-marts lorsqu'il y'a besoin de faire des requtes travers plusieurs data-marts en mme temps.

    2015-2016-- O. Boussaid

    2015-2016-- O. Boussaid

  • 12/11/2015

    21

    2015-2016-- O. Boussaid

    2015-2016-- O. Boussaid

  • 12/11/2015

    22

    2015-2016-- O. Boussaid