15-Datawarehouse.ppt

31
Data warehouse Motivations et architecture Conception de la BD support Alimentation du DW Exploitation OLAP Conclusion

Transcript of 15-Datawarehouse.ppt

  • Data warehouse Motivations et architecture Conception de la BD support Alimentation du DW Exploitation OLAP Conclusion

  • 1. OLTP et OLAPAides la dcisionIntroduction DWDWOLTPETLAppli.Reports& AnalysisDMOLAPAppli.Appli.

  • Explosion de lOLAPFacteurs conomiques & technologiquesIntroduction DW

    Graph2

    3

    3.5

    4

    7

    11

    14

    15

    16

    CA

    Annes

    CA en Milliards de $

    Feuil1

    19941995199619971998199920002001

    33.54711141516

    Feuil1

    CA

    Annes

    CA en Milliards de $

    Feuil2

    Feuil3

  • Motivations des entreprisesBesoin des entreprisesaccder toutes les donnes de lentrepriseregrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP)Exemples d'applications concernesGrande distribution : marketing, maintenance, ...produits succs, modes, habitudes dachatprfrences par secteurs gographiquesBancaire : suivi des clients, gestion de portefeuillesmailing cibls pour le marketingTlcommunications : pannes, fraudes, mobiles, ...classification des clients, dtection fraudes, fuites de clientsIntroduction DW

  • Datawarehouse : dfinitionEntrept de donnesEnsemble de donnes historises variant dans le temps, organis par sujets, consolid dans une base de donnes unique, gr dans un environnement de stockage particulier, aidant la prise de dcision dans lentreprise.Trois fonctions essentielles :collecte de donnes de bases existantes et chargementgestion des donnes dans lentreptanalyse de donnes pour la prise de dcisionIntroduction DW

  • Architecture typeIntroduction DW

  • 2. Concevoir le DWExport de donnes des sourcesHtrognes et variesFichiers, BD patrimoniales, Web, Dfinition des vues exportesDfinition d'un schma globalIntgre les donnes utilesS'appuie sur le modle relationnelNcessit d'une gestion de mta-donnesDescription des sourcesDescription des vues exportesDescription du schma globalConception DW

  • Organisation par sujetLes donnes sont organises par sujets majeurs:Clients, produits, ventes, Sujet = faits + dimensionsCollecte les donnes utiles sur un sujet Exemple: ventesSynthtise une vue simple des vnements analyser Exemple: Ventes (N, produit, priode, magasin, )Dtaille la vue selon les dimensions Exemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)Conception DW

  • Schmas en toileUne table de faits encadres par N tables de dimensions IDperannetrimestremoisjourPeriodesIDmagnomvilledpartementpaysMagasinsTable de faits ventesproduit magasin units_vendues montant_ventes taxes_ventesIDproddescriptioncouleurtaillefournisseurProduitsperiodeConception DW

  • Schmas en floconsRaffinement du schma toile avec des tables normalises par dimensions

    Avantagesvite les redondancesConduit aux constellations (plusieurs tables de faits dimensions partages)IDproddescriptioncouleurtailleIDfourProduitsIDfourdescriptiontypeAdresseFournisseursVentesConception DW

  • Conception du schma intgr Isoler les faits tudierSchma des tables de faits Dfinir les dimensionsAxes d'analyse Normaliser les dimensionsclater en plusieurs tables lis par contraintes rfrentielles Intgrer l'ensemblePlusieurs tables de faits partagent quelques tables de dimension (constellation dtoiles)

    Conception DW

  • Bilan conceptionLe datawarehouse regroupe, historise, rsume les donnes de l'entrepriseLe concepteur dfinit schma exports et intgrsdes choix fondamentaux !Ciblage essentiel !Le datamart cest plus cibl et plus petit.Questions ?Peut-on ajouter des donnes au niveau de lentrept ?

    Conception DW

  • 3. Alimenter le DWETL = Extracteur+IntgrateurExtract + Transform + LoadExtractionDepuis les bases sources ou les journauxDiffrentes techniquesPush = rgles (triggers)Pull = requtes (queries)Priodique et rpteDater ou marquer les donnes envoyesDifficultNe pas perturber les applications OLTPL'alimentation

  • TransformationAccs unifis aux donnesUnification des modles Traduction de fichiers, BD rseaux, annuaires en tablesEvolution vers XML (modle d'change) plus richeUnification des accsRowset, SQL limit, SQL complet, Mapping plus ou moins sophistiquUnification des nomsAppeler pareil les mmes choses et diffremment les choses diffrentesApplication des "business rules" Elimination des doublesJointure, projection, agrgation (SUM, AVG)Cleaning des donnes

    L'alimentation

  • Data CleaningValeurs manquantes (nulles)Ignorer le tupleRemplacer par une valeur fixe ou par la moyenneValeurs errones ou inconsistantesGnres en prsence de bruitsDtecter par une analyse de voisinage cart par rapport la moyenneFactorisation en groupes (outliers)Remplacer par une valeur fixe ou par la moyenneInspection manuelle de certaines donnes possibleL'alimentation

  • ChargementPas de mise jourInsertion de nouvelles donnesArchivage de donnes anciennesDe gros volumesPriodicit parfois longueChargement en blocs (bulk load)Mise jour des index et rsumsProblmesCohabitation avec l'OLAP ?Procdures de reprises ?L'alimentation

  • 4. Grer l'entreptBase relationnelleSupport de larges volumes (qq 100 gigas qq tras)Historisation des donnes (fentres)Importance des agrgats et chargements en blocsBase spcialiseBase multidimensionnelleCombinaison des deuxMachine support parallleMultiprocesseursMmoire partage, cluster, bus partag, etc.

    Le multidimensionnel

  • Le multidimensionnelDimensions:TempsGographieProduitsClientsCanaux de ventes.....Indicateurs:Nombre dunits venduesCACotMarge.....

    Le multidimensionnel

  • Cube de donnesF1F2P1P2P3200020012002250300350500600400300200100150120Le multidimensionnel

  • Le data cube et les dimensionsLe multidimensionnel

  • La granularit des dimensionsJoursAnnesTrimestresMoisTempsPaysRgionsVillesGographieGammesTypesNumrosProduitsMarquesLe multidimensionnel

  • ExempleMontant des ventes fonction de (Mois, rgion, Produit) ProduitRgionMoisType Rgion Anne

    Catgorie Pays Trimestre

    Produit Ville Mois Semaine

    Magasin JourGranularit des dimensions :Le multidimensionnel

  • La navigation multidimensionnelleCAProjection en 2 dimensionsRduction selon 1 dimensionZoom selon une dimensionCoupe dun cubeProduitsRgionProduitsTemps en moisCAProduitsTemps en semainespour une rgion donneCALe multidimensionnel

  • L'algbre des cubesRoll up :Agrger selon une dimensionSemaine MoisDrill down : Dtailler selon une dimensionMois SemaineSlice et Dice: Slection et projection selon 1 axeMois = 04-2003 ; Projeter(Rgion, Produit)Pivot :Tourne le cube pour visualiser une face(Rgion,Produit)(Rgion, Mois)

    Le multidimensionnel

  • Les vues d'un cubePartant d'un cube 3D, il est possible d'agrger selon une dimension tournanteOn obtient un treillis de vues (calculable en SQL)Le multidimensionnel

  • Extension de SQLROLLUP:SELECT FROM GROUP BY ROLLUP(column_list); Cre des agrgats n+1 niveaux, n tant le nombre de colonne de groupagen, n-1, n-2,0 colonnesCUBE:SELECT FROM GROUP BY CUBE(column_list);Cre 2n combinaisons d'agrgats, n tant le nombre de colonne de groupageImplmentation

  • Exemple CUBESELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBEImplmentation

    Feuil1

    AnimalLieuQuantite

    ChienParis12

    ChatParis18

    TortueRome4

    ChienRome14

    ChatNaples9

    ChienNaples5

    TortueNaples1

    AnimalLieuQuantite

    ChatParis18

    ChatNaples9

    Chat-27

    ChienParis12

    ChienNaples5

    ChienRome14

    Chien-31

    TortueNaples1

    TortueRome4

    Tortue-5

    --63

    -Paris30

    -Naples15

    -Rome18

    Feuil2

    Feuil3

    Feuil1

    AnimalLieuQuantite

    ChienParis12

    ChatParis18

    TortueRome4

    ChienRome14

    ChatNaples9

    ChienNaples5

    TortueNaples1

    AnimalLieuQuantite

    ChatParis18

    ChatNaples9

    Chat-27

    ChienParis12

    ChienNaples5

    ChienRome14

    Chien-31

    TortueNaples1

    TortueRome4

    Tortue-5

    --63

    -Paris30

    -Naples15

    -Rome18

    Feuil2

    Feuil3

  • Exemple ROLLUPSELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUPImplmentation

    Feuil1

    AnimalLieuQuantite

    ChienParis12

    ChatParis18

    TortueRome4

    ChienRome14

    ChatNaples9

    ChienNaples5

    TortueNaples1

    AnimalLieuQuantite

    ChatParis18

    ChatNaples9

    Chat-27

    ChienParis12

    ChienNaples5

    ChienRome14

    Chien-31

    TortueNaples1

    TortueRome4

    Tortue-5

    --63

    -Paris30

    -Naples15

    -Rome18

    Feuil2

    Feuil3

    Feuil1

    AnimalLieuQuantite

    ChienParis12

    ChatParis18

    TortueRome4

    ChienRome14

    ChatNaples9

    ChienNaples5

    TortueNaples1

    AnimalLieuQuantiteAnimalLieuQuantite

    ChatParis18ChatParis18

    ChatNaples9ChatNaples9

    Chat-27Chat-27

    ChienParis12ChienParis12

    ChienNaples5ChienNaples5

    ChienRome14ChienRome14

    Chien-31Chien-31

    TortueNaples1TortueNaples1

    TortueRome4TortueRome4

    Tortue-5Tortue-5

    --63--63

    -Paris30

    -Naples15

    -Rome18

    Feuil2

    Feuil3

  • Quelques outils OLAPOracle OLAP API = Datacube Express = AnalyseReport = ReportingBusiness ObjectBusinessQuery = RequtageBusinessObject = Requtage + Analyse + ReportingWebIntelligence = DatacubeCognos Impromptu = ReportingPowerplay = DatacubeQuery = RequtageHyperion ESS Base = Base MOLAPESS Analysis= Analyse + Datacube

    Implmentation

  • 6. Le march du BIData PRO Users SurveyBI= Business IntelligenceConclusion

  • Les Data TrucsDatawarehouseentrept des donnes historises de l'entrepriseDatamartmagasin de donnes cibl sur un sujet prcisDataminingexploration des donnes afin de dcouvrir des connaissancesDatacubecube de prsentation d'units selon 3 dimensionsDatawebhouseentrept des donnes collectes sur le webConclusion

    133281116206301342