S0_Cours_DW.ppt

download S0_Cours_DW.ppt

of 70

Transcript of S0_Cours_DW.ppt

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Le contexte*Les organisations taient organises de faon pyramidale*MondialisationLes concurrents sont plus nombreux et plus innovantsChangement de comportement dachatLorganisation doit tre centre client, les produits sont de plus en plus personnalissLacclration effrne du mondeLe critre de la disponibilit de linformation est 7j/7j et 24H/24H

  • Les systmes dcisionnelles* Pass FuturSystme dcisionnel PrsentConnaitre et lanalyse de pass Lanticipation du futur La reprsentation du prsentLalimentationLa restitution & lanalyseChaine dcisionnelle

  • Quelques mtiers du dcisionnelStrategic Performance ManagementDterminer et contrler les indicateurs cl de la performance de lentreprise

    Finance IntelligencePlanifier, analyser et diffuser linformation financire. Mesurer et grer les risques

    Human Capital Management (gestion de la relation avec les employs)Aligner les stratgies RH, les processus et les technologies.

    Customer Relationship Management (gestion de la relation client)Amliorer la connaissance client, identifier et prvoir la rentabilit client, accroitre lefficacit du marketing client

    Supplier Relationship Management (gestion de la relation fournisseur)Classifier et valuer lensemble des fournisseurs. Planifier et piloter la stratgie Achat.*

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Dfinition dun DW

    Data Warehouse, ou entrept de donnes, est une base de donnes ddie au stockage de l'ensemble des donnes utilises dans le cadre de la prise de dcision et de l'analyse dcisionnelle. Le Data Warehouse est exclusivement rserv cet usage

    Bill Immon Le data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision

    *

  • Les 4 caractristiques des DW

    *

  • Au cur du Data warehouse, les donnes sont organises par thme. Les donnes propres un thme, les ventes par exemple, seront rapatries des diffrentes bases OLTP de production et regroupes.*Les caractristiques: orient sujet

  • Les donnes proviennent de sources htrognes utilisant chacune un type de format. Elles sont intgres avant d'tre proposes utilisation*Les caractristiques: intgr

  • Les donnes ne disparaissent pas et ne changent pas au fil des traitements, au fil du temps (Read-Only).Traabilit des informations et des dcisions prises

    *Les caractristiques: Non volatile

    Bases de productionEntrepts de donnesAccsChargement

  • Les donnes sont aussi horodates :On peut visualiser l'volution dans le temps d'une valeur donne.*Les caractristiques: Historis (dat)

    *Image de la base en Mai 2005Image de la base en Juillet 2006Base de productionEntrept de donnesCalendrierRpertoireRpertoireRpertoire

    NomVilleDupontParisDurandLyon

    NomVilleDupontMarseilleDurandLyon

    CodeAnneMois12005Mai

    CodeAnneMois1DupontParis1DurandLyon

    CodeAnneMois12005Mai22006Juillet

    CodeAnneMois1DupontParis1DurandLyon2Dupont Marseille

  • OLTP VS DW*

    OLTPDWOrient transactionOrient analyseOrient applicationOrient sujetDonnes courantesDonnes historisesDonnes dtaillesDonnes agrgesDonnes volutivesDonnes statiquesUtilisateurs nombreux, administrateurs/oprationnelsUtilisateurs peu nombreux, managerTemps dexcution: courtTemps dexcution: long

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • DatamartSous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprisePoint de vue spcifique selon des critres mtiers*DW de lentreprise

  • Intrt des datamartNouvel environnement structur et format en fonction des besoins dun mtier ou dun usage particulier

    Moins de donnes que DW Plus facile comprendre, manipulerAmlioration des temps de rponse

    Utilisateurs plus cibls: DM plus facile dfinir

    *

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Architecture gnrale*Data warehouseRequtes Rapports Visualisation Data MiningSources de donnesTransformations:NettoyageStandardisation

    Zone de prparationZone de prsentationDatamartCHARGEMENTZone de stockageEXTRACTION

  • Zone de prparation (Staging area) Zone temporaire de stockage des donnes extraitesRalisation des transformations avant linsertion dans le DW:NettoyageNormalisationDonnes souvent dtruites aprs chargement dans le DW*

  • Zone de stockage (DW, DM)On y transfre les donnes nettoyesStockage permanent des donnes*

  • Zone de prsentationDonne accs aux donnes contenues dans le DWPeut contenir des outils danalyse programms:RapportsRequtes*

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Modlisation des DWNouvelle mthode de conception autour des concepts mtiersNe pas normaliser au maximum

    Introduction de nouveaux types de table:Table de faitsTable de dimensions

    Introduction de nouveaux modles:Modle en toileModle en flocon*

  • Table de faitsTable principale du modle dimensionnel

    Contient les donnes observables (les faits) sur le sujet tudi selon divers axes danalyse (les dimensions)*

    Table de faits des ventesCl date (CE)Cl produit (CE)Cl magasin (CE)Quantit vendueCotMontant des ventes

  • Table de faits (suite)Fait: Ce que lon souhaite mesurer Quantits vendues, montant des ventes

    Contient les cls trangres des axes danalyse (dimension) Date, produit, magasin

    Trois types de faits: AdditifSemi additifNon additif*

  • Typologie des faitsAdditif: additionnable suivant toutes les dimensions Quantits vendues, chiffre daffairePeut tre le rsultat dun calcul: Bnfice = montant vente cot

    Semi additif: additionnable suivant certaines dimensions Solde dun compte bancaire: Pas de sens dadditionner sur les dates car cela reprsente des instantans dun niveau sur les comptes: on connat ce que nous possdons en banque

    Non additif: fait non additionnable quelque soit la dimension Prix unitaire: laddition sur nimporte quelle dimension donne un nombre dpourvu de sens*

  • Table de dimensionAxe danalyse selon lequel vont tre tudies les donnes observables (faits)

    Contient le dtail sur les faits

    *

    Dimension produitCl produit (CP)Code produitDescription du produitFamille du produits MarquePoids

  • Table de dimension (suite)Dimension = axe danalyseClient, produit, priode de temps

    Contient souvent un grand nombre de colonnesLensemble des informations descriptives des faits

    Contient en gnral beaucoup moins denregistrements quune table de faits*

  • La dimension TempsCommune lensemble du DW

    Relie toute table de faits*

    Dimension TempsCl temps (CP)JourMoisTrimestreSemestre AnneNum_jour_dans_anneNum_semaine_ds_anne

  • volution des dimensionsDimensions volution lenteUn client peut se marier, avoir des enfantsUn produit peut changer de noms ou de formulation:Raider en Twixyaourt la vanille en yaourt saveur vanilleGestion de la situation, 3 solutions:crasement de lancienne valeurVersionnementValeur dorigine / valeur courante

    Dimensions volution rapideChangements frquents des attributs dont on veut garder lhistorique Clients pour une compagnie dassuranceIsoler les attributs qui voluent vite

    *

  • Dimensions volution lente (1/3)crasement de lancienne valeur :Correction des informations erronesAvantage: Facile mettre en uvreInconvnients:Perte de la trace des valeurs antrieures des attributsPerte de la cause de lvolution dans les faits mesurs*

  • Dimensions volution lente (2/3)Ajout dun nouvel enregistrement:Utilisation dune cl de substitutionAvantages:Permet de suivre lvolution des attributsPermet de segmenter la table de faits en fonction de lhistoriqueInconvnient:Accroit le volume de la table*

  • Dimensions volution lente (3/3)Ajout dun nouvel attribut:Valeur origine/valeur couranteAvantages:Avoir deux visions simultanes des donnes :Voir les donnes rcentes avec lancien attributVoir les donnes anciennes avec le nouvel attributVoir les donnes comme si le changement navait pas eu lieuInconvnient:Inadapt pour suivre plusieurs valeurs dattributs intermdiaires*

  • Dimensions volution rapide*

    FaitsCl_clientCl_dmog

    Dim_dmographiqueCl_dmogRevenusNiveau_tudeNb_enfantsStatut_maritalProfil_financierProfil_achat

    Dim clientCl_clientNomPrnomAdresseDate_naisRevenusNiveau_tudeNb_enfantsStatut_maritalProfil_financierProfil_achat

    Dim clientCl_clientNomPrnomAdresseDate_naissance

    FaitsCl_client

  • Les types de modles*Modle en toileModle en flocon

  • Modle en toileUne table de fait centrale et des dimensions

    Les dimensions nont pas de liaison entre elles

    Avantages:Facilit de navigationNombre de jointures limit

    Inconvnients: Redondance dans les dimensionsToutes les dimensions ne concernent pas les mesures*

  • Modle en toile*

  • Modle en floconUne table de fait et des dimensions dcomposes en sous hirarchies

    On a un seul niveau hirarchique dans une table de dimension

    La table de dimension de niveau hirarchique le plus bas est relie la table de fait. On dit quelle a la granularit la plus fine

    Avantages:Normalisation des dimensionsconomie despace disque

    Inconvnients:Modle plus complexe (jointure)Requtes moins performantes*

  • Modle en flocon*

  • Mthodologie de Ralph Kimball**

    Planification du projetDfinition des besoins de lentrepriseDfinition de larchitecture techniqueModlisation dimensionnelleSpcification de lapplication utilisateurConception de modle physiqueInstallation et slection des produitsConception et Dveloppement de la zone de prparation des donnes Dveloppement de lapplication utilisateur DploiementMaintenance et croissanceLe cycle de vie dimensionnel 1 2 3

  • ExerciceOn vous demande de crer un data Mart (une toile) pour l'analyse de l'activit des reprsentants d'une entreprise de vente d'imprimantes. Le chef d'entreprise veut savoir ce qui se passe pour ses vendeurs. Les employs font ils leur travail, quelle est la zone de couverture des vendeurs, ou sont les endroits o les vendeurs sont le moins efficaces, quelle est la moyenne de ventes des reprsentants, etc., etc. L'entreprise possde un systme de gestion de ressources humaines, un systme de gestion des ventes et des feuilles de routes avec des informations concernant les vendeurs : kilomtres parcourus, litres d'essence utilise, frais de voyage, ventes, promesses de ventes, etc.*

  • AnalyseLe but est de dceler les axes d'analyses (les dimensions) avec leurs attributs ainsi que les lments analyser (les faits)*Explications : le tableau suivant a t rempli pendant la phase d'analyse, en posant des questions aux dcideurs du type :Que voulez vous analyser (la dernire ligne du tableau) ?Quels sont vos critres d'analyse (la premire ligne du tableau) ?Jusqu' quel niveau de dtail voulez vous aller (les cellules l'intrieur) ?

    DateVendeurProduitZone gographiqueClientAnnesNomCatgoriePaysNomMoisPrnomTypeProvinceAdresseJoursSalaireGroupeVillePaysHeuresAnalyse :consommation d'essence, Qte commande, Qte prcommande, kilomtrage, nombre de visites, etc.

  • Solution*

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Alimentation/ mise jour de lentreptEntrept mis jour rgulirement

    Besoin dun outil permettant dautomatiser les chargements dans lentrept

    Utilisation doutils ETL (Extract, Transform, Load)

    *

  • Dfinition dun ETLPermet dextraire les donnes partir de sources htrognes

    Permet de transformer les donnes

    Permet de charger les donnes dans un entrept*

  • ExtractionExtraire des donnes des systmes de productionDialoguer avec diffrentes sources:Base de donnes, Fichiers,Bases propritairesUtilise divers connecteurs :ODBC, SQL natif, Fichiers plats

    *

  • Transformation Rendre cohrentes les donnes des diffrentes sources

    Transformer, nettoyer, trier, unifier les donnes Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)

    Etape trs importante, garantit la cohrence et la fiabilit des donnes

    *

  • Chargement Insrer ou modifier les donnes dans lentrept

    Utilisation de connecteurs:ODBC, SQL natif, Fichiers plats*

  • Aperu dun ETL*

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • OLTP VS OLAP*

    AchatPKid_achatFKid_clientid_produitQuantit

    clientPKid_clientNomadresse

    ProduitPKid_produitLibellFamille

  • ROLAPRelational OLAPDonnes stockes dans une base de donnes relationnellesUn moteur OLAP permet de simuler le comportement dun SGBD multidimensionnel

    Plus facile et moins cher mettre en place

    Moins performant lors des phases de calcul

    Exemples de moteurs ROLAP:Mondrian *

  • MOLAPMulti dimensional OLAP:Utiliser un systme multidimensionnel pur qui gre les structures multidimensionnelles natives (les cubes)Accs direct aux donnes dans le cube

    Plus difficile mettre en place

    Formats souvent propritaires

    Conu exclusivement pour lanalyse multidimensionnelle

    Exemples de moteurs MOLAP:Microsoft Analysis ServicesHyperion*

  • HOLAPHybride OLAP:tables de faits et tables de dimensions stockes dans SGBD relationnel (donnes de base)donnes agrges stockes dans des cubes

    Solution hybride entre MOLAP et ROLAP

    Bon compromis au niveau cot et performance

    *

  • Le cubeModlisation multidimensionnelle des donnes facilitant lanalyse dune quantit selon diffrentes dimensions:TempsLocalisation gographique

    Les calculs sont raliss lors du chargement ou de la mise jour du cube*

  • Manipulation des donnes multidimensionnellesOpration agissant sur la structureRotation (rotate): prsenter une autre face du cube*

    050607uf221263139Viande275257116

    050607Idf10112052Ain395400203

  • Manipulation des donnes multidimensionnellesOpration agissant sur la structureTranchage (slicing): consiste ne travailler que sur une tranche du cube. Une des dimensions est alors rduite une seule valeur*

    06ufIdf265Ain245ViandeIdf152Ain174

    050607ufIdf220265284Ain225245240ViandeIdf163152145Ain187174184

  • Manipulation des donnes multidimensionnellesOpration agissant sur la structureExtraction dun bloc de donnes (dicing): ne travailler que sous un sous-cube*

    050607ufIdf220265284Ain225245240

    050607ufIdf220265284Ain225245240ViandeIdf163152145Ain187174184

  • Manipulation des donnes multidimensionnellesOpration agissant sur la granularitForage vers le haut (roll-up): dzoomerObtenir un niveau de granularit suprieurUtilisation de fonctions dagrgation Forage vers le bas (drill-down): zoomerObtenir un niveau de granularit infrieurDonnes plus dtailles *

  • Drill-up, drill-down*Roll upDrill downDimension ProduitDimension TempsDrill downRoll up

    05-07Fruits623Viande648

    1S052S051S062S061S07Fruits100121111152139Viande134141120137116

    050607Fruits221263139Viande275257116

    050607Pomme201922Boeuf404348

    050607Alim.496520255

  • MDX (Multidimensional Expressions)Langage de requtes pour les bases de donnes multidimensionnel

    Equivalent de SQL pour le monde OLTP

    Origine: Microsoft *

  • MDX, exempleFournir les effectifs dune socit pendant les annes 2004 et 2005 croiss par le type de paiement*

    20042005Heure33964015Jour36782056

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Le march du dcisionnel*

  • Quelques solutions open source*

    IntgrPentaho (Kettle, Mondrian, JFreeReport, Weka)SpagoBI

    ETLEntrept de donnesOLAPReportingData MiningOctopusKettleCloverETLTalendMySqlPostgresqlGreenplum/BizgresMondrianPaloBirtOpen ReportJasper ReportJFreeReport WekaR-ProjectOrangeXelopes

  • Plan* Introduction Les entrepts de donnesLes datamartsArchitectureModlisation Alimentation Les bases de donnes multidimensionnellesLe march du dcisionnelPrsentation de la solution MS BI

  • Prsentation de la solution MS BI* Stockage des donnes Datamart/ DWHLintgrer des donnes provenant de diffrentes sources pour les ranger dans un entrept centralPermet de crer, grer et publier des rapports rsultant des analyses ralises lors de S.S.A.SLanalyse les donnes, agrges lors de S.S.I.S

  • Sance 2 S.S.I.S

    **********

    *-pas de modification, pas de suppression - Fige ltat des donnes au moment de lalimentation du DW- un rfrentiel temps est mis en place pour identifier chaque donne

    *

    *

    ********Staging area: ne pas faire les transformations en mme temps que les extractionsOn extrait donc quune seule fois les donnes, et on peut leur appliquer plusieurs transformations*Staging area: ne pas faire les transformations en mme temps que les extractionsOn extrait donc quune seule fois les donnes, et on peut leur appliquer plusieurs transformations*******************Comme tout projet , il sagit dabord de faire une planification qui peut tre mise jour en fonction de ltude des besoins de lentreprise. Aprs cette tude on passe ltape de conception qui consiste dfinir larchitecture technique, faire une modlisation dimensionnelle afin de concevoir le modle physique et spcifier lapplication utilisateur. Puis dans ltape de ralisation, on installe et on slectionne les produits, on dveloppe la zone de prparation des donnes et lapplication utilisateur. Une fois dvelopp, il sagit de les dployer sur le serveur et enfin on passe au processus de maintenance et dvolution du systme

    *Bien cerner la problmatique, quest ce que lutilisateur veut?Prendre la plus fine, celle qui donne les informations les plus fines et donc les plus intressantesLe par par client, par jourLes indicateurs dont ont besoin les dcideursviter les erreurs de calcul dans les rapportsIdentifier les champs intressants (couleur, ge)A partir de quand on commence? Rythme de mise jour? Optimisation des requtes**Bien cerner la problmatique, quest ce que lutilisateur veut?Prendre la plus fine, celle qui donne les informations les plus fines et donc les plus intressantesLe par par client, par jourLes indicateurs dont ont besoin les dcideursviter les erreurs de calcul dans les rapportsIdentifier les champs intressants (couleur, ge)A partir de quand on commence? Rythme de mise jour? Optimisation des requtes*********OLTP: pour les systmes oprationnelsOLAP: cube N dimensions o toutes les intersections sont calcules -> accs linformation lintersection souhaites est trs rapide****************