Journée COMPIL " Bases de Données" 14/12/2010
Entreposage, analyse en ligne et fouille de donnéesHoussem JerbiIRIT - SIG/[email protected]
Houssem Jerbi- IRIT/SIG 2
PLAN
IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion
Houssem Jerbi- IRIT/SIG 3
Introduction: Système d’information
L’information: capital immatériel pour toute organisationLes « Data Trucs »
Data (Données)Database (Base de données)Data warehouse (Entrepôt de données)Datamart (Magasin de données)Data mining (fouille des données)
Houssem Jerbi- IRIT/SIG 4
PLAN
IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion
Houssem Jerbi- IRIT/SIG 5
Bases de données
Données transactionnellesExemple: données de stock, facturation,…
Modèle de données Le plus utilisé: relationnelNormalisation: cohérence et non-redondance des données
Requêtes ponctuelles, fréquentes
Houssem Jerbi- IRIT/SIG 6
PLAN
IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion
Houssem Jerbi- IRIT/SIG 7
Entrepôt de données
BD1
BDn
BD2
DataWarehouse
BDs Transactionnelles
Transactions
Analyse • OLAP• Fouille de données
BDm
Houssem Jerbi- IRIT/SIG 8
ETL*
Entrepôt Magasins de donnéesOutils d’analyse
et fouille de données
ETL
ETL
Sources (BDs)
* ETL: Extract, Transform, Load
Entrepôt de données: Architecture de système d’information décisionnel
Houssem Jerbi- IRIT/SIG 9
Entrepôt de données
Collecte toutes les informations sur tous les sujets pour l’organisationEspace de stockage centralisé qui permet de stocker et d’historiser des données résumées nécessaires à la prise de décision
ETL*
Entrepôt Magasins de donnéesOutils d’analyse
et fouille de données
ETL
ETL
Sources
Houssem Jerbi- IRIT/SIG 10
Magasin de données
Extrait de l'entrepôt destiné à une classe de décideursModèle multidimensionnel qui facilite les traitements décisionnels
ETL*
Entrepôt Magasins de donnéesOutils d’analyse
et fouille de données
ETL
ETL
Sources
Houssem Jerbi- IRIT/SIG 11
Outils ETL
Alimentation de l’entrepôt (1) et extraction des magasins (2)Extract
Accès aux différentes sourcesSelon des règles (déclencheurs) ou requêtesPériodique
ETL*
Entrepôt Magasins de donnéesOutils d’analyse
et fouille de données
ETL
ETL
Sources
(1)(2)
Houssem Jerbi- IRIT/SIG 12
Outils ETL
TransformUnification des modèles (sources hétérogènes)Gestion des inconsistances des données sources, élimination des doubles, etc.
LoadChargement dans l'entrepôt ou dans les magasinsPériodicité parfois longue
Houssem Jerbi- IRIT/SIG 13
Magasins: BD multidimensionnellesModèle facilitant l’analyse décisionnelle
Sujets (faits) et Axes d’analyse (dimensions)
Niveaux de granularité
Temps
Clients
Produits
Prix VenteX
Tlse Paris Rome Milan
Houssem Jerbi- IRIT/SIG 14
Magasins: BD multidimensionnellesModèle facilitant l’analyse décisionnelle
Sujets (faits) et Axes d’analyse (dimensions)
Niveaux de granularité
France Italie
Temps
Clients
Produits
Prix VenteX
Tlse Paris Rome Milan
Houssem Jerbi- IRIT/SIG 15
Magasins: BD multidimensionnellesMétaphore du cube
500: Somme des ventes en 2008 du produit P2 pour le client C1
500
P1 P2 P3
2007
2008
2009
C1C2
Houssem Jerbi- IRIT/SIG 16
PLAN
IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion
Houssem Jerbi- IRIT/SIG 17
Analyse en ligne OLAP
On-Line Analytical Processing: OLAPOpérations de manipulation de données
ForageRoll up : Agréger selon une dimension
Jour Mois
Drill down : Détailler selon une dimensionMois Jour
Sélection et projection selon un axeAnnée = 2010 (année en cours)
Houssem Jerbi- IRIT/SIG 18
OLAP: Opérations de manipulation
Opérations de manipulation de donnéesRotation : Changer un axe de l’analyse
(Année,Produit) (Ville, Produit)
Structure de visualisation adaptée: Table multidimensionnelle
Houssem Jerbi- IRIT/SIG 19
OLAP: Exemple
DRILLDOWN
SLICE
Houssem Jerbi- IRIT/SIG 20
PLAN
IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion
Houssem Jerbi- IRIT/SIG 21
Fouille de données (Data mining)
Au-delà de l’OLAP: la fouille des donnéesOLAP: offrir une vue de « ce qui se passe »Data mining: prévoir « ce qui se passera » et « pourquoi »
s'appuie sur des techniques d'intelligence artificielle met en évidence des liens cachés entre les données.
Houssem Jerbi- IRIT/SIG 22
Fouille de données
Prévoir ce qui se passera dans le futurClassifier des personnes ou des entités en groupes
par reconnaissance de motifsEn se basant sur leurs attributs
Associer les évènements qui pourraient survenir ensemble
Houssem Jerbi- IRIT/SIG 23
Exemple: Données médicales
Entrepôt pour le suivi de maladies infectieusesAnalyse OLAP
Analyse du taux d’affectation par ville, par département, par année
Fouille des donnéesCorrélation entre le taux d’affectation et le taux de présence de certains polluants
Houssem Jerbi- IRIT/SIG 24
Conclusion
Besoin de prise de décision: entrepôt de donnéesDichotomie Entrepôt/Magasin de donnéesApplication de l’OLAP aux données scientifiques
Top Related