Entreposage, analyse en ligne et fouille de données

24
Journée COMPIL " Bases de Données" 14/12/2010 Entreposage, analyse en ligne et fouille de données Houssem Jerbi IRIT - SIG/ED [email protected]

Transcript of Entreposage, analyse en ligne et fouille de données

Page 1: Entreposage, analyse en ligne et fouille de données

Journée COMPIL " Bases de Données" 14/12/2010

Entreposage, analyse en ligne et fouille de donnéesHoussem JerbiIRIT - SIG/[email protected]

Page 2: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 2

PLAN

IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion

Page 3: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 3

Introduction: Système d’information

L’information: capital immatériel pour toute organisationLes « Data Trucs »

Data (Données)Database (Base de données)Data warehouse (Entrepôt de données)Datamart (Magasin de données)Data mining (fouille des données)

Page 4: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 4

PLAN

IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion

Page 5: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 5

Bases de données

Données transactionnellesExemple: données de stock, facturation,…

Modèle de données Le plus utilisé: relationnelNormalisation: cohérence et non-redondance des données

Requêtes ponctuelles, fréquentes

Page 6: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 6

PLAN

IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion

Page 7: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 7

Entrepôt de données

BD1

BDn

BD2

DataWarehouse

BDs Transactionnelles

Transactions

Analyse • OLAP• Fouille de données

BDm

Page 8: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 8

ETL*

Entrepôt Magasins de donnéesOutils d’analyse

et fouille de données

ETL

ETL

Sources (BDs)

* ETL: Extract, Transform, Load

Entrepôt de données: Architecture de système d’information décisionnel

Page 9: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 9

Entrepôt de données

Collecte toutes les informations sur tous les sujets pour l’organisationEspace de stockage centralisé qui permet de stocker et d’historiser des données résumées nécessaires à la prise de décision

ETL*

Entrepôt Magasins de donnéesOutils d’analyse

et fouille de données

ETL

ETL

Sources

Page 10: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 10

Magasin de données

Extrait de l'entrepôt destiné à une classe de décideursModèle multidimensionnel qui facilite les traitements décisionnels

ETL*

Entrepôt Magasins de donnéesOutils d’analyse

et fouille de données

ETL

ETL

Sources

Page 11: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 11

Outils ETL

Alimentation de l’entrepôt (1) et extraction des magasins (2)Extract

Accès aux différentes sourcesSelon des règles (déclencheurs) ou requêtesPériodique

ETL*

Entrepôt Magasins de donnéesOutils d’analyse

et fouille de données

ETL

ETL

Sources

(1)(2)

Page 12: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 12

Outils ETL

TransformUnification des modèles (sources hétérogènes)Gestion des inconsistances des données sources, élimination des doubles, etc.

LoadChargement dans l'entrepôt ou dans les magasinsPériodicité parfois longue

Page 13: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 13

Magasins: BD multidimensionnellesModèle facilitant l’analyse décisionnelle

Sujets (faits) et Axes d’analyse (dimensions)

Niveaux de granularité

Temps

Clients

Produits

Prix VenteX

Tlse Paris Rome Milan

Page 14: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 14

Magasins: BD multidimensionnellesModèle facilitant l’analyse décisionnelle

Sujets (faits) et Axes d’analyse (dimensions)

Niveaux de granularité

France Italie

Temps

Clients

Produits

Prix VenteX

Tlse Paris Rome Milan

Page 15: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 15

Magasins: BD multidimensionnellesMétaphore du cube

500: Somme des ventes en 2008 du produit P2 pour le client C1

500

P1 P2 P3

2007

2008

2009

C1C2

Page 16: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 16

PLAN

IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion

Page 17: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 17

Analyse en ligne OLAP

On-Line Analytical Processing: OLAPOpérations de manipulation de données

ForageRoll up : Agréger selon une dimension

Jour Mois

Drill down : Détailler selon une dimensionMois Jour

Sélection et projection selon un axeAnnée = 2010 (année en cours)

Page 18: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 18

OLAP: Opérations de manipulation

Opérations de manipulation de donnéesRotation : Changer un axe de l’analyse

(Année,Produit) (Ville, Produit)

Structure de visualisation adaptée: Table multidimensionnelle

Page 19: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 19

OLAP: Exemple

DRILLDOWN

SLICE

Page 20: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 20

PLAN

IntroductionBases de donnéesEntrepôt de donnéesTechnologie OLAPFouille de donnéesConclusion

Page 21: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 21

Fouille de données (Data mining)

Au-delà de l’OLAP: la fouille des donnéesOLAP: offrir une vue de « ce qui se passe »Data mining: prévoir « ce qui se passera » et « pourquoi »

s'appuie sur des techniques d'intelligence artificielle met en évidence des liens cachés entre les données.

Page 22: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 22

Fouille de données

Prévoir ce qui se passera dans le futurClassifier des personnes ou des entités en groupes

par reconnaissance de motifsEn se basant sur leurs attributs

Associer les évènements qui pourraient survenir ensemble

Page 23: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 23

Exemple: Données médicales

Entrepôt pour le suivi de maladies infectieusesAnalyse OLAP

Analyse du taux d’affectation par ville, par département, par année

Fouille des donnéesCorrélation entre le taux d’affectation et le taux de présence de certains polluants

Page 24: Entreposage, analyse en ligne et fouille de données

Houssem Jerbi- IRIT/SIG 24

Conclusion

Besoin de prise de décision: entrepôt de donnéesDichotomie Entrepôt/Magasin de donnéesApplication de l’OLAP aux données scientifiques