Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des...

51
Data WareHouse

Transcript of Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des...

Page 1: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Data WareHouse

Page 2: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Plan

• Introduction• Eléments de la théorie des systèmes d'informations

• Les entrepôts de données (Datawarehouse)• Les datamart• Architecture• Modélisation 

2

Page 3: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Présentation• Besoin: prise de décisions stratégiques et tactiques• Quoi: productivité de l'entreprise, réactivité des hommes, clients• Qui: le système de pilotage de l'entreprise (Décideurs)

3

Page 4: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Eléments de la théorie des SI

• Référentiel des complexités croissantes• L'entreprise système.

4

Page 5: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

Objectif: fournir une échelle pour mesurer la complexité d'un système• Niveau 1 : objet passif (une pierre)• Niveau 2 : actif (ampoule électrique)• Niveau 3 : actif et régulé, (l’objet refuse certains comportements)

L’objet est doté d’un autre processeur chargé de cette régulation (la cocotte‐minute).• Niveau 4 : l’objet s’informeLe processeur de régulation s’informe sur l’activité du processeur actif. Ce modèle représente le schéma de base de la cybernétique

5

Page 6: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

6

Page 7: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

• Niveau 5: L’objet décide de son activitéOn passe d’un comportement programmé à un comportement imprévisible

•Processeur•décisionnel

•Processeur•actif

•Information représentation

•Information Décision

.

7

Page 8: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

• Niveau 6: L’objet à une mémoireLe processeur décisionnel fait appel aux 

informations non seulement de l’état actuel, mais aussi aux informations des états passés.

•Mémorisation

•Processeur•Décisionnel

•Processeur•actif

•Mémoire

8

Page 9: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

• Niveau 7: L’objet se coordonneLe processeur actif devient une fédération 

de processeurs coordonnés (système opérant). 

9

Page 10: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

• Niveau 8: L’objet imagine et s’auto organise :• Elaborer des plans d’actions• Imaginer l’organisation de ses sous systèmes

10

Page 11: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Référentiel des complexités croissantes

Niveau 9 : l’objet est capable de définir ses objectifs.•Objectifs :

•Système finalisation (le SP est capable de changer ses objectifs)

•Système imagination conception

•SD

•SP

11

Page 12: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

L'entreprise système

• Définition: Le SI est une représentation de l’activité du SO et/ou du SP, et de ses échanges avec l’environnement

12

Page 13: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Typologie des systèmes d'information• SIP: Systèmes d’information de production: 

Dans ces SI l’information est gérée par le SO de l’entreprise.

• SIO (systèmes d'information opérationnels):Information de représentation et de coordination de l’activité du SO destiné au sous système de régulation dans le SP.SO

SIO

SP SD SIC SF

• SID (Systèmes d’information décisionnels).• SIS : SI à portée stratégique • SSI: SI d’aide à la stratégie • Autre notation :(Tardieu : Le triangle stratégique, structure et 

technologie de l’information)• Systèmes d’information‐stratégiques SI‐S• Systèmes‐d’informations stratégiques S‐IS

13

Page 14: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Informatisation d'un SI

• SIO: Système d'informatisation organisationnel, résultat de l’activité de l’entreprise (Informations, tâches humaines/Informatisées)

• SII: Système d'information informatisé.

SIO

SII

• Sciences de la gestion  SIO (naturel)• Disciplines du génie logiciel SII (artificiel)• L’état actuel des connaissances ne nous permet pas d’avoir une 

méthode de complexité 8 ou 9 (SI auto adaptatif ‐ SI auto exécutif) donc les méthodes de conception actuelles modélisent l’entreprise uniquement au niveau 7 de complexité. (À organisation stabilisée).

14

Page 15: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Les données pertinentes

• Sources de données– Sources internes

• Bases de données de production• Bases créées par les utilisateurs (bases relationnelles, fichiers plats).

– Sources externes• Internet.• Organismes 

• Caractéristiques de ces données:– Dispersées et hétérogènes– Détaillées– Peu/pas adaptées à l’analyse– Volatiles: pas d’historisation systématique

• Données pertinents– informations dont la variation permet de dévoiler des dysfonctionnements ou même 

prévoir des problèmes futurs– Types d'indicateurs

• Indicateurs internes: produits, services, fonctionnement, Personnel • Indicateurs entrants/sortants: relations clients/fournisseurs• Indicateurs externes: pouvoir d'achat des consommateurs, Réglementation, 

conjoncture du marché, concurrence, tendance technologique…

15

Page 16: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Le processus de prise de décision

Définir les objectifs

Collecter les données Analyser Elaborer des 

SolutionsAction de décision

16

Page 17: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Définition d’un DW• Le Data warehouse (entrepôt de données) est Une collection de données orientées sujet, intégrées, non volatiles et qui varie dans le temps, organisées pour le support d’un processus d’aide à la décision (Définition:  [W. H. Inmon] )

– Sujet• Les données sont structurées par sujet ou par thème (clients, produits, personnel…)

– Données intégrées • Les données sont issues du SIO de l'entreprise et éventuellement de sources externes à l'entreprise.

• Les différents données provenant de sources différentes (BDR, XML, fichiers plats,…) et hétérogènes sont intégrés et homogénéisées dans une structure unique.

17

Page 18: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Définition d’un DW• Homogénéisation:

– Synonymie :Par exemple deux attributs  nom_salarié et nom_employe dans deux sources différentes désignent la même entité.

– Homonomie: deux noms identiques qui désignent des entités différentes.– Une même information peut être exprimée dans deux sources avec des 

types ou des unités différentes.

• Les données sont non volatiles et historisées: la portée temporelle des données dans un DW et plus longue que celle des BDO.

• BDO: valeur courante des données . Les autres données sont soit détruites soit archivées.

• DW: les données sont historisées• En général , dans un DW chaque donnée fait référence au temps.

18

Page 19: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Domaines d'applications• Déterminer et contrôler la performance de l’entreprise• Mesurer et gérer les risques financiers.• Planifier la stratégie Achat.• Banque

– Risques d’un prêt, prime plus précise• Assurance

– Risque lié à un contrat d’assurance (voiture)• Santé

– Épidémiologie– Risque alimentaire

• Marketing– Améliorer la connaissance client– Ciblage de clientèle – Déterminer des promotions

• Logistique– Adéquation demande/production

19

Page 20: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Data Marts ou magasins de données

• C'est un DW spécialisé dans un sujet ou un métier particulier (Finance, Marketing,…).

• Intérêt d'un DataMart– Moins de données à gérer– Amélioration des temps de réponse– Plus simple à mettre en œuvre qu'un DW

20

Page 21: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Modèles de données• Le modèle 

d'intégration unifie les données

• Le modèle de diffusion modélise la structure de l'entrepôt de données (Serveur OLAP).

• Le modèle de présentation définit  la manière dont les données seront présentées à l'utilisateur.

Modèle d'intégration

Poste1 Poste2 Poste 3

Base1:Base de données de production

Base 2:Base de données de production

Base3:Base de données de production

Modèle de diffusion

Modèle de présentation

21

Page 22: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Les outils OLAP

• OLAP (On‐Line Analytical Processing): Ensemble des outils  nécessaires pour la mise en place d'un Système d'information décisionnel (SID)

22

Page 23: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Les 12 règles OLAP• Un système OLAP doit respecter les 12 règles suivantes (Edgar Frank Codd en 

1993).– Transparence: l'utilisateur doit accéder à la base par des outils standards– Accessibilité: les sources qui servent à alimenter le système, doivent être 

facilement accessible à travers la structure logique de l'entrepôt– Vue Dimensionnelle: les données sont structurées en dimensions métiers– Dimension générique: Toutes les dimensions doivent avoir la même structure– Architecture client serveur– Gestion des matrices creuses– Multi‐utilisateurs– Simplicité d'utilisation– Rapports de sortie ergonomiques– Temps de réponse stable:  le nombre de dimensions et la taille de la base peuvent 

augmenter sans influencer les performances du système.– Nombre illimité de dimension et de niveaux d'agrégation: – Croisement des dimensions: le système doit être capable de gérer les calculs 

associés entre les dimensions sans faire appel à l'utilisateur

23

Page 24: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Les outils OLAP• Les outils relationnels OLAP (ROLAP)

– Les données sont stockées dans une base de données relationnelle, moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel

– .• Les outils MOLAP

– Utilisent un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes)

– Accès direct aux données dans le cube• Les outils HOLAP (Hybrid OLAP)

– tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base)

– données agrégées stockées dans des cubes

24

Page 25: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Le cube• Modélisation multidimensionnelle des données facilitant 

l’analyse d’une quantité selon différentes dimensions:– Temps– Localisation géographique– Produits– Fournisseurs– Clients– …

• Les calculs sont réalisés lors du chargement ou de la mise à jour du cube

• Un cube permet de visualiser les données selon plusieurs dimensions

• Un cuboïde est un cube de dimension n

25

Page 26: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

treillis des cuboïdes

26

Page 27: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Exemple de cube

27

Page 28: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Treillis correspondant 

28

Page 29: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Opérations typiques de l’OLAP

• Roll up : consolider (résumer) les données : Passer à un niveau supérieur dans la hiérarchie d’une dimension 

• Drill down : l’inverse du Roll‐up : descendre dans la hiérarchie d’une dimension 

• Slice et Dice (tranche et extraction): Projection et sélection du modèle relationnel 

• Pivot (rotate): Réoriente le cube pour visualisation 

29

Page 30: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Modélisation d'un DW • Inconvénients du modèle Entité/Relation

– Schéma très/trop complet pour l'analyse des données– Inapproprié pour l’analyse

• Le modèle multidimensionnelle– Concepts

• Les faits: mesurent l'activité ( exemple: quantité vendue) • Dimensions: Axes d'analyse • Attributs des dimensions

– Opérations sur les données• Drill Down: une donnée agrégée est visualisée à un niveau de détail plus fin• Consolidation: les données sont visualisées à un niveau plus agrégé• Slicing and Dicing : visualisation des données selon différentes perspectives.

– Principe• Ne pas trop normaliser les tables

30

Page 31: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Table de faits

• Table principale du modèle dimensionnel• Contient les données observables (les faits) sur le sujet étudié 

selon divers axes d’analyse (les dimensions)

Table de faits des ventesClé Vendeur Clé produitClé MoisClé zone Quantité vendueMontant des ventes

Clés étrangères vers les dimensions

Faits

31

Page 32: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Types des faits

• Fait additif: additionnable suivant toutes les dimensions (ex: chiffre d’affaire)

• Fait semi additif: additionnable seulement suivant certaines dimensions – Exemple : nombre de clients, dimension produit (un même client peut 

acheter plusieurs produits) .

• Fait non additif: non additionnable quelque soit la dimension (comptage des faits ou affichage 1 par 1, ex: prix unitaire d'un produit)

32

Page 33: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Granularité ou finesse la table de faits

• La granularité définit le niveau de détails de la table de faits– mois, jour, heure du jour– région ,magasin , rayonnage

33

Page 34: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Table de dimension• Axe d’analyse selon lequel vont être étudiées les faits• Contient le détail sur les faits• Dimension = axe d’analyse

– Client, produit, temps…• Granularité d’une dimension : nombre de niveaux hiérarchiques (ex: 

continent, pays, région, ville)

Dimension produitClé produit (CP)Code produitDescription du produitFamille du produitsMarqueEmballagePoids

Clé primaire

Attributs de la dimension

34

Page 35: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Hiérarchie des dimensions

Année

Semestre

Trimestre

Mois

Saison

Date

Semaine

Hiérarchie multiple

Continent

Pays

Région

Ville

Quartier

Rue

Hiérarchie simple

35

Page 36: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

La dimension Date

• Commune à l’ensemble du DW

• Reliée à toute table de faits

Dimension DateID Date (CP)Jour de la semaineJour du moisMoisTrimestreSemestre AnnéeNum_jour_dans_annéeNum_semaine_ds_année

36

Page 37: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Exemple de modèle en étoileDimension Temps

ID tempsannéemoisjour…Dimension Magasin

ID magasindescription

villesurface

Dimension RegionID régionpays

descriptiondistrict vente

….

Di i d it

Dimension produitID produit

nomcodeprixpoidsgroupefamille

Dimension ClientID clientnom

prénomadresse

bl d f i h

Montant des achats

Table de faits AchatID clientID tempsID magasinID régionID produit

Quantité achetéeMontant des achats

37

Page 38: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Le modèle en flocon• Dérivé du modèle en étoile• Les tables de dimension sont normalisées et le 

redondances sont éliminées.• Comparaison étoile/flocon

– Flocon• Le modèle en flocon permet de montrer les hiérarchies entre dimensions

• La normalisation dans le modèle en flocon permet de réduire la taille des tables.

– Etoile• La dé‐normalisation du modèle permet d'améliorer les performances d'exécution des requêtes.

• Le modèle est plus facile à comprendre par l'utilisateur non informaticien

• Nombre de jointures limité.

38

Page 39: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Modèle en flocon

• Une table de fait et des dimensions décomposées en sous hiérarchies

• On a un seul niveau hiérarchique dans une table de dimension • La table de dimension de niveau hiérarchique le plus bas est 

reliée à la table de fait. On dit qu’elle a la granularité la plus fine• Avantages:

– Normalisation des dimensions– Économie d’espace disque

• Inconvénients:– Modèle plus complexe (jointure)– Requêtes moins performantes

39

Page 40: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Modèle en floconDimension Temps

ID tempsanneemoisjour…

Dimension MagasinID magasindescription

villesurface

i i d i

Dimension produitID produitID groupe

nomcodeprixpoids…

Dimension ClientID clientnom

prénomadresse

Dimension groupeID groupeID famillenom…

Dimension FamilleID  famille

nom…

Dimension Division venteID division vente

descriptionContinent

Dimension RegionID région

ID division ventepays

description….

bl d f i h

Montant des achats

Table de faits AchatID clientID tempsID magasinID régionID produit

Quantité achetéeMontant des achats

40

Page 41: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Etapes de modélisation d'un DW

• Choisir les processus métiers à modéliser : – Exemple : le processus "vente" .

• Définir la granularité de chaque processus:– Définir ce que représente chaque enregistrement dans la table des faits (exemple : une ligne de ticket de caisse).

• Choisir les dimensions – Exemple: date, produit, magasin, promotion

• Identifier les faits numériques:– Les faits ayant des granularités différentes doivent appartenir à des tables de fais différentes.

41

Page 42: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Exemple

MagasinID magasindescription

villesurface

PromotionID régionpays

descriptiondistrict vente

….

ProduitID produit

nomcodeprixpoidsgroupefamille

DateID clientnom

prénomadresse

VentesID Date

ID magasinID PromotionID produit

ID transaction POSQuantitéMontantCoût

Bénéfice brut

42

Page 43: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Exemple

MagasinID magasindescription

villesurface

PromotionID régionpays

descriptiondistrict vente

….

ProduitID produit

nomCatégorieMarque

Départementgroupefamille

DateID DateDate

Date complètejour de la semaine

MoisAnnée

Mois fiscalFérié

Week End

VentesID DateID tempsID magasinID PromotionID produit

ID transaction POSQuantitéMontantCoût

Bénéfice brut

43

Page 44: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Types de dimension

• Dimension dégénérée• Dimension à évolution lente• Dimension à évolution rapide

44

Page 45: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Dimension dégénérée (Degeneratedimension)

• La dimension dégénérée est une clé de dimension dans la ‘’table’’ des faits et qui n'est pas associée à une table dimension (exemples: numéro de POS, numéro de commande).

45

Page 46: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Dimensions à évolution lente

• Les attributs d'une dimension peuvent subir des changements.– Un client peut changer d’adresse, avoir des enfants, ...

– Un produit peut changer de noms, de composition;

3 solutions possibles:– Écrasement de l’ancienne valeur– Versionnement– Valeur d’origine / valeur courante.

46

Page 47: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Dimensions à évolution lenteSolution 1:  Écrasement de l’ancienne valeur 

– Avantage: • Facile à mettre en œuvre

– Inconvénients:• Perte de la trace des valeurs antérieures des attributs

Solution 2: Ajout d’un nouvel enregistrement.– Avantages:

• Permet de suivre l’évolution des attributs• Permet de segmenter la table de faits en fonction de l’historique

– Inconvénient:• Accroit le volume de la table

Solution 3: Ajout d’un nouvel attribut– Avantages:

• Avoir deux visions simultanées des données :– Inconvénient:

• Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires

47

Page 48: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Dimension à évolution rapide• Subit des changements très fréquents (tous les mois) dont on veut préserver 

l’historique• Solution: isoler les attributs qui changent rapidement et créer une mini‐dimension

48

Mini Dimension

Clé

Revenus

Nb_enfants

Dim client

Clé_client

Nom

Prénom

Adresse

Revenus

Nb_enfants

Page 49: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Dictionnaire de données

• C'est un référentiel de métadonnées destiné aux utilisateurs et à l'administrateur du DW– Une métadonnée permet de qualifier une données: sémantique, règle de calcul, provenance, qualité…

Page 50: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Alimentation d'un DW

• Opérations sur les données– Extraction

• Cette étape consiste à extraire d'une manière sélective les données appropriées.

– Transformation• Filtrer, trier, homogénéiser, nettoyer• Une même donnée peut avoir une structure ou une valeur différente selon la source (production, utilisateurs, externe).

• Une même entité peut apparaître plusieurs fois avec différents attributs selon les sources consultées.

50

Page 51: Data WareHouseitformation.com/miage/presentation.pdf– Architecture client serveur – Gestion des matrices creuses – Multi‐utilisateurs – Simplicité d'utilisation – Rapports

Alimentation d'un DW

– Chargement dans l'entrepôt• Opérations de calcul et d'agrégation.• Définir la fréquence de chargement ( en général quotidiennement en début ou en fin de journée)

• ETLOutil permettant d’automatiser les chargements dans l’entrepôt

51