dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

16
Michèle Raphalen V 1.1 octobre 2002 Systèmes d’information décisionnels DESS ASIR Université de Bretagne Sud / UFR SSI UFR SSI / UBS DESS ASIR Systèmes d’information décisionnels Michèle Raphalen 2 Plan Entrepôts de données - définition et objectifs - architecture - alimentation, restitution Systèmes d’information décisionnels vs systèmes d’information opérationnels - modélisations multidimensionnelles - schéma en étoile, flocon - MOLAP, ROLAP, MROLAP Optimisation - agrégation - indexation - fragmentation - parallélisme UFR SSI / UBS DESS ASIR Systèmes d’information décisionnels Michèle Raphalen 3 Bibliographie (1) Inmon W.H. “ Building the data warehouse ” Wiley Computer publishing, 1996 Bracket M.H. “ The data Warehouse challenge - taming data chaos ” Wiley Computer publishing, 1996 Kimball R. “ Entrepôts de données ” International Thomson publishing, 1997 Kimball R. et all. “ The data warehouse lifecycle toolkit : expert methods for designing, developping and deploying a data warehouse ” Wiley Computer publishing, 1998 UFR SSI / UBS DESS ASIR Systèmes d’information décisionnels Michèle Raphalen 4 Bibliographie (2) Goglin J.F. “ La construction du data warehouse ” Hermes, 1998 Kimball R. et all. “ Concevoir et déployer un data warehouse ” Eyrolles, 2000 Franco J.M., De Lignerolles S. “ Piloter l’entreprise grâce au data warehouse ” Eyrolles, 2000 Morin A., Bosc P., Hébrail G., Lebart L. “ Bases de données et statistique ” Dunod, 2002 Actes du colloque “ Entrepôts de données et décisionnel ” IFSIC/IRISA, Rennes, novembre 2001 Documentation Oracle, “ Data warehousing fundamentals ”, Vol. 1, 2, 3 UFR SSI / UBS DESS ASIR Systèmes d’information décisionnels Michèle Raphalen 5 Système d’information décisionnel Pilotage décider, anticiper en fonction de l’information disponible capitaliser sur les expériences améliorer les performances de l’entreprise · compétition intégrer dans le système décisionnel de données externes caractérisant le marché de la concurrence · personnalisation proposer aux clients des produits adaptés à leurs profils augmentation du rendement des actions commerciales et marketing adaptation des services fournis fidélisation de la clientèle ... UFR SSI / UBS DESS ASIR Systèmes d’information décisionnels Michèle Raphalen 6 Système d’information décisionnel Système d’information opérationnel Système d’information décisionnel Applications de production Applications d’aide à la décision Traitements factuels OLTP Traitements ensemblistes OLAP asynchronisme BD dédiée

Transcript of dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

Page 1: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

1

Michèle RaphalenV 1.1 octobre 2002

Systèmes d’information décisionnels

DESS ASIR

Université de Bretagne Sud / UFR SSI

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen2

Plan• Entrepôts de données

- définition et objectifs- architecture- alimentation, restitution

• Systèmes d’information décisionnels vs systèmes d’informationopérationnels

- modélisations multidimensionnelles- schéma en étoile, flocon- MOLAP, ROLAP, MROLAP

• Optimisation- agrégation- indexation- fragmentation- parallélisme

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen3

Bibliographie (1)� Inmon W.H. “ Building the data warehouse ”

Wiley Computer publishing, 1996� Bracket M.H.“ The data Warehouse challenge - taming data chaos ”

Wiley Computer publishing, 1996� Kimball R.“ Entrepôts de données ”

International Thomson publishing, 1997� Kimball R. et all.“ The data warehouse lifecycle toolkit : expert methods for designing,

developping and deploying a data warehouse ”Wiley Computer publishing, 1998

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen4

Bibliographie (2)� Goglin J.F.“ La construction du data warehouse ”

Hermes, 1998� Kimball R. et all.“ Concevoir et déployer un data warehouse ”

Eyrolles, 2000� Franco J.M., De Lignerolles S. “ Piloter l’entreprise grâce au data warehouse ”

Eyrolles, 2000� Morin A., Bosc P., Hébrail G., Lebart L.“ Bases de données et statistique ”

Dunod, 2002� Actes du colloque “ Entrepôts de données et décisionnel ”

IFSIC/IRISA, Rennes, novembre 2001� Documentation Oracle, “ Data warehousing fundamentals ”, Vol. 1, 2, 3

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen5

Système d’information décisionnel

• Pilotage� décider, anticiper en fonction de l’information disponible

� capitaliser sur les expériences

� améliorer les performances de l’entreprise· compétition

– intégrer dans le système décisionnel de données externes caractérisant le marchéde la concurrence

· personnalisation– proposer aux clients des produits adaptés à leurs profils

augmentation du rendement des actions commerciales et marketing

adaptation des services fournis

fidélisation de la clientèle

...

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen6

Système d’information décisionnel

Système d’information

opérationnel

Système d’information

décisionnelApplicationsde production

Applicationsd’aide à la décision

Traitements factuels

OLTP

Traitements ensemblistes

OLAP

asynchronisme

BD dédiée

Page 2: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

2

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen7

Système d’information décisionnel

• Ensemble de données organisées� de façon spécifique� facilement accessibles� appropriées à la prise de décision

· pilotage de l’entreprise� vision transversale aux structures fonctionnelles ou organisationnelles

Client

Service commercial Facturations

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen8

Système d’information décisionnel

• Problème posé� sélectionner l’information juste et utile

� stocker l’information correctement

� restituer l’information

contrôler, homogénéiser, organiser, intégrer les données

pour en avoir une vision « orientée métier »

� navigation dans les données

• Support : entrepôt de données

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen9

Système d’information décisionnel : ED

Entrepôt de données (Data Warehouse - DWH)Infrastructure pour l’acquisition, l’agrégation, la synthèse de données factuellesdistribuées et hétérogènes.

Bases de production

Données internes

Données externes

Alimentation

ETLRestitution

AcquisitionContrôle

Stockage Accès

Datamarts, cubes

TableursTableaux de bord (EIS)OLAPRequêteursFonctions d ’agrégationData miningSimulationPrédictionSegmentationCorrélationClassificationRéseaux de neurones...

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen10

Système d’information décisionnel : ED

• Acquisition / Contrôle

� Collecter les données utiles· Identifier les données à extraire· Planifier les extractions

� Contrôler l’intégrité et la qualité des données· Maîtriser la codification de l’information

� Préparer les données· Transformer les caractéristiques des données issues du système

opérationnel dans la forme requise pour l’entrepôt– correspondance des formats,– nettoyage, consolidation (données manquantes, aberrantes, doublons)– agrégation

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen11

Système d’information décisionnel : ED

• Acquisition / Contrôle

� Accès au référentiel des données· Localisation et structure des sources· Structure cible· Règles de transformation· Règles de sécurité

� Charger les données dans l’entrepôt

Outils spécifiques pour le processus d’acquisition

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen12

Système d’information décisionnel : ED• Stockage

� Support du stockage : SGBD· Accès décisionnel· Optimisations pour accélérer les accès et les regroupements

ensemblistes

� Structuration des données· Partitionnement physique des tables

– Horizontal, vertical

� Doit permettre d’évoluer en fonction des besoins de l’entreprise· Évolution matérielle et logicielle

Page 3: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

3

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen13

Système d’information décisionnel : ED• Accès

� Groupes d’utilisateurs

· Simple visualisation des données (tableaux de bord)

· Navigation dans les données structurées le long de dimensions : OLAP

· Accès libre sur des données faiblement structurées, sans chemind’accès prédéfinis

· Analyses plus sophistiquées : Data mining

– Segmentation, modèles de prévision, simulations, analyses d’impact…

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen14

Système d’information décisionnel : ED

Mise en oeuvre

Bases de

productionAcquisition

ContrôleStockage Accès

Infrastructure opérationnelle

Infrastructure technique

Application 1

Application n...

Définition du périmètre- acteurs concernés ?- périodicité des analyses ?- enjeux des retombées sur l ’activité de l ’entreprise ?

- administration du SGBD- administration des données

Choix technologiques- quelle utilisation ?- quelle architecture ?- quels volumes traités ?- capacité du réseau ?- localisation des données sources ?

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen15

Système d’information décisionnel : ED• Infrastructure technique

� choix des composants matériels

� choix des composants logiciels

en général, en conformité avec l’existant

• Infrastructure opérationnelle� administration des données (gestion des flux de données, contrôle de la qualité)

� gestion des utilisateurs (support + administration des droits d’accès)

� exploitation du SID (gestion des performances, de la sécurité)

• Applications

spécification mesuresdéploiementmise en oeuvreconception

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen16

Système d’information décisionnel : ED

• Définition d’un ED (Bill Inmon)

Collection de données· orientées sujet

· intégrées

· historisées

· non volatiles

organisées pour le support d’un processus d’aide à ladécision.

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen17

Système d’information décisionnel : ED• Données orientées sujet

� Structuration par thèmes, vs processus fonctionnels

� Collection d’un ensemble d’informations sur un sujet transversal(ex : le client)

� Intégration de différents sujets dans une structure commune, évitant dedupliquer l’information

� Orientation sujet supportée par les datamarts

� Développement progressif et itératif du SD sujet/sujet

marketing ventes analyses financièresmarketing ventes analyses financières

clientclient client clientclient

client

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen18

Système d’information décisionnel : ED

• Données orientées sujet : exemples

� Client

� Produit

� Appels téléphoniques

� Réservations de passagers

� Sinistres

Page 4: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

4

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen19

Système d’information décisionnel : ED• Données intégrées

� Provenant de différents systèmes opérationnels

� Constituant un ensemble unique d’information consolidée,homogénéisée

� Codification unique et pertinente de la même information· Conventions de nommage

· Structures de codage (ex : date, sexe, …)

· Qualification des mesures

· Intégration de sémantique

Phase de nettoyage des données délicate, longue, coûteuse(60% du coût)

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen20

Système d’information décisionnel : ED

• Données intégrées

� Unification de codage

� Problème des données manquantes· Ex : le produit X n’a pas été vendu dans un magasin Y durant la période P

M, F

0, 1

H, F

homme, femme

M, F

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen21

Système d’information décisionnel : ED• Données intégrées

� Inconsistances

numV

124

couleurV

AzurVermillon

Vert

numV

1234

couleurV

BleuBleu

RougeVert

numV

112234

couleurV

AzurBleu

VermillonBleu

RougeVert

U

ruby

rougebleu

B clair

vert

B foncé

azur

vermillon

précision

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen22

Système d’information décisionnel : ED• Données intégrées

� Définition de la granularité des données (niveau d’agrégation)

niveau de détail BD production (système opérationnel)

niveau de détail entrepôt (système décisionnel)

Dupont01/10/2002 14H00 – 14H05 local02/10/2002 18H00 – 18H10 local02/10/2002 20H30 – 20H42 distant03/10/2002 08H00 – 08H03 local03/10/2002 21H00 – 21H08 distant04/10/2002 16H00 _ 16H15 local05/10/2002 07H30 – 07H40 local05/10/2002 12H12 – 12H15 local06/10/2002 19H45 – 19H57 distant06/10/2002 14H00 – 14H05 local06/10/2002 15H00 – 15H04 local…

Octobre 2002DupontNombre d’appels : 50Nombre d’appels locaux : 35Nombre d’appels distants : 15Durée moyenne d’un appel : 11 mn…

SELECT fns d’aggrégat (MIN, MAX, SUM, COUNT, AVG, …) FROM …GROUP BY …

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen23

Système d’information décisionnel : ED• Données historisées (référentiel de temps)

� Suite de clichés des données à différentes dates

· Date = attribut de la donnée

minute, heure, jour, semaine, mois, …

· Analyse des tendances

� Détermination de la périodicité des rafraîchissements de données

D (t0)

D (ti)

D (tn)

purge

archivage

INSERTUPDATEDELETE

SELECT …

rafraîchissements

1er chargement

BDproduction

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen24

Système d’information décisionnel : ED• Données non volatiles (cf historisation)

� Conservation de l’information pendant une certaine durée (5 ans)

� Stabilité des résultats« la même requête doit toujours donner le même résultat »

� Volumétrie très importante

INSERTUPDATEDELETE

SELECT …

rafraîchissements

1er chargement

BDproduction

purge

archivage…

Page 5: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

5

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen25

Système d’information décisionnel : EDexemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub

• Sujets

� Comportement de la clientèle

� Comportement du réseau

� Suivi du marché : lignes, services, …

• Historique� 1 an pour le comportement de la clientèle

� 1 mois pour le comportement du réseau

� 5 ans pour le suivi du marché

• Sources� Fichiers des nouveaux clients fournis par les agences régionales

� Fichier général de la facturation de l’entreprise

� Sources externes : INSEEUFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen26

Système d’information décisionnel : EDexemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub

• Données factuelles

• Indicateurs de décision

01/10/200202/10/200202/10/200203/10/2002…

08H5009H4510H3021H50…

+33 297…+ 353 1 …+49 2445..+44 1752…

FranceIrlandeAllemagneGrande Bretagne …

05:3008:4503:3410:23…

6 8 12 14 16 18 21 L M M J V S D

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen27

Système d’information décisionnel : EDexemple : télécoms source : Actes du colloque IFSIC/IRISA – M. Bouzeghoub

• Sujet : Comportement de la clientèle

� Répartition des appels sur la semaine, sur la journée

� Nombre d’appels par mois et par région

� Nombre moyen de numéros composés représentant 30% d’une facture

� Durée moyenne d’une communication locale

� Durée moyenne d’une communication internationale

� …

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen28

Système d’information décisionnel : ED Système opérationnel Système décisionnel

Production - Bases de donnéesOLTP

Décision - Entrepôts de donnéesOLAP

Données

DétailléesFactuellesMises à jourAccessibles de façon individuelle

Résumées, agrégéesHistoriséesNon sujettes à MAJAccessibles de façon ensembliste

Utilisateurs Agents opérationnels (informaticiens) Décideurs

Fonction Opérations journalières Support de décision

Conception BD Orientée application Orientée sujet

Traitements RépétitifsRequêtes « simples »

Heuristiques, ad hocRequêtes complexes

Volume 100M à 100G 100G à 100T

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen29

Les données dans un ED : structure

synt

hèse

hist

oriq

ue

Données détaillées

Données détailléeshistorisées

Données agrégées

Données fortementagrégées

mét

adon

nées

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen30

Les données dans un ED : structure• Données détaillées

� Socle de l’entrepôt

� Niveau d’insertion des données issues de la production

� Correspondent aux évènements les plus récents

� Peuvent être déjà synthétisées· détail entrepôt � détail données bases de production

� Difficulté du choix de la granularité de l’information· Plus le niveau de détail est fin, plus les données de l’entrepôt seront

accessibles selon différents points de vue. Distribution : étude du « panier de la ménagère »

stockage du ticket de caisse

� Comparaison éventuelle avec des périodes antérieures· historisation

Page 6: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

6

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen31

Les données dans un ED : structure

• Données agrégées

� Constituent les éléments d’analyse des utilisateurs

� Correspondent à des synthèses de données

� Possibilité de naviguer dans les données, pour aller vers de plusen plus de détails

· Structures multidimensionnelles

Ventes d’un produit

Par région -> département -> ville

Par période -> mois -> semaine

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen32

Les données dans un ED : structure

- faible volume de données- accès fréquent- données facilement accessibles- délais de réponse courts

- important volume de données- accès non systématique- délais de réponse aux requêtes plus longs

Dril

l dow

n / z

oom

Dril

l up

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen33

Les données dans un ED : structure

• Optimisation : performance d’accès aux données

� Pré-calculer les agrégations correspondant aux chemins d’accès lesplus souvent utilisés dans les requêtes

� Stocker physiquement les résultats dans l’entrepôt

· Vues matérialisées

� Donner la possibilité d’accéder directement aux données détailléesavec des temps de réponse acceptables

· Index

· Cluster

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen34

Les données dans un ED : métadonnées• Métadonnées : « données sur les données » {informations relatives à l’entrepôt et aux processus associés}

� Sémantique des données de l’entrepôt

� Localisation de la donnée dans les systèmes de production

� Procédures de chargement

� Historique des mises à jour

� Règles de calcul et processus de transformation des données

� Utilisation de la donnée dans les différentes applications

� Profils/Rôles des utilisateurs de l’entrepôt…

Intégration dans un référentiel (« data warehouse repository »)

Outils pour catalogues de métadonnées

back

roo

mfr

ont r

oom

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen35

Les données dans un ED : métadonnées• Métadonnées

� Représentation : modèles de données

{MCD, MLD, MOD}

� Prévoir la gestion du référentiel

ADMINISTRATION DE DONNEES

client

contrat

produitachète

signe

client

contrat

produitachète base

clients

base produits

base contrats

éventuelle transformation

de modèle

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen36

Les données dans un ED : métadonnées• Métadonnées : gestion du contrôle de l’information

� Fiabilité de l’information

� Cohérence de l’information

· Plusieurs sources pour une même entité (ex : le client)

· Redondance, synonymie, duplication

� Définition unique d’une donnée calculée

· Périmètre de calcul

� Historique des données

· Possibilité d’évolution des données au cours du temps

� Gestion de la réplication et de la distribution de l’information

· Données maîtres-esclaves, snapshots

Page 7: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

7

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen37

Les données dans un ED : métadonnées• Référentiel fédérateur

� Gestion des données· Description· Règles d’alimentation· Règles de fabrication

� Gestion des flux· Description· Règles de chargement· Règles de transformation

� Gestion de la confidentialité· Profils, rôles· Règles d’accès aux traitements, d’accès aux données

� Gestion des espaces privés des utilisateurs· Administration, échanges

� Gestion des nomenclatures· Organisation réseau· …

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen38

Alimentation de l’ED (Data Staging)

• Sources hétérogènes, diffuses, complexes

• Processus optimisé, automatisé� Réorganisation de l’information selon les besoins des utilisateurs

· Agrégats, introduction de redondances, …� Industrialisation du processus de migration périodique de données

Approche de programmation par « paramétrage de flux »

clientcampagnes

réseau distribution

ventes…

Sources internes

Gestion commerciale : Unix - OracleGestion financière : IBM/MVS – DB2Gestion marketing : Windows NT – Access…Sources externes

Mailings : fichiers ASCIIDonnées INSEE : Excel…

pertinence et qualité garanties a priorisource cible

ETML

découvrir extraire transformer transporter charger

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen39

Alimentation de l’ED : Outil d’extraction

• Acceptation d’un ensemble de sources variées

• Lecture sélective des données� Filtrage des attributs utiles

• Rafraîchissement de l’entrepôt : extractions différentielles� Chargement de l’entrepôt avec les données modifiées ou ajoutées depuis la

dernière extraction uniquement· Mécanisme de marquage des données : examen de la date de dernière mise à jour· Constitution du flux d’extraction par filtrage sur la date,

en parcourant le journal des transactions de la base source

• Mécanisme de surveillance de l’intégrité des opérations d’extraction� Annulation du processus d’alimentation en cas de panne

(extraction multi-sources)

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

« C

hang

ed d

ata

capt

ure

»

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen40

Alimentation de l’ED : Outil d’extraction

• Indépendance décisionnel / opérationnel� Couche de stockage des données avant transformation

ODS (Operationnal Data Store) / PSA (Persistant Storing Area)

• Nécessité de journalisation des opérations� Mesures de temps d’exécution

� Dysfonctionnements

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen41

Alimentation de l’ED : transformation

• Application de règles aux flux de données entrants (contrôle, épuration)� Traitement des données manquantes� Traitement des données aberrantes (hors-plage, intégrité référentielle, ...)

• Mapping de données� Mapping 1 – 1, 1 – n, n – 1, n – m

• Dédoublonnage� Rapprochement de données, pour la détection de doublons

Tris : SELECT attribut, count (*) FROM source GROUP BY attribut ORDER BY 1;

• Synchronisation des clés� Gestion des différences d’identifiants lors de fusion de fichiers

arbitrage : choix d’un identifiant existant ou d’un nouvel identifiant� Construction de tables de correspondance des clés (look up)

• Gestion des rejets� Journalisation, avec motifs des rejets

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen42

Alimentation de l’ED : transfert

• Transfert de fichiers� FTP, …

� Utilisation « minimum » des systèmes sources

� Maîtrise des flux sur le réseau

• Transfert base à base� Adapté à de petits transferts

· peu d’optimisation (absence de compression, …), lenteur

� Peu sécurisé (sensibilité aux ruptures de ligne réseau)

� Peu de facilités de transformations

� Facilité d’administration

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

source cibletransformations

source cibletransformations

à la volée

Page 8: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

8

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen43

Alimentation de l’ED : transfert

Pull Push

ED ED

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen44

Alimentation de l’ED : chargement

• Gestion de gros volumes de données

risques de dégradation des performances� chargement incrémental ou complet

� réduction de la périodicité des chargements

� gestion judicieuse des index

� partitionnement des objets

� organisation logique des objets permettant des mises hors servicepartielles (tablespaces)

� utilisation de segments de rollback spécifiques

� gestion de tables dupliquées (table de chargement -> table de consultation)

� parallélisation des tâches de chargement

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen45

Alimentation de l’ED : outils

• Critères� extraction

· multi-sources· incrémentales + actualisation complète

� réplication· synchrone, asynchrone

� manipulation aisée de gros volumes de données· compression/décompression

� outils d’audit· rejets lors des phases de filtrage, nettoyage, ...

� outils de transformation des données· conversion, gestion des dimensions, calculs d’agrégats

Catégories : Générateurs de code, Outils de déploiement rapide, Extracteurs ERP, Intégrés

découvrir extraire transformer transporter charger

Metadonnées : sources, cibles, règles de migration

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen46

Modélisation des données

• Transactionnel� minimisation des redondances

· mises à jour en ligne

· intégrité des données– 3NF, clés, références

� conception orientée processus fonctionnel� requêtes prévisibles, réalisées au travers de packages

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen47

Modélisation des données• Décisionnel

� redondances envisageables· pas de mises à jour en ligne (chargements uniquement)

· pas de problème d’intégrité des données (contrôles réalisés à l’acquisition)

� définition de modèles lisibles, intuitifs� requêtes ensemblistes, portant sur de gros volumes de données

· projections, restrictions, regroupements, agrégations· adaptation du modèle pour des requêtes « ad hoc »

– techniques d ’optimisation basées sur les chemins d’accès

� modèle évolutif· calqué sur le développement incrémental de l’ED

lisibilité, performances (chargement + exécution des requêtes), évolutivité, administration

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen48

Modélisation des données• Modélisation normalisée

produitidProduitnomProduitcodePaysidFournisseurprixHTcaractéristiques...

expéditeur

idExpéditeurnomExpéditeurcodePays...

client

idClientnomClientadresseClientcodePays...

commande

idCommandeidClientidExpéditeurdateCommremise...

ligneCommande

idCommandenoLigneidProduitquantité...

TVAidTVAtaux

gamme

fournisseur

idFournisseurnomFournisseurcodePays…

payscodePaysnomPays

Sémantique faible prixHT --> CA, marge, ...

Modèle « complet »marge d ’autonomie pour les utilisateurs

Risque de perte de contrôlevisions différentes du CA

Page 9: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

9

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen49

Modélisation des données

• Modélisation normalisée

� requêtes

· � �

· nombreuses tables et jointures mises en oeuvre

� risques de dégradation des performances

ventes

dépenses

ventes

stock

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen50

Modélisation des données

• Modélisation dénormalisée

� pré-calcul de certains agrégats + dénormalisation

� redondances maîtrisables au chargement

� introduction de sémantique

� nombre plus restreint de tables

� complétude moindre

� avantages :· nombre de tables moindre => diminution du nombre de jointures

� inconvénients· tables plus volumineuses

· fréquences d’accès très variables aux contenus des tables

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen51

Modélisation des données• Modélisation dénormalisée

produit

idProduitnomProduitnomPaysidFournisseurgammecaractéristiquestotVentesAn1totVentesAn2stock...

expéditeur

idExpéditeurnomExpéditeurnomPays...

clientidClientnomClientadresseClientnomPays...

commande

idCommandeidClientmontantHTmontantTTCidExpéditeurdateCommremise...

ligneCommande

idCommandenoLigneidProduitprixHTprixTTC...

fournisseur

idFournisseurnomFournisseurnomPays…

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen52

Modélisation des données

• Modélisation dimensionnelle

� faits : mesures d’indicateurs de performances, au travers de dimensionsd’analyse

· CA, marges, …

� dimensions· temps : série ordonnée et « continue »

consolidation en jours, mois, trimestre, semestre, année

· géographie

· produit

· marché

· projet

Aide à

l’interprétation des faits

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen53

Modélisation des données• Modélisation dimensionnelle (étoile, flocon, constellation)

produit

idProduitnomProduitnomPaysgammeprixHTcaractéristiques...

période

jj mm aaaajour-semainesemaine-moismois-année…

fournisseur

idFournisseurnomFournisseurdépartement…

ventes

idClientidProduitidFournisseurjj mm aaaa

CAmarge...

client

idClientnomClientadresseClientrégion...

table des faits(métriques)

dimensions

dim

ensi

ons

NB : les dimensions doivent être indépendantesUFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen54

Modélisation des données• Modélisation dimensionnelle

� regroupement d’indicateurs dans des tables de faits· indicateurs partageant le même ensemble de dimensions

· indicateurs ne pouvant pas être déduits d’autres indicateurs

� identifiant de la table de faits· clé multiple, concaténation des clés des différentes dimensions d’analyse

� requête type· CA, pour une gamme de produit, par année et par région

� modèle « naturellement » orienté sujet (datamarts)

� chemins d’accès prévisibles· table de faits très volumineuse, tables de dimensions plus petites

· accès aux faits par sélections successives, via les dimensions

� manque de complétude

Page 10: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

10

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen55

Modélisation des données• Modélisation dimensionnelle : modèle en flocon

� affinage des tables de dimension· normalisation des dimensions

· hiérarchie à l’intérieur d’une dimension

produit

idProduitidFamille

nomProduitnomPaysprixHTcaractéristiques...

périodejj mm aaaaidJouridSemaineidMois

fournisseur

idFournisseurnomFournisseurdépartement…

ventesidClientidProduitidFournisseurjj mm aaaa

CAmarge...

client

idClientidClasseidRégion

nomClient

familleidFamilleidGamme

nomFamille

gamme

idGamme

nomGammeprixMinprixMax

classe

idClasseidSegment

nomClasse…

segment

idSegment

nomSegment…

région

idRégionnomRégion

jouridJournom

semaineidSemaine…

annéeidAnnée…

mois

idMois…

trimestre

idTrimestre…

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen56

Modélisation des données• Modélisation dimensionnelle : datamarts

� tables de faits· gérées au niveau des datamarts· gestion commune de la granularité, avec des mécanismes de conversion

� tables de dimensions· gérées comme des tables de référence communes à plusieurs datamarts· intégrées à la partie commune de l’entrepôt

Navigation entre les différents modèles, au travers des dimensions (constellation)

DM

DM

DM

partie commune

syst

èmes

op

érat

ionn

els

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen57

Modélisation des données : OLAPReprésentation sous forme de cube

idProduit

P1P1P1P1P1P1P2P2P2P2P2P2P3P3P3P3P3P3P3

idRégion

ESNOONNSENSENOSNOSE

idPériode

S1S1S1S1S2S2S1S1S1S2S2S2S1S1S1S2S2S2S2

ventes

10102015302540102010152550201020201015

produit

iProduitnomProduit...

période

idPériodenomPériode…

région

idRégionnomRégion…

ventes

idProduitidRégionidPériodeCA

20 40 50 110

10 20 30

10 10 10 30

55 70 80 205

15 20 35

P1E

P2 P3

O

N

S 25 10 20 55

25 15 40

15 10 25

55 50 65 170

30 20 50

45 50 70 165

10 45 15 70

10 25 20 55

110 120 145 375

45 40 85

S1

S2

produit

régi

on

période

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen58

Modélisation des données : OLAP• Hypercube

� règles de calculs d’agrégats induites par les hiérarchies sur les axesd’analyse

� navigation dans l’information au travers des axes· visualisation des informations aux différents niveaux d’agrégation

CA / période / région / produit

dimension (axe)

dimension (axe)

dimension (axe)

(x1, x2, x3)

x1

x2

x3

(x1, x2, �x3)

(�x1, x2, x3)

(x1, �x2, x3)

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen59

Modélisation des données : OLAP• Hypercube : navigation

� drill up / drill down : zoom avant / arrière sur un axe d’analyse

55 70S1

S2 55 50

80

65

P3P2P1

20 15S1

S2 10 15

20

30

P1-3P1-2P1-1

205S1

S2 170

P1-P3 P2-1 P3-3P3-2P3-1P2-2

60 10

40 10

30

30

20

15

30

20

110 120S1-S2 145

P3P2P1

20 30S1-T1

S1-T2 35 40

40

40

P3P2P1

25 30S2-T1

S2-T2 30 20

35

30

drill up

drill up

drill down

drill down

produittemps • reach through : drill down depuis le cube

jusqu’au socle de l’entrepôt, et éventuellement jusqu’aux bases de production

• drill through : visualisation sous l’angle de plusieurs dimensions

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen60

Modélisation des données : OLAP• Hypercube : navigation

� rotate

55 70S1

S2 55 50

80

65

P3P2P1

30 35S1

S2 40 50

110

55

NOE

30

25

S

10 45E

O 45

15

40

P3P2P1

45 50N

S 10 25

70

20

Page 11: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

11

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen61

Modélisation des données : OLAP• Hypercube : navigation

� slice

20 40 50 110

10 20 30

10 10 10 3055 70 80 205

15 20 35

P1E

P2 P3

ONS 25 10 20 55

25 15 40

15 10 2555 50 65 170

30 20 50

45 50 70 165

10 45 15 70

10 25 20 55110 120 145 375

45 40 85S1

S2

produit

régi

on

période

20 40 50 110

10 20 30

10 10 10 3055 70 80 205

15 20 35

P1E

P2 P3

ONS 25 10 20 55

25 15 40

15 10 2555 50 65 170

30 20 50

45 50 70 165

10 45 15 70

10 25 20 55110 120 145 375

45 40 85S1

S2

produit

régi

on

période

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen62

Modélisation des données : OLAP• Hypercube : navigation

� scope

20 40 50 110

10 20 30

10 10 10 3055 70 80 205

15 20 35

P1E

P2 P3

ONS 25 10 20 55

25 15 40

15 10 2555 50 65 170

30 20 50

45 50 70 165

10 45 15 70

10 25 20 55110 120 145 375

45 40 85S1

S2

produit

régi

on

période

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen63

Modélisation des données : OLAPmécanismes d’agrégation

• Agrégats sur différents niveaux de la hiérarchie d ’une dimension� ville -> département -> région -> pays

France.Bretagne.Morbihan.Vannes

� produit -> famille -> gammeLiquide.Eau.Vittel

� socle de l’entrepôtventes / produit / ville

ventesville produit

gamme

famille

pays

région

département

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen64

Modélisation des données : OLAPmécanismes d’agrégation

calcul : ventes / gamme / région

• solution 1� recalculer les agrégats

· nombreuses jointures + regroupementSELECT f (ventes.indicateur), idGamme, idRegion, ...

FROM ventes * ville * département * région * produit * famille * gamme

GROUP BY idGamme, idRegion ;

· long temps de réponse

ventesville produit

gamme

famille

pays

région

département

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen65

Modélisation des données : OLAPmécanismes d’agrégation

calcul : ventes / gamme / région

• solution 2� pré-calculer autant de niveaux de ventes que de niveaux d’agrégation

· très grande volumétrie

ventesville produit

gamme

famille

pays

région

département

ventes0ville produit

gamme

famille

pays

région

département ventes1

ventes11

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen66

Modélisation des données : OLAPmécanismes d’agrégation

calcul : ventes / gamme / région

• solution 3� créer n tables de faits, structurées à l’identique

· chaque table sert de socle à partir duquel les agrégats souhaités sont calculés

· le niveau de la table de fait de niveau le plus proche du niveau d ’agrégation est identifié(aide du dictionnaire)

· les agrégats sont calculés à la volée

NB : nécessite du tuning de l’activité des utilisateurs

transparent aux utilisateurs

ventesville produit

gamme

famille

pays

région

département

ventes0ville produit

gamme

famille

pays

région

département ventes1

ventes3

ventes2

Page 12: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

12

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen67

Technologies OLAPMOLAP, ROLAP, HOLAP

• MOLAP : Multidimensionnal OLAP� structure de stockage multidimensionnelle� pré-agrégation au chargement des données

avantages� performance des temps de réponse� adapté aux faibles volumes de données

inconvénients� temps de calcul très important en phase de chargement� surcoût de stockage lié à la redondance� quantité importante de cellules creuses� dégradation en cas de gros volumes de données� bases « propriétaires »

optimisation� division du cube en sous-cubes� gestion des cellules creuses

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen68

Technologies OLAPMOLAP, ROLAP, HOLAP

• ROLAP : Relational OLAP� structure de stockage relationnelle� correspondance cube <-> table réalisée au moyen du dictionnaire

avantages� appui sur BD standards� cohabitation décisionnel / transactionnel (homogénéisation des outils d’administration)� support de gros volumes de données

inconvénients� temps de réponse plus lents qu’avec MOLAP� peu adapté aux petits volumes de données

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen69

Technologies OLAPMOLAP, ROLAP, HOLAP

• HOLAP : Hybrid OLAP� structure de stockage multidimensionnelle et relationnelle

· organisation des données de l’entrepôtdonnées détaillées sur la base relationnelle,agrégats sur la base multidimensionnelle

· partitionnement selon les dimensionsdonnées « actuelles » dans la base multidimensionnelledonnées anciennes dans la base relationnelle

avantages� « le beurre et l’argent du beurre »

inconvénients� cohabitation de deux mondes => administration complexe

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen70

Modélisation des données : dimensions• dimensions conformes

� dimensions ayant des significations identiques dans plusieurs tables de faits

� définition des dimensions conformes· étape importante de la construction d’un ED (ensemble intégré)

ex : client, produit, lieux géographiques, promotions, temps, ...

� conception des dimensions conformes· niveau de détail le plus fin possible

· prévoir des clés différentes des clés du système opérationnel

� représentation des dimensions conformes· table principale : clé valide + attributs A JOUR décrivant la dimension, issus de plusieurs

systèmes opérationnels

� liens inter datamarts· cohérence des interfaces utilisateurs et des contenus

· cohérence de l’interprétation des attributs entre les différents datamarts

CP dimension temps : jours+attributs descriptifs des calendriers de l’entreprise

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen71

Modélisation des données : dimensions• dimensions conformes

faitsfaits faits

dimension

dimension dimension

dimensiondimension

dimension

dimension

datamart

datamart

datamart

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen72

Modélisation des données : dimensions

• attributs dimensionnels� décrivent les informations rapportées aux utilisateurs

� doivent répondre à des critères de qualité· littéraux (mots entiers)

· descriptifs (pas de codes)

· complets (sans données manquantes)

· documentés (cf métadonnées : origine, interprétation de chaque attribut)

· indexés (B-arbre, bitmap)

• standard de la dimension temps• dimensions de vérification

� traçabilité des enregistrements des tables de faits

Page 13: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

13

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen73

Modélisation des données : dimensions• dimensions changeantes

� évolution des valeurs des attributs dimensionnels

� mises en œuvre possibles

cléClient nomClient0 adrClient0 client à t0

changement d’adresse à t1

cléClient nomClient0 adrClient1

cléClient nomClient0 adrClient0 adrClient1

cléClient version0 t0 – t1 nomClient0 adrClient0cléClient version1 t1 – nomClient0 adrClient1

cas 1

cas 2

cas 3

corrections d’erreurs

gestion des changements légers

suivi précis des changements d’attributs,partitionnement historique,adapté aux évolutions rapides

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen74

Modélisation des données : dimensions

• dimensions fourre-tout

� regroupement d’attributs et d’indicateurs inclassables,

non intégrables aux dimensions évidentes de manière cohérente

!!! Éviter de- intégrer les indicateurs et attributs dans les tables de faits

- faire une dimension par valeur

- supprimer les données correspondantes

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen75

Modélisation des données : faits

• faits conformes� appartiennent au même contexte dimensionnel

� permettent de réaliser des analyses sur des données issues de plusieursdatamarts

� doivent présenter les mêmes unités de mesure

� doivent être définis sur des périodes cohérentesex : CA, recettes, bénéfices, coûts, ...

• placement des tables de faits� niveau le plus bas des dimensions qui les composent

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen76

Modélisation des données : faits

• familles de tables de faits� tables de faits transactionnels

· correspondent à la vision la plus détaillée

· permettent des analyses de comportement très fines

· permettent d’isoler les dimensions

ex : transaction à un GAB– date et heure, lieu, compte, type de transaction

· fait == montant de transaction

� tables des instantanés périodiques· correspondent à une vision synthétique, sur une période

· s’appuient sur les tables de transaction

ex : instantané journalier GAB– montant des retraits/jour, montant des dépôts/jour, nb consultations, …

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen77

Modélisation des données : faits

• familles de tables de faits� tables des agrégats

· contiennent des récapitulatifsdans un but essentiel d’optimisation des performances

· familles de tables de faits dérivés de la table de faits la plus détailléedans les DM

� tables de faits sans faits· servent à décrire des évènements ou des couvertures d’évènements

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen78

Modélisation des donnéesconversion schéma entité/relation -> schéma décisionnel

• scinder le schéma entité/relation en autant de sous schémas que de processusmétier

• dans chaque sous schéma, sélectionner les relations n-n contenant des faitsnumériques et additifs (autres que les clés) et en faire des tables de faits

• dé-normaliser toutes les autres tables en tables dotées de clés uniques, reliéesdirectement aux tables de faits (<= tables dimensionnelles)

• si une table dimensionnelle est reliée à plusieurs tables de faits, elle estreprésentée dans tous les schémas correspondants et correspond à une dimensionconforme.

Page 14: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

14

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen79

Optimisation : agrégation

• élaborer plusieurs séries d’agrégats, représentant plusieurs niveauxde regroupement le long des dimensions

� basé sur les requêtes types des utilisateurs (<= tuning)

• créer les agrégats à l’extérieur du SGBD� phase ETML

• possibilité de� créer de nouveaux agrégats� mettre des agrégats hors service� supprimer des agrégats obsolètes

de manière transparente pour les utilisateursRecommandations :

bonnes performances : volume des tables d’agrégats = = volume des tables de détail

performances dégradées : volume des tables d’agrégats < 25% volume des tables de détail

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen80

Optimisation : agrégation• navigateur d’agrégats

clientémetteur de requêtes

navigateur d’agrégats

SGBDdonnées

+agrégats

métadonnées

SQL

SQL « agrégats »traduction « tirant parti »des agrégats

résultatsagrégés

résultatsagrégés

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen81

Optimisation : agrégation

• règles� stocker les agrégats dans leurs propres tables de faits,

indépendamment des tables de base· ne pas mélanger les niveaux de détail (évite les erreurs de double comptage)

· permet une meilleure administration des agrégats� constituer une « famille de schémas », regroupant la table de faits de base

et les tables d’agrégats dérivées· permet au navigateur de repérer les tables liées les unes aux autres

� réduire les tables dimensionnelles associées aux tables d’agrégatspar rapport aux tables dimensionnelles associées aux faits de base

· ne garder que les attributs dimensionnels relatifs aux niveaux supérieurs auxniveaux d’agrégation

� veiller à ce que le code SQL fasse référence aux tables de faits de base etaux tables dimensionnelles associées

· les agrégats n’ont pas à être connus des utilisateurs …

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen82

Optimisation : indexation• accélération des accès aux données

• index B-arbre� attributs à forte cardinalité� chemins de longueur identique de la racine vers n’importe quelle feuille� taux de remplissage d’au moins 50% garanti pour chaque nœud

B-arbre+ généré automatiquement sur la clé primaire d’une table

22 54

10 14 22 31 39 54

1 3 8 10 11 12 14 16 18 20 22 35 36 37 3924 30 31 5441 45 49 50

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen83

Optimisation : indexation

• index bitmap� attributs à faible cardinalité

� utilisés couramment pour les attributs dimensionnels

idProduit gamme … ventes

P1P2P3P4P5P6P7P8P9

112132312

101020153025401020

bitmapgamme=1

110100010

bitmapgamme=3

bitmapgamme=2

001001001

000010100

bitmapgamme=1

bitmapgamme=2

bitmapgamme=3

B-arbre sur gamme

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen84

Optimisation : indexation

• indexation des tables de faits� B-arbre sur la clé

� prévoir des index sur les attributs de jointure (optimiseur de requêtes)

� prévoir des index en cas de filtrage sur les valeurs des faits

• indexation des tables dimensionnelles� B-arbre sur la clé

� prévoir des index (B-arbre ou bitmap) sur les attributs dimensionnelsle plus souvent utilisés

• chargement� supprimer les index� charger� reconstruire les index

Page 15: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

15

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen85

Optimisation : fragmentation

• partitionnement horizontal

• partitionnement vertical

A1 AnA2

BpB2A1 AnA2

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen86

Optimisation : fragmentation

• partitionnement des tables volumineuses� tables de faits (le plus souvent selon la date), tables dimensionnelles

� accès par les requêtes aux partitions nécessaires à leur résolution uniquement

• partitionnement des index associés

NB : partitionnement transparent aux utilisateurs

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen87

Optimisation : parallélisme

• utilisation optimale des ressources� répartition des traitements sur un ensemble de processeurs

T1 : a1*b1+c1/d1 T2 : a2*b2+c2/d22 processeurs : p1 et p2

p1 r11 = a1*b1 r22 = c2/d2 r2 = r21+r22p2 r12 = c1/d1 r1 = r11+r12 r21 = a2*b2

parallélisme MIMD

p1 a1 b1 c1 d1p2 a2 b2 c2 d2

parallélisme SIMD, vectoriel

* + /

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen88

Optimisation : parallélisme

• architectures� SMP (Symmetric MultiProcessing)

� NUMA (Non Uniform Memory Access)

Tous les processeurs • ont la même priorité• partagent un unique espace d’adressage mémoire

CPU CPU

mémoire

CPU CPU

mémoire mémoire

CPU CPU

… …Tous les processeurs • ont la même priorité• partagent un unique espace d’adressage mémoire

Organisation en grappes, chaque processeur a une mémoire primairedes mémoires secondaires distantes

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen89

Optimisation : parallélisme

• architectures� clusters

� MPP (Massively Parallel Processing)

CPU CPU

mémoire

… CPU CPU

mémoire

… mémoire distribuée,bon mécanisme de reprise après panne,« scalable ».

Configurations à 2, 4, 8 noeuds

CPU

mémoire

CPU

mémoire

CPU

mémoire

CPU

mémoirechaque processeur a sa mémoire privée,tous les processeurs sont interconnectés

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen90

Optimisation : parallélisme

• avantage� gain de performance pour les très gros SGBD

• inconvénient� nécessité d’adaptation des logiciels au parallélisme

· veiller à répartir équitablement les tâches, à ne pas faire d’opérationscontradictoires sur les données

performances

processeurs

MPP

NUMA

SMP

Cluster

Page 16: dwh - valoria.univ-ubs Michele.Raphalen - powerpoint tres bien detaille

16

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen91

Optimisation : parallélisme• problématique des SGBD

� consultation· accès en lecture sur de gros volumes de données

� maintenance· chargements, mises à jour· sauvegardes

• solutions� partager les tâches utilisateurs sur les processeurs

· attention aux tâches « batch »� diviser les tâches en sous-tâches se déroulant en parallèle

- SELECT * FROM E

- jointures par hachageregroupement de tuples des tables dans des paquets, définis par un fonction dehachage et qui composent des fragments pouvant être traités en parallèle.

SELECT * FROM E1

SELECT * FROM E2

fragments

UFR SSI / UBSDESS ASIR

Systèmes d’information décisionnels Michèle Raphalen92

Optimisation : parallélisme• solutions

� partager les données· solution pour les sauvegardes :

lancer les sauvegardes de différents tablespaces en parallèle� coordination des verrouillages et déverrouillages

· protocoles à 2 ou 3 phases, avec échange de messages

� parallélisation des entrées/sorties· répartition des données sur les différents contrôleurs

– réduction des contentions– lectures distribuées sur les contrôleurs

à condition que les données soint équitablement réparties …– adapté au partitionnement

· au minimum– séparer tables, index, journaux, dictionnaire, …