Post on 02-Dec-2021
02/04/2018
1
2017-2018O. Boussaid
Introduction aux Systèmes d'Information Décisionnels
2017-2018O. Boussaid
Plan :
1. Généralités1.1. Les systèmes d’information décisionnels1.2. Les différentes phases du processus décisionnel
2. Modélisation des entrepôts de données2.1. Modèles en étoile2.2. Modèles en flocons de neige2.3. Modèles en étoile en constellation2.4. Représentation des données2.5. Les différentes approches (ROLAP, MOLAP, HOLAP)2.6. Alimentation des entrepôts de données
3. L'analyse en ligne (OLAP)3.1. Approche OLTP contre Approche OLAP3.2. L’analyse en ligne : principes3.3. Les magasins et les cubes de données3.5. Les différentes opérations d'OLAP
02/04/2018
2
2017-2018O. Boussaid
Les entreprises passent à l'ère de l'information.
F Défi : Transformer leur système d'informationqui avait une vocation de production en un SIdécisionnel dont la vocation de pilotage devientmajeure.
G Le décisionnel ?
2017-2018O. Boussaid
v Système de production
Ø Transaction fréquentes des données sous forme de modifications (Écriture/Lecture)
Ø Les systèmes de production (OLTP) garantissent la cohérence des données
Ø Les systèmes de production sont conçus pour les tâches répétitives et planifiées
Les Systèmes d’informations Décisionnels
02/04/2018
3
2017-2018O. Boussaid
• Un système d'information décisionnel est un ensemble dedonnées organisé de façon spécifique, approprié à la prise dedécision.
Outils : Data warehouses(Entrepôt de données)
OLAP(Analyse en ligne)
• Connaître l'environnement dans lequel on évolue
• Finalité d'un système décisionnel : pilotage de l'entreprise
Les Systèmes d’informations Décisionnels
2017-2018O. Boussaid
Entrepôt de Données
Système d'Info. de Production
Orientation : GestionSystème d'Info. Décisionnel
Orientation : Pilotage
BD Magasins
BD Clients
BD Produits
BD Compta
BD DRH
BD Marketing
BD Fournisseurs
Flux de données externes
Flux de données externes
02/04/2018
4
2017-2018O. Boussaid
Les bases de production : toutes les sources de données(légales, juridiques, fiscales, politiques, techniques, marketing)
Comment organiser ces différentes données dans unensemble cohérent afin de procéder à toutes les analysesnécessaires pour construire les indicateursindispensables au pilotage de l'entreprise ?
Par un processus d'entreposage de données
Entreposage de données(Data Warehousing)
Les Systèmes d’informations Décisionnels
2017-2018O. Boussaid
G Qu'est ce qu'un Entrepôt de Données ?D'après BILL Inmon :
“Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision.”
Thématiques : thèmes par activités majeures ;Intégrées : divers sources de données ;Non volatiles : ne pas supprimer les données du DW ;Historisées : trace des données, suivre l'évolution des indicateurs.
Pb de volumétrie, de stockage, d'accès.
Les Systèmes d’informations Décisionnels
02/04/2018
5
2017-2018O. Boussaid
v Architecture d’un SID
Entrepôt de données
Méta donnée
s
Data Marts
Administrateur
OLAP
Data Mining
Analyses statistiques
Bases de
production
OLAP Reporting
ETL
Les Systèmes d’informations Décisionnels
2017-2018O. Boussaid
Data Mining
Analyses statistiques
OLAP Reporting
Phase OLAP
Entrepôt de données
Méta donnée
s
Data Marts
Administrateur
OLAP
Phase Structuration
Les différentes phases
Bases de
production
ETL
Phase ETL
v Architecture d’un SIDLes Systèmes d’informations Décisionnels
02/04/2018
6
2017-2018O. Boussaid
Phase ETL Phase Structuration Phase OLAP
Ü Conception
Ü Modélisation
Ü Structuration
Ü Administration
Ü Extraction
Ü Transformation
Ü Alimentation
Ü Administration
Ü Analyse
Ü Restitution
Ü Administration
Les différentes phases
v Architecture d’un SIDLes Systèmes d’informations Décisionnels
2017-2018O. Boussaid
GQu'est ce que l'Entreposage des données ?
Ü Structuration et Stockage
Ü ETL
Ü Analyse & Restitution
Les 3 phases :
Les Systèmes d’informations Décisionnels
02/04/2018
7
2017-2018O. Boussaid
Il s'agit de définir la finalité de l'ED :
♠ Piloter quelle activité de l'entreprise ; ♠ Déterminer et recenser les données à entreposer ; ♠ Définir les aspects techniques de la réalisation ;♠ Construire les modèles de données ; ♠ Mettre au point les démarches d'alimentation (ETL) ; ♠ Définir les stratégies d'administration ; ♠ Définir des espaces d'analyse ; ♠ Définir le mode de restitution…
v Conception
Les Systèmes d’informations Décisionnels
2017-2018O. Boussaid
Travail technique. ♠ Extraction des données des différentes BD de production
(internes ou externes)
♠ Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées.
♠ Techniques d'alimentation :û Chargement des données dans l'EDû Fréquences de rafraîchissement :
ü par applications d' interfaces entre les sources de données et l'EDü par serveurs de réplication du SGBD ou par outils spécialisés
v E T L
Les Systèmes d’informations Décisionnels
02/04/2018
8
2017-2018O. Boussaid
♠ C'est le but du processus d'entreposage des données.
♠ Elle conditionne le choix de l'architecture de l'ED et de sa construction.
♠ Elle doit permettre toutes la analyses nécessaires pour la construction des indicateurs recherchés.
v Analyse et Restitution
Les Systèmes d’informations Décisionnels
2017-2018O. Boussaid
Elle est constituée de plusieurs tâches pour assurer :
♠ la qualité et la pérennité des données aux différents applicatifs ; ♠ la maintenance ;♠ la gestion de configuration ;♠ les mises à jour ;♠ l'organisation, l'optimisation du SI ;♠ la mise en sécurité du SI.
v AdministrationLes Systèmes d’informations Décisionnels
02/04/2018
9
2017-2018O. Boussaid
Proportionsdelachargeduprojetdécisionnel
Alimenter 50%
Fabriquer 15%
Administrer 15%
Restituer 20%
Les Systèmes d’informations Décisionnels
2017-2018O. Boussaid
MODELISATION
02/04/2018
10
2017-2018O. Boussaid
COMMANDEN° CdeDate Cde
PRODUITCode produitNom ProduitDescription Produit
Catégorie
Description catégoriePrix unitaireCLIENT
N° ClientNom Client
Adresse ClientVille
DATE Clef dateDate
MoisAnnée
VENDEURCode vendeurNom Vendeur
Ville VendeurQuota
VILLENom VilleRégion
Pays
TABLE DE FAITS
QuantitéPrix total
N° Cde
Code vendeurN° Client
Clef dateCode produit
Nom Ville
F Modélisation des ED : Le modèle en étoile
2017-2018O. Boussaid
Le modèle en étoileÄ Une table de faits : identifiants des tables de dimension ; une ou
plusieurs mesures .
Ä Plusieurs tables de dimension : descripteurs des dimensions.
Ä Une granularité définie par les identifiants dans la table des faits.
Avantages :♦ Facilité de navigation♦ Performances : nombre de jointures limité ; gestion des données creuses.♦ Gestion des agrégats♦ Fiabilité des résultats
Inconvénients :♦ Toutes les dimensions ne concernent pas les mesures♦ Redondances dans les dimensions♦ Alimentation complexe.
02/04/2018
11
2017-2018O. Boussaid
Dans la grande distribution :Quelques tables de faits : détaillées et volumineusesTables de dimensions :
Classiques : produits, fournisseurs, temps, établissements (structure géographique, fonctionnelle)...
Stratégiques : Clients, Promotions, ....
Rq : Obtenir le plus d'enregistrements possibles.
Dans le secteur des banques :Tables de faits : nombreuses, dédiées à chaque produit, peudétaillées et peu volumineuses.Tables de dimensions :
Classiques : produits, temps, établissement (structure géographique, fonctionnelle), ...Stratégiques : Clients, ....
Rq : Obtenir le plus de données (champs) possibles.
Exemples de modèles
2017-2018O. Boussaid
Le modèle de l' ED doit être simple à comprendre.On peut augmenter sa lisibilité en regroupant certaines dimensions. On définit ainsi des hiérarchies.
Celles-ci peuvent être géographiques ou organisationnelles.
Le modèle en flocons de neige
Exemple : Commune, Département, Région, Pays, Continent
Client Commune Département Region Pays ContinentPepone Lyon 1° Rhône Rhône-Alpes France EuropeTestut Lyon 2° Rhône Rhône-Alpes France EuropeSoinin Lyon 3° Rhône Rhône-Alpes France EuropeVepont Paris 1° Paris Ile-de-France France EuropeMartin Paris 2° Paris Ile-de-France France EuropeElvert Versailles Yvelines Ile-de-France France Europe
02/04/2018
12
2017-2018O. Boussaid
PRODUITCOMMANDE Code produit
N° Cde Nom ProduitDate Cde Description Produit
TABLE DE FAITS CatégorieN° Cde Description catégorie
CLIENT N° Client Prix unitaireN° Client Code vendeurNom Client Code produit DATE Adresse Client Clef date Clef dateVille Nom Ville Date
Quantité MoisVENDEUR Prix total Année
Code vendeurNom Vendeur VILLEVille Vendeur Nom VilleQuota Région
Pays
PRODUIT CATEGORIECOMMANDE Code produit Catégorie
N° Cde Nom Produit Desc. CatDate Cde Desc. Produit
TABLE DE FAITS CatégorieN° Cde Prix unitaire
CLIENT N° ClientN° Client Code vendeur ANNEENom Client Code produit DATE MOIS AnnéeAdresse Client Clef date Clef date MoisVille Nom Ville Date Année
Quantité MoisVENDEUR Prix total
Code vendeurNom Vendeur VILLE REGION PAYSVille Vendeur Nom Ville Région PaysQuota Région Pays
Pays
Le modèle en flocons de neige
2017-2018O. Boussaid
Lorsque les tables sont trop volumineuses
Avantages :• réduction du volume,• permettre des analyse par pallier (drill down) sur la
dimension hiérarchisée.
Inconvénients :• navigation difficile ;• nombreuses jointures.
Modèle en flocons de neige =
Modèle en étoile + normalisation des dimension
Le modèle en flocons de neige
02/04/2018
13
2017-2018O. Boussaid
Le modèle en constellation (Fact-flaked)
La modélisation en constellation consiste à fusionnerplusieurs modèles en étoile qui utilisent des dimensionscommunes.
Un modèle en constellation comprend donc plusieurstables de faits et des tables de dimensions communes ounon à ces tables de faits.
2017-2018O. Boussaid
Lemodèle en constellation (ou en flocons de faits)
02/04/2018
14
2017-2018O. Boussaid
Lemodèle en constellation (ou en flocons de faits)Autre représentation
2017-2018O. Boussaid
Calculer ou estimer le nombre d'enregistrements
Prendre en compte :
Ø La table des faits
Ø Les dimensions significatives
Ø Les agrégats
Ø Les index
Ø Saisonnalité des ventes
Ø Croissance du CA, des encours, du nombre de points de ventes
Estimer le volume du DW
02/04/2018
15
2017-2018O. Boussaid
Exemples :Grandes distribution :
CA annuel : 80 000 M$Prix moyen d'un article d'un ticket : 5$Nbre d'articles vendus pour un an : 80 * 109 / 5 = 16 * 109
Volume du DW :
16*109 *3 ans * 24 octets = 1,54 To (1,54*1012 = 1 540 Go)
Téléphonie :Nbre d'appels quotidiens : 100 millionsHistorique : 3 ans * 365 jours= 1 095 joursVolume du DW :
100 millions * 1 095 jours * 24 octets = 3,94 To
Cartes de crédit :Nbre de clients : 50 millionsNbre moyen mensuel de transactions : 30Volume :
50 millions * 26 mois * 30 transactions * 24 octets = 1,73 To
2017-2018O. Boussaid
Evolution des unités de volumétrie des données :
Unité Symbole
Valeur Observation
Octet Octet 1oreprésenteuncaractère d'imprimerie(8bits)
KiloOctet Ko 1000(1024)
30Ko:unepagedetexte100Ko :imagenumériquebasserésolution
MegaOctet Mo 106 5Mo:unmorceaudemusique500Mo :unCD-Rom
GigaOctet Go 109 1Go:1filmde2heures500Go àunHDdePC
TeraOctet To 1012 1To:6millionsdelivres;lamoitiésducataloguedelaBNdeFrance10To: presquelavolumétriedelabibliothèqueduCongrèsAméricain
PetaOctet Po 1015 1Po :2milliardsdephotosnumériquesderésolutionmoyenne8Po:trèsgrandepartiedel'informationsurInternet
ExaOctet Eo 1018 5Eo :Toutes lesinformations produites jusqu’à 2003
ZettaOctet Zo 10 21 1,8Zo : Latotalitédesinformationsproduitesjusqu’à2011
YottaOctet Yo 1024 1Yo : C’estcequepourratraiterundatacentersimultanément
v Volumétrie des données massives
02/04/2018
16
2017-2018O. Boussaid
Les données sont perçues à travers plusieurs dimensions. Elles sont qualifiées de multidimensionnelles, indépendamment de leur support (tables relationnelles ou tableaux multidimensionnels)
Produit Region VentesClous Est 50Clous Ouest 60Clous Centre 100Vis Est 40Vis Ouest 70Vis Centre 80Boulons Est 90Boulons Ouest 120Boulons Centre 140Nettoyeurs Est 20Nettoyeurs Ouest 10Nettoyeurs Centre 30
Es t O u e s t Ce n t r e
Clo u s 50 60 100V is 40 70 80Bo u lo n s 90 120 140N e t t o y e u r s 20 10 30
Représentation des données dans une table relationnelle
Représentation des données dans un tableau multidimensionnel
v Représentation des données
2017-2018O. Boussaid
les requêtes décisionnelles sont de type :
“ Quelle est le total des ventes dans la région Est ?”
On peut calculer divers totaux.
Ø Tables relationnelles : on peut traiter quelques centaines de tuples par seconde.
Ø Tableau multidimensionnel : on peut rajouter en lignes et en colonnes plus de 10 000 valeurs par seconde.
Pour accélérer les temps de réponses, il est préférable de pré-calculer des sous totaux.
v Représentation des données
02/04/2018
17
2017-2018O. Boussaid
Produit Region Ventes
Clous Est 50Clous Ouest 60Clous Centre 100Clous Total 210
Vis Est 40Vis Ouest 70Vis Centre 80Vis Total 190
Boulons Est 90Boulons Ouest 120Boulons Centre 140Boulons Total 350
Nettoyeurs Est 20Nettoyeurs Ouest 10Nettoyeurs Centre 30Nettoyeurs Total 60
Total Est 200Total Ouest 260Total Centre 350
Total Total 810
Est Ouest Centre Total
Clous 50 60 100 210Vis 40 70 80 190Boulons 90 120 140 350Nettoyeurs 20 10 30 60Total 200 260 350 810
Pour le calcul de ces totaux : 28 accès en lecture et 8 accès en écriture.
Un SGBDR lit 200 enregist/s et en écrit environ 20/s.
OLAP consolide entre 20 et 30000 cellules/s
v Représentation des données
2017-2018O. Boussaid
La valeur ALL remplace une colonne ou une valeur d'agrégats.
Magasin Date Rayon CA Ventes Mag1 1/2/96 010 3500 Mag1 6/2/96 010 2500 Mag1 10/2/96 010 2900 Mag1 ALL 010 8900 Mag2 … … …
v Représentation des données
02/04/2018
18
2017-2018O. Boussaid
S'il y a N attributs concourant à la construction du cube, il y aura :
Dans la tables VENTES si on a 2*3*3 = 18 enregist. dans le cube on aura 3*4*4* = 48 enregist.
Soit C1, C2, … ,CN les cardianlités des N attributs, le cube aura :
∏(Ci +1) enregistrements
2N-1 agrégations
v Représentation des données
2017-2018O. Boussaid
L'ensemble des données est stocké dans une BDR. Les données sont sous forme d'enregistrements (tuples).
VENTES (Magasin, Rayon, Date, CA Ventes, Nb Client)
Select Magasin, Date , Sum(CA Ventes)From VENTESGroup By Magasin, Date
Nouveaux opérateurs d'agrégation : cube , rollup.
FJ.Gray, A. Bosworth, A. Leyman, H. Pirahesh, “Data Cube : A relationnalAggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Total”, inData Mining and Knowledge Discovery Journal, 1(1), 1997]
F L'approche relationnelle (ROLAP)
v Les différentes approches d'OLAP
02/04/2018
19
2017-2018O. Boussaid
Select ALL, ALL, ALL, Sum(CA Ventes)From VENTESUNION Select Magasin, ALL, ALL, Sum(CA Ventes)From VENTESGroup-By Magasin ;UNION Select Magasin, Date, ALL, Sum(CA Ventes)From VENTESGroup-By Magasin, Date ;UNION Select Magasin, Date, Rayon, Sum(CA Ventes)From VENTESGroup-By Magasin, Date, Rayon ;
Select Magasin, date, Rayon, Sum(CA Ventes)From VENTESGroup-By Cube Magasin, Date, Rayon ;
L'opérateur cube est une généralisation N-dimensionnelle de fonctions d'agrégations simples . C'est un opérateur relationnel.
L'union de plusieurs group-by donne naissance à un cube :
F L'approche relationnelle (ROLAP)
2017-2018O. Boussaid
Il s'agit de stocker les données dans des tableaux multidimensionnels. Ces tableaux peuvent être éparses.
On y stocke dans les cellules les mesures (valeurs à observer), les données représentant les dimensions sont les coordonnéesde ces valeurs :
f = (d1, d2, …, dn, m1, m2, …, mp)
[Zhao Yihong, Deshpande Prasad M., Naughton Jeffrey F., «An Array-BasedAlgorithm for Simultaneous Multidimensional Aggregates», in SIGMOD Record n° 26, Vol 2, 1997.]
F L'approche multidimensionnelle (MOLAP)
02/04/2018
20
2017-2018O. Boussaid
Ø Plus on a de dimensions plus on a de cellules. Seulement une partie des produits peut être vendue ð des cellules sans valeur : données éparse.
BD éparse
Ø Une BD est considérée comme éparse si elle a moinsde 40% de ses cellules “ peuplées ”.
Ø Techniques de compression des données
Exemple :On dispose de 100 000 données (eq. tuples)4 dimensions ayant une cardinalité de 30 modalités chacune:
30 * 30 * 30 * 30 = 810 000 cellules (dont 710 000 vides : 12,3% seulement sont pleines)
F L'approche multidimensionnelle (MOLAP)
2017-2018O. Boussaid
F L'approche hybride (HOLAP)
50 000 Clients
500 Villes
5 Régions
1 Pays
BDR
BDM
Approche relationnelle : 30% du temps est consacré aux I/O.
Approche multidimensionnelle : 20%. (70% calculs et 10% décompression)
La 3° voie préconisée consiste à utiliser les tables comme structure permanente de stockage des données et les tableaux comme structure alors des requêtes.
La démarche consisterait en 3 étapes:
1. Charger les données d'une table vers un tableau.
2. Calculer le cube de ce tableau selon les méthodes initialement présentées.
3. Stocker les résultats (données agrégées) dans un table.
02/04/2018
21
2017-2018O. Boussaid
§ Simples “magasins de données” (Data Marts), on y stockera des données portant sur une seule des activités de l'entreprise.
§ Ceux sont en quelque sorte des vues métier.
§ Exemple Data mart Comptabilité, Data mart RH,.....
§ Ces mini ED peuvent alors être considérés comme des espaces d'analyse, du fait que les données sont bien moins nombreuses et surtout qu'elles sont thématiques.
§ Ils peuvent également servir de bases de construction à des cubes de données.
v Les magasins de données (data marts)
2017-2018O. Boussaid
Entrepôts, Magasins et Cubes de données
Data Mining
Analyses statistiques
OLAP Reporting
Entrepôt de
données
Magasins de données
MD
MD
MD
MD
MD
MD
Cube
Cube
Cube
Cubes de données
02/04/2018
22
2017-2018O. Boussaid
INTEGRATION
2017-2018O. Boussaid
Après avoir conçu le modèle des données, comment alimenter l'ED ?
Processus d'ETL (Extracting – Transforming – Loading)
F Construction d'un ED
02/04/2018
23
2017-2018O. Boussaid
þ Ce travail d'homogénéisation nécessite des règlesprécises servant de dictionnaire (ou de référentiel)et qui seront mémorisées sous forme demétadonnées (information sur les données).
þ Ces règles permettent d'assurer des tâchesd'administration et de gestion des donnésentreposées.
Alimenter un ED…þ Le principe de l'entreposage des données est de
rassembler de multiples données sources quisouvent sont hétérogènes en les rendant homogènesafin de les analyser.
2017-2018O. Boussaid
Ø Le dictionnaire (ou référentiel) de données est constitué de l'ensemble des métadonnées.
Ø Il renferme des informations sur toutes les données de l'ED.
Ø Il renferme également des informations sur chaque étape lors de la construction de l'ED ; sur le passage d'un niveau de données à un autre lors de l'exploitation de l'ED .
Le rôle des métadonnées est de permettre :
♣ La définition des données♣ La fabrication des données♣ Le stockage des données♣ L'accès aux données♣ La présentation des données.
Le dictionnaire
02/04/2018
24
2017-2018O. Boussaid
L'alimentation d'un ED est un processus qui s'effectue en plusieursétapes :
Ù Sélection des données sources
Ù Extraction des données
Ù Transformation
Ù Chargement
Processus d'ETL
2017-2018O. Boussaid
Quelles données de production faut-il sélectionner pour alimenterl'ED ?
Toutes les données sources ne sont forcément pas utiles.Doit-on prendre l'adresse complète ou séparer le code postal ?
Les données sélectionnées seront réorganisées pour servir à lafabrication des informations.
La synthèse de ces données sources a pour but de les enrichir.
v Sélection des données sources
02/04/2018
25
2017-2018O. Boussaid
La sélection des données utiles à partir des BD de production n'est passimple à faire .
Les données sont :
F hétérogènes (différents SGBD et différentes méthodes d'accès)
F diffuses (différents environnements matériels et différents réseaux interconnectés ou non)
F complexes (différents modèles logiques et physiques principalement orientés vers les traitements transactionnels)
.
v Sélection des données sources (suite)
La définition de la granularité dépend du niveau de raffinement de l'information qu'on veut obtenir
2017-2018O. Boussaid
ØL'extraction peut se faire à travers un outil d'alimentation qui doittravailler de façon native avec les SGBD qui gèrent les donnéessources.
ØOu alors créer des programmes extracteurs. L'inconvénient decette approche est le risque de faire des extractions erronées,incomplètes et qui peuvent biaiser l'ED.
Ø Il faut gérer les anomalies en les traitant et en gardant une trace
v Extraction des données
02/04/2018
26
2017-2018O. Boussaid
q L'extraction doit se faire conformément aux règles précises du référentiel.
q Elle ne doit non plus perturber les activités de production.q Il faut faire attention aux données cycliques. Celles qu'on doit
calculer à chaque période, pour pouvoir les prendre en considération.
q L'extraction peut se faire en interne selon l'horloge interne ou par un planificateur ou par la détection d'une donnée cible (de l'ED) ; ou en externe par des planificateurs externes.
q Les données extraites doivent être marquées par “horodatage”afin qu'elles puissent être pistées.
v Extraction des données (suite)
2017-2018O. Boussaid
Exemple
Donnés sourcesdonnées cibles
Appli 1 : male, femelle m, fAppli 2 : 1, 0 m, fAppli 3 : Masculin, féminin m, f
C'est une suite d'opérations qui a pour but de rendreles données cibles homogènes et puissent être traitéesde façon cohérente.
Donnés sourcesdonnées cibles
Appli 1 : $150,000 139 587 €.Appli 2 : 16 000 CHF 14 757 €.Appli 3 : 200.000£ 273 094 €.
v Transformations
02/04/2018
27
2017-2018O. Boussaid
v Chargement
þ C'est l'opération qui consiste à charger les données nettoyées et préparées dans le DW.
þ C'est une opération qui risque d'être assez longue. Il faut mettre en place des stratégies pour assurer de bonnes conditions à sa réalisation et définir la politique de rafraîchissement.
þ C'est une phase plutôt mécanique et la moins complexe.
2017-2018O. Boussaid
F Administration d'un ED
Ë L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent évolutif. Les données doivent donc changer. On doit procéder à d'autres alimentations et donc gérer l'actualisation des données.
Ë Il existe des outils qui prennent en charge les tâches de rafraîchissement des données.
Ë Ils procèdent par réplication pour propager les m.a.j. effectuées dans les BD sources dans l'ED.
Ë Le mécanisme de réplication et une opération de copie de données d'une BD vers une ou plusieurs BD.
Ë Les réplications sont alors asymétriques synchrones ou asynchrones ou alors symétriques synchrones ou asynchrones.
Ë Le rafraîchissement des données peut se faire également par des processus de transformation qui exploitent les méta-données.
02/04/2018
28
2017-2018O. Boussaid
@ La fonction d'administration porte sur un aspect fonctionnel (qualité et pérennité des données) mais aussi sur un aspect technique (maintenance, optimisation, sécurisation...)
@ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des données de production à la mise à disposition pour construire les espaces d'analyse.
@ L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance des données, méta-données).
@ Les données agrégées sont aussi une production (information) de l'entreprise comme les données de production (ERP), doivent être entreposées.
@ Ainsi le développement de l'ED témoignera aussi bien de la production de base que de l'activité informationnelle (pilotage de l'entreprise).
@ Les requêtes portent plus souvent sur les agrégats que sur les données de base. (80% - 20%)
F Administration d'un ED (suite)
2017-2018O. Boussaid
@ La fonction de DBA est très recherchée
@ Les DBA sont bien rémunérés (mieux que les développeurs)
@ Les compétences demandées chez les DBA :
Ø Data warehousing (très recherché)
Ø Services de transformation des données (ETL)
Ø Environnement de réplication
F Administration d'un ED (suite)
02/04/2018
29
2017-2018O. Boussaid
OLAP
2017-2018O. Boussaid
OLTP (On-Line Transactional Processing)
• Les applications conçues pour des opérations quotidiennes dans les BD.• Ces transactions nécessitent des données détaillées et actualisées. • Les BD vont de quelques milliers de Mo à des Go..
OLAP (On-Line Analytical Processing)
• Les données sont historisées, résumées, consolidées.• Les EDs contiennent des données sur une longue période de temps.• Les EDs vont de centaines de Go à des To (Téra octets).
G l'analyse multidimensionnelle (OLAP)
Approche Transactionnelle contreApproche Analytique
02/04/2018
30
2017-2018O. Boussaid
OLAP (On-Line Analytical
Processing)
Les préconisations de Codd
2017-2018O. Boussaid
Les 12 règles d'OLAP1°) une vue multidimensionnelle des données.
2°) La transparence vis à vis de l'utilisateur qui doit accéder à la BD par l'intermédiaire d'outils
simples (tableur, par ex).
3°) La BD doit disposer d'un modèle et d'outils permettant d'accéder à de multiples sources,
d'effectuer les conversions et extractions nécessaire pour alimenter la Base OLAP.
4°) Le modèle de données, le nombre de dimensions ou le nombre de niveaux d'agrégation doivent
pouvoir changer, sans remettre en cause le fonctionnement de la base.
5°) Architecture Client/Serveur.
6°) Toutes les dimensions définies dans le modèle de données doivent être accessibles pour chacune
des données.
7°) Gestion des matrices creuses. Les parties vides du cube multidimensionnel doivent être stockées
de manière à ne pas détériorer les temps d'accès.
8°) Accessibilité simultanément par plusieurs utilisateurs.
9°) Toutes les données stockées ou calculées dans le cube doivent être accessibles et les règles de
gestion doivent toujours s'y appliquer. Toutes les tranches de cube doivent être visualisées.
10°) Navigation aisée dans les données pour les utilisateurs, de manière intuitive.
11°) Outil de présentation des données.
12°) Nombre illimité de dimensions et de niveaux d'agrégation.
02/04/2018
31
2017-2018O. Boussaid
v Les différentes techniques de restitution :
F La représentation cartographique ou par color coding
F Les requêteurs• Les outils graphiques d'interrogations• Les outils utilisant un modèle avec schéma renommé• Les outils EIS/SIAD
F Les Outils statistiques et le Data Mining
§ d'analyse exploiratoire (techniques statistiques, visualisation, recherche d'associations, typologies, réseaux de neurones)
§ d'analyse confirmatoire (techniques de régressions, de segmentations, réseaux de neurones)
§ d'analyse de modèles prédictifs (techniques de régressions, de segmentations, réseaux de neurones).
Tous les outils pouvant synthétiser, explorer, confirmer, expliquer , prédire les données sont des outils de restitution
2017-2018O. Boussaid
1. Opérateurs liés à la structure2. Opérateurs liés à la granularité3. Opérateurs ensemblistes
Opérateurs OLAP
02/04/2018
32
2017-2018O. Boussaid
Fonctiond'agrégation
CatégorieProduits
Cat.1 Cat.2 Cat.3
Produits App.Photo Lect. DVD App.Photo
Homecine Lect.DVD
Homecine
Lect. DVD
Villes Lyon Paris Lyon Marseille Paris Paris Marseille
Trim
estre
T1
Mois
m1
Dates
d1
m2 d2
m3 d3
T2
m4 d4
m5 d5
m6 d6
T3
m7 d7
m8 d8
m9 d9
L'analyse en ligne (O.L.A.P.)v Table dimensionnelleducubeVentes
2017-2018O. Boussaid
• CUBE :VENTES• FAIT :LecteurDVD,LYON,01/02/15,100•RÉFÉRENCE:LecteurDVD,LYON,01/02/15•MESURE :100•MEMBRE/PARAMÈTRE :LYON•DIMENSION :VILLES•NIVEAU :VILLES
v Multi-représentationsduCubeVentes
L'analyse en ligne (O.L.A.P.)
02/04/2018
33
2017-2018O. Boussaid
v Cube des ventesL'analyse en ligne (O.L.A.P.)
VILLES Lyon Marseille Paris
Mesures CA Qté vendue CA Qté vendue CA Qté vendue
PRODUITS
HomeCinéma
DATES
01/02/2015 20 000,00€ 21 6 000,00€ 4 14 000,00€ 2204/02/2015 6 000,00€ 13 1 600,00€ 7 7 500,00€ 1708/03/2015 1 200,00€ 4 16 000,00€ 7 2 000,00€ 1409/03/2015 5 500,00€ 4 1 200,00€ 4 1 500,00€ 115/04/2015 800,00€ 316/04/2015 1 700,00€ 11 1 870,00€ 6 1 600,00€ 317/04/2015 1 900,00€ 9 600,00€ 122/04/2015 2 000,00€ 323/04/2015 650,00€ 224/04/2015 500,00€ 2
App.Photonum
01/02/2015 16 000,00€ 30 10 140,00€ 10 9 000,00€ 2504/02/2015 2 600,00€ 5 2 000,00€ 6 13 800,00€ 1608/03/2015 2 000,00€ 7 20 000,00€ 8 5 000,00€ 2109/03/2015 7 500,00€ 5 1 000,00€ 3 1 720,00€ 115/04/2015 1 200,00€ 416/04/2015 5 000,00€ 30 1 330,00€ 4 3 000,00€ 617/04/2015 1 100,00€ 4 400,00€ 122/04/2015 1 200,00€ 223/04/2015 850,00€ 324/04/2015 400,00€ 3
LecteursDVD
01/02/2015 15 400,00€ 20 4 000,00€ 6 7 000,00€ 1504/02/2015 2 900,00€ 5 6 000,00€ 14 1 700,00€ 408/03/2015 4 000,00€ 13 14 000,00€ 5 1 000,00€ 509/03/2015 7 000,00€ 5 3 000,00€ 7 1 780,00€ 115/04/2015 4 000,00€ 816/04/2015 2 000,00€ 10 2 300,00€ 2 2 400,00€ 317/04/2015 2 200,00€ 10 400,00€ 122/04/2015 400,00€ 123/04/2015 500,00€ 324/04/2015 600,00€ 5
2017-2018O. Boussaid
Roll up sur la dimension ''Produits'’ (forage vers le haut)v Lesdifférentesopérations d'agrégation: Rollup
Villes Lyon Marseille Paris
Mesures CA Qtévendue CA Qté
vendue CA Qtévendue
Dates
01/02/15 54 100,00€ 71 20 140,00€ 20 30 000,00€ 62
04/02/15 11 500,00€ 23 9 600,00€ 27 23 000,00€ 37
08/03/15 7 200,00€ 24 50 000,00€ 18 8 000,00€ 40
09/03/15 20 000,00€ 14 5 200,00€ 14 5 000,00€ 3
15/04/15 6 000,00€ 15
16/04/15 8 700,00€ 51 5 500,00€ 13 7 500,00€ 12
17/04/15 5 200,00€ 23 1 400,00€ 3
22/04/15 3 600,00€ 6
23/04/15 2 000,00€ 6
24/04/15 1500,00€ 3
L'analyse en ligne (O.L.A.P.)
02/04/2018
34
2017-2018O. Boussaid
Roll up sur les 2 dimensions ''Produits'' et ''Dates''
Villes Lyon Marseille Paris
Mesures CA Qtévendue CA Qtévendue CA Qtévendue
107500,00€ 198 101240,00€ 130 74900,00€ 157
Villes
Mesures CA Qtévendue
283640,00€ 485
Roll up sur les 3 dimensions ''Produits'', ''Dates'' et ''Villes''
v Lesdifférentesopérations d'agrégation: RollupL'analyse en ligne (O.L.A.P.)
2017-2018O. Boussaid
Drill down sur la mesure ''CA'' selon la dimension ''Villes'' (forage vers le bas)
Villes Lyon Marseille Paris
Mesures CA Qtévendue CA Qtévendue CA Qtévendue
107500,00€ 198 101240,00€ 137 74900,00€ 157
Villes
Mesures CA Qtévendue
283640,00€ 492
Le résultat duDrill down donne :
???
v Lesdifférentesopérations d'agrégation: DrilldownL'analyse en ligne (O.L.A.P.)
02/04/2018
35
2017-2018O. Boussaid
Drill down sur la mesure ''CA'' selon la valeur ''Lyon'' de la dimension ''Villes'' endéveloppant la dimension ''Dates''
Villes Lyon Marseille Paris
Mesures CA Qté vendue CA Qté vendue CA Qtbiévendue
107500,00€ 198 101240,00€ 137 74900,00€ 157
Le résultat du Drill down donne :???
Villes LyonMesures CA Qté vendue
107500,00€ 198
Dates
01/02/2008 54100,00€ 7104/02/2008 11500,00€ 2308/03/2008 7200,00€ 2409/03/2008 20000,00€ 1415/04/2008 6000,00€ 1516/04/2008 8700,00€ 51
v Lesdifférentesopérations d'agrégation: DrilldownL'analyse en ligne (O.L.A.P.)
2017-2018O. Boussaid
L'opérationduDrillpeutsedéclinerenplusieursautresopérations :
q Drillaccross :Drilllatéral,comparaisonsurdesmesuresdansplusieurstablesdefaits
q Drill through :voirl'informationàtraversplusieursdimensions
q Reach through :voirl'informationenprofondeur,jusqu'auxdonnéesdebase
Ø Permet d'obtenir des détails sur la signification d'un résultat en affinant une dimensionou en ajoutant une dimension.
Ø Opération coûteuse d'où son intégration dans le système.Ø Exemple : un chiffre d'affaire suspect pour un produit donné :
• ajouter la dimensionMois : envisager l'effet week-end
• ajouter la dimension Villes : envisager l'effet géographique
v Lesdifférentesopérations d'agrégation: Drilldown
L'analyse en ligne (O.L.A.P.)
02/04/2018
36
2017-2018O. Boussaid
Opérationdesélection etdeprojection desdonnées :
Ville=''Paris'' etDates< 10/03/2008
v Lesdifférentesopérations d'agrégation:Slice&Dice
L'analyse en ligne (O.L.A.P.)
2017-2018O. Boussaid
Opérationdesélection etdeprojection desdonnées :
v Lesdifférentesopérations d'agrégation:Slice&Dice
L'analyse en ligne (O.L.A.P.)
02/04/2018
37
2017-2018O. Boussaid
Ø Rotate(Pivot)
consisteàfaireunerotationàuncubeautourd'undesesaxes,demanièreàprésenterunensembledefacesdifférent.Unesortedesélectiondefacesetnondesmembres.
Ø Switch(Permutation)
consisteàinter-changerlapositiondesmembresd'unedimension.
Ø Split(Division )
consisteàprésenterchaquetrancheducubeetdepasserd'uneprésentationmultidimensionnelled'uncubeàsaprésentationsouslaformed 'unensemblede tables.Sagénéralisationpermetdedécouperunhypercube dedimension4encubesdedimension3,parexemple.
Ø Nest(Emboîtement)
permetd'imbriquerlesmembresd’unedimensiondansuneautredimension.L'intérêtdecetteopérationestqu'ellepermet degroupersurunemêmereprésentationbi-dimensionnelle touteslesinformations(mesuresetmembres)d'uncubequelquesoitlenombredesesdimensions.
Ø Push(Enfoncement)
consisteàcombinerlesmembresd'unedimensionauxmesuresducube,i.e.de fairepasserdesmembresdedimensioncommecontenudecellules (mesure),etréciproquement.
v OpérateursliésàlastructureL'analyse en ligne (O.L.A.P.)
2017-2018O. Boussaid
v Lesdifférentesopérations OLAP:ROTATE
L'analyse en ligne (O.L.A.P.)
02/04/2018
38
2017-2018O. Boussaid
v Lesdifférentesopérations OLAP:SWITCH
L'analyse en ligne (O.L.A.P.)
2017-2018O. Boussaid
v Lesdifférentesopérations OLAP:SPLIT
L'analyse en ligne (O.L.A.P.)
02/04/2018
39
2017-2018O. Boussaid
v Lesdifférentesopérations OLAP:NESTING
L'analyse en ligne (O.L.A.P.)