MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance...

21
2/16/20 1 MTI820 Entrepôts de données et intelligence d’affaires Architecture des entrepôts de données Département de génie logiciel et des TI MTI820 Hiver 2011 © S. Chafki, C. Desrosiers 1 1 Le cycle de vie d’un projet en BI Diagramme de flux de travail: Département de génie logiciel et des TI MTI820 Hiver 2011 © S. Chafki, C. Desrosiers 2 Planification de projet / programme Définition des besoins d’affaires Conception de l’architecture technique Modélisation des données Conception des application de BI Sélection et installation des produits Conception physique Conception et développement du système ETL Développement des applications de BI Déploiement Croissance Maintenance Gestion de projet / programme 2 Questions À quoi sert le plan architecturel d’une solution de BI? Quels sont les facteurs pouvant avoir un impact sur l’architecture de la solution? Département de génie logiciel et des TI MTI820 Hiver 2011 © S. Chafki, C. Desrosiers 3 3

Transcript of MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance...

Page 1: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

1

MTI820 − Entrepôts de données et intelligence d’affaires

Architecture des entrepôts de données

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 1

1

Le cycle de vie d’un projet en BI• Diagramme de flux de travail:

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 2

Planification

de projet / program m e

Définition

des besoins

d’affaires

Conception de

l’architecture technique

M odélisation

des données

Conception des

application de BI

Sélection et

installation des produits

Conception

physique

Conception et

développem ent du systèm e ETL

Développem ent

des applications de BI

Déploiem ent

Croissance

M aintenance

Gestion de projet / program m e

2

Questions• À quoi sert le plan architecturel d’une solution de BI?

• Quels sont les facteurs pouvant avoir un impact sur l’architecture de la solution?

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 3

3

Page 2: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

2

Architecture technique

• Besoins d’affaires: – « Que doit-on faire ? »

• Architecture:– « Comment allons-nous le faire ? »

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 4

4

La valeur de l’architecture• Encourage la satisfaction des besoins:

– Les besoins techniques dérivent des besoins d’affaires;– Documents d’architecture.

• Facilite la communication:– Illustre les différents rôles au sein du système;– Communique la complexité du projet aux cadres supérieurs.

• Aide à la planification:– Regroupe tous les détails techniques;– Identifie des dépendances et de nouveaux de besoins.

• Flexibilité, productivité et maintenance:– Métadonnées, sélection d’outils, etc.

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 5

5

Facteurs à considérer • L’interdépendance informationnelle entre les unités de

l’entreprise– Ex: bonne intégration (ex: MDM) VS silos de données

• Les sources de données– Ex: 1 source VS 10 sources, ERP VS legacy, etc.

• La quantité des données– Ex: gigaoctets VS teraoctets

• La latence des données– Ex: mise-à-jour hebdomadaire VS temps-réel

• L’urgence d’obtenir une solution fonctionnelle– Ex: entrepôt d'entreprise (EDW) VS magasin de données

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 6

6

Page 3: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

3

Facteurs à considérer

• Le nombre d'utilisateurs– Ex: 10-50 utilisateurs vs 50-200 utilisateurs

• La nature des tâches des utilisateurs finaux– Ex: rapports simples VS fouille de données

• Les contraintes sur les ressources– Ex: financières, main d'œuvre, biais technologique, etc.

• Les objectifs du projet– Ex: stratégique VS opérationnel

• Autres facteurs– Ex: politiques, habilités du personnel TI, etc.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 7

7

Questions

• Quelle est la différence entre un magasin de données et un entrepôt de données?

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 8

8

Les magasins de données (datamart)• Caractéristiques:– Contient une portion du contenu de l’entrepôt de

données;– Se concentre sur 1 sujet d’analyse

• Ex: les ventes OU les livraisons, mais pas les deux;

– Sert à faire des analyses simples et spécialisées • Ex: les fluctuations des ventes par catégorie de produits;

– Nombre de sources limitées, provenant la plupart du temps d’un même département;

– Processus ETL relativement simple– Même processus de conception que les entrepôts de

données, mais demande moins de ressources.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 9

9

Page 4: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

4

Magasins de données vs EDWCaractéristique Magasin de données Entrepôt de données (EDW)

Portée Un domaine d’analyse Plusieurs domaines d’analyse

Temps de développement Mois Années

Coûts de développement $ 10,000 à $ 100,000 + $ 1,000,000+

Complexité de développement Faible à moyenne Grande

Taille des données Mb à plusieurs Gb Gb jusqu’à plusieurs Pb

Horizon des données Courantes et historiques La plupart du temps historiques

Transformation des données Faible à moyenne Importante

Fréquence des mises-à-jour Horaire, journalier ou hebdomadaire

Peut aller jusqu’à mensuel

Nombre d’utilisateurs simultanés Dizaines Centaines à milliers

Types d’utilisateur Analystes dans le domainespécifique et gestionnaires

Analyste d’entreprise et cadres seniors

Objectifs d’affaires Optimisation des activités dans le domaine spécifique

Optimisation inter-fonctionnelle et support à la décision

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 10

Source: E. Turban, R. Sharda, D. Delen et D. King (2010). « Business intelligence: A manegerial approach », Pearson.

10

Questions

• Quelles sont les différentes architectures d’entrepôts de données?

• Quelles sont les critères permettant de comparer différentes architectures?

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 11

11

Les architectures d’entrepôts de données

1. Magasins de données indépendants

2. Architecture en bus de magasins de données

3. Architecture Hub-and-spoke

4. Entrepôt de données centralisé

5. Architecture fédérée

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 12

12

Page 5: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

5

Magasins de données indépendants

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 13

StagingAreaSource 1 Datamart 1

Systèmes source

Source 2

Source 3

ETL

Datamart 2

Datamart 3

silos de données

Datamartsindépendants Utilisateurs

StagingArea

StagingArea

App 1

Reporting

App 2

App 3

13

Magasins de données indépendants• Caractéristiques:

– Les datamarts sont développés et opèrent de manière indépendante;

– Les données sont disposées en « silos fonctionnels »;– Pas de dimensions conformes.

• Avantages/inconvénients:(+) Architecture la plus simple et la moins coûteuse à développer;(−) Incohérences et redondances entre les datamarts(−) Il n’y a pas une seule version de la vérité;(−) Analyse inter-fonctionnelle difficile ou impossible;(−) Vision limitée, pas extensible.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 14

14

Bus de magasins de données

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 15

Stag

ing

Area

Source 1 Datamart 1

Systèmes source

Source 2

Source 3

ETL

Datamart 2

Datamart 3

Datamarts liés par dimensions

conformes Utilisateurs

Infra

stru

ctur

e de

repo

rtin

g

Reporting

Entrepôt de données conceptuel

15

Page 6: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

6

Bus de magasins de données• Caractéristiques:

– Approche bottom-up, proposée par R. Kimball;– Datamarts développés par sujet/processus d’affaires, en se basant

sur des dimensions conformes;– Modélisation dimensionnelle (schéma en étoile), au lieu du modèle

entité-relation (ex: 3FN);– Entrepôt de données conceptuel, formé de magasins de données

inter-reliés à l’aide d’une couche d’intergiciels (middleware).

• Avantages/inconvénients:(+) Intégration des données assurée par les dimensions conformes;(+) Approche incrémentale (processus les plus importants d’abord);(+) Donne des résultats rapidement;(−) Itérations futures plus difficiles à planifier;(−) Performance sous-optimale des analyses impliquant plusieurs

datamarts.Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 16

16

Architecture Hub-and-spoke(Corporate Information Factory)

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 17

Stag

ing

Area

Source 1 Datamart 1

Systèmes source

Source 2

Source 3

ETL

Datamart 2

Datamart 3

Entrepôt de données d’entreprise

Utilisateurs

Infra

stru

ctur

e de

repo

rtin

g

Reporting

EDW

Datamartsdépendants

Concentrateur (hub)

Rayons(spokes)

17

Architecture Hub-and-spoke• Caractéristiques:

– Approche top-down, proposée par B. Inmon et al.– Entrepôt (hub) contient les données atomiques (c.-à-d. le niveau de

détail le plus fin) et normalisées (3FN);– Les datamarts (spokes) reçoivent les données de l’entrepôt;– Les données des datamarts suivent le modèle dimensionnel et sont

principalement résumées (pas atomique);– La plupart des requêtes analytiques sont faites sur les datamarts.

• Avantages/inconvénients:(+) Intégration et consolidation complète et des données de

l’entreprise;(+) Approche itérative et potentiellement extensible (spokes);(−) Peut avoir de la redondance de données entre les datamarts;(−) Performance sous-optimale des analyses impliquant plusieurs

datamarts.Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 18

18

Page 7: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

7

Entrepôt de données centralisé

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 19

Stag

ing

Area

Source 1

Systèmes source

Source 2

Source 3

ETL

Entrepôt de données d’entreprise

Utilisateurs

Infra

stru

ctur

e de

repo

rtin

g

Reporting

EDW

19

Entrepôt de données centralisé• Caractéristiques:

– Similaire à Hub-and-spoke, mais sans les datamarts dépendants;– Gigantesque entrepôt de données servant l’entreprise entière;– Les données peuvent être atomiques ou résumées.

• Avantages/inconvénients:(+) Les utilisateurs ont accès à toutes les données de l’entreprise;(+) Intégration (ETL) et maintenance facile car les données sont à

un seul endroit;(+) Performance optimale (ex: Appliance warehouse, Teradata).(−) Long et coûteux à développer;(−) Pas incrémental;(−) Extensibilité limitée ou très coûteuse.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 20

20

Architecture fédérée

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 21

Stag

ing

Area

Source 1

Systèmes source

Source 2

Source 3

ETL

Entrepôtsde données autonomes Utilisateurs

Infra

stru

ctur

e de

repo

rtin

g

Reporting

EDW 1

EDW 2

EDW 3

(EDW)

Entrepôtde données

virtuel

Metadonnées

Intégration virtuelle

21

Page 8: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

8

Architecture fédérée• Caractéristiques:

– Entrepôt de données distribué sur plusieurs systèmes hétérogènes;– Opère de manière transparente (l’utilisateur ne voit pas que les

données sont réparties);– Données intégrées logiquement ou physiquement à l’aide de méta-

données (ex: XML);– Complémente plutôt que remplace (selon les experts).

• Avantages/inconvénients:(+) Utile lorsqu’il y a déjà un entrepôt en place (ex: acquisitions ou

fusions de compagnies);(+) Demande peu de ressources matérielles additionnelles.(−) Très complexe: synchronisation, parallélisme, concurrence, etc.(−) Peu de contrôle sur les sources et la qualité des données;(−) Faible performance (mais la technologie s’améliore).

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 22

22

Comparaison entre les architectures• Popularité:

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 23

Architecture Fréquence

Hub-and-spoke 39 %

Bus de datamarts 26 %

Entrepôt centralisé 17 %

Datamarts indépendants 12 %

Entrepôts fédérés 4 %

Source: T. Ariyachandra et H. Watson (2005). « Key factors in selecting a datawarehouse architecture », Business Intelligence Journal, vol. 10, no. 2.

23

Comparaison entre les architectures• Critères:

– Qualité de l’information (précise, complète, cohérente);– Qualité du système (flexible, extensible, intégration);– Impact sur les individus (productivité, décisions, etc.);– Impact sur l’entreprise (satisfaction des requis, ROI, etc.).

• Résultats:

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 24

Source: T. Ariyachandra et H. Watson (2005). « Key factors in selecting a datawarehouse architecture », Business Intelligence Journal, vol. 10, no. 2.

Architecture Qualité de l’information

Qualité du système

Impact surles individus

Impact sur l’entreprise

Hub-and-spoke 5.35 5.56 5.62 5.24

Bus de datamarts 5.16 5.60 5.80 5.34

Entrepôt centralisé 5.23 5.41 5.64 5.30

Datamarts indépendants 4.42 4.59 5.08 4.66

Entrepôts fédérés 4.73 4.69 5.15 4.77

24

Page 9: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

9

Questions

• Les magasins/entrepôts de données s’emploient-ils dans un contexte opérationnel (pas analytique)?

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 25

25

Comptoirs de données opérationnelles (Operational data store – ODS)

• Caractéristiques:– Intègrent et consolident des données de sources hétérogènes

dans le but de faciliter certaines opérations de l’entreprise;– Peuvent servir de source à des systèmes opérationnels ou un

entrepôt de données;

– Contiennent rarement des données historiques;– Mettent à jour les données au lieu de les ajouter;

– Effectuent les changements presque instantanément au lieu de les faire en lot;

– Ne remplacent pas les entrepôts de données.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 26

26

Comptoirs de données opérationnelles (Operational data store – ODS)

• Utilisations:– Valider des règles d’affaires complexes impliquant des données

de plusieurs sources;

– Analyser des données consolidées en (quasi) temps-réel;

– Simplifier le processus ETL d’un entrepôt de données

• Exemples d’applications:– Bancaire: valider en temps-réel la solvabilité d’un client

appliquant pour un prêt, lorsque les comptes, placements, et dossiers de risque des clients sont gérés par des applications différentes;

– Télécom: suggérer un nouveau forfait à un client en se basant sur ses statistiques récentes d’utilisation.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 27

27

Page 10: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

10

Questions• Que faire lorsque l’entreprise n’a pas les moyens d’acquérir

et/ou maintenir l’infrastructure nécessaire à l’entrepôt de données ?

• Que faire lorsque l’entreprise n’a pas l’expertise pour installer et configurer les ressources matérielles/logicielles nécessaires à l’entrepôt de données ?

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 28

28

Entrepôts de données hébergés (cloud)• Caractéristiques:

– L’infrastructure matérielle et informatique réside sur le site d’un fournisseur;

– L’entreprise loue l’infrastructure.

– Deux types: plate-forme en tant que service (PaaS) ou logiciel en tant que service

(SaaS)

• Avantages/inconvénients:

(+) Minimisent l’investissement dans l’infrastructure;

(+) Libèrent les ressources matérielles et humaines de l’entreprise;

(+) Évitent les tâches de mise-à-jour et de maintenance;

(−) Moins rentable à long terme;

(−) Sécurité et domaine privé des données.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 29

29

Entrepôts de données hébergés (cloud)

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 30

Source: Wayne Eckerson, « Cloud BI Adoption: Gauging Market Demand », BeyeNetwork, 2011

30

Page 11: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

11

Entrepôts de données hébergés (cloud)

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 31

Source: TATA Consultancy Services, Business Intelligence on the Cloud: Overview and Use Cases, 2012

31

Solutions clé en main• Data Warehouse Appliance (DWA):

– Ensemble intégré de serveurs, dispositifs de stockage, DBMS, systèmes d’exploitation et de logiciels pré-installés et pré-optimisés pour l’entreposage de données;

– Utilisent une architecture de traitement massivement parallèle;– Solution allant du terabyte au petabyte.

• Avantages/inconvénients: (+) Faibles coûts de mise-en-place et de maintenance;(+) Bonnes performance et extensibilité due à l’architecture

parallèle;(+) Permet d’obtenir rapidement des bénéfices;(−) Achat très dispendieux ($100K - $1M).

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 32

32

Solutions clé en main

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 33

33

Page 12: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

12

Solutions clé en main

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 34

Source: www.teradata.com, 2014

34

Architectures orientées service• Service oriented architectures (SOA):

– Méthode d’intégration de systèmes offrant des fonctionnalités sous la forme de services interopérables;

– Permet la communication entre des systèmes qui n’ont pas été conçus dans cette optique, et leur participation conjointe dans des processus d’affaires.

• Dans le contexte des entrepôts de données: – Facilite la communication entre les sources et les applications – Utilisé dans l’architecture Entreprise Application Integration

(EAI) pour l’intégration des données– Réduit les dépendances techniques permettant une approche

« best-of-breed ».

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 35

35

Questions• Quelles sont les principales composantes d’un entrepôt de

données?

• Comment fait-on pour rendre ces composantes le plus modulaire possible?

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 36

36

Page 13: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

13

Métadonnées

• Définition: – Information définissant et décrivant les structures,

opérations et le contenu du système de BI;– Trois types: technique, d’affaires et de processus.

• Métadonnées techniques:– ETL: sources et cibles pour les transferts de données,

transformations, règles d’affaires, etc.– Stockage: tables, champs, types, indexes, partitions,

dimensions, etc.– Présentation: modèle de données, rapports, cédules,

privilèges d’accès, etc.Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 37

37

Métadonnées• Métadonnées d’affaires:– Décrit le contenu de l’entrepôt en termes compréhensibles

par les utilisateurs d’affaires;– Ex: descripteurs de tables et champs.

• Métadonnées de processus:– Décrit le résultat de diverses opérations du système de BI;– Ex: logs ETL (début, fin, écritures disque, …), statistiques

sur les requêtes, etc.

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 38

38

Métadonnées• Bénéfices:– Découple la dépendance entre la technologie et son

utilisation (ex: reconfigurer dynamiquement le système ETL pour modifier ou ajouter une source)

– Permet de monitorer l'état et la performance de la solution BI

– Sert de documentation au système– Permet de déterminer l'impact d'un changement

• Idéal:– Avoir un seul répertoire de métadonnées partagé par

toutes les composantes de la solution BI

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 39

39

Page 14: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

14

Modèle d’architecture de haut niveau

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 40

40

Couche de préparation de données (back-room)

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 41

Systèmes sources

Métadonnées ETLMétadonnées processus:• Statistiques ETL• Résultats d’audits• Résultats de filtrages

Métadonnées techniques:• Inventaire système et version• Descriptions des sources• Schémas relationnels, scripts LDD• Logique des tâches ETL• Paramètres sauvegarde, sécurité

Métadonnées d’affaires:• Dictionnaire de données• Carte logique des données• Logique des règles d’affaires

Extraction• Profilage de données• Capture des

changements• Extraction

Consolidation• Correction d’erreurs• Déduplication des

données• Conformation des

dimensions

Livraison• Clés artificielles• SCD• Hiérarchies• Tables de dimension• Tables de faits

Services de gestion ETL• Lignage et dépendances• Parallélisation• Sécurité et conformité• Gestion des dimensions

• Programmation et monitoring des tâches• Sauvegarde et restauration• Contrôle de version/migration• Qualité des données

Comptoir de données ETL• Historique de processus• Données préparées• Copies de référence des dimensions• Répertoire de métadonnées

• Tables de consultation/décodage• Copies de référence des hiérarchies• Données d’audit

• Opérationnels, ODS• ERP, CRM• MDM• Externes

• RDMBS• Fichiers plats, XML• Queues de messages• Fichiers log & redo• Formats propriétaires

Système ETL

41

Couche de préparation de données (back-room)

• Besoins généraux:– Support à la productivité (ex: environnement de développement)

– Convivialité (ex: interface graphique simple)

– Flexibilité (ex: métadonnées)

• Fonctionnalités ETL:– Extraction:

• Ex: profilage des données, capture des changements, copie des données

– Consolidation:• Ex: règles de transformation, résolution d'incohérences, intégration

– Livraison:• Ex: insertion dans les tables de faits/dimensions, gestion des

changements (SCD)

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 42

42

Page 15: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

15

Couche de préparation de données (back-room)

• Services de gestion ETL:– Planification de tâches (job scheduler)– Sauvegarde/restauration– Sécurité– etc.

• Comptoir de données ETL (data store):– Données temporaires d'extraction (staging area)

– Historique du processus ETL (métadonnées processus, QA)– Sauvegarde des références ETL (métadonnées techniques)– etc.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 43

43

Couche de stockage de données (presentation)

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 44

Système ETL

Métadonnées présentationMétadonnées processus:• Monitoring de la BD• Statistiques d’utilisation

d’agrégats/OLAP

Métadonnées techniques:• Tables système de la BD• Paramètres des partitions• Procédures stockées/scripts

Métadonnées d’affaires:• Descripteurs de tables/champs• Définitions d’agrégats/OLAP

Architecture de bus d’entreprise (Kimball):

• RDBMS pour le niveau de détail atomique• Dimensions dénormalisées avec clés artificielles• Dimensions changeantes (SCD) type 1, 2 ou 3• Dimensions hiérarchiques• Dimensions et faits conformes• Agrégations/OLAP, indexes d’étoile et bitmap• …

Serveur de présentation

− Extraction− Consolidation− Livraison

Services de gestion ETL

Magasins de données ETL

Back-room Front-room

44

Couche de stockage de données (presentation)

• Objectif:– Fournir un accès simplifié et rapide aux données, pour les

utilisateurs (ex: requêtes ad hoc) et applications de BI.

• Caractéristiques souhaitées:– Données provenant des principaux processus d'affaires– Données atomiques ET agrégées– Source unique de données à tous les utilisateurs (peu importe

l'emplacement physique des données) – Analyses variées avec les mêmes données

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 45

45

Page 16: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

16

Couche de stockage de données (presentation)

• Considérations:– Tables de dimensions dénormalisées (schéma en étoile)

– Clés artificielles– Dimensions à évolution lente (SCD 1, 2, 3)

– Dimensions conformes basées sur la matrice en bus de données

– Données atomiques au niveau des transactions– Stratégies d'agrégation (ex: OLAP, ROLAP, etc.)

– Stratégies de performance (ex: index, partitionnement, etc.)

– etc.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 46

46

Couche de restitution de données (front-room)

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 47

Serveur de présentation

Métadonnées de restitutionMétadonnées processus:• Statistiques d’exécution de

rapports, requêtes, etc.• Statistiques d’utilisation

de la sécurité réseau

Métadonnées techniques:• Couche sémantique BI• Définition des rapports /

requêtes standards• Logique applicative• Paramètres du portail BI

Métadonnées d’affaires:• Liste des attributs conformes• Politique des SCD• Politiques de gestion des

valeurs nulles / erreurs• Documentation utilisateur

Services de gestion BI• Reporting d’entreprise• Reformulation de requêtes• Services du portail Web

• Monitoring d’utilisation• Application de la sécurité• Application de la conformité• Gestion des requêtes

Comptoirs de données BI• Rapports stockés• Caches des serveurs d’application• BD usager, tableurs, documents et présentations• Données d’authentification et d’autorisation

Application BI

Types d’application• BI opérationnel• Interface du portail BI• Applications personnalisées• Interfaces pour plateforme

mobile

• Requêtes à accès direct• Rapport standards• Applications analytiques• Tableaux de bord/scorecards• Modèles de forage de données

• Modèles dimensionnels• Données atomiques des

processus d’affaires• Dimensions/faits conformes

47

Couche de restitution de données (front-room)• Objectifs:

– Supporter les besoins analytiques des utilisateurs• Ex: rapports, analyse OLAP, fouille de données, etc.

– Offrir des interfaces d'accès simplifiées aux données • Ex: portail Web, service SOA

– Offrir une performance adéquate

• Services de gestion BI:– Gestion des requêtes

• Reformulation/optimisation• Redirection vers la bonne ressource informationnelle• Navigation d'agrégation• Gestion de priorité

– Gestion de la sécurité/accès– Monitoring de l'utilisation/performance

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 48

48

Page 17: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

17

Couche de restitution de données (front-room)

• Comptoirs de données BI:– Modèles de rapports– Cache du serveur d'application (performance)– Magasin de données locaux (attention aux silos de données)

– etc.

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 49

49

Questions

• Quelles sont les principales étapes dans le développement de l’architecture?

• Comment s’assure-t-on que l’architecture répond bien aux besoins d’affaires initiaux?

• Comment fait-t-on pour choisir les produits les mieux adaptés aux besoins techniques?

Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 50

50

Processus de développement d’architecture• Questions selon le niveau de détail:

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 51

Niveau de détail Back-room Front-room

Besoins d’affaires et audit de données

• Comment obtenir les données nécessaires aux besoins d’affaires ?

• Comment mesurer, suivre, analyser et faciliter les opportunités d’affaires ?

Implicationsarchitecturelles et modèles

• Quelles sont les fonctions et composantes nécessaires pour obtenir les données dans la forme, l’endroit et le moment désirés.

• Quels sont les principales sources de données et où sont-elles situées ?

• Quel est la stratégie de métadonnées ?

• Que requièrent les utilisateurs pour avoir l’information dans une forme utilisable ?

• Quelle est la stratégie de portail BI ?

Modèles détaillées et spécifications

• Quel est le contenu spécifique de chaquesource de données ?

• Quel sont les capacités spécifiques de chaque service ?

• À quoi ressemblent les rapports standards ?

• Comment ceux-ci seront-ils présentés ?• Quel est le design du portail BI ?

Sélection de produit et implémentation

• Quels produits fournissent les capacités requises ?

• Comment ceux-ci seront-ils assemblés ?

• Quels produits fournissent les capacités requises ?

• Comment ceux-ci seront-ils assemblés ?

51

Page 18: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

18

Document d’implications architecturelles• Exemple:

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 52

Besoins d’affaires Implication architecturelle Sous-système Valeur / priorité

Améliorer le taux de réponse à l’aide d’une stratégie de vente croisée

Outils d’intégration permettant de coupler les clients avec les produits

ETL Haute / 8

Création de listes de vente croisée et monitoring de base à l’aide d’outils BI

App. BI Moyenne / 7

Traitement des offres et suivi des réponses par le système CRM App BI N/A

Améliorer le taux de réponse à la campagne par courriel en fournissant aux analystes des outils pour générer les listes de clients ciblés

Application analytique App. BI Moyenne / 7

Augmenter la précision des prédictions de vente à l’aide d’une meilleure historique de données et de meilleurs modèles analytiques

Application analytique avec prédiction de séries temporelles

App. BI /forage de données N/A

Extraire de l’information des systèmes externes pour le suivi des ventes

ETL Haute / 8

52

Document de plan architecturel• Contenu:

1. Description sommaire du projet et ses objectifs;2. Méthodologie;3. Besoins et implications architecturelles;4. Survol de l’architecture • Ex: modèle haut-niveau, métadonnées, couches de service,

etc.5. Composantes architecturelles principales • Ex: ETL, applications BI, sources de données, répertoire de

métadonnées, infrastructure, etc.6. Processus de développement de l’architecture• Ex: phases, preuve de concept, standards et sélection de

produits, etc. 7. Modèle architecturel.

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 53

53

Modèle architecturel (exemple)

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 54

Projet centré sur les données d’un club de points d’une chaîne de

supermarchés

54

Page 19: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

19

Sélection des produits• Guidée par les besoins d’affaires;• Étapes:

1. Comprendre le processus d’achat de l’entreprise;2. Faire une étude de marché:

• Sources: internet, cours et séminaires, publications du domaine, consultants externes, etc.;

• Critères: fonctionnalité, performance, productivité, support (technique, documentation, formation), etc.

3. Évaluer les solutions les plus prometteuses• Ex: rencontres avec les vendeurs, version d’essai, comparaison de

prototypes, etc.

4. Rédiger un rapport de recommandation de produit;5. Tester le produit retenu durant une période d’essai (ex: 90 jours);6. Négocier le contrat (licences, support, formation, etc.).

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 55

55

Matrice d’évaluation de produits

• Exemple:

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 56

56

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 57

57

Page 20: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

20

Le modèle Data Vault• Proposé par Dan Linstedt à la fin des années 90

• Objectifs:– Permettre de retracer facilement l’information aux sources de

données (ex: audit de données);

– Être robuste aux changements du modèle d’affaires (ex: relation 1-N devenant N-N);

– Réduire les contraintes reliées aux règles d’affaires en différant celles-ci (ex: datamarts en aval);

– Permettre un chargement efficace des données

• Principe de base:– Séparer l’information structurelle (Hub + Link) des attributs

descriptifs (Satellites).

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 58

58

Le modèle Data Vault• Hub:

– Représente les concepts centraux de l’entreprise (ex: Client, Vendeur, Produit, etc.);

– Modélise uniquement la clé d’affaires du concept (aucun attribut descriptif).

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 59

Clé primaire artificielle

Clé d’affaires

Dernier chargement (timestamp)

Source de l’enregistrement

HubProduitID

CodeProduit

ChargementTS

EnregistrementSrc

Structure générale Exemple: Hub Produit

Note: stabilité assurée par la clé d’affaires qui change relativement peu souvent

59

Le modèle Data Vault• Link:

– Représente les relations naturelles entre les clés d’affaires (ex: lien entre Client et Produit = Vente);

– Ne contient aucun attribut descriptif.

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 60

Clé primaire artificielle

Clé artificielle Hub 1

...

Clé artificielle Hub N

Dernier chargement (timestamp)

Source de l’enregistrement

LinkTransactionID

HubClientID

HubProduitID

HubVendeurID

ChargementTS

EnregistrementSrc

Structure générale Exemple: Link Transaction

Note: utilisé même pour les relations 1-N et 1-1

60

Page 21: MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance warehouse, Teradata). (−) Long et coûteux à développer; (−) Pas incrémental; (−)

2/16/20

21

Le modèle Data Vault• Satellite:

– Contient l’information descriptive reliée à une clé d’affaires (Hub ou Link);

– L’information d’un même Hub ou Link peut être séparée en plusieurs Satellites (selon la source, fréquence de mise à jour, etc.)

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 61

Clé primaire artificielle Hub

Dernier chargement (timestamp)

Attribut 1

...

Attribut N

Source de l’enregistrement

Structure générale Ex: Satellite Client 1

HubClientID

ChargementTS

Nom

Prénom

Adresse

EnregistrementSrc

Satellite Client 2

HubClientID

ChargementTS

DateNaissance

DatePremierAchat

...

EnregistrementSrc

61

13 DATA VAULT MODELING GUIDE | 5/15/2012

Sam

ple Data Vault M

odel

Fig. 15 Full D

ata Vault M

odel

Source: Hans Hultgren. Introductory Guide to Data Vault Modeling, 2012.

62

Le modèle Data Vault• Chargement des données:– Puisque les Hubs sont découplés (aucune clé étrangère d’un

Hub à un autre), on peut les charger en parallèle;– Même chose pour les Links et Satellites.

• Lien avec la modélisation dimensionnelle:– Les Hubs et leur Satellites correspondent aux table de

dimension;– Les Links et leur Satellites correspondent aux tables de faits;– Il faut appliquer les règles d’affaires lorsqu’on charge les

datamart (schéma en étoile) à partir du Data Vault.

Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 63

63