MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance...
Transcript of MTI820-Acetates-5-ArchitectureDW - etsmtl.ca€¦ · (+)Performance optimale (ex: Appliance...
2/16/20
1
MTI820 − Entrepôts de données et intelligence d’affaires
Architecture des entrepôts de données
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 1
1
Le cycle de vie d’un projet en BI• Diagramme de flux de travail:
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 2
Planification
de projet / program m e
Définition
des besoins
d’affaires
Conception de
l’architecture technique
M odélisation
des données
Conception des
application de BI
Sélection et
installation des produits
Conception
physique
Conception et
développem ent du systèm e ETL
Développem ent
des applications de BI
Déploiem ent
Croissance
M aintenance
Gestion de projet / program m e
2
Questions• À quoi sert le plan architecturel d’une solution de BI?
• Quels sont les facteurs pouvant avoir un impact sur l’architecture de la solution?
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 3
3
2/16/20
2
Architecture technique
• Besoins d’affaires: – « Que doit-on faire ? »
• Architecture:– « Comment allons-nous le faire ? »
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 4
4
La valeur de l’architecture• Encourage la satisfaction des besoins:
– Les besoins techniques dérivent des besoins d’affaires;– Documents d’architecture.
• Facilite la communication:– Illustre les différents rôles au sein du système;– Communique la complexité du projet aux cadres supérieurs.
• Aide à la planification:– Regroupe tous les détails techniques;– Identifie des dépendances et de nouveaux de besoins.
• Flexibilité, productivité et maintenance:– Métadonnées, sélection d’outils, etc.
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 5
5
Facteurs à considérer • L’interdépendance informationnelle entre les unités de
l’entreprise– Ex: bonne intégration (ex: MDM) VS silos de données
• Les sources de données– Ex: 1 source VS 10 sources, ERP VS legacy, etc.
• La quantité des données– Ex: gigaoctets VS teraoctets
• La latence des données– Ex: mise-à-jour hebdomadaire VS temps-réel
• L’urgence d’obtenir une solution fonctionnelle– Ex: entrepôt d'entreprise (EDW) VS magasin de données
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 6
6
2/16/20
3
Facteurs à considérer
• Le nombre d'utilisateurs– Ex: 10-50 utilisateurs vs 50-200 utilisateurs
• La nature des tâches des utilisateurs finaux– Ex: rapports simples VS fouille de données
• Les contraintes sur les ressources– Ex: financières, main d'œuvre, biais technologique, etc.
• Les objectifs du projet– Ex: stratégique VS opérationnel
• Autres facteurs– Ex: politiques, habilités du personnel TI, etc.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 7
7
Questions
• Quelle est la différence entre un magasin de données et un entrepôt de données?
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 8
8
Les magasins de données (datamart)• Caractéristiques:– Contient une portion du contenu de l’entrepôt de
données;– Se concentre sur 1 sujet d’analyse
• Ex: les ventes OU les livraisons, mais pas les deux;
– Sert à faire des analyses simples et spécialisées • Ex: les fluctuations des ventes par catégorie de produits;
– Nombre de sources limitées, provenant la plupart du temps d’un même département;
– Processus ETL relativement simple– Même processus de conception que les entrepôts de
données, mais demande moins de ressources.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 9
9
2/16/20
4
Magasins de données vs EDWCaractéristique Magasin de données Entrepôt de données (EDW)
Portée Un domaine d’analyse Plusieurs domaines d’analyse
Temps de développement Mois Années
Coûts de développement $ 10,000 à $ 100,000 + $ 1,000,000+
Complexité de développement Faible à moyenne Grande
Taille des données Mb à plusieurs Gb Gb jusqu’à plusieurs Pb
Horizon des données Courantes et historiques La plupart du temps historiques
Transformation des données Faible à moyenne Importante
Fréquence des mises-à-jour Horaire, journalier ou hebdomadaire
Peut aller jusqu’à mensuel
Nombre d’utilisateurs simultanés Dizaines Centaines à milliers
Types d’utilisateur Analystes dans le domainespécifique et gestionnaires
Analyste d’entreprise et cadres seniors
Objectifs d’affaires Optimisation des activités dans le domaine spécifique
Optimisation inter-fonctionnelle et support à la décision
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 10
Source: E. Turban, R. Sharda, D. Delen et D. King (2010). « Business intelligence: A manegerial approach », Pearson.
10
Questions
• Quelles sont les différentes architectures d’entrepôts de données?
• Quelles sont les critères permettant de comparer différentes architectures?
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 11
11
Les architectures d’entrepôts de données
1. Magasins de données indépendants
2. Architecture en bus de magasins de données
3. Architecture Hub-and-spoke
4. Entrepôt de données centralisé
5. Architecture fédérée
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 12
12
2/16/20
5
Magasins de données indépendants
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 13
StagingAreaSource 1 Datamart 1
Systèmes source
Source 2
Source 3
ETL
Datamart 2
Datamart 3
silos de données
Datamartsindépendants Utilisateurs
StagingArea
StagingArea
App 1
Reporting
App 2
App 3
13
Magasins de données indépendants• Caractéristiques:
– Les datamarts sont développés et opèrent de manière indépendante;
– Les données sont disposées en « silos fonctionnels »;– Pas de dimensions conformes.
• Avantages/inconvénients:(+) Architecture la plus simple et la moins coûteuse à développer;(−) Incohérences et redondances entre les datamarts(−) Il n’y a pas une seule version de la vérité;(−) Analyse inter-fonctionnelle difficile ou impossible;(−) Vision limitée, pas extensible.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 14
14
Bus de magasins de données
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 15
Stag
ing
Area
Source 1 Datamart 1
Systèmes source
Source 2
Source 3
ETL
Datamart 2
Datamart 3
Datamarts liés par dimensions
conformes Utilisateurs
Infra
stru
ctur
e de
repo
rtin
g
Reporting
Entrepôt de données conceptuel
15
2/16/20
6
Bus de magasins de données• Caractéristiques:
– Approche bottom-up, proposée par R. Kimball;– Datamarts développés par sujet/processus d’affaires, en se basant
sur des dimensions conformes;– Modélisation dimensionnelle (schéma en étoile), au lieu du modèle
entité-relation (ex: 3FN);– Entrepôt de données conceptuel, formé de magasins de données
inter-reliés à l’aide d’une couche d’intergiciels (middleware).
• Avantages/inconvénients:(+) Intégration des données assurée par les dimensions conformes;(+) Approche incrémentale (processus les plus importants d’abord);(+) Donne des résultats rapidement;(−) Itérations futures plus difficiles à planifier;(−) Performance sous-optimale des analyses impliquant plusieurs
datamarts.Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 16
16
Architecture Hub-and-spoke(Corporate Information Factory)
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 17
Stag
ing
Area
Source 1 Datamart 1
Systèmes source
Source 2
Source 3
ETL
Datamart 2
Datamart 3
Entrepôt de données d’entreprise
Utilisateurs
Infra
stru
ctur
e de
repo
rtin
g
Reporting
EDW
Datamartsdépendants
Concentrateur (hub)
Rayons(spokes)
17
Architecture Hub-and-spoke• Caractéristiques:
– Approche top-down, proposée par B. Inmon et al.– Entrepôt (hub) contient les données atomiques (c.-à-d. le niveau de
détail le plus fin) et normalisées (3FN);– Les datamarts (spokes) reçoivent les données de l’entrepôt;– Les données des datamarts suivent le modèle dimensionnel et sont
principalement résumées (pas atomique);– La plupart des requêtes analytiques sont faites sur les datamarts.
• Avantages/inconvénients:(+) Intégration et consolidation complète et des données de
l’entreprise;(+) Approche itérative et potentiellement extensible (spokes);(−) Peut avoir de la redondance de données entre les datamarts;(−) Performance sous-optimale des analyses impliquant plusieurs
datamarts.Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 18
18
2/16/20
7
Entrepôt de données centralisé
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 19
Stag
ing
Area
Source 1
Systèmes source
Source 2
Source 3
ETL
Entrepôt de données d’entreprise
Utilisateurs
Infra
stru
ctur
e de
repo
rtin
g
Reporting
EDW
19
Entrepôt de données centralisé• Caractéristiques:
– Similaire à Hub-and-spoke, mais sans les datamarts dépendants;– Gigantesque entrepôt de données servant l’entreprise entière;– Les données peuvent être atomiques ou résumées.
• Avantages/inconvénients:(+) Les utilisateurs ont accès à toutes les données de l’entreprise;(+) Intégration (ETL) et maintenance facile car les données sont à
un seul endroit;(+) Performance optimale (ex: Appliance warehouse, Teradata).(−) Long et coûteux à développer;(−) Pas incrémental;(−) Extensibilité limitée ou très coûteuse.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 20
20
Architecture fédérée
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 21
Stag
ing
Area
Source 1
Systèmes source
Source 2
Source 3
ETL
Entrepôtsde données autonomes Utilisateurs
Infra
stru
ctur
e de
repo
rtin
g
Reporting
EDW 1
EDW 2
EDW 3
(EDW)
Entrepôtde données
virtuel
Metadonnées
Intégration virtuelle
21
2/16/20
8
Architecture fédérée• Caractéristiques:
– Entrepôt de données distribué sur plusieurs systèmes hétérogènes;– Opère de manière transparente (l’utilisateur ne voit pas que les
données sont réparties);– Données intégrées logiquement ou physiquement à l’aide de méta-
données (ex: XML);– Complémente plutôt que remplace (selon les experts).
• Avantages/inconvénients:(+) Utile lorsqu’il y a déjà un entrepôt en place (ex: acquisitions ou
fusions de compagnies);(+) Demande peu de ressources matérielles additionnelles.(−) Très complexe: synchronisation, parallélisme, concurrence, etc.(−) Peu de contrôle sur les sources et la qualité des données;(−) Faible performance (mais la technologie s’améliore).
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 22
22
Comparaison entre les architectures• Popularité:
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 23
Architecture Fréquence
Hub-and-spoke 39 %
Bus de datamarts 26 %
Entrepôt centralisé 17 %
Datamarts indépendants 12 %
Entrepôts fédérés 4 %
Source: T. Ariyachandra et H. Watson (2005). « Key factors in selecting a datawarehouse architecture », Business Intelligence Journal, vol. 10, no. 2.
23
Comparaison entre les architectures• Critères:
– Qualité de l’information (précise, complète, cohérente);– Qualité du système (flexible, extensible, intégration);– Impact sur les individus (productivité, décisions, etc.);– Impact sur l’entreprise (satisfaction des requis, ROI, etc.).
• Résultats:
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 24
Source: T. Ariyachandra et H. Watson (2005). « Key factors in selecting a datawarehouse architecture », Business Intelligence Journal, vol. 10, no. 2.
Architecture Qualité de l’information
Qualité du système
Impact surles individus
Impact sur l’entreprise
Hub-and-spoke 5.35 5.56 5.62 5.24
Bus de datamarts 5.16 5.60 5.80 5.34
Entrepôt centralisé 5.23 5.41 5.64 5.30
Datamarts indépendants 4.42 4.59 5.08 4.66
Entrepôts fédérés 4.73 4.69 5.15 4.77
24
2/16/20
9
Questions
• Les magasins/entrepôts de données s’emploient-ils dans un contexte opérationnel (pas analytique)?
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 25
25
Comptoirs de données opérationnelles (Operational data store – ODS)
• Caractéristiques:– Intègrent et consolident des données de sources hétérogènes
dans le but de faciliter certaines opérations de l’entreprise;– Peuvent servir de source à des systèmes opérationnels ou un
entrepôt de données;
– Contiennent rarement des données historiques;– Mettent à jour les données au lieu de les ajouter;
– Effectuent les changements presque instantanément au lieu de les faire en lot;
– Ne remplacent pas les entrepôts de données.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 26
26
Comptoirs de données opérationnelles (Operational data store – ODS)
• Utilisations:– Valider des règles d’affaires complexes impliquant des données
de plusieurs sources;
– Analyser des données consolidées en (quasi) temps-réel;
– Simplifier le processus ETL d’un entrepôt de données
• Exemples d’applications:– Bancaire: valider en temps-réel la solvabilité d’un client
appliquant pour un prêt, lorsque les comptes, placements, et dossiers de risque des clients sont gérés par des applications différentes;
– Télécom: suggérer un nouveau forfait à un client en se basant sur ses statistiques récentes d’utilisation.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 27
27
2/16/20
10
Questions• Que faire lorsque l’entreprise n’a pas les moyens d’acquérir
et/ou maintenir l’infrastructure nécessaire à l’entrepôt de données ?
• Que faire lorsque l’entreprise n’a pas l’expertise pour installer et configurer les ressources matérielles/logicielles nécessaires à l’entrepôt de données ?
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 28
28
Entrepôts de données hébergés (cloud)• Caractéristiques:
– L’infrastructure matérielle et informatique réside sur le site d’un fournisseur;
– L’entreprise loue l’infrastructure.
– Deux types: plate-forme en tant que service (PaaS) ou logiciel en tant que service
(SaaS)
• Avantages/inconvénients:
(+) Minimisent l’investissement dans l’infrastructure;
(+) Libèrent les ressources matérielles et humaines de l’entreprise;
(+) Évitent les tâches de mise-à-jour et de maintenance;
(−) Moins rentable à long terme;
(−) Sécurité et domaine privé des données.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 29
29
Entrepôts de données hébergés (cloud)
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 30
Source: Wayne Eckerson, « Cloud BI Adoption: Gauging Market Demand », BeyeNetwork, 2011
30
2/16/20
11
Entrepôts de données hébergés (cloud)
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 31
Source: TATA Consultancy Services, Business Intelligence on the Cloud: Overview and Use Cases, 2012
31
Solutions clé en main• Data Warehouse Appliance (DWA):
– Ensemble intégré de serveurs, dispositifs de stockage, DBMS, systèmes d’exploitation et de logiciels pré-installés et pré-optimisés pour l’entreposage de données;
– Utilisent une architecture de traitement massivement parallèle;– Solution allant du terabyte au petabyte.
• Avantages/inconvénients: (+) Faibles coûts de mise-en-place et de maintenance;(+) Bonnes performance et extensibilité due à l’architecture
parallèle;(+) Permet d’obtenir rapidement des bénéfices;(−) Achat très dispendieux ($100K - $1M).
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 32
32
Solutions clé en main
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 33
33
2/16/20
12
Solutions clé en main
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 34
Source: www.teradata.com, 2014
34
Architectures orientées service• Service oriented architectures (SOA):
– Méthode d’intégration de systèmes offrant des fonctionnalités sous la forme de services interopérables;
– Permet la communication entre des systèmes qui n’ont pas été conçus dans cette optique, et leur participation conjointe dans des processus d’affaires.
• Dans le contexte des entrepôts de données: – Facilite la communication entre les sources et les applications – Utilisé dans l’architecture Entreprise Application Integration
(EAI) pour l’intégration des données– Réduit les dépendances techniques permettant une approche
« best-of-breed ».
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 35
35
Questions• Quelles sont les principales composantes d’un entrepôt de
données?
• Comment fait-on pour rendre ces composantes le plus modulaire possible?
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 36
36
2/16/20
13
Métadonnées
• Définition: – Information définissant et décrivant les structures,
opérations et le contenu du système de BI;– Trois types: technique, d’affaires et de processus.
• Métadonnées techniques:– ETL: sources et cibles pour les transferts de données,
transformations, règles d’affaires, etc.– Stockage: tables, champs, types, indexes, partitions,
dimensions, etc.– Présentation: modèle de données, rapports, cédules,
privilèges d’accès, etc.Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 37
37
Métadonnées• Métadonnées d’affaires:– Décrit le contenu de l’entrepôt en termes compréhensibles
par les utilisateurs d’affaires;– Ex: descripteurs de tables et champs.
• Métadonnées de processus:– Décrit le résultat de diverses opérations du système de BI;– Ex: logs ETL (début, fin, écritures disque, …), statistiques
sur les requêtes, etc.
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 38
38
Métadonnées• Bénéfices:– Découple la dépendance entre la technologie et son
utilisation (ex: reconfigurer dynamiquement le système ETL pour modifier ou ajouter une source)
– Permet de monitorer l'état et la performance de la solution BI
– Sert de documentation au système– Permet de déterminer l'impact d'un changement
• Idéal:– Avoir un seul répertoire de métadonnées partagé par
toutes les composantes de la solution BI
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 39
39
2/16/20
14
Modèle d’architecture de haut niveau
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 40
40
Couche de préparation de données (back-room)
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 41
Systèmes sources
Métadonnées ETLMétadonnées processus:• Statistiques ETL• Résultats d’audits• Résultats de filtrages
Métadonnées techniques:• Inventaire système et version• Descriptions des sources• Schémas relationnels, scripts LDD• Logique des tâches ETL• Paramètres sauvegarde, sécurité
Métadonnées d’affaires:• Dictionnaire de données• Carte logique des données• Logique des règles d’affaires
Extraction• Profilage de données• Capture des
changements• Extraction
Consolidation• Correction d’erreurs• Déduplication des
données• Conformation des
dimensions
Livraison• Clés artificielles• SCD• Hiérarchies• Tables de dimension• Tables de faits
Services de gestion ETL• Lignage et dépendances• Parallélisation• Sécurité et conformité• Gestion des dimensions
• Programmation et monitoring des tâches• Sauvegarde et restauration• Contrôle de version/migration• Qualité des données
Comptoir de données ETL• Historique de processus• Données préparées• Copies de référence des dimensions• Répertoire de métadonnées
• Tables de consultation/décodage• Copies de référence des hiérarchies• Données d’audit
• Opérationnels, ODS• ERP, CRM• MDM• Externes
• RDMBS• Fichiers plats, XML• Queues de messages• Fichiers log & redo• Formats propriétaires
Système ETL
41
Couche de préparation de données (back-room)
• Besoins généraux:– Support à la productivité (ex: environnement de développement)
– Convivialité (ex: interface graphique simple)
– Flexibilité (ex: métadonnées)
• Fonctionnalités ETL:– Extraction:
• Ex: profilage des données, capture des changements, copie des données
– Consolidation:• Ex: règles de transformation, résolution d'incohérences, intégration
– Livraison:• Ex: insertion dans les tables de faits/dimensions, gestion des
changements (SCD)
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 42
42
2/16/20
15
Couche de préparation de données (back-room)
• Services de gestion ETL:– Planification de tâches (job scheduler)– Sauvegarde/restauration– Sécurité– etc.
• Comptoir de données ETL (data store):– Données temporaires d'extraction (staging area)
– Historique du processus ETL (métadonnées processus, QA)– Sauvegarde des références ETL (métadonnées techniques)– etc.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 43
43
Couche de stockage de données (presentation)
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 44
Système ETL
Métadonnées présentationMétadonnées processus:• Monitoring de la BD• Statistiques d’utilisation
d’agrégats/OLAP
Métadonnées techniques:• Tables système de la BD• Paramètres des partitions• Procédures stockées/scripts
Métadonnées d’affaires:• Descripteurs de tables/champs• Définitions d’agrégats/OLAP
Architecture de bus d’entreprise (Kimball):
• RDBMS pour le niveau de détail atomique• Dimensions dénormalisées avec clés artificielles• Dimensions changeantes (SCD) type 1, 2 ou 3• Dimensions hiérarchiques• Dimensions et faits conformes• Agrégations/OLAP, indexes d’étoile et bitmap• …
Serveur de présentation
− Extraction− Consolidation− Livraison
Services de gestion ETL
Magasins de données ETL
Back-room Front-room
44
Couche de stockage de données (presentation)
• Objectif:– Fournir un accès simplifié et rapide aux données, pour les
utilisateurs (ex: requêtes ad hoc) et applications de BI.
• Caractéristiques souhaitées:– Données provenant des principaux processus d'affaires– Données atomiques ET agrégées– Source unique de données à tous les utilisateurs (peu importe
l'emplacement physique des données) – Analyses variées avec les mêmes données
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 45
45
2/16/20
16
Couche de stockage de données (presentation)
• Considérations:– Tables de dimensions dénormalisées (schéma en étoile)
– Clés artificielles– Dimensions à évolution lente (SCD 1, 2, 3)
– Dimensions conformes basées sur la matrice en bus de données
– Données atomiques au niveau des transactions– Stratégies d'agrégation (ex: OLAP, ROLAP, etc.)
– Stratégies de performance (ex: index, partitionnement, etc.)
– etc.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 46
46
Couche de restitution de données (front-room)
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 47
Serveur de présentation
Métadonnées de restitutionMétadonnées processus:• Statistiques d’exécution de
rapports, requêtes, etc.• Statistiques d’utilisation
de la sécurité réseau
Métadonnées techniques:• Couche sémantique BI• Définition des rapports /
requêtes standards• Logique applicative• Paramètres du portail BI
Métadonnées d’affaires:• Liste des attributs conformes• Politique des SCD• Politiques de gestion des
valeurs nulles / erreurs• Documentation utilisateur
Services de gestion BI• Reporting d’entreprise• Reformulation de requêtes• Services du portail Web
• Monitoring d’utilisation• Application de la sécurité• Application de la conformité• Gestion des requêtes
Comptoirs de données BI• Rapports stockés• Caches des serveurs d’application• BD usager, tableurs, documents et présentations• Données d’authentification et d’autorisation
Application BI
Types d’application• BI opérationnel• Interface du portail BI• Applications personnalisées• Interfaces pour plateforme
mobile
• Requêtes à accès direct• Rapport standards• Applications analytiques• Tableaux de bord/scorecards• Modèles de forage de données
• Modèles dimensionnels• Données atomiques des
processus d’affaires• Dimensions/faits conformes
47
Couche de restitution de données (front-room)• Objectifs:
– Supporter les besoins analytiques des utilisateurs• Ex: rapports, analyse OLAP, fouille de données, etc.
– Offrir des interfaces d'accès simplifiées aux données • Ex: portail Web, service SOA
– Offrir une performance adéquate
• Services de gestion BI:– Gestion des requêtes
• Reformulation/optimisation• Redirection vers la bonne ressource informationnelle• Navigation d'agrégation• Gestion de priorité
– Gestion de la sécurité/accès– Monitoring de l'utilisation/performance
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 48
48
2/16/20
17
Couche de restitution de données (front-room)
• Comptoirs de données BI:– Modèles de rapports– Cache du serveur d'application (performance)– Magasin de données locaux (attention aux silos de données)
– etc.
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 49
49
Questions
• Quelles sont les principales étapes dans le développement de l’architecture?
• Comment s’assure-t-on que l’architecture répond bien aux besoins d’affaires initiaux?
• Comment fait-t-on pour choisir les produits les mieux adaptés aux besoins techniques?
Département de génie logiciel et des TI MTI820 Hiver 2011 – C. Desrosiers 50
50
Processus de développement d’architecture• Questions selon le niveau de détail:
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 51
Niveau de détail Back-room Front-room
Besoins d’affaires et audit de données
• Comment obtenir les données nécessaires aux besoins d’affaires ?
• Comment mesurer, suivre, analyser et faciliter les opportunités d’affaires ?
Implicationsarchitecturelles et modèles
• Quelles sont les fonctions et composantes nécessaires pour obtenir les données dans la forme, l’endroit et le moment désirés.
• Quels sont les principales sources de données et où sont-elles situées ?
• Quel est la stratégie de métadonnées ?
• Que requièrent les utilisateurs pour avoir l’information dans une forme utilisable ?
• Quelle est la stratégie de portail BI ?
Modèles détaillées et spécifications
• Quel est le contenu spécifique de chaquesource de données ?
• Quel sont les capacités spécifiques de chaque service ?
• À quoi ressemblent les rapports standards ?
• Comment ceux-ci seront-ils présentés ?• Quel est le design du portail BI ?
Sélection de produit et implémentation
• Quels produits fournissent les capacités requises ?
• Comment ceux-ci seront-ils assemblés ?
• Quels produits fournissent les capacités requises ?
• Comment ceux-ci seront-ils assemblés ?
51
2/16/20
18
Document d’implications architecturelles• Exemple:
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 52
Besoins d’affaires Implication architecturelle Sous-système Valeur / priorité
Améliorer le taux de réponse à l’aide d’une stratégie de vente croisée
Outils d’intégration permettant de coupler les clients avec les produits
ETL Haute / 8
Création de listes de vente croisée et monitoring de base à l’aide d’outils BI
App. BI Moyenne / 7
Traitement des offres et suivi des réponses par le système CRM App BI N/A
Améliorer le taux de réponse à la campagne par courriel en fournissant aux analystes des outils pour générer les listes de clients ciblés
Application analytique App. BI Moyenne / 7
Augmenter la précision des prédictions de vente à l’aide d’une meilleure historique de données et de meilleurs modèles analytiques
Application analytique avec prédiction de séries temporelles
App. BI /forage de données N/A
Extraire de l’information des systèmes externes pour le suivi des ventes
ETL Haute / 8
52
Document de plan architecturel• Contenu:
1. Description sommaire du projet et ses objectifs;2. Méthodologie;3. Besoins et implications architecturelles;4. Survol de l’architecture • Ex: modèle haut-niveau, métadonnées, couches de service,
etc.5. Composantes architecturelles principales • Ex: ETL, applications BI, sources de données, répertoire de
métadonnées, infrastructure, etc.6. Processus de développement de l’architecture• Ex: phases, preuve de concept, standards et sélection de
produits, etc. 7. Modèle architecturel.
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 53
53
Modèle architecturel (exemple)
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 54
Projet centré sur les données d’un club de points d’une chaîne de
supermarchés
54
2/16/20
19
Sélection des produits• Guidée par les besoins d’affaires;• Étapes:
1. Comprendre le processus d’achat de l’entreprise;2. Faire une étude de marché:
• Sources: internet, cours et séminaires, publications du domaine, consultants externes, etc.;
• Critères: fonctionnalité, performance, productivité, support (technique, documentation, formation), etc.
3. Évaluer les solutions les plus prometteuses• Ex: rencontres avec les vendeurs, version d’essai, comparaison de
prototypes, etc.
4. Rédiger un rapport de recommandation de produit;5. Tester le produit retenu durant une période d’essai (ex: 90 jours);6. Négocier le contrat (licences, support, formation, etc.).
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 55
55
Matrice d’évaluation de produits
• Exemple:
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 56
56
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 57
57
2/16/20
20
Le modèle Data Vault• Proposé par Dan Linstedt à la fin des années 90
• Objectifs:– Permettre de retracer facilement l’information aux sources de
données (ex: audit de données);
– Être robuste aux changements du modèle d’affaires (ex: relation 1-N devenant N-N);
– Réduire les contraintes reliées aux règles d’affaires en différant celles-ci (ex: datamarts en aval);
– Permettre un chargement efficace des données
• Principe de base:– Séparer l’information structurelle (Hub + Link) des attributs
descriptifs (Satellites).
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 58
58
Le modèle Data Vault• Hub:
– Représente les concepts centraux de l’entreprise (ex: Client, Vendeur, Produit, etc.);
– Modélise uniquement la clé d’affaires du concept (aucun attribut descriptif).
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 59
Clé primaire artificielle
Clé d’affaires
Dernier chargement (timestamp)
Source de l’enregistrement
HubProduitID
CodeProduit
ChargementTS
EnregistrementSrc
Structure générale Exemple: Hub Produit
Note: stabilité assurée par la clé d’affaires qui change relativement peu souvent
59
Le modèle Data Vault• Link:
– Représente les relations naturelles entre les clés d’affaires (ex: lien entre Client et Produit = Vente);
– Ne contient aucun attribut descriptif.
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 60
Clé primaire artificielle
Clé artificielle Hub 1
...
Clé artificielle Hub N
Dernier chargement (timestamp)
Source de l’enregistrement
LinkTransactionID
HubClientID
HubProduitID
HubVendeurID
ChargementTS
EnregistrementSrc
Structure générale Exemple: Link Transaction
Note: utilisé même pour les relations 1-N et 1-1
60
2/16/20
21
Le modèle Data Vault• Satellite:
– Contient l’information descriptive reliée à une clé d’affaires (Hub ou Link);
– L’information d’un même Hub ou Link peut être séparée en plusieurs Satellites (selon la source, fréquence de mise à jour, etc.)
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 61
Clé primaire artificielle Hub
Dernier chargement (timestamp)
Attribut 1
...
Attribut N
Source de l’enregistrement
Structure générale Ex: Satellite Client 1
HubClientID
ChargementTS
Nom
Prénom
Adresse
EnregistrementSrc
Satellite Client 2
HubClientID
ChargementTS
DateNaissance
DatePremierAchat
...
EnregistrementSrc
61
13 DATA VAULT MODELING GUIDE | 5/15/2012
Sam
ple Data Vault M
odel
Fig. 15 Full D
ata Vault M
odel
Source: Hans Hultgren. Introductory Guide to Data Vault Modeling, 2012.
62
Le modèle Data Vault• Chargement des données:– Puisque les Hubs sont découplés (aucune clé étrangère d’un
Hub à un autre), on peut les charger en parallèle;– Même chose pour les Links et Satellites.
• Lien avec la modélisation dimensionnelle:– Les Hubs et leur Satellites correspondent aux table de
dimension;– Les Links et leur Satellites correspondent aux tables de faits;– Il faut appliquer les règles d’affaires lorsqu’on charge les
datamart (schéma en étoile) à partir du Data Vault.
Département de génie logiciel et des TI MTI820 Hiver 2011 – © S. Chafki, C. Desrosiers 63
63