OLAP et SOLAP - complet avec explication - ppt univ laval
-
Upload
api-3750267 -
Category
Documents
-
view
2.930 -
download
5
Transcript of OLAP et SOLAP - complet avec explication - ppt univ laval
OLAP et SOLAPOLAP et SOLAP
Notions avancées de bases de données SIG
Yvan Bédard
OLAPOLAP
« Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation » (Caron, 1998)
OLAPOLAP
Catégorie de logiciels : S’exprime par une grande quantité de produits
logiciels disponibles sur le marché Exploration et analyse rapide :
OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement Rapidité et facilité
OLAPOLAP
Facilité L’usager n’a pas à maîtriser des langages d’interrogation
et des interfaces complexes L’usager interroge directement les données, en
interagissant avec celles-ci Rapidité
OLAP exploite une dénormalisation maximale des données, sous la forme d’une pré-agrégation stockée
L’usager devient opérationnel en très peu de temps L’usager peut se concentrer sur son analyse et non
sur le processus (les moyens utilisés pour l’analyse)
OLAPOLAP
Approche multidimensionnelle : Basée sur des thèmes d’analyse (dimensions) Plus intuitive
Plusieurs niveaux d’agrégation : Les données peuvent être groupées à différents
niveaux de granularité (les regroupements sont pré-calculés, par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois).
Granularité : niveau de détail des données emmagasinées dans une base de données.
Vocabulaire OLAPVocabulaire OLAP
Dimension : Une dimension peut être définie comme un thème, ou un axe
(attributs), selon lequel les données seront analysées (en fonction de …) Ex. Temps, Découpage administratif, Produits
Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier Ex. Pour la dimension Temps, les années, les mois et les jours
peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année
Vocabulaire OLAPVocabulaire OLAP
Mesure : Une mesure est un élément de donnée sur
lequel portent les analyses, en fonction des différentes dimensions Ex. coût des travaux, nombre d’accidents, ventes,
dépenses
Vocabulaire OLAPVocabulaire OLAP
Fait : Un fait représente la valeur d’une mesure, mesurée
ou calculée, selon un membre de chacune des dimensions (ex. ce qui est recueilli par les systèmes transactionnels).
Ex. « le coût des travaux en 1995 pour la région 02 est 250 000 $ » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 1995 » du niveau « année » de la dimension « temps » et le membre « 02 » du niveau « région » de la dimension « découpage administratif ».
Vocabulaire OLAPVocabulaire OLAP
Cube : Un ensemble de mesures organisées selon un
ensemble de dimensions (aussi hypercube) Ex. Un cube de ventes qui comprend :
Les dimensions Temps, Produit, Magasin La mesure Ventes en $
Cube multidimensionnelCube multidimensionnel
Ce cube multidimensionnel présente les profits d’entreprises agricoles par propriété, par exploitation et par année.
Cas 1: visualisation des profits des propriétés > = 0.05 km2 pour toutes les exploitations durant les 4 années.
Cas 2: visualisation des profits des propriétés >= 1.5 km2 pour l’exploitation de légumes pour l’année 1993.
Composantes OLAPComposantes OLAP
L’architecture OLAP consiste en trois services :Base de données : Doit supporter les données agrégées ou résumées Peut provenir d’un entrepôt ou d’un marché de données* Doit posséder une structure multidimensionnelle (SGDB
multidimensionnel ou relationnel)Serveur OLAP : Gère la structure multidimensionnelle dans le SGBD Gère l’accès aux données de la part des usagersModule client : Permet aux usagers de manipuler et d’explorer les données Affiche les données sous forme de graphiques statistiques et de
tableaux Selon le type de base de données accédé, plusieurs configurations sont
possibles : multidimensionnelle, relationnelle ou hybride
MOLAP(OLAP Multidimensionnel)
MOLAP(OLAP Multidimensionnel)
Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées dans une base de données multidimensionnelle (souvent appelée cube ou hypercube)
Une base de données multidimensionnelle utilise une structure propriétaire au logiciel utilisé ( matrice)
Le serveur MOLAP extrait les données de l’hypercube et les présente directement au module client
MOLAP(OLAP Multidimensionnel)
MOLAP(OLAP Multidimensionnel)
Base de données multidimensionnelle (hypercube)
Serveur MOLAP Client OLAP
ROLAP (OLAP Relationnel)ROLAP (OLAP Relationnel)
Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées sous forme de tables dans une base de données relationnelle
La base de données relationnelle doit être structurée selon un modèle particulier (étoile, flocon, …)
Le serveur extrait les données par des requêtes SQL et interprète les données selon une vue multidimensionnelle avant de les présenter au module client
ROLAP (OLAP Relationnel)ROLAP (OLAP Relationnel)
Base de données relationnelle (étoile ou flocon)
Serveur ROLAP
Vue multidimensionnelle
Client OLAP
HOLAP (OLAP Hybride)HOLAP (OLAP Hybride)
Architecture qui consiste en un croisement des architectures MOLAP et ROLAP
Les données détaillées de base de l’entrepôt sont stockées dans une base de données relationnelle et les données agrégées sont stockées dans une base de données multidimensionnelle
Le serveur HOLAP accède deux bases de données et les présente au module client, selon une vue multidimensionnelle dans le cas des données de la BD relationnelle
HOLAP (OLAP Hybride)HOLAP (OLAP Hybride)
BD relationnelle
MOLAP HOLAP
MOLAP vs ROLAP vs HOLAPMOLAP vs ROLAP vs HOLAP
Critère de comparaison
ROLAP
Stockage des données de base (détaillées)
BD relationnelle BD multidimensionnelle
BD relationnelle
Stockage des agrégations
BD multidimensionnelle
BD multidimensionnelle
Performance des requêtes (habituellement)
Le moins performant
Le plus performant Performance moyenne
Structure multidimensionnelleStructure multidimensionnelle
Pour une configuration ROLAP ou HOLAP, il est nécessaire de simuler une structure multidimensionnelle dans un SGBD relationnel à l’aide de modèles particuliers qui permettent de mieux répondre aux besoins multidimensionnels :– Modèle en étoile (Star Schema)– Modèle en flocon (Snowflake Schema)– Modèle mixte (Mixed Schema)– Modèle en constellation (Fact Constellation Schema)
Modèle en étoileModèle en étoile
Le schéma en étoile tire son nom de sa configuration: Objet central, nommé table des faits Connecté à un certain nombre d’objets de manière radiale,
les tables de dimension La table des faits, comme son nom l’indique, contient
les faits Les tables de dimensions contiennent les attributs
définissant chacun des membres des dimensions. Elles sont dénormalisées.
Modèle en étoileModèle en étoile
Un niveau=1 couple (id +nom)
3 niveau=3 couples (id +nom)
Un niveau=1 identifiant
Modèle en étoileModèle en étoile
DIMENSION 1
DIMENSION 5
DIMENSION 3
DIMENSION 2
DIMENSION 4
FAITS
Mesures
DIMENSION N
Modèle en floconModèle en flocon
Le schéma en flocon est dérivé du schéma en étoile où les tables de dimension sont normalisées (la table des faits reste inchangée)
Avec ce schéma, chacune des dimensions est décomposée selon sa ou ses hiérarchie(s)
Modèle en floconModèle en flocon
Modèle en floconModèle en flocon
Modèle mixteModèle mixte
Il s’agit d’une structure qui résulte de la meilleure combinaison des deux types de modèles précédents– Seules quelques dimensions seront normalisées,
souvent il s’agit des plus grandes tables et celles contenant le plus de redondance
Modèle mixteModèle mixte
Modèle en constellationModèle en constellation
Le schéma en constellation est en fait composé de plusieurs schémas en étoile qui partagent des tables de dimension
Modèle en constellationModèle en constellation
Modèle en constellationModèle en constellation
Opérations OLAPOpérations OLAP
Les outils OLAP utilisent des opérateurs particuliers afin de « naviguer » dans les cubes multidimensionnels :– Pivoter (pivot, swap) : Permet d’interchanger deux dimensions – Forer (drill-down) : Permet de descendre dans la hiérarchie de la
dimension. Ex. visualiser le nombre d’accidents par mois au lieu de par année.
– Remonter (drill-up, roll-up) : Permet de remonter dans la hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par année au lieu de par mois.
– Forer latéralement (drill-across) : – Permet de passer d’une mesure à l’autre. Ex. visualiser le coût des
travaux au lieu du nombre d’accidents– Permet de passer d’un membre de dimension à un autre. Ex. visualiser
les données de Montréal au lieu de celles de Québec
OLTP vs OLAPOLTP vs OLAP
OLTP (On-line transaction processing)
OLAP (On-line analytical processing)
Priorité à la sécurité et l’intégrité des données.
Optimisation du rapport “espace de stockage vs. quantité de données” (non-redondance des données).
BD mise à jour fréquemment (transactions).
Priorité à l’analyse et l’exploration des données
Optimisation du temps de réponse aux requêtes (redondance encouragée s’il y a gain de performance)
Gestion de données pré-agrégées, en mode lecture (mise à jour contrôlée)
OLTP vs OLAPOLTP vs OLAP
OLTP (On-line transaction processing)
OLAP (On-line analytical processing)
Outil de requête tributaire de la structure de données (un usager doit connaître la structure de la base de données pour l’interroger efficacement).
Requêtes “non-agrégatives” i.e. visitent peu d’enregistrements, mais mettent à contribution les techniques d’indexation pour retourner un nombre relativement restreint d’enregistrements répondant à certains critères.
Absence d’outil de requête i.e. l’usager interagit directement avec les données
Requêtes principalement du type
“agrégatif” i.e. calculs de totaux, variance, maxima et minima, etc…
SOLAPSOLAP
SOLAPSOLAP
Environ 80% des données ont une composante spatiale qui est souvent inexploitée
Besoin de nouveaux outils d’analyse spatio-temporelle pour exploiter cette composante
123, rue St-Jean
Québec
G1K 7P4Route 138
Amérique du Nord
Sainte-Foy
SOLAPSOLAP
SIG ? : Il est bien connu que les SIG seuls ne présentent pas l’efficacité requise par les applications analytiques (langages d’interrogation, interfaces complexes, temps de traitement longs)
OLAP ? : L’intérêt d’OLAP pour l’analyse spatio-temporelle a été démontré [Caron, 1997]. Cependant, sans volet cartographique, il est impossible de visualiser la composante géométrique des données
SIG + OLAP ? : Une solution pourrait être de combiner des technologies spatiales et non-spatiales : SIG et OLAP
SOLAPSOLAP
Quelques logiciels combinant des fonctionnalités SIG et OLAP ont été mis sur le marché : Cognos Visualizer ProClarity MapX AC OLAP Map
Ils offrent un sous-ensemble seulement des fonctionnalités d’un outil SOLAP idéal
SOLAPSOLAP
SOLAP : Une plate-forme visuelle supportant l’exploration et l’analyse spatio-temporelle faciles et rapides des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation via un affichage cartographique, tabulaire ou en diagramme statistique.
SOLAPSOLAP
3 types de dimensions spatiales : Descriptive Géométrique Mixte
2 types de mesures : Descriptive numérique Spatiale :
ensemble de coordonnées résultat d’une opération de mesure spatiale ou topologique ensemble de pointeurs vers une structure géométrique externe
SOLAPSOLAP
CB…
Dimension spatiale descriptive
Canada
Québec
Montréal Québec
NB
…
Mesure numérique
Ventes en $
Mesure spatiale
L’intersection géometrique d’une dimension de peuplements forestiers et d’une dimension de bassins versants
Dimension spatiale mixte
…
Canada
…
Dimension spatiale géométrique
…
…
SOLAPSOLAP
Plusieurs architectures possibles (SGBDM, SGBDR, SIG, serveur OLAP, client OLAP, logiciel de visualisation, DAO, logiciel statistique, …)
Exemples : ICEMSE = Access + SoftMap + VB MSSS = SQL Server + JMap + Java MTQ routier = SQL Server (Analysis Services) + ProClarity +
Geomedia + VB
SOLAPSOLAP
Caractéristiques souhaitables : Visualisation des données :
Plusieurs types d’affichage (cartographique, tabulaire, diagrammes statistiques)
Gestion flexible des affichages Représentation de plusieurs mesures à la fois Affichage de données de contexte Modification de la sémiologie graphique Légende interactive
Exploration des données : Opérations d’exploration disponibles dans tous les affichages Fonctions d’analyse spatio-temporelle (métriques et topologiques) Gestion de la dimension temporelle à l’aide d’une ligne du temps Ajout de mesures calculées Filtrage sur les membres des dimensions Affichage des agrégations significatives seulement
SOLAPSOLAP
Caractéristiques souhaitables : Structure des données :
Support pour plusieurs dimensions spatiales géométriques à la fois Support pour toutes les primitives géométriques et leurs complexes (ISO) Support pour la généralisation automatique et la représentation multiple Support pour le stockage des données géométriques historiques Support pour différentes sources de données
SOLAPSOLAP
Des recherches très actives sont en cours à ce sujet au CRG
Projets SOLAP en cours : Ministère des Transports : transport hors-
norme SOLAP 3D
À moyen terme : SOLAP 3D, temps réel, sans-fil
Liens intéressantsLiens intéressants
Entrepôts de données : Data warehouse.com : http://www.datawarehouse.com Data warehousing Information Center :
http://www.dwinfocenter.org/
OLAP : OLAP Council : http://www.olapcouncil.org/ OLAP Report : http://www.olapreport.com/ Dm Review : http://www.dmreview.com OLAP Information : http://www.olapinfo.de/
SOLAP : http://sirs.scg.ulaval.ca/YvanBedard/