Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE...

Post on 04-Apr-2015

108 views 1 download

Transcript of Auteur :EDA, Mai 2007 SIG/ED Ronan Tournier MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE...

Auteur : EDA, Mai 2007 Ronan Tournier

SIG/ED

MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS

Franck Ravat, Olivier Teste, Ronan Tournier et Gilles Zurfluh.

IRIT: Institut de Recherche en Informatique de Toulouse.

tournier@irit.fr

EDA 2007 2IRIT, SIG/ED

Plan

Introduction : Cadre d’étude Contexte Exemple Problématique

Modèle conceptuelManipulations multidimensionnellesConclusion et perspectives

EDA 2007 3IRIT, SIG/ED

Contexte

Analyse en ligne (OLAP)

Contexte de ces travaux

EDA 2007 4IRIT, SIG/ED

Pourquoi se soucier des documents ? Analyse en ligne sur données transactionnelles Données transactionnelles : 20% des données du SI

(système d’information) [Sullivan-01], [Tseng-06] 80% des données hors de portée (les documents)

Limite: environnement rigideEvolution : XML, format prometteur

Envisager les documents dans le système Ajout de documents dans l’analyse en ligne

2 Types de documents XML [Fuhr-01]

Contexte

EDA 2007 5IRIT, SIG/ED

[1] Documents orientés données Transactions (expressions/résumés d’opérations) Reposent sur une structure de données Format d’échange structuré Ex. : BD, en-têtes mails, factures…

De nombreux travaux de recherche Alimentation : intégration de données XML

[Golfarelli-01]… Modélisation : XML multidimensionnel

[Boussaid-06]… Manipulation : opérateur cube pour XML

[Wiwatwattana-07]…

Contexte

EDA 2007 6IRIT, SIG/ED

[2] Documents orientés documents Documents d’information Principalement composés de texte Ex. : articles, e-book, ouvrages…

Peu de travaux de recherche Ajout des documents en tant que contexte [Peréz-05] Analyse de documents [McCabe-00]…

Basé sur des analyses numériques

Contexte

EDA 2007 7IRIT, SIG/ED

Analyse multidimensionnelle De l’analyse numérique…

Vers l’analyse non numérique

Sujet des publications

Nombre de publications par auteur

Exemple

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK   2 1 -

ICEIS   1 3 -

CAiSE   - 1 2

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK 

XML, Temporel

Entrepôts de données

-

ICEIS 

XML, BD temporelles

XML, Fouille, Contraintes

-

CAiSE 

-Entrepôts de

donnéesModèle conceptuel, Fouille de données

Sujets des 3publications

EDA 2007 8IRIT, SIG/ED

Problématique

Modélisation multidimensionnelle Etats de l’art [Torlone-03], [Ravat-07] conçus pour l’analyse de données transactionnelles

numériques

Conçus pour l’analyse de données transactionnelles

Spécification d’analyse peu flexible

Comment analyser un indicateur textuel ?

EDA 2007 9IRIT, SIG/ED

Limites de la modélisation Mesures textuelles non gérées Structure documentaire non exploitée Spécification d’analyses peu flexible

Analyse de documents… Remise en cause de la manipulation (basée sur les

données numériques) La navigation s’appuie sur la structure hiérarchique

du document Conséquence : la manipulation s’en trouve changée

Pourquoi un nouveau modèle ?

Problématique

EDA 2007 10IRIT, SIG/ED

MODELE

Introduction :cadre de l’étudeModèle conceptuel

Concept : Dimensions regroupées en Galaxie Application

Manipulations multidimensionnellesConclusion et perspectives

EDA 2007 11IRIT, SIG/ED

Modèle

CaractéristiquesUn seul concept : Dimension

Pas de fait => simplification de la modélisation avec un unique concept

Une dimension est un sujet potentiel d’analyse Flexibilité du sujet d’analyse et éviter de fournir des

sujets d’analyse prédéfinis Hiérarchisation des indicateurs d’analyse Représenter les spécificités des documents

Cadre applicatif Analyse de publications scientifiques

EDA 2007 12IRIT, SIG/ED

Concepts

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances

EDA 2007 13IRIT, SIG/ED

Concepts

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies

Hiérarchies Hi=(ParamHi, WeakHi) ParamHi = liste ordonnée de paramètres WeakHi = association des attributs faibles

Paramètre = niveau de granularité d’analyse (attribut)Attribut Faible = complément sémantique d’un paramètre

EDA 2007 14IRIT, SIG/ED

Concepts

Dimension Di=(ADi, HDi, IDi, IStarDi) ADi = ensemble d’attributs HDi = ensemble de hiérarchies IDi = ensemble d’instances IStarDi = fonction d’association des instances

{article1, article2,…}

article1

temp3

auteur6

conference2

EDA 2007 15IRIT, SIG/ED

Concepts

Galaxie G=(DG, StarG, LkG) DG = ensemble de dimensions StarG = fonction d’association entre dimensions LkG = ensemble de fonctions liant des instances

entre elles (liens récursifs)

{Articles, Temps, Auteurs, Conference…}

{Temps, Auteurs, Conference } appartiennent à StarG(Articles)

article1.reference3

article12

EDA 2007 16IRIT, SIG/ED

Application

Exemple: analyse de publications et de projets

EDA 2007 17IRIT, SIG/ED

MANIPULATION

Introduction : cadre de l’étudeModèle conceptuelManipulations multidimensionnelles

Opérations de manipulation Exploitation des liens

Conclusion et perspectives

EDA 2007 18IRIT, SIG/ED

Manipulation

Manipulations multidimensionnellesOpérations revisitées

Sélection du sujet d’analyse Sélection d’une dimension

Restriction de la portée de l’analyse Forage dans les données analysées

Forage classique et forage sur le sujet Réorientation de l’analyse

Réorientation classique et sur le sujet

EDA 2007 19IRIT, SIG/ED

Opérations

Spécification d’une analyseSélectionner les principaux mot-clefs par section d’articles par auteur, par année

EDA 2007 20IRIT, SIG/ED

Changement du niveau de détail

Réorientation

Opérations

EDA 2007 21IRIT, SIG/ED

Exploitation des liens

Exemple d’emploi des liens

Focus ( Count( ARTICLES.HS.Article),

((ARTICLES.Reference.AUTEURS.HA, <Auteur,Institut>),

(CONFERENCES.HConf, <Nom>) ) 

)

 R.Institut Inst1

R.Auteur Au1 Au2 Au3

Conference        

DaWaK 

XML, Documents

XML, Entrepôts de données

Fouille de données, Clustering

DEXA 

XML, BD temporelles

- -

CAiSE 

Fouille de données

Fouille de données

Fouilles de données, Clustering

 R.Institut Inst1

R.Auteur Au1 Au2 Au3

Conference        

DaWaK   3 2 1

DEXA   2 - -

CAiSE   1 1 2

Contexte des citations

Citations d’auteur

3 citations dans une conférence

Portée des travaux : Comment analyser le contexte de ces citations ?

 Institut Inst1

Auteur Au1 Au2 Au3

Conference        

DaWaK   2 1 -

ICEIS   1 3 -

CAiSE   - 1 2

EDA 2007 22IRIT, SIG/ED

CONCLUSION

Introduction : cadre de l’étudeModèle conceptuelManipulations multidimensionnellesConclusion et perspectives

Bilan Perspectives

EDA 2007 23IRIT, SIG/ED

Conclusion et Perspectives

Conclusion Modèle conceptuel pour l’analyse

multidimensionnelle de documents orientés documents

Modèle basé sur un unique concept : dimension Ensemble d’opérations de manipulation permettant

l’analyse multidimensionnelle

Perspectives Fonction d’agrégation adaptées : « mot-clef moyen » Langage de manipulation graphique

EDA 2007 24IRIT, SIG/ED

-

MERCIEDA 2007, Ronan Tournier

SIG/ED : Systèmes d’Informations Généralisés / Entrepôts de Données

IRIT, Institut de Recherche en Informatique de Toulouse

Université Paul Sabatier, Toulouse III.