E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile...

19
e.Dot juillet 2005 Page 1 http://www-rocq.inria.fr/verso/edot/ Projet R.N.T.L. e.Dot Entrepôts de Données Ouverts sur la Toile Organisation et Structuration de l’Entrepôt LOT 3 4 juillet 2005

Transcript of E.Dot – juillet 2005 Page 1 Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile...

Page 1: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 1

http://www-rocq.inria.fr/verso/edot/

Projet R.N.T.L. e.Dot–

Entrepôts de Données Ouverts sur la Toile

–Organisation et Structuration de

l’EntrepôtLOT 3

4 juillet 2005

Page 2: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 2

Introduction

• Implication de tous les partenaires– Définition des modules– Mise en place des modules / fonctionnalités de

manière indépendante– Définition d’interfaces WSDL

• Pilotage par l’INRIA – Mise en œuvre d’une plateforme de développement

(AXML / ACWAre)– Architecture– 3 thésards, ~10 stagiaires maîtrise (AXML / ACWAre)

Page 3: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 3

Plan

1. Principes

2. Architecture Globale

3. Un exemple de service

4. Dissémination

5. Démonstration

Page 4: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 4

1. Principes

Page 5: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 5

Des standards très répandus

• XML– Format d’échange standard de données– Mariage entre documents et bases de données– Gestion de données semi-structurées– Bien adapté à l’utilisation du Web et de données

évolutives

• Services Web – Standard pour le développement modulaire

d’applications distribuées (SOAP)– Description standardisée des entrées/sorties (WSDL)– Dialecte XML

Page 6: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 6

Des technologies nouvelles

• Active XML– Plateforme de développement intégrant données XML

et Services Web– Mariage entre documents et fonctions– Basé sur les standards XML, XSL…– Évolutif et en évolution !

• Active Content Warehousing – Simplifie la gestion de l’architecture d’un entrepôt

semi-structuré– Application AXML– Utilisable de manière modulaire

Page 7: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 7

Un entrepôt « actif »

• Données évolutives– Utilisation d’un mécanisme d’enrichissement– Résultats utilisables par d’autres services (ex.

Ontologie)

• Services flexibles – Choix de services parmi les fonctionnalités (ex.

crawler)– Intégration à divers niveaux– Possibilité de connecter des sources de données, si

celles-ci sont des services web (ex. Aqweb)

Page 8: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 8

Génération de l’entrepôt

Designer

Builder

Manager

Viewer

Spec. Formelle

EntrepôtXML

Service 1

Service 2

Crée

Génère l’entrepôtet les connexions Services Exportés

Interroge

Page 9: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 9

Appel de Services

Page 10: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 10

2. Architecture Globale

Page 11: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 11

Principe

• Entrepôt de travail– Espace de travail persistant et partagé par tous les

services d’acquisition et d’enrichissement de données– Stockage des données en XML– Géré par Acware– Plusieurs espaces de travail possibles (EdotFilter,

Aqweb,…)• Entrepôt final

– Données de l’entrepôt de travail validées et enrichies sémantiquement

– Interrogeables via MIEL++– Stocké dans Xylème

Page 12: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 12

Architecture Globale

Page 13: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 13

Architecture Modulaire

• Acquisition– Traitement de divers types de données

• Html : EDotFilter• Pdf : PDFCrawler

– Informations sémantiques centralisées• OntoMap

• Enrichissement– Intégré à certaines parties (crawlers)– Utilisation possible de services externes (thesus)

• Stockage et interrogation– L’entrepôt de travail n’est pas l’entrepôt interrogé, il permet

seulement le transit de certaines informations– Utilisation de Xylème comme entrepôt final– Interrogation unifiée via Miel++

Page 14: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 14

Illustration : la conversion vers SML

HTML2XTab

PDF2XTab

EXCEL2XTab

Any2XTab

ontologie

documents(html,pdf,…) XTAB2SML document

SML(XML

sémantique)

documentXML

(intermédiaire)

ontologie

Page 15: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 15

3. Un exemple de service

Page 16: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 16

Disponible sur le site

• Les Spécifications WSDL

• Exemples :– EDotFilter– Any2XTab

Page 17: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 17

4. Dissémination

Page 18: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 18

Publications

• S. Abiteboul, V. Bensal, G. Cobena, B. Nguyen and A. Poggi, Model, Design and Construction of a Service-oriented Web Warehouse Demonstration at the European Conference on Digital Libraries, Trondheim (Norway), 2003

• S. Abiteboul, B. Nguyen, G. Ruberg, Building an Active Content Warehouse, in Processing and Managing Complex Data for Decision Support, IDEA Goup, J Darmont & O. Bensaid ed., à paraître (2005)

• T. Milo, S. Abiteboul, B. Amann, O. Benjelloun, F. Dang Ngoc, Exchanging Intensional XML Data, SIGMOD 2003

Page 19: E.Dot – juillet 2005 Page 1  Projet R.N.T.L. e.Dot – Entrepôts de Données Ouverts sur la Toile – Organisation et Structuration.

e.Dot – juillet 2005 Page 19

4. Démonstration