Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de...

27
Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg G. Cobéna, A. Poggi, V. Bensal

Transcript of Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de...

Page 1: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

Gestion active de l’entrepôt edot avec

ACWare

Revue edot du 29 Juin 2004Lot 3 : Création de l’entrepôt

S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. RubergG. Cobéna, A. Poggi, V. Bensal

Page 2: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

2

Les entrepôts de contenu en bref But:

Permettre un accès intégré vers des sources de données hétérogènes, autonomes et distribuées.

Fonctionnalités principales: Acquisition Transformation Filtrage Nettoyage et intégration Requêtes

Accès centralisé vers l’information: Entrepôt vs. Médiateur Entrepôt : l’information est obtenue à l’avance Médiation : l’information est obtenue au moment de la requête

Entrepôt actif : Stockage Traitement (services webs) ActiveXML

Page 3: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

3

Organisation Contexte et Motivations

Le modèle ACWare

Application dans le cadre de e.dot (B. Amann)

Page 4: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

Contexte and motivations

Entrepôts XML

Page 5: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

5

Etat des lieux : Le Web

Format d’échange universel (XML) Mariage entre documents et bases de

données Standard de langage de requêtes: XQuery

Services Web (SOAP, WSDL) Format pour exporter des services sur le Web Format pour encapsuler des requêtes

Web sémantique (ontologies) Trouver et utiliser l’information pertinente

Page 6: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

6

XML : Du texte et de la structure

Des arbres ordonnés étiquettés dont les feuilles sont du texte

Intérêt: Permet une recherche plein texte (mots-clé) et une recherche structurelle (SQL-like)

Page 7: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

7

Services Web Possibilité d’activer une méthode sur un serveur

web distant Echange d’informations en XML : les entrées et

sorties se font en XML Méthode de calcul XML distribué, par le biais de

services Web Avec XML et les Services Web, il est possible de

Récupérer des informations de n’importe où Exporter nos données n’importe où

Page 8: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

8

Accès à l’information distante

Application using food risk DB

Query some data services

Food RiskDB

processing

processingprocessing

Use some processing services

Heterogeneous formats,

protocols, etc.

Page 9: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

9

Avec des Services Web

Query some data services

Food RiskDB

processing

processingprocessing

Use some processing services

Web

Application using Food Risk DB

Uniform access to information

Page 10: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

10

Avantages de l’approche Entrepôt Distribué

Elle permet: Support de requêtes complexes (MIEL++) Analyse complexe des données (via divers

services web) Enrichissement des données Monitorage possible des informations Versionnement, archivage, requêtes temporelles Une mise en oeuvre facilité de toutes les

fonctionalités (Services Web)

Page 11: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

Le modèle ACWare

Page 12: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

12

Rappel des objectifs

On veut: Construire des entrepôts de données semi structurées Utiliser des services web pour enrichir et traiter les

données

Comment atteindre ces objectifs ? Construction du schéma de l’entrepôt basé sur un

modèle de conception bien précis Pas de programmation, conception par le biais de

requêtes Utilisation de standards : XQuery, XUpdate, WSDL

Page 13: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

13

ACWare Manager

Architecture ACWareACWareDesigner

ACWareCompiler

Formal Declarative Description :ACWare Declaration

Supported target platform :ActiveXML : documents+ services

ExecutableProgram

Warehouseinstance

XyCrawler,EDotFilter, Thesus,

Any2Xtab,Xtab2SML,pdfCrawler

web services

queries

ACWareViewer

Page 14: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

14

Délivrables Un langage de spécification pour décrire

l’entrepôt, et les entrées/sorties de données concernant les services web

Un compilateur qui transforme la description formelle d’un entrepôt dynamique en une instance d’entrepôt et un ensemble de programmes exécutables

Une plate-forme répondant aux spécifications, sur laquelle tourne l’application : ActiveXML

Une Interface (GUI) pour éditer les spécifications de l’entrepôt

Des outils pour l’interrogation et le pilotage de cet entrepôt dynamique

Page 15: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

15

Modèle Modèle de données

Schéma de l’entrepôt (dans l’esprit E.A)

Types Semi-Structurés Clés

Modèle de Services Entrée Sortie

Page 16: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

16

WarehouseDATA

Gather Data from the WWW

Integration ofvalidated Data

Gather Data fromBio-Industry

Partners

edot Services:-html clean-up-doc filters-content analysis

Biologist work:-Validation of data-Querying and using data-Manage Web data sources

Page 17: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

17

Modèle de données : Types Type System:

:: basic complex basic :: string integer float … complex :: composite collection composite :: [(ℓ1): 1, ℓ2: 2, …, ℓn: n] collection :: {composite}

Example:<Lab>

<name> string </name><country> string </country><web-site> string </web-site><contact> string </contact><reference> integer </reference>

</Lab>

Page 18: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

18

Modèle de données : Schéma

Le schéma de l’entrepôt est défini en déclarant des collections, des entités, et les relations entre elles, qui portent la sémantique enrichiPar.

Page 19: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

19

Exemple réel (voir suite)<dataTypes:define

datatype="textcontent"> <dataTypes:child type="string" name="value"/> </dataTypes:define><dataTypes:define datatype="URL"> <dataTypes:child type="string" name="value"/></dataTypes:define><dataTypes:define datatype="document"> <dataTypes:child type="URL"

name="URL"/> <dataTypes:child

type="textcontent" name="content"/></dataTypes:define>

<dataTypes:define datatype="author"> <dataTypes:child type="string"/></dataTypes:define><dataTypes:define datatype="authors"> <dataTypes:child type="collection" of="author" key="author.value"/></dataTypes:define>

<Whouse:collection name="TheWarehouse"

key="document.URL.value">

<Whouse:entity datatype="document" >

<Whouse:entity datatype="authors" />

<Whouse:entity datatype="experiment">

<Whouse:entity datatype="bacteria"/>

<Whouse:collection name="measures"

key="measure.item">

<Whouse:entity datatype="measure" />

</Whouse:collection>

</Whouse:entity>

</Whouse:entity>

</Whouse:collection>

Modèle des données

Page 20: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

20

Modèle des Services

WSDL CompliantInput

Additional Information(e.g. location of data)

Warehouse

Web Service(WSDL Definition)

WSDL CompliantOutput

Copy ofAdditional Information

UpdateScript

1. Input Query

create input data

2. Web Service Call

execute/use the service

3. Create Update Script

apply results to the warehouse

Page 21: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

21

Requête d’Entrée Modèle formel : langage XQuery Implémentation actuelle : XOQL Méthode :

Cas simple : génération de la requête correspondante

Cas plus complexe : Ecriture de la requête par le gestionnaire de l’entrepôt

Page 22: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

22

Requête Xquery (XOQL)SELECT<root><input>

<html-page>$A/crawled-version::text() </html-page>

<options> ... </options></input><info>

<docId> $A/URL </docId></info>

</root>FROM $A IN /biblio/documentWHERE not exists ($A/document/clean-version::text())

Page 23: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

23

Resultat après l’appel de services

<root><output>

<xhtml-page> ... </xhtml-page><validation> ... </validation>

</output><info>

<docId> ... </docId></info>

</root>

Page 24: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

24

Requête de sortie Script de MAJ:SELECT<xupdate:insert

path=“/biblio/document[URL=$A/../info/docId:text]/webpage” ><clean-version>

$A/xhtml-page:text()</clean-version>

</xupdate:insert>FROM $A IN root/output Après l’exécution du service, appliquer le

scripte de MAJ à l’entrepôt

Page 25: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

25

Implantation : ActiveXML Plateforme de développement de l’équipe

GEMO : intégration de données et services Entièrement XML !

Stockage Vérification de types Optimisation des appels de services Appels de services asynchrones Xpath, Xquery, XSL, XSchema…

www-rocq.inria.fr/gemo/Gemo/Projects/axml/

Page 26: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

revue edot - 29 juin 2004

26

References

http://www-rocq.inria.fr/gemo/projects/spin/

Page 27: Gestion active de l’entrepôt edot avec ACWare Revue edot du 29 Juin 2004 Lot 3 : Création de l’entrepôt S. Abiteboul, B.Amann, N. Azis, B. Nguyen, G. Ruberg.

Questions ?