Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten,...

16
Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen

Transcript of Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten,...

Page 1: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Organisation de l’entrepôt edot

Revue RNTL edot 29 Juin 2004

Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen

Page 2: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

2

Entrepôt e.dot : Architecture

Xyleme

ActiveXML

Miel++

Services edot

Entrepôt edot

CGBD

Interface edot

AC

War

e

Page 3: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

3

Entrepôt e.dot Entrepôt de travail

Échange de données entre les services

Stockage des résultats intermédiaires (validation)

Schéma « orienté-services » Entrepôt final

Interrogation par MIEL++ Schéma « orienté-domaine »

Page 4: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

4

Entrepôt de travail Toutes les données (paramètres,

fichiers etc…) utilisées et générées par les services edot sont stockées dans un entrepôt

Le déclenchement des services (workflow) est implicite et contrôlé par l’entrepôt

Page 5: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

5

Organisation de l’entrepôt : Modèle ACWare Modélisation des données :

Types de données : types simples + constructeurs de types complexes (n-uplet, collection) + clés

Schéma : organisation des données Modélisation des services :

Règles de mise-en-correspondance :Schéma entrées/sorties de services Web

Modèle : Xquery (extraction) + Xupdate (MAJ)

Page 6: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

6

Entrepôt de travail : Contenu et Structure Globale

Initialisation : Parmètres d’initialisation du crawler Ontologie

Un ensemble de pages web Un ensemble de documents PDF Un ensemble de documents Excel Pour chaque document/page:

Les résultats des traitements appliqués (services edot)

E.Dot

PageWeb

Initialisation

PDFDoc

ExcelDoc

Page 7: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

7

Initialisation

Initialisation

UrlsExclus

OntologieVersion

String

UrlsIncl

SouscriptionsMaxDur

MaxNum

Crawl

E.Dot

Page 8: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

8

Ontologie edot

Ontologie

SymPrevius

infos

Combase

traduction

Merge

synonymesschemaRel

taxonomie

Initialisation

Page 9: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

9

Pages web

PageWeb

String

Acqu

Xtab

SML

URL

• Les documents (pdf, excel) et le pages web sont les unités centrales de l’entrepôt auxquelles on applique des traitements

• Chaque document/page est identifié par une URL (clé)

• Les résultats des traitements sont stockés « avec » le document/la page

E.Dot

Page 10: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

10

Phase Acquisition Xyleme Crawler :

Fonction : crawl exhaustive et filtrage brut (monitor)

Résultat : {(URL, mots clés)} E.Dot Filter :

Fonction : crawl + filtrage intelligent Résultat : {(URL, contenu, score)

Thesus : Fonction : classement Résultat : {(URL, mots clés)} Filter

Crawl

Date

Thesus

Acqu

String

PageWeb

Page 11: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

11

Crawl

Crawl

Id

Souscription

Int

String

Date

String

<crawl> <crawldate>

xs:date </crawldate> [1] <notification> [0..*] <url> xs:string </url> [1] <subscription>

xs:string </subscription> [1] <monitoring>

xs:string </monitoring> [1] </notification></crawl>

Xquery/Xupdate

Page 12: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

12

Thesus

Initialisation : Activate = true Le service Thesus et lancé

périodiquement avec le résultat d’une requête XQuery qui retourne les URLs des pages avec Activate = true

Les résultats obtenus sont stockés dans l’entrepôt avec la page traitée et Activate := false

Thesus

Activate

true

KeywordsDate

17/6/04

false

aliment ph

Page 13: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

13

EdotFilter

<Filter><Activate:$><RequeteFilter:$/><Type:$/><Score:Int/><TexteNettoye:$/><ContenuBrut:$/>

</Filter>

Filter

Requête

Activate

Boolean

DateTexte

Score

Contenu

Type

Page 14: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

14

Schéma : ExcelDoc et pdfDoc

<ExcelDoc><URI:$/><Contenu:$/><Excel2Xtab:*/><sml:*/>

</ExcelDoc>

<pdfDoc><URI:$/><Contenu:$/><MetaPdf:*/><pdf2Xtab:*/><sml:*/>

</pdfDoc>

Page 15: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

15

Implantation de l’entrepôt Le schéma ACWare est traduite en

application ActiveXML : Ensemble de documents XML intensionnels

accessibles à travers des requêtes XQuery publiées sous forme de services Web

Limitations actuelles : Gestion de grands volumes de

documents/données Outils d’exploration et de validation de

l’entrepôt

Page 16: Organisation de l’entrepôt edot Revue RNTL edot 29 Juin 2004 Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen.

Revue E.Dot 29/6/2004

16

État d’avancement Travail accompli :

Définition des signatures WSDL des services edot

Définition du schéma ACWare de l’entrepôt de travail

Travail en cours: Intégration des services edot (requêtes

entrées/sorties) dans le schéma ACWare Interface graphique de conception et de

pilotage interactif (pour la validation) Intégration ActiveXML/Xylème Zone Server