Post on 04-Apr-2015
Organisation de l’entrepôt edot
Revue RNTL edot 29 Juin 2004
Bernd Amann, Jérôme Baumgarten, Benjamin Nguyen
Revue E.Dot 29/6/2004
2
Entrepôt e.dot : Architecture
Xyleme
ActiveXML
Miel++
Services edot
Entrepôt edot
CGBD
Interface edot
AC
War
e
Revue E.Dot 29/6/2004
3
Entrepôt e.dot Entrepôt de travail
Échange de données entre les services
Stockage des résultats intermédiaires (validation)
Schéma « orienté-services » Entrepôt final
Interrogation par MIEL++ Schéma « orienté-domaine »
Revue E.Dot 29/6/2004
4
Entrepôt de travail Toutes les données (paramètres,
fichiers etc…) utilisées et générées par les services edot sont stockées dans un entrepôt
Le déclenchement des services (workflow) est implicite et contrôlé par l’entrepôt
Revue E.Dot 29/6/2004
5
Organisation de l’entrepôt : Modèle ACWare Modélisation des données :
Types de données : types simples + constructeurs de types complexes (n-uplet, collection) + clés
Schéma : organisation des données Modélisation des services :
Règles de mise-en-correspondance :Schéma entrées/sorties de services Web
Modèle : Xquery (extraction) + Xupdate (MAJ)
Revue E.Dot 29/6/2004
6
Entrepôt de travail : Contenu et Structure Globale
Initialisation : Parmètres d’initialisation du crawler Ontologie
Un ensemble de pages web Un ensemble de documents PDF Un ensemble de documents Excel Pour chaque document/page:
Les résultats des traitements appliqués (services edot)
E.Dot
PageWeb
Initialisation
PDFDoc
ExcelDoc
Revue E.Dot 29/6/2004
7
Initialisation
Initialisation
UrlsExclus
OntologieVersion
String
UrlsIncl
SouscriptionsMaxDur
MaxNum
Crawl
E.Dot
Revue E.Dot 29/6/2004
8
Ontologie edot
Ontologie
SymPrevius
infos
Combase
traduction
Merge
synonymesschemaRel
taxonomie
Initialisation
Revue E.Dot 29/6/2004
9
Pages web
PageWeb
String
Acqu
Xtab
SML
URL
• Les documents (pdf, excel) et le pages web sont les unités centrales de l’entrepôt auxquelles on applique des traitements
• Chaque document/page est identifié par une URL (clé)
• Les résultats des traitements sont stockés « avec » le document/la page
E.Dot
Revue E.Dot 29/6/2004
10
Phase Acquisition Xyleme Crawler :
Fonction : crawl exhaustive et filtrage brut (monitor)
Résultat : {(URL, mots clés)} E.Dot Filter :
Fonction : crawl + filtrage intelligent Résultat : {(URL, contenu, score)
Thesus : Fonction : classement Résultat : {(URL, mots clés)} Filter
Crawl
Date
Thesus
Acqu
String
PageWeb
Revue E.Dot 29/6/2004
11
Crawl
Crawl
Id
Souscription
Int
String
Date
String
<crawl> <crawldate>
xs:date </crawldate> [1] <notification> [0..*] <url> xs:string </url> [1] <subscription>
xs:string </subscription> [1] <monitoring>
xs:string </monitoring> [1] </notification></crawl>
Xquery/Xupdate
Revue E.Dot 29/6/2004
12
Thesus
Initialisation : Activate = true Le service Thesus et lancé
périodiquement avec le résultat d’une requête XQuery qui retourne les URLs des pages avec Activate = true
Les résultats obtenus sont stockés dans l’entrepôt avec la page traitée et Activate := false
Thesus
Activate
true
KeywordsDate
17/6/04
false
aliment ph
Revue E.Dot 29/6/2004
13
EdotFilter
<Filter><Activate:$><RequeteFilter:$/><Type:$/><Score:Int/><TexteNettoye:$/><ContenuBrut:$/>
</Filter>
Filter
Requête
Activate
Boolean
DateTexte
Score
Contenu
Type
Revue E.Dot 29/6/2004
14
Schéma : ExcelDoc et pdfDoc
<ExcelDoc><URI:$/><Contenu:$/><Excel2Xtab:*/><sml:*/>
</ExcelDoc>
<pdfDoc><URI:$/><Contenu:$/><MetaPdf:*/><pdf2Xtab:*/><sml:*/>
</pdfDoc>
Revue E.Dot 29/6/2004
15
Implantation de l’entrepôt Le schéma ACWare est traduite en
application ActiveXML : Ensemble de documents XML intensionnels
accessibles à travers des requêtes XQuery publiées sous forme de services Web
Limitations actuelles : Gestion de grands volumes de
documents/données Outils d’exploration et de validation de
l’entrepôt
Revue E.Dot 29/6/2004
16
État d’avancement Travail accompli :
Définition des signatures WSDL des services edot
Définition du schéma ACWare de l’entrepôt de travail
Travail en cours: Intégration des services edot (requêtes
entrées/sorties) dans le schéma ACWare Interface graphique de conception et de
pilotage interactif (pour la validation) Intégration ActiveXML/Xylème Zone Server