Intégration texte-représentation formelle dans la gestion de documents XML
-
Upload
jacob-gross -
Category
Documents
-
view
34 -
download
0
description
Transcript of Intégration texte-représentation formelle dans la gestion de documents XML
20/06/2000 INRIA Rhône-Alpes - Action EXMO 1
Intégration texte-représentation formelle dans la gestion de
documents XML
Raphaël Troncy
20/06/2000 INRIA Rhône-Alpes - Action EXMO
2
Problématique (1/2)
• Web = espace d’information• Problème : difficulté à trouver et à utiliser
l’information disponible• Exemple : on cherche la page personnelle d’un
chercheur nommé Smith– résultats à propos de forgeron (problème de précision)
– on souhaite aussi connaître son prénom (problème d’utilisation)
20/06/2000 INRIA Rhône-Alpes - Action EXMO
3
Problématique (2/2)
• Principe : représenter la connaissance contenue dans les documents de façon à ce que celle-ci soit exploitable par des machines
• Quels moyens faut-il mettre en œuvre pour représenter la connaissance contenue dans des documents et produire le système qui va en tirer parti ?
20/06/2000 INRIA Rhône-Alpes - Action EXMO
4
Action de recherche ESCRIRE
• But : comparaison de trois classes de formalisme de représentation de connaissance
• Méthodologie :
D onnées S tructure p ivo t Form alism e de représenta tion
docum en t
requê te
on to log ie
descrip tion
requê teR C
on to log ieR C
descrip tionR C
docum en tX M L
in te rface
ana lyse
in tég ra tion
20/06/2000 INRIA Rhône-Alpes - Action EXMO
5
Présentation du corpus de travail
• Résumés d’articles scientifiques traitant d’interaction géniques chez la drosophile pendant son processus de segmentation
• Drosophile = petite mouche utilisée pour la recherche en biologie dans le domaine de la génétique
20/06/2000 INRIA Rhône-Alpes - Action EXMO
6
Plan de la présentation
• I) Les solutions existantes
• II) Des éléments de réponse
• III) Proposition d’implémentation
20/06/2000 INRIA Rhône-Alpes - Action EXMO
7
Le langage SHOE (1/2)
• Maryland, 1996 : Heflin, Spector, Hendler, Luke et Roger
• Langage permettant de définir des ontologies :– définition de classe <DEF-CATEGORY NAME="gap" ISA="gene-class" />
– définition de relation <DEF-RELATION NAME="interaction">
<DEF-ARG POS="1" TYPE="gene" /> <DEF-ARG POS="2"
TYPE="gene" /> </DEF-RELATION>
– règles d’inférence
20/06/2000 INRIA Rhône-Alpes - Action EXMO
8
Le langage SHOE (2/2)
• Langage permettant de définir des instances : <CATEGORY NAME="gap"/>
<RELATION NAME="interaction"> <ARG POS="1" VALUE=me /> <ARG POS="2" VALUE="hb" />
</RELATION>
• Outils associés à SHOE :– agent EXPOSE
– outil permettant d’annoter graphiquement les pages Web
– interface graphique pour composer des requêtes
20/06/2000 INRIA Rhône-Alpes - Action EXMO
9
Le système ONTOBROKER (1/2)
• Karlsruhe, 1997 : Studer, Decker, Erdmann et Fensel
• Architecture générale :
<HTML>...<HTML>
<HTML>...<HTML>
<HTML>...<HTML>
Langaged 'annota tion
F a itsIn te rface deR equê te
C onna issance
R equê te
Langage dereprésenta tion
Langage derequête
O ntoO nto O nto
M oteurd 'In férence
O ntocrawler
ProviderIndex
20/06/2000 INRIA Rhône-Alpes - Action EXMO
10
Le système ONTOBROKER (2/2)
• Langage de représentation :– Classes : Object[].
Gene::Object. Interaction::Object.
– Attributs : Interaction[promoter =>> Gene; target =>> Gene].
• Langage d’annotation :– <a onto="page:Interaction[promoter = tll,
target = hb]"></a>
• Langage de requête :– FORALL O O : C[A >>V]
• Outils associés à ONTOBROKER :– interface de requête, moteur d’inférence, « webcrawler »
20/06/2000 INRIA Rhône-Alpes - Action EXMO
11
Bilan (1/2)
• Multitude de systèmes (OIL, XOL, OML ...)
• Points communs :– définition d’une ontologie, description de faits,
possibilité de formuler des requêtes– interface XML
• Inconvénients :– systèmes performants pour des applications
précises
20/06/2000 INRIA Rhône-Alpes - Action EXMO
12
Bilan (2/2)
• Comment représenter la connaissance contenue dans un document ?
• Quels éléments du document va-t-on décrire ?
• A quel type de requête désire-t-on répondre ?
• Comment intégrer cette formalisation de la connaissance au sein du document ?
20/06/2000 INRIA Rhône-Alpes - Action EXMO
13
II) Des éléments de réponse (1/5)
• Comment représenter la connaissance contenue dans un document ?– Nature des documents
• fiction vs non-fiction
– Constructeurs de représentation de connaissance utiles
• classes, objets, relations, règles d’inférence
20/06/2000 INRIA Rhône-Alpes - Action EXMO
14
II) Des éléments de réponse (2/5)
• Image en couleur
• Il y a 2 hommes
• Il y a 2 présidents
• Il y a Jacques Chirac et Boris Yeltsin
• Jacques Chirac et Boris Yeltsin se serrent la main
• Jacques Chirac et Boris Yeltsin se serrent la main le 30 mai 1997 devant l’Elysée
Quelle description du document va-t-on donner ?
20/06/2000 INRIA Rhône-Alpes - Action EXMO
15
II) Des éléments de réponse (3/5)
• Quels éléments du document va-t-on décrire ?– le document fait allusion à 2 gènes– ces gènes appartiennent aux classes gap et pair-rule
– ces gènes sont tailless (tll) et fushi-tarazu (ftz)
– ces 2 gènes ont une influence– tll inhibe ftz dans la partie antérieure de la
mouche
20/06/2000 INRIA Rhône-Alpes - Action EXMO
16
II) Des éléments de réponse (4/5)
• A quel type de requête désire-t-on répondre ?
Quels sont les documents qui traitent d’interactions entre les classes gap et pair-rule ?– Langage de requête : (OQL, XML-QL)
SELECTFROM interaction:IWHERE I.promoter-class = "gap" AND I.target-class = "pair-rule"
– Interprétation : inférences locales vs inférences globales
20/06/2000 INRIA Rhône-Alpes - Action EXMO
17
II) Des éléments de réponse (5/5)
• Comment intégrer cette formalisation de la connaissance au sein du document ?– à l’intérieur des documents
• dans l’en-tête d’une page HTML, encapsulée dans des balises RDF
– à l’extérieur des documents• dans des fichiers séparés reliés au document via un
serveur d’annotation
20/06/2000 INRIA Rhône-Alpes - Action EXMO
18
• Annotation des documents
III) Proposition d’implémentation (1/5)
.m ed l
<XHTM L>...</XHTM L>
Dublin Core
E scrire
D ocum entcom p le tanno té
T roepsfo rm at p iv o t
fo rm a lism ede R C O
m éta -données c lass iques
20/06/2000 INRIA Rhône-Alpes - Action EXMO
19
III) Proposition d’implémentation (2/5)
• Exemple d’annotation :
<esc:objref id="gap" /><esc:objref id="pair-rule" />
<esc:relation type="interaction"> <esc:role name="promoter-class">
<esc:objref id="gap" /> </esc:role> <esc:role name="target-class">
<esc:objref id="pair-rule" /> </esc:role> </esc:relation>
20/06/2000 INRIA Rhône-Alpes - Action EXMO
20
III) Proposition d’implémentation (3/5)
• Interrogation des documents :
app le t decom pos ition
d 'unerequê te
requête engendrée enXM L (DTD Q ESC)
réponse retournée enXM L (DTD RESC)
In terface S erveur TR O E P S
consulta tion dela base
Expat
analyseur de
requête
évaluateur de
requête
Troeps
chargementdes annotations
base deconnais-sance
20/06/2000 INRIA Rhône-Alpes - Action EXMO
21
III) Proposition d’implémentation (4/5)
• Exemple de requête :<esc:select /><esc:from> <esc:relvar type="interaction" id="I" /></esc:from><esc:where> <esc:and>
<esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="promoter" /></esc:path> <esc:objref id="gt" /> </esc:eq><esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="target" /></esc:path> <esc:objref id="Hb" /> </esc:eq>
</esc:and> </esc:where>
20/06/2000 INRIA Rhône-Alpes - Action EXMO
22
III) Proposition d’implémentation (5/5)
• Annotation des documents
• Applet de composition d’une requête• Analyseur de requêtes (Expat)
• Évaluateur de requêtes (optimisation)
• Intégration dans TROEPS
• Affichage des réponses
20/06/2000 INRIA Rhône-Alpes - Action EXMO
23
Conclusion
• Plusieurs granularités de description possible (le choix des éléments à annoter dépend de l’application résultante)
• Structures générales : classes, objets, relations
• Mise en œuvre dans TROEPS, un langage de RCO et proposition d’un processus permettant d’interroger les documents
• Proposition d’un langage de requête
20/06/2000 INRIA Rhône-Alpes - Action EXMO
24
Perspectives
• Application à tout le corpus sur la drosophile
• Comparaison des performances du SRCO avec les autres formalismes de représentation de connaissance
• Remise en question de certains choix
• Utilisation d’autres corpus de documents pour dégager des grandes classes d’application