Intégration texte-représentation formelle dans la gestion de documents XML

24
20/06/2000 INRIA Rhône-Alpes - Actio n EXMO 1 Intégration texte- représentation formelle dans la gestion de documents XML Raphaël Troncy

description

Intégration texte-représentation formelle dans la gestion de documents XML. Raphaël Troncy. Problématique (1/2). Web = espace d’information Problème : difficulté à trouver et à utiliser l’information disponible Exemple : on cherche la page personnelle d’un chercheur nommé Smith - PowerPoint PPT Presentation

Transcript of Intégration texte-représentation formelle dans la gestion de documents XML

Page 1: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO 1

Intégration texte-représentation formelle dans la gestion de

documents XML

Raphaël Troncy

Page 2: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

2

Problématique (1/2)

• Web = espace d’information• Problème : difficulté à trouver et à utiliser

l’information disponible• Exemple : on cherche la page personnelle d’un

chercheur nommé Smith– résultats à propos de forgeron (problème de précision)

– on souhaite aussi connaître son prénom (problème d’utilisation)

Page 3: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

3

Problématique (2/2)

• Principe : représenter la connaissance contenue dans les documents de façon à ce que celle-ci soit exploitable par des machines

• Quels moyens faut-il mettre en œuvre pour représenter la connaissance contenue dans des documents et produire le système qui va en tirer parti ?

Page 4: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

4

Action de recherche ESCRIRE

• But : comparaison de trois classes de formalisme de représentation de connaissance

• Méthodologie :

D onnées S tructure p ivo t Form alism e de représenta tion

docum en t

requê te

on to log ie

descrip tion

requê teR C

on to log ieR C

descrip tionR C

docum en tX M L

in te rface

ana lyse

in tég ra tion

Page 5: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

5

Présentation du corpus de travail

• Résumés d’articles scientifiques traitant d’interaction géniques chez la drosophile pendant son processus de segmentation

• Drosophile = petite mouche utilisée pour la recherche en biologie dans le domaine de la génétique

Page 6: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

6

Plan de la présentation

• I) Les solutions existantes

• II) Des éléments de réponse

• III) Proposition d’implémentation

Page 7: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

7

Le langage SHOE (1/2)

• Maryland, 1996 : Heflin, Spector, Hendler, Luke et Roger

• Langage permettant de définir des ontologies :– définition de classe <DEF-CATEGORY NAME="gap" ISA="gene-class" />

– définition de relation <DEF-RELATION NAME="interaction">

<DEF-ARG POS="1" TYPE="gene" /> <DEF-ARG POS="2"

TYPE="gene" /> </DEF-RELATION>

– règles d’inférence

Page 8: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

8

Le langage SHOE (2/2)

• Langage permettant de définir des instances : <CATEGORY NAME="gap"/>

<RELATION NAME="interaction"> <ARG POS="1" VALUE=me /> <ARG POS="2" VALUE="hb" />

</RELATION>

• Outils associés à SHOE :– agent EXPOSE

– outil permettant d’annoter graphiquement les pages Web

– interface graphique pour composer des requêtes

Page 9: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

9

Le système ONTOBROKER (1/2)

• Karlsruhe, 1997 : Studer, Decker, Erdmann et Fensel

• Architecture générale :

<HTML>...<HTML>

<HTML>...<HTML>

<HTML>...<HTML>

Langaged 'annota tion

F a itsIn te rface deR equê te

C onna issance

R equê te

Langage dereprésenta tion

Langage derequête

O ntoO nto O nto

M oteurd 'In férence

O ntocrawler

ProviderIndex

Page 10: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

10

Le système ONTOBROKER (2/2)

• Langage de représentation :– Classes : Object[].

Gene::Object. Interaction::Object.

– Attributs : Interaction[promoter =>> Gene; target =>> Gene].

• Langage d’annotation :– <a onto="page:Interaction[promoter = tll,

target = hb]"></a>

• Langage de requête :– FORALL O O : C[A >>V]

• Outils associés à ONTOBROKER :– interface de requête, moteur d’inférence, « webcrawler »

Page 11: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

11

Bilan (1/2)

• Multitude de systèmes (OIL, XOL, OML ...)

• Points communs :– définition d’une ontologie, description de faits,

possibilité de formuler des requêtes– interface XML

• Inconvénients :– systèmes performants pour des applications

précises

Page 12: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

12

Bilan (2/2)

• Comment représenter la connaissance contenue dans un document ?

• Quels éléments du document va-t-on décrire ?

• A quel type de requête désire-t-on répondre ?

• Comment intégrer cette formalisation de la connaissance au sein du document ?

Page 13: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

13

II) Des éléments de réponse (1/5)

• Comment représenter la connaissance contenue dans un document ?– Nature des documents

• fiction vs non-fiction

– Constructeurs de représentation de connaissance utiles

• classes, objets, relations, règles d’inférence

Page 14: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

14

II) Des éléments de réponse (2/5)

• Image en couleur

• Il y a 2 hommes

• Il y a 2 présidents

• Il y a Jacques Chirac et Boris Yeltsin

• Jacques Chirac et Boris Yeltsin se serrent la main

• Jacques Chirac et Boris Yeltsin se serrent la main le 30 mai 1997 devant l’Elysée

Quelle description du document va-t-on donner ?

Page 15: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

15

II) Des éléments de réponse (3/5)

• Quels éléments du document va-t-on décrire ?– le document fait allusion à 2 gènes– ces gènes appartiennent aux classes gap et pair-rule

– ces gènes sont tailless (tll) et fushi-tarazu (ftz)

– ces 2 gènes ont une influence– tll inhibe ftz dans la partie antérieure de la

mouche

Page 16: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

16

II) Des éléments de réponse (4/5)

• A quel type de requête désire-t-on répondre ?

Quels sont les documents qui traitent d’interactions entre les classes gap et pair-rule ?– Langage de requête : (OQL, XML-QL)

SELECTFROM interaction:IWHERE I.promoter-class = "gap" AND I.target-class = "pair-rule"

– Interprétation : inférences locales vs inférences globales

Page 17: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

17

II) Des éléments de réponse (5/5)

• Comment intégrer cette formalisation de la connaissance au sein du document ?– à l’intérieur des documents

• dans l’en-tête d’une page HTML, encapsulée dans des balises RDF

– à l’extérieur des documents• dans des fichiers séparés reliés au document via un

serveur d’annotation

Page 18: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

18

• Annotation des documents

III) Proposition d’implémentation (1/5)

.m ed l

<XHTM L>...</XHTM L>

Dublin Core

E scrire

D ocum entcom p le tanno té

T roepsfo rm at p iv o t

fo rm a lism ede R C O

m éta -données c lass iques

Page 19: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

19

III) Proposition d’implémentation (2/5)

• Exemple d’annotation :

<esc:objref id="gap" /><esc:objref id="pair-rule" />

<esc:relation type="interaction"> <esc:role name="promoter-class">

<esc:objref id="gap" /> </esc:role> <esc:role name="target-class">

<esc:objref id="pair-rule" /> </esc:role> </esc:relation>

Page 20: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

20

III) Proposition d’implémentation (3/5)

• Interrogation des documents :

app le t decom pos ition

d 'unerequê te

requête engendrée enXM L (DTD Q ESC)

réponse retournée enXM L (DTD RESC)

In terface S erveur TR O E P S

consulta tion dela base

Expat

analyseur de

requête

évaluateur de

requête

Troeps

chargementdes annotations

base deconnais-sance

Page 21: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

21

III) Proposition d’implémentation (4/5)

• Exemple de requête :<esc:select /><esc:from> <esc:relvar type="interaction" id="I" /></esc:from><esc:where> <esc:and>

<esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="promoter" /></esc:path> <esc:objref id="gt" /> </esc:eq><esc:eq> <esc:path> <esc:relvarref type="interaction" id="I" /> <esc:attribute name="target" /></esc:path> <esc:objref id="Hb" /> </esc:eq>

</esc:and> </esc:where>

Page 22: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

22

III) Proposition d’implémentation (5/5)

• Annotation des documents

• Applet de composition d’une requête• Analyseur de requêtes (Expat)

• Évaluateur de requêtes (optimisation)

• Intégration dans TROEPS

• Affichage des réponses

Page 23: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

23

Conclusion

• Plusieurs granularités de description possible (le choix des éléments à annoter dépend de l’application résultante)

• Structures générales : classes, objets, relations

• Mise en œuvre dans TROEPS, un langage de RCO et proposition d’un processus permettant d’interroger les documents

• Proposition d’un langage de requête

Page 24: Intégration texte-représentation formelle dans la gestion de documents XML

20/06/2000 INRIA Rhône-Alpes - Action EXMO

24

Perspectives

• Application à tout le corpus sur la drosophile

• Comparaison des performances du SRCO avec les autres formalismes de représentation de connaissance

• Remise en question de certains choix

• Utilisation d’autres corpus de documents pour dégager des grandes classes d’application