Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique...
-
Upload
plaisance-charton -
Category
Documents
-
view
106 -
download
3
Transcript of Analyse syntaxique et systèmes de questions- réponses Présentation Master Recherche Informatique...
Analyse syntaxique et Analyse syntaxique et systèmes desystèmes de
questions-réponsesquestions-réponses Présentation Master Présentation Master
Recherche Informatique Recherche Informatique d'Orsayd'Orsay
22
Objectifs du coursObjectifs du cours
Présenter les systèmes de questions-Présenter les systèmes de questions-réponsesréponses
Montrer un Montrer un cadre d’applicationcadre d’application des des différents domaines du TAL différents domaines du TAL présentés: morphologie, syntaxe, présentés: morphologie, syntaxe, sémantique et multilinguismesémantique et multilinguisme– En particulier, utilisation de En particulier, utilisation de
connaissances syntaxiquesconnaissances syntaxiques pour la pour la recherche d’informations précisesrecherche d’informations précises
33
Plan de la présentationPlan de la présentation
XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALCo Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
44
XIP : un analyseur robusteXIP : un analyseur robuste
o RobustesseRobustesse = capacité d'un = capacité d'un analyseur à fournir des analyses analyseur à fournir des analyses correctescorrectes pour des corpus pour des corpus tout venanttout venant
oProduire une analyse même minimale pour Produire une analyse même minimale pour toute entréetoute entrée
oLimiter le nombre d’analyses produites ou Limiter le nombre d’analyses produites ou donner des indications sur les préférencesdonner des indications sur les préférences
55
Présentation de XIPPrésentation de XIPo XIP = Xerox Incremental ParserXIP = Xerox Incremental Parsero Développé par XRCE, Centre de Recherche Développé par XRCE, Centre de Recherche
Européen de Xerox [Européen de Xerox [Aït-Mokhtar, Chanod and Aït-Mokhtar, Chanod and Roux 2002]Roux 2002]
o Analyseur Analyseur partielpartiel : sortie pas : sortie pas forcémentforcément complète complète (mais robustesse)(mais robustesse)
o Sorties :Sorties :o Etiquetage morpho-syntaxiqueEtiquetage morpho-syntaxiqueo ConstituantsConstituants ou chunks ou chunkso RelationsRelations de dépendancede dépendance
(entre les têtes de 2 syntagmes)(entre les têtes de 2 syntagmes)
66
Syntaxe = étude de Syntaxe = étude de l’organisation des mots en l’organisation des mots en
phrasesphrases Structure Structure
syntagmatiquesyntagmatique– Arbre de constituantsArbre de constituants– Catégories et Catégories et
frontières des frontières des constituantsconstituants
Fonctions ou relations Fonctions ou relations de dépendancede dépendance– Arbre de dépendanceArbre de dépendance
Marie aime
le chocolat
NP
GN
P
GV
V GN
Det N
Marie
aime
chocolat
le
sujetobjet
det
77
Caractéristiques de XIPCaractéristiques de XIPo IncrémentalIncrémental grâce à des paquets grâce à des paquets
ordonnés de règlesordonnés de règleso Sortie uniqueSortie unique mais mais
o DéterministeDéterministe pour la segmentation en pour la segmentation en constituants constituants
o Non déterministeNon déterministe pour l'extraction des pour l'extraction des dépendancesdépendances
o SoupleSouple : grammaires facilement : grammaires facilement modifiablesmodifiables
88
Sorties de XIPSorties de XIPLe chat de la voisine - au demeurant peu aimable – Le chat de la voisine - au demeurant peu aimable –
est parti en miaulant capturer une souris qui est parti en miaulant capturer une souris qui traînait là.traînait là.
Segmentation en constituantsSegmentation en constituants { SC {NP {Le chat} PP {de NP {la voisine} }
INS {- AP {au demeurant peu aimable} -}FV {est parti} } GV {en miaulant}
IV {capturer} NP {une souris}SC { BG {qui} FV {traînait} }
là .}
99
Sorties de XIPSorties de XIP
GROUPE(1)GROUPE(1) ++ || SCSC +------------+----------------------------------+----------------------------++------------+----------------------------------+----------------------------+ | | | || | | | NP PP INS FVNP PP INS FV +-----+ +---------+ +------------------+---------------+ +------++-----+ +---------+ +------------------+---------------+ +------+ | | | | | | | | || | | | | | | | | DET NOUN PREP NP PUNCT AP PUNCT VERB DET NOUN PREP NP PUNCT AP PUNCT VERB
VERBVERB + + + +------+ + +---------+-------+ + + ++ + + +------+ + +---------+-------+ + + + | | | | | | | | | | | || | | | | | | | | | | | Le chat de DET NOUN - ADV ADV ADJ - est Le chat de DET NOUN - ADV ADV ADJ - est
partiparti + + + + + + + + + + | | | | || | | | | la voisine au demeurant peu aimablela voisine au demeurant peu aimable
(…)
1010
Sorties de XIPSorties de XIP
SUBJ_NOUN(parti,chat)
SUBJ_REL_COREF_NOUN(traînait,souris)
SUBJ(capturer,chat)
VARG_NOUN_DIR(capturer,souris)
VARG_INF_DIR(parti,capturer)
COREF_POSIT1_REL(souris,qui)
VMOD_POSIT1_ADV(traînait,là)
NMOD_POSIT1_RIGHT_ADJ(voisine,aimable)
NMOD_POSIT1_NOUN_INDIR(chat,de,voisine)
PREPOBJ_CLOSED(de,voisine)
DETERM_DEF_NOUN_DET(Le,chat)
++ Relations de dépendanceRelations de dépendance
1111
Architecture de XIPArchitecture de XIPPré-traitement
Contrôle des entrées
Désambiguïsation
Segmentation
Analyse des dépendances
Règles de Désambiguïsation
Règles de dépendance
Règles de segmentation
Texte en entrée
Texte analysé morphologiquement
Texte désambiguïsé (pos)
Texte annoté syntaxiquement
Ressources
Modules Textes traités
Texte analysé
1212
FonctionnementFonctionnement
3 étapes principales :3 étapes principales :– DésambiguïsationDésambiguïsation
des parties du discours (pos)des parties du discours (pos)
– SegmentationSegmentation
– DépendancesDépendances
1313
DésambiguïsationDésambiguïsationo 292 règles ~292 règles ~
o Choix de l'Choix de l'interprétationinterprétation la plus probable d'un la plus probable d'un mot en fonction de son contextemot en fonction de son contexte
o Désambiguïsation de certains traitsDésambiguïsation de certains traits
o Règles de la forme : Règles de la forme : interprétationsinterprétations = = | Contexte-G || Contexte-G | choix choix | Contexte-D|| Contexte-D|
/*** REGLE DESAMB 68 ***\/*** REGLE DESAMB 68 ***\/ même lui\/ même lui\
1> 1> adj,adv adj,adv = adv = adv |pron[noun:~]||pron[noun:~]|
1414
SegmentationSegmentationo 121 règles ~121 règles ~
o Groupement desGroupement des mots en segments mots en segments (chunks) (chunks)o Règles organisées par niveaux, pas de retour arrière, Règles organisées par niveaux, pas de retour arrière,
pas de récursivitépas de récursivité
o Règles de la forme :Règles de la forme :
nœud non lexicalnœud non lexical ->-> || Ctxte|Ctxte| suite de nœudssuite de nœuds |Ctxte||Ctxte|
/ / très grandtrès grand \\
1> 1> APAP -> -> (adv+[last:~])(adv+[last:~]),adj[verb:~].,adj[verb:~].
1515
Dépendanceso 22 règles ~22 règles ~o Création de Création de relations de dépendancerelations de dépendance entre les mots entre les motso Deux types de règles :Deux types de règles :
o Création de dépendancesCréation de dépendanceso Ajout de nouvelles caractéristiquesAjout de nouvelles caractéristiques
o Règles de la forme :Règles de la forme :
|pattern| if <conditions><d-term1>…<d-termK>| SC { NP}, VP, NP} |if (~Subj(#,#2)) Subj (#1,#2) ,Obj (#2,#3)
#2
#3
#1
TOP
SCNP
NP VP
Det
Det
Nom
Nom
chatLe
Verbe
mange
la souris
Subj(chat,manger)Obj(manger,souris)
1616
o XIP, un analyseur robusteXIP, un analyseur robuste Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALCo Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
1717
Recherche d’informations Recherche d’informations précisesprécises
Type d’informationsType d’informations– Accès aux informations externesAccès aux informations externes– Veille scientifique, technique, Veille scientifique, technique,
commerciale, …commerciale, …– Gestion des informations internesGestion des informations internes
Besoin informationnelBesoin informationnel– Large : constitution d’un dossierLarge : constitution d’un dossier
SangatteSangatte
– PrécisPrécis : question précise : question précise Date de création de SangatteDate de création de Sangatte
1818
Différentes applications pour Différentes applications pour différents besoinsdifférents besoins
Recherche de documents Recherche de documents liés au thèmeliés au thème
Les camps de réfugiés : Les camps de réfugiés : SangatteSangatte
Recherche de réponses à des questions précises
Quand Sangatte a-t-il été créé ?
RésuméVisualisation
24 septembre 1999
1919
Recherche d’informations Recherche d’informations précisesprécises
… là), marche à pied (on a déjà surpris des étrangers marchant dans le tunnel). Les tentatives de traversées de la Manche sont à peine moins surveillées que les baignades. Quand le temps n'est pas mauvais, on perçoit les côtes anglaises distantes d'une quinzaine de kilomètres. Sur la mer, naviguent en permanence d'énormes ferries.
Le camp ouvert à Sangatte — on dira ici plutôt « camp » que « centre », à cause des conditions de vie qui y prévalent (voir ci-dessous) et de l'improbable statut juridique de cette « chose » sans précédent, sauf les camps des Républicains espagnols à la fin des années 30 — a été inauguré le 24 septembre 1999 dans un hangar où était installée, pendant le forage du tunnel sous la Manche, la logistique technique française.
L'ouvrage, qui appartenait à la société du tunnel, a été réquisitionné in extremis par les pouvoirs publics pour le transformer en lieu d'accueil, alors qu'il allait être vendu. Il a la …
2020
Questions-réponsesQuestions-réponseso Objectif: répondre de façon Objectif: répondre de façon exacteexacte à des questions à des questions
en en langue naturellelangue naturelle
o Recherche d’Information + Traitement Automatique Recherche d’Information + Traitement Automatique des Languesdes Langues
•ALASKA.com|FAQ:How can I become a state park volunteer ?… How can I become a state park volunteer ?...•Alaska Elections – State Division of Elections Home Page•Alaska State Legislature Homepage…
in 1959
GOOGLE QALC*
When did Alaska become a state?
When did Alaska become a state?
*QALC : système de Question-Réponse du LIMSI
When did Alaska become a state?
2121
Caractéristiques des systèmes Caractéristiques des systèmes de questions-réponses (SQR)de questions-réponses (SQR)
o Questions en Questions en domaine ouvertdomaine ouverto Vs domaine fermé (météo, voyages)Vs domaine fermé (météo, voyages)
o Systèmes actuels :Systèmes actuels :o Questions factuelles ou encyclopédiquesQuestions factuelles ou encyclopédiques : :
o Qui a conçu l’ordinateur Macintosh ?Qui a conçu l’ordinateur Macintosh ?o Quel métal a le plus haut point de fusion ?Quel métal a le plus haut point de fusion ?o Qui a été le premier gouverneur de l’Alaska Qui a été le premier gouverneur de l’Alaska
??o Qu’est-ce que l’homéopathie ?Qu’est-ce que l’homéopathie ?
o Réponses courtesRéponses courtes
2222
Exemples de questionsExemples de questions Questions de définitionQuestions de définition
Acronymes: What is the ESA?Acronymes: What is the ESA? Personnes: Who is Goodwill Zwelithini?Personnes: Who is Goodwill Zwelithini? Objet ou organisation: What is the Civic Alliance?Objet ou organisation: What is the Civic Alliance?
Questions factuellesQuestions factuelles Instances: Name a university in Berlin.Instances: Name a university in Berlin. Personnes: What is the Serbian President's Personnes: What is the Serbian President's
name?name? Caractéristique: How old is Jacques Chirac?Caractéristique: How old is Jacques Chirac? Evénementielles: What did astronomers from Evénementielles: What did astronomers from
Alabama University discover?Alabama University discover? Descriptives: Which genes regulate the immune Descriptives: Which genes regulate the immune
system?system?
2323
EvaluationsEvaluations Venues de la communauté de la RIVenues de la communauté de la RI
InternationalesInternationales– TREC pour l’anglaisTREC pour l’anglais– CLEF : nombreuses langues + multilingueCLEF : nombreuses langues + multilingue
FrancophoneFrancophone– EQueREQueR
CaractéristiquesCaractéristiques– Corpus = grandes collections majoritairement Corpus = grandes collections majoritairement
journalistiquesjournalistiques– Jugement sur la réponse + sur sa fiabilitéJugement sur la réponse + sur sa fiabilité
2424
Evaluation des réponses Evaluation des réponses (1/2)(1/2)
Critères inspirés du dialogue (maximes de Critères inspirés du dialogue (maximes de Grice)Grice)
Evaluation des réponses en fonction de leur :Evaluation des réponses en fonction de leur :– PertinencePertinence
La réponse doit répondre à la question !La réponse doit répondre à la question ! Quelle est la taille de la statue de la Liberté ?Quelle est la taille de la statue de la Liberté ?
– PrécisionPrécision Niveau de granularité adéquatNiveau de granularité adéquat Où est né Harry Truman ? Où est né Harry Truman ? aux Etats-Unis/ aux Etats-Unis/Lamar, MissouriLamar, Missouri
– ConcisionConcision La réponse ne doit pas contenir d’information inutileLa réponse ne doit pas contenir d’information inutile Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ?Quel fleuve des Etats-Unis est surnommé le « Big Muddy » ? « « Le MississippiLe Mississippi, connu aussi sous le nom de « Big Muddy », , connu aussi sous le nom de « Big Muddy »,
est la plus »est la plus »
2525
Evaluation des réponses Evaluation des réponses (2/2)(2/2)
– ComplétudeComplétude La réponse doit être complèteLa réponse doit être complète 500 au lieu de 500 au lieu de 500500€€
– SimplicitéSimplicité L’utilisateur doit pouvoir lire la réponse facilementL’utilisateur doit pouvoir lire la réponse facilement
– JustificationJustification La réponse doit être fournie avec un contexte qui La réponse doit être fournie avec un contexte qui
permet de comprendre pourquoi la réponse a été permet de comprendre pourquoi la réponse a été choisiechoisie
Qui était le 16ème Président des Etats-Unis ? Qui était le 16ème Président des Etats-Unis ? le le texte doit préciser que Lincoln était le 16èmetexte doit préciser que Lincoln était le 16ème
– ContexteContexte Contexte de validité de la réponseContexte de validité de la réponse Qui est le Premier Ministre Français ? Qui est le Premier Ministre Français ? date date
2626
Etat de l’artEtat de l’art
Actuellement, les meilleurs systèmes Actuellement, les meilleurs systèmes à TREC répondent à environ à TREC répondent à environ 70%70% des des questionsquestions
Approches variées :Approches variées :– Méthodes s’appuyant sur des bases de Méthodes s’appuyant sur des bases de
connaissances et des techniques de TALconnaissances et des techniques de TAL– Méthodes utilisant des techniques de Méthodes utilisant des techniques de
surfacesurface
2727
Architecture d'un SQRArchitecture d'un SQR
Question
Traitement des questions
Traitement des documents
Recherche de la réponse
Réponse
Moteur de recherche
Question ou mots-clefs
Phrases candidates
Documents pertinentsInformations pertinentes
2828
o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC
Analyse des questionsAnalyse des questionso Sélection et traitement des documentsSélection et traitement des documentso Analyse des phrases candidatesAnalyse des phrases candidateso RésultatsRésultats
o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
2929
Caractérisation des Caractérisation des questionsquestions
Quelles informations ?Quelles informations ?– Sur le Sur le type de la réponse attenduetype de la réponse attendue
Entité nomméeEntité nommée Type généralType général
– Sur le Sur le contexte de la réponsecontexte de la réponse LexicalLexical
– Mots de la questionMots de la question SyntaxiqueSyntaxique
– Forme syntaxique de la question Forme syntaxique de la question Formulation de la Formulation de la réponseréponse
SémantiqueSémantique– Objet (focus, thème?) de la question Objet (focus, thème?) de la question Entité présente Entité présente
dans la réponsedans la réponse– Catégorie de la questionCatégorie de la question
3030
Exemple d’analyse de la Exemple d’analyse de la questionquestion
What currency does Argentina use?
Forme de la questionForme syntaxique de la question
What GN GV GN GV
Type attendu de la réponseType général : currency
Objet de la question :Entité présente dans la phrase
réponse : Argentina / currency ?
Formulation de réponse : GNRéponse , GNObjet
The austral, Argentina 's currency
3131
Module d’analyse de la Module d’analyse de la questionquestionQuestion
Etiquetagemorpho-syntaxique
Analyse syntaxique
Analyse de la question
Reconnaissance du type attendu
Reconnaissance dela catégorie
Caractéristiques de la question(XML)
Lexiques
Patrons+
Lexiques
3232
Performances sur l’analyse Performances sur l’analyse des questionsdes questions
o Module d'analyse des questions Module d'analyse des questions fiablefiable (TREC 10) (TREC 10)
o Performances variables selon le type de la Performances variables selon le type de la question :question :
o Meilleure reconnaissance des questions attendant une ENMeilleure reconnaissance des questions attendant une ENo Mauvaise reconnaissance de l’objet de la question sur Mauvaise reconnaissance de l’objet de la question sur
certaines catégoriescertaines catégories
o Pertinence de l’objet de la question (TREC 9) o 90 % des questions ont une phrase réponse contenant l'objeto 57 % des phrases réponses contiennent l’objet
Forme de la Forme de la questionquestion
Type de la Type de la réponseréponse
Objet de la Objet de la questionquestion
97 %97 % 90 %90 % 85 %85 %
3333
Analyse syntaxique des Analyse syntaxique des questionsquestions
o Analyseurs syntaxiques non Analyseurs syntaxiques non appropriés pour les questions :appropriés pour les questions :– Verbe non reconnu : Verbe non reconnu :
What year did What year did the Titanic sinkthe Titanic sink? ?
– Superlatif non reconnu :Superlatif non reconnu :
What metal has What metal has the highestthe highest melting point? melting point?
Remaniement des sortiesRemaniement des sorties
3434
Caractérisation des Caractérisation des questionsquestions
o Objet de la question : pas toujours Objet de la question : pas toujours l'entité sur laquelle il faut se focaliserl'entité sur laquelle il faut se focaliser
QuestionQuestion : What is one : What is one national parknational park in in IndianaIndiana ? ?
RéponseRéponse : The study examine haze and visitor statistics at : The study examine haze and visitor statistics at Acadia NationalAcadia National Park in Maine ; Big bend national park in Park in Maine ; Big bend national park in Texas ; … Texas ; … Indiana Dunes National LakeshoreIndiana Dunes National Lakeshore in in IndianaIndiana ; ; Mount RainierMount Rainier National ParkNational Park in Washington … in Washington …
=> Focalisation sur « national park » donne «=> Focalisation sur « national park » donne «RainierRainier National Park » au lieu de «National Park » au lieu de «Indiana Dunes National Indiana Dunes National Lakeshore »Lakeshore »
3535
o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC
o Analyse des questionsAnalyse des questions Sélection et traitement des documentsSélection et traitement des documentso Analyse des phrases candidatesAnalyse des phrases candidateso RésultatsRésultats
o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
3636
Sélection et traitement des Sélection et traitement des documentsdocuments
Dans QALCDans QALC– Moteur de rechercheMoteur de recherche
Passages de texte de la taille d’un paragraphe en Passages de texte de la taille d’un paragraphe en sortiesortie
Etiquetage morpho-syntaxiqueEtiquetage morpho-syntaxique
– Traitement des documentsTraitement des documents Ré-indexation et pondération en utilisant FastrRé-indexation et pondération en utilisant Fastr SélectionSélection Etiquetage des entités nomméesEtiquetage des entités nommées
Pré ou post-traitement ?Pré ou post-traitement ?
3737
Variation linguistique (1/2)Variation linguistique (1/2)
QuestionQuestion Phrase réponsePhrase réponse CommentairesCommentaires
How many scandals How many scandals
was Tapie was Tapie implicated in,implicated in,
while boss at while boss at Marseille?Marseille?
While boss at Marseille, While boss at Marseille, TapieTapie
said : I have been implicated said : I have been implicated inin
four scandals in seven four scandals in seven years.years.
Tous les mots (pleins) Tous les mots (pleins) dede
la question se la question se retrouventretrouvent
dans le passage dans le passage réponse,réponse,
mais il y a une mais il y a une référence.référence.
What is Alexander What is Alexander
Solzhenitsyn's wife'sSolzhenitsyn's wife's
name?name?
However his wife NatalyaHowever his wife Natalya
suggested Solzhenitsyn'ssuggested Solzhenitsyn's
criticism of the government criticism of the government (…).(…).
Le prénom deLe prénom de
Solzhenitsyn n'estSolzhenitsyn n'est
pas donné.pas donné.
Who is the Who is the NorwegianNorwegian
king?king?
Even Crown Prince Harald, Even Crown Prince Harald, whowho
is now Norway's king, called is now Norway's king, called it ait a
wild idea.wild idea.
king est dans la phrase king est dans la phrase
réponse, mais réponse, mais NorwegianNorwegian
devient Norway'sdevient Norway's
3838
Variation linguistique (2/2)Variation linguistique (2/2)QuestionQuestion Phrase réponsePhrase réponse CommentairesCommentaires
When will the HumanWhen will the Human
Genome Project beGenome Project be
completed?completed?
The Human Genome Project, The Human Genome Project, aa
15-year, $3-billion effort, is 15-year, $3-billion effort, is set forset for
completion in 2005.completion in 2005.
will be completedwill be completed
devient is setdevient is set
for completionfor completion
Which space probe set Which space probe set offoff
for the Moon on 25 for the Moon on 25
January 1994 ?January 1994 ?
Clementine, which will map Clementine, which will map thethe
moon and fly by an asteroid moon and fly by an asteroid whilewhile
testing military sensors, had testing military sensors, had been inbeen in
a circular orbit around Earth a circular orbit around Earth sincesince
it was launched Jan. 25 from it was launched Jan. 25 from
Vandenberg Air Force Base.Vandenberg Air Force Base.
space probe disparaît, space probe disparaît, set offset off
devient launched, devient launched, January estJanuary est
abrégé en Jan.abrégé en Jan.
When was the safety When was the safety zonezone
in southern Lebanonin southern Lebanon
created?created?
Israel has held to an Israel has held to an occupation occupation
strip in south Lebanon since strip in south Lebanon since 19781978
(...) in order to protect itself (...) in order to protect itself fromfrom
Crossborder guerrilla attacks.Crossborder guerrilla attacks.
zone devient strip, zone devient strip, southernsouthern
devient south, safety devient south, safety devientdevient
to protect itself, createdto protect itself, created
devient since...devient since...
3939
Fastr pour re-indexer (1/2)Fastr pour re-indexer (1/2)
(Christian Jacquemin)(Christian Jacquemin) Regroupement de termes multi-mots : Regroupement de termes multi-mots :
les variantes linguistiques d'un conceptles variantes linguistiques d'un concept– genetic diseasegenetic disease
genetic diseasesgenetic diseases Flexion Flexion disease is geneticdisease is genetic Syntaxe Syntaxe hereditary diseasehereditary disease Sémantique Sémantique genetically determined forms of the diseasegenetically determined forms of the disease Morphologie Morphologie disease is familialdisease is familial Sémantique + Sémantique +
Syntaxe Syntaxe transmissible neurodegenerative diseases transmissible neurodegenerative diseases Sémantique + Sémantique +
Syntaxe Syntaxe genetic risk factors for artery diseasegenetic risk factors for artery disease Variante incorrecte Variante incorrecte
4040
Fastr pour re-indexer (2/2)Fastr pour re-indexer (2/2) RessourcesRessources
– Famille sémantique d'un motFamille sémantique d'un mot (à partir du thésaurus (à partir du thésaurus WordNet),WordNet),
par exemple, par exemple, manufacturer, shaper manufacturer, shaper pour le nom pour le nom makermaker
– Famille morphologique d'un motFamille morphologique d'un mot (à partir de la base CELEX), (à partir de la base CELEX),par exemple,par exemple, maker, make, remake, to make maker, make, remake, to make et et to to
remakeremake pour le pour le nom nom makemakerr
Application de patronsApplication de patrons : :… … making many automobiles… making many automobiles…
-> variante de -> variante de car makercar maker
4141
Etiquetage des entités Etiquetage des entités nommées (EN)nommées (EN)
Entités nommées = Entités nommées = éléments qu’il est éléments qu’il est intéressant de pouvoir distinguer du reste du texteintéressant de pouvoir distinguer du reste du texte Entités : personnes, organisations, lieuxEntités : personnes, organisations, lieux Dates : dates, heuresDates : dates, heures Quantités : montants financiers, pourcentagesQuantités : montants financiers, pourcentages
Pour tous les documents retenus :Pour tous les documents retenus :– Par utilisation de listes :Par utilisation de listes :
Pour les prénoms, les villes,…Pour les prénoms, les villes,…– Par application de règles (grammaires locales)Par application de règles (grammaires locales)
Organisation ->Organisation -> NomOrg NomOrg SPSP – <EN organisation> <EN organisation> MinistèreMinistère des Affaires des Affaires ÉÉtrangèrestrangères </EN></EN>
Personne -> Personne -> PrénomPrénom NPropreNPropre– <EN personne><EN personne>Jacques Jacques ChiracChirac</EN></EN>
4242
Hiérarchie des entités Hiérarchie des entités nomméesnomméesEntité nommée
Nom propre
Lieu Organisation
Personne
Entité numérique
Nombre
Pourcentage
Montant financier
Physique
Température
Longueur
VolumeVitesse
Poids
Expression temporelle
Age
Période
Durée Jour
Date
4343
Exemple de documentExemple de documentTheThe DTDT thetheHumanHuman NPNP HumanHumanGenomeGenome NNNN genomegenomeProjectProject NPNP ProjectProject,, ,, ,,aa DTDT aa<numex type="FINANCIAL_AMOUNT"><numex type="FINANCIAL_AMOUNT">$$ $$ $ $3-billion3-billion CDCD 3-billion3-billion</numex></numex>efforteffort NNNN efforteffort,, ,, ,,isis VBZVBZ bebesetset VVN setVVN setforfor ININ forforcompletioncompletion NNNN completioncompletion<timex type="DATE"><timex type="DATE">inin ININ inin20052005 CDCD @card@@card@</timex></timex>.. SENTSENT ..
Variantes Fastr:
human genome project Human Genome Project
When will the Human Genome Project be completed ?
4444
Des documents aux Des documents aux phrases…phrases…
Poids pour toutes les phrases :Poids pour toutes les phrases :– Lemmes de la question et leurs Lemmes de la question et leurs
variantesvariantes poids de référencepoids de référence
– + si mots exacts et proximité de ces + si mots exacts et proximité de ces motsmots
– + si entité nommée du type attendu+ si entité nommée du type attendu– X phrases par question : dépend des X phrases par question : dépend des
évaluations!évaluations!
4545
o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC
o Analyse des questionsAnalyse des questionso Sélection et traitement des documentsSélection et traitement des documents Analyse des phrases candidatesAnalyse des phrases candidateso RésultatsRésultats
o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
4646
Stratégie fondée sur les ENStratégie fondée sur les EN
Sélection de l’EN du bon type la plus Sélection de l’EN du bon type la plus proche des mots de la questionproche des mots de la question
En quelle En quelle annéeannée a été achetée a été achetée l’l’AlaskaAlaska? ? Type EN attendu : Type EN attendu : annéeannée
« En « En 18671867, lorsque W.H.Seward a , lorsque W.H.Seward a négocié l’achat de l’négocié l’achat de l’AlaskaAlaska… »… »
4747
Recherche des ENRecherche des ENEn quelle année a été achetée l’Alaska ?
Traitement des questions
Traitement des documents
Recherche de la réponse
1867
Moteur de recherche
En 1867, lorsque W.H.Seward anégocié l’achat de l’Alaska…
(…)En 1867, lorsque W.H.Seward a
négocié l’achat de l’Alaska…(…)
EN Date attendue
4848
Stratégie insuffisante Stratégie insuffisante (1/3)(1/3)
o Très bonne reconnaissances des EN mais :Très bonne reconnaissances des EN mais :o Difficultés de délimitation des ENDifficultés de délimitation des ENo Certaines EN ne sont pas reconnues (incomplétude Certaines EN ne sont pas reconnues (incomplétude
des listes d’EN, de déclencheurs, de règles…)des listes d’EN, de déclencheurs, de règles…)
o Ambiguïté du type attendu de la réponseAmbiguïté du type attendu de la réponseo Qui a gagné la dernière coupe du monde de Qui a gagné la dernière coupe du monde de
foot ?foot ? o Organisation (équipe) attendue et non pas personneOrganisation (équipe) attendue et non pas personne
o Où la bile est-elle produite ?Où la bile est-elle produite ? o Partie du corps attendue et non pas lieuPartie du corps attendue et non pas lieu
4949
Stratégie insuffisante Stratégie insuffisante (2/3)(2/3)
o Ambiguïté des phrases candidatesAmbiguïté des phrases candidates– Présence de plusieurs EN du type Présence de plusieurs EN du type
attenduattenduo Question : Question : How late is Disneyland open?How late is Disneyland open?
Phrase réponse : During the summer, the park is open from Phrase réponse : During the summer, the park is open from 8 a.m.8 a.m. until until midnightmidnight
– Présence d’une EN du bon type, mais qui Présence d’une EN du bon type, mais qui ne correspond pas du tout à la réponsene correspond pas du tout à la réponse
o Question : Question : What is What is Marilyn MonroeMarilyn Monroe's real name?'s real name?Type attendu de la réponse : PersonneType attendu de la réponse : PersonnePhrase candidate : "the rumors about Phrase candidate : "the rumors about J.F. KennedyJ.F. Kennedy and and Marilyn MonroeMarilyn Monroe …« …«
5050
Stratégie insuffisante Stratégie insuffisante (3/3)(3/3)
o Certaines questions n’attendent pas Certaines questions n’attendent pas une réponseune réponse ENEN
o De quel instrument Mozart jouait-il ?De quel instrument Mozart jouait-il ?o Comment est mort Micky Mantel ?Comment est mort Micky Mantel ?
o Nécessité de connaissances Nécessité de connaissances linguistiqueslinguistiqueso Recherche plus précise de la réponseRecherche plus précise de la réponseo Analyse de questions non ENAnalyse de questions non EN
5151
Utilisation de l’analyse de la Utilisation de l’analyse de la questionquestion
o On dispose des informations suivantes :On dispose des informations suivantes :– Objet + autres mots de la questionObjet + autres mots de la question– Type attendu de la réponse - EN ou type Type attendu de la réponse - EN ou type
généralgénéral– Forme de la question et donc formulations Forme de la question et donc formulations
possibles de la réponsepossibles de la réponse
o Stratégies adoptées :Stratégies adoptées :– Recherche de reformulations de la questionRecherche de reformulations de la question
o Patrons syntaxiquesPatrons syntaxiques
5252
Utilisation des informations Utilisation des informations lors de la recherche de la lors de la recherche de la
réponseréponseo Patrons syntaxiquesPatrons syntaxiques
Question : Question : What does What does Knight RidderKnight Ridder publish? publish?Forme de la question : WhatDoGNverbe Forme de la question : WhatDoGNverbe Formulation : GN verbe GNréponseFormulation : GN verbe GNréponse« « Knight RidderKnight Ridder published published 30 daily newspapers30 daily newspapers
… »… »o Stratégie efficace mais Stratégie efficace mais
– écriture manuelle fastidieuseécriture manuelle fastidieuse– pas toujours fiables : patrons de proximitépas toujours fiables : patrons de proximité– mettre en place des règles de vérificationmettre en place des règles de vérification
5353
o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponses Etude du système QALCEtude du système QALC
o Analyse des questionsAnalyse des questionso Analyse des phrases candidatesAnalyse des phrases candidatesRésultatsRésultats
o Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
5454
Résultats du système QALCRésultats du système QALC Sur les questions anglaises de la Sur les questions anglaises de la
campagne d’évaluation CLEF 2005campagne d’évaluation CLEF 2005
0
10
20
30
40
50
60
70
Pourcentage de réponses correctes
phrases (5 premiers rangs)
phrases (1er rang)
réponses (5 premiers rangs)
réponses (1er rang)
5555
Outils externes principaux Outils externes principaux de QALC (et autres)de QALC (et autres)
Moteurs de rechercheMoteurs de recherche– MG en anglais, Lucene en françaisMG en anglais, Lucene en français
Etiqueteurs morpho-syntaxiquesEtiqueteurs morpho-syntaxiques– TreeTagger en anglais, TreeTagger+XIP en TreeTagger en anglais, TreeTagger+XIP en
françaisfrançais Analyseurs syntaxiquesAnalyseurs syntaxiques
– Cass en anglais, XIP en françaisCass en anglais, XIP en français Ressources terminologiquesRessources terminologiques
– Fastr pour variationsFastr pour variations– WordNet pour synonymes en anglaisWordNet pour synonymes en anglais
5656
o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALC Exemple d’appariement syntaxiqueExemple d’appariement syntaxiqueo Evolution du domaine et perspectivesEvolution du domaine et perspectives
5757
Pourquoi analyser les Pourquoi analyser les phrases réponses ?phrases réponses ?
Question : Who Question : Who killedkilled Lee Harvey OswaldLee Harvey Oswald??
Phrase réponse : Phrase réponse : Jack RubyJack Ruby, who , who killedkilled JFKJFK’s ’s assassin assassin Lee Harvey OswaldLee Harvey Oswald …. ….
Stratégies actuelles inefficacesStratégies actuelles inefficaces
Utilisation de relations syntaxiques :Utilisation de relations syntaxiques :
Question: sujet (?, Question: sujet (?, killkill) et objet () et objet (killkill, , L.H.O.L.H.O.))Réponse: sujet (Réponse: sujet (Jack RubyJack Ruby, , killkill) et objet () et objet (killkill, , L.H.O.L.H.O.))
5858
Principe de l'appariementPrincipe de l'appariement
o Analyse syntaxiqueAnalyse syntaxique Who is the evil H. R. Director in Dilbert ?Who is the evil H. R. Director in Dilbert ?
sujetsujet (?, be) et (?, be) et attributattribut (Director, be) (Director, be)
o Recherche des relations de la question Recherche des relations de la question ou de reformulationsou de reformulations→ Catbert is the evil H. R. Director in Dilbert…Catbert is the evil H. R. Director in Dilbert…
sujetsujet (Catbert, be) et (Catbert, be) et attributattribut (Director, be) (Director, be) Catbert, the evil H. R. Director in Dilbert, …Catbert, the evil H. R. Director in Dilbert, …
appositionapposition (Catbert, Director) (Catbert, Director)
5959
Méthodes pour Méthodes pour l’appariementl’appariement
o Appariement à partir des relations de Appariement à partir des relations de dépendancedépendance– Quel Quel formalisme de représentationformalisme de représentation pour les pour les
questions et les phrases candidates ?questions et les phrases candidates ?– Quel Quel mécanisme d’appariementmécanisme d’appariement ? ?
o Quelques possibilitésQuelques possibilités– Graphes + algorithme de relaxation de Graphes + algorithme de relaxation de
contraintescontraintes– Réseaux sémantiques + règles d’inférence Réseaux sémantiques + règles d’inférence – Représentation logique + démonstrateurReprésentation logique + démonstrateur
6060
Un exemple d’appariement Un exemple d’appariement fondé sur les relations fondé sur les relations
syntaxiquessyntaxiqueso LCC (Language Computer LCC (Language Computer
Corporation) [Moldovan et al., 2002]Corporation) [Moldovan et al., 2002]– Analyse syntaxique des questions et des Analyse syntaxique des questions et des
phrases candidatesphrases candidates– Passage à une forme logiquePassage à une forme logique– Appariement question-réponse grâce à :Appariement question-réponse grâce à :
o Ressources sémantiquesRessources sémantiqueso Démonstrateur logiqueDémonstrateur logique
– Extraction de la réponseExtraction de la réponse
6161
Architecture du systèmeArchitecture du système
Analyse syntaxique
Transformationsémantique
Reconnaissance du typeattendu de la réponse
Extraction de
mots-clefs
Passages
Recherche depassages
Index de
documents
Extraction dela réponse
Justification
Classement
Démonstrateur
Base de
connaissances
Question
Réponse
Traitement dela question
Traitement desdocuments
Extraction dela réponse
ReconnaissancedesEN
Hiérarchiedes types
de réponses
Collection dedocuments
Harabagiu et al., 2004(schéma simplifié, valable uniquement pour les questions factuelles)
6262
Formes logiquesFormes logiques Représentation intermédiaire entre l’analyse Représentation intermédiaire entre l’analyse
syntaxique et une forme sémantique profondesyntaxique et une forme sémantique profonde Utilisation de relations de dépendance : sujets, Utilisation de relations de dépendance : sujets,
objets, rattachements prépositionnels…objets, rattachements prépositionnels…
ExempleExemple– Phrase : Heavy selling of Standard & Poor ‘s 500-stock Phrase : Heavy selling of Standard & Poor ‘s 500-stock
index futures in Chicago relentlessly beat stocks index futures in Chicago relentlessly beat stocks downward.downward.
– Forme logique : heavy_JJ(x1) & selling_NN(x1) & Forme logique : heavy_JJ(x1) & selling_NN(x1) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & of_IN(x1,x6) & Standard_NN(x2) & &_CC(x13,x2,x3) & Poor_NN(x3) & ‘s_POS(x6,x13) & 500-stock_JJ(x6) & Poor_NN(x3) & ‘s_POS(x6,x13) & 500-stock_JJ(x6) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & index_NN(x4) & future_NN(x5) & nn_NNC(x6,x4,x5) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & in_IN(x1,x8) & Chicago_NN(x8) & relentlessly_RB(e12) & beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12)beat_VB(e12,x1,x9) & stocks_NN(x9) & downward_RB(e12)
x : variables, e : prédicatsx : variables, e : prédicats
6363
Extended WordNetExtended WordNeto Enrichissement sémantique :Enrichissement sémantique :
– Wordnet :Wordnet : Base de données lexicaleBase de données lexicale Organisation : concepts (ensemble de synonymes)Organisation : concepts (ensemble de synonymes) Catégories de mots : noms, verbes, adjectifs et adverbesCatégories de mots : noms, verbes, adjectifs et adverbes Relations entre ces concepts : hyponymie, hyperonymie, méronymieRelations entre ces concepts : hyponymie, hyperonymie, méronymie
– Extended WordNetExtended WordNet : Transcription sous forme logique : Transcription sous forme logique de toutes les informations de WordNetde toutes les informations de WordNet
o Exemples d’utilisation d’Extended WordNet par LCC :Exemples d’utilisation d’Extended WordNet par LCC :– Q : How many chromosomes does a human zygote have ?Q : How many chromosomes does a human zygote have ?– A : 46 chromosomes that lie in the nucleus of every normal human cellA : 46 chromosomes that lie in the nucleus of every normal human cell– Chaîne lexicale formée :Chaîne lexicale formée :
zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1zygote:n#1 -> HYPERNYM -> cell:n#1 -> HAS_PART -> nucleus:n#1
– Q : What Spanish explorer discovered the Mississipi River ?Q : What Spanish explorer discovered the Mississipi River ?– A : Spanish explorer Hernando de Soto reached the Mississipi River A : Spanish explorer Hernando de Soto reached the Mississipi River – Chaîne lexicale : Chaîne lexicale :
Discover:v#7 -> GLOSS -> reach:v#1Discover:v#7 -> GLOSS -> reach:v#1
6464
Exemple d’appariementExemple d’appariemento QuestionQuestion
Which company created the Internet Browser Mosaic?
o Forme logique de la questionForme logique de la questionorganization AT(x2) & company NN(x2) & create organization AT(x2) & company NN(x2) & create VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & VB(e1,x2,x6) & Internet NN(x3) & browser NN(x4) & Mosaic NN(x5) & nn NNC(x6,x3,x4,x5) Mosaic NN(x5) & nn NNC(x6,x3,x4,x5)
o Phrase réponsePhrase réponse(…) a program called (…) a program called MosaicMosaic , , developeddeveloped by the by the National National Center for Supercomputing ApplicationsCenter for Supercomputing Applications……
o Exemple de chaînes extraites de WordNetExemple de chaînes extraites de WordNet– Develop Develop make et make make et make create create
6565
Exemples de difficultés Exemples de difficultés (1/2)(1/2) o Reconnaissance du texte brut, avec erreurs de frappe ou Reconnaissance du texte brut, avec erreurs de frappe ou
d’orthographed’orthographeo NiagraNiagra « Niagara »« Niagara » non reconnunon reconnu
o Erreur d’étiquetage morpho-syntaxiqueErreur d’étiquetage morpho-syntaxiqueo Where did the Maya people live?Where did the Maya people live? « live » étiqueté comme un nom« live » étiqueté comme un nom
o Mauvais type de réponse attenduMauvais type de réponse attenduo In what area of the world was the Six day War In what area of the world was the Six day War
fought?fought? typetype Quantity attendu au lieu de LocationQuantity attendu au lieu de Location
o What is the average life span of an agouti? What is the average life span of an agouti? typetype Average attendu au lieu de NumberAverage attendu au lieu de Number
6666
o Mauvais mots-clefs dans la requête au moteur de Mauvais mots-clefs dans la requête au moteur de rechercherecherche
o « Where did the Battle of the Bulge take place ? » « Where did the Battle of the Bulge take place ? » place conservéplace conservé
o Expansion de requête incomplèteExpansion de requête incomplèteo « What is the murder rate in Windsor, Ontario ? » « What is the murder rate in Windsor, Ontario ? » phrase réponse contient «homicide»phrase réponse contient «homicide»
o Requêtes trop largesRequêtes trop largeso « Who was the first president of the U.S. ? » « Who was the first president of the U.S. ? » la réponse n’est pas dans les 500 premiers la réponse n’est pas dans les 500 premiers
documentsdocuments
o EN non reconnuesEN non reconnues
Exemples de difficultés Exemples de difficultés (2/2)(2/2)
6767
Résultats TREC 2002Résultats TREC 2002o Tâche principaleTâche principale
CWS = Confidence-Weighted Score :scores pondérés par la confiance que les systèmes donnent à leurs réponses
6868
o XIP, un analyseur robusteXIP, un analyseur robusteo Les systèmes de questions-réponsesLes systèmes de questions-réponseso Etude du système QALCEtude du système QALCo Exemple d’appariement syntaxiqueExemple d’appariement syntaxique Evolution du domaine et perspectivesEvolution du domaine et perspectives
6969
Evolution du domaineEvolution du domaine
Evolution des réponses depuis 1er Evolution des réponses depuis 1er TREC : chaîne de 250 caractères à TREC : chaîne de 250 caractères à réponse préciseréponse précise
Evolution des types de questions Evolution des types de questions dans les évaluationsdans les évaluations– Questions « à thème » (TREC 2004)Questions « à thème » (TREC 2004)– Questions temporelles (CLEF 2005)Questions temporelles (CLEF 2005)
7070
Catégories classiques de Catégories classiques de questionsquestions
Questions factuelles généralesQuestions factuelles générales– How many people live in Iceland?How many people live in Iceland?
Questions de définitionQuestions de définition– définir une personne : Who is Antonia Coello définir une personne : Who is Antonia Coello
Novello?‘Novello?‘– un groupe de personnes : What is Destiny's Child?un groupe de personnes : What is Destiny's Child?– ou un objet quelconque : What is Bollywood?, ou un objet quelconque : What is Bollywood?,
What is a quasar?What is a quasar? Questions ``listes'' qui attendent un ensemble Questions ``listes'' qui attendent un ensemble
de réponsesde réponses– Who are professional female boxers?, List the Who are professional female boxers?, List the
names of casinos owned by Native Americans.names of casinos owned by Native Americans.
7171
Extensions : Extensions : Questions « à Questions « à thème » thème » (1/3)(1/3)
Plusieurs questions portant sur un même thèmePlusieurs questions portant sur un même thème
<target id = "8" text = "Black Panthers"><target id = "8" text = "Black Panthers"> <qa> <qa>
<q id = "8.1" type="FACTOID"><q id = "8.1" type="FACTOID"> Who founded the Black Panthers organization?Who founded the Black Panthers organization?</q></q>
</qa> </qa>
<qa><qa><q id = "8.2" type="FACTOID"><q id = "8.2" type="FACTOID"> When was it founded?When was it founded?</q></q>
</qa> </qa>
Bobby Seale
1966
7272
Questions « à thème » (2/3)Questions « à thème » (2/3) <qa><qa>
<q id = "8.3" type="FACTOID"><q id = "8.3" type="FACTOID"> Where was it founded?Where was it founded?</q></q>
</qa> </qa>
<qa> <qa><q id = "8.4" type="LIST"><q id = "8.4" type="LIST"> Who have been members of the organization?Who have been members of the organization?</q></q>
</qa> </qa>
Oakland, California
Mumia Abu-Jamal, Jamil Abdullah Al-Amin, Bill Brent, Elaine Brown, Rap Brown, Tony Bryant, Stokeley Carmichael, Mark Clark, Eldridge Cleaver, Fred Hampton, David Hilliard, Ericka Huggins, Lonnie McLucas, Huey Newton, Elmer "Geronimo" Pratt, Alex Rackley, Bobby Rush, Bobby Seale
7373
Questions « à thème » (3/3)Questions « à thème » (3/3)
<qa><qa><q id = "8.5" type="OTHER"><q id = "8.5" type="OTHER"> OtherOther</q></q>
</qa> </qa></target></target>
8.5 1 vital Black militant group. 8.5 2 vital Radical chic heroes of the 60's. 8.5 3 okay Emphasized multiculturalism.8.5 4 okay Emphasized community empowerment. 8.5 5 okay Hilliard later ran for Oakland City Council. 8.5 6 okay Seale later ran for Oakland mayor. 8.5 7 okay Rush later became congressperson. 8.5 8 okay Infiltrated by FBI COINTELPRO. 8.5 9 okay Provided health care to poor.
7474
Questions « temporelles » Questions « temporelles » (1/2)(1/2)
CLEF 2005 : introduction des CLEF 2005 : introduction des questions temporellesquestions temporelles : :
– What newspaper was founded in Kiev What newspaper was founded in Kiev in 1994in 1994? ?
– Who played the role of Superman Who played the role of Superman before before being paralyzedbeing paralyzed? ?
– Who was the President of the United States of Who was the President of the United States of America America between 1976 and 1980between 1976 and 1980? ?
7575
Questions « temporelles Questions « temporelles »(2/2)»(2/2)
Who praised Indurain for his « capacity for Who praised Indurain for his « capacity for sacrifice, class and healthy spirit of competition », sacrifice, class and healthy spirit of competition », when he won the Tour de France for the fourth when he won the Tour de France for the fourth time?time?
Who continued to be supplied with contaminated Who continued to be supplied with contaminated blood products blood products six months after an American six months after an American blood-screening test and heat-treatment process blood-screening test and heat-treatment process were available in other countries? were available in other countries?
Whose government broke off negotiations with Whose government broke off negotiations with the Tamil rebels, the Tamil rebels, following Dissanayake's murder?following Dissanayake's murder?
7676
D’une langue à plusieurs…D’une langue à plusieurs… CLEF : CLEF :
– Question dans une langue, documents dans Question dans une langue, documents dans une autreune autre
– CLEF 2006CLEF 2006 Monolingue : bulgare, allemand, espagnol, français, Monolingue : bulgare, allemand, espagnol, français,
italien, néerlandais et portugaisitalien, néerlandais et portugais Autres langues sources : anglais, indonésien, Autres langues sources : anglais, indonésien,
roumainroumain Autre langue cible : anglaisAutre langue cible : anglais
Contexte de recherche : RI interlingue et Contexte de recherche : RI interlingue et multilinguemultilingue
7777
Architecture du système Architecture du système bilinguebilingue
Analyse de la question
Moteur derecherche
Traitementdes
documents
Questionen français Fusion
Réponsesen anglais
Traductionvers
l’anglais
Termes enanglais
Questionsen anglais
Collectionde documents
7878
Stratégies possiblesStratégies possibles
Traduction de la questionTraduction de la question– Avantages : une seule traduction assez fiableAvantages : une seule traduction assez fiable– Inconvénients : questions non grammaticalesInconvénients : questions non grammaticales
Traduction des termesTraduction des termes– Traductions mot à mot et validation des Traductions mot à mot et validation des
multitermes en corpusmultitermes en corpus– Avantages : analyse de la question sur une Avantages : analyse de la question sur une
question bien forméequestion bien formée– Inconvénients : bruit des traductionsInconvénients : bruit des traductions
7979
Résultats des systèmes Résultats des systèmes bilinguesbilingues
Système du LIMSI, sur les questions de la tâche français vers Système du LIMSI, sur les questions de la tâche français vers anglais de CLEF 2005anglais de CLEF 2005– Traduction des questionsTraduction des questions
0
10
20
30
40
50
60
Pourcentage de réponses correctes
phrases (5 premiers rangs)
phrases (1er rang)
réponses (5 premiers rangs)
réponses (1er rang)
8080
Difficultés de traductionDifficultés de traduction Forme syntaxiqueForme syntaxique
– Quand est mort Gengis Khan ?Quand est mort Gengis Khan ?When When dieddied Gengis Khan? Gengis Khan?
– Qu'est-ce que le GATT ?Qu'est-ce que le GATT ?What theWhat the GATT? GATT?
– Depuis quand Israël et la Jordanie sont-ils en guerre ?Depuis quand Israël et la Jordanie sont-ils en guerre ?Since when Israel and Jordan Since when Israel and Jordan they are atthey are at war? war?
Choix lexicaux de traductionChoix lexicaux de traduction– Dans combien de scandales fut impliqué Dans combien de scandales fut impliqué TapieTapie, lorsqu'il , lorsqu'il
était patron de Marseille ?était patron de Marseille ?In how many scandals was involved In how many scandals was involved HiddenHidden, when he , when he
was a boss of Marseille?was a boss of Marseille?– Quel Quel montantmontant Selten, Nash et Harsanyi ont-ils reçu pour le Selten, Nash et Harsanyi ont-ils reçu pour le
prix Nobel d'économie ?prix Nobel d'économie ?What What going upgoing up Selten, Nash and Harsanyi did they Selten, Nash and Harsanyi did they
receive for the Nobel prize of economy?receive for the Nobel prize of economy?
8181
Quelques limitations des Quelques limitations des systèmes de QR actuelssystèmes de QR actuels
o Questions Questions factuelles ou encyclopédiquesfactuelles ou encyclopédiqueso Pas de traitement de Pas de traitement de l’ambiguïtél’ambiguïté dans dans
les questionsles questionso Réponses extraites Réponses extraites d’un seul documentd’un seul documento Peu de Peu de raisonnementraisonnement nécessaire nécessaireo Architecture des systèmes influencée Architecture des systèmes influencée
par les par les évaluationsévaluations
o Pas de modélisation de l’utilisateurPas de modélisation de l’utilisateur
8282
Extensions possiblesExtensions possibles
o InteractivitéInteractivité– Q : Q : Quelle est la longueur d’un Boeing 747 ? Et Quelle est la longueur d’un Boeing 747 ? Et
sa hauteur ?sa hauteur ?
o Méthodes de raisonnement simplesMéthodes de raisonnement simples– Q : Q : Comment est mort Socrate ?Comment est mort Socrate ?– R : En buvant du vin empoisonnéR : En buvant du vin empoisonné
o Fusion d’informationFusion d’information– Q : Q : Comment fabriquer une bicyclette ?Comment fabriquer une bicyclette ?
o Capacités spéculatives, récapitulatives…Capacités spéculatives, récapitulatives…– Q : Q : Les Etats-Unis sont-ils sortis de la Les Etats-Unis sont-ils sortis de la
récession ?récession ?
8383
En conclusion…En conclusion…
o Analyse syntaxique robuste = atout pour Analyse syntaxique robuste = atout pour les systèmes de Question-Réponseles systèmes de Question-Réponse
o Questions :Questions :– Détermination des informations nécessaires Détermination des informations nécessaires
à la recherche de la réponseà la recherche de la réponseo Phrases candidates :Phrases candidates :
– Possibilité de passage à un formalisme plus Possibilité de passage à un formalisme plus profondprofond
– Possibilité de lien avec des connaissances Possibilité de lien avec des connaissances sémantiquessémantiques
8484
RéférencesRéférencesQuelques références…Quelques références…
o XIPXIPo Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness: Aït-Mokhtar S., Chanod J.-P., Roux C. (2002), Robustness beyond shallowness:
incremental deep parsing, Journal of incremental deep parsing, Journal of Natural Language EnginerringNatural Language Enginerring, Vol. 8 (3-, Vol. 8 (3-2). 2).
o QALC ou autres systèmes du LIMSIQALC ou autres systèmes du LIMSIo http://www.limsi.fr/Scientifique/lir/http://www.limsi.fr/Scientifique/lir/o L'extraction des réponses dans un système de question-réponse; A.-L'extraction des réponses dans un système de question-réponse; A.-
L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, L. Ligozat, B. Grau, I. Robba, A. Vilnat, TALN 2006, Louvain, Belgique. Belgique.
o Evaluation and Improvement of Cross-Lingual Question Answering Evaluation and Improvement of Cross-Lingual Question Answering Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop Strategies; A.-L. Ligozat, B. Grau, I. Robba, A. Vilnat, Workshop MLQA d'EACL, Trente, 2006. MLQA d'EACL, Trente, 2006.
o LCCLCCo http://http://www.languagecomputer.comwww.languagecomputer.como Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu: Dan I. Moldovan, Marius Pasca, Sanda M. Harabagiu, Mihai Surdeanu:
Performance Issues and Error Analysis in an Open-Domain Question Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACL 2002: 33-40 Answering System. ACL 2002: 33-40
o Evaluations Question-RéponseEvaluations Question-Réponseo TREC : TREC : http://http://trec.nist.govtrec.nist.gov/data//data/qa.htmlqa.htmlo CLEF : CLEF : http://http://clef-qa.itc.itclef-qa.itc.it//o Equer : Equer : http://http://www.technolangue.netwww.technolangue.net/article61.html/article61.html