Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...

112
Xavier Tannier [email protected] Dialogue et Analyse de Textes Master 2 Recherche Recherche d'Information et Traitement du Langage

Transcript of Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...

Page 1: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

Xavier [email protected]

Dialogue et Analyse de Textes

Master 2 Recherche

Recherche d'Information et Traitement du Langage

Page 2: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

2Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information– Introduction– Indexation– Recherche– Évaluation

• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques

Page 3: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

3Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'Information

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Indexation, modèle de document

Requête

Modèle de recherche

Page 4: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

4Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Information vs. Données

• "Les données sont reçues, stockées et retrouvées par un endosystème. Les données sont impersonnelles ; elles sont disponibles pour tout utilisateur du système. 

• L’information, en revanche, est un ensemble de données qui correspond à un besoin particulier. 

• Le concept d’information a des composantes personnelles et temporelles absentes du concept de donnée."

(R. R. Korfhage, 1997)

Page 5: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

5Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Besoin d'information

• "Disposer des bonnes informations par rapport à une question ou à un problème donnés"

• Importance accrue de la veille scientifique, technologique, commerciale, culturelle, etc.

• Un besoin très grand public• Au départ, un besoin d'accès aux informations internes, mais 

l'accès aux informations externes est maintenant tout aussi important

Page 6: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

6Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Diversité des besoins d'information (1/2)

1. La recherche d’un élément connu – L’utilisateur sait exactement quels éléments il recherche. Il sait 

reconnaître les éléments désirés s’il les voit. – Ex : recherche d'une citation bibliographique précise.

 ► SQL, XQuery, etc.   (bases de données)

2. La recherche d’une information spécifique – L’utilisateur recherche une information spécifique mais ignore sous 

quelle forme elle se présente.– Réponse partielle impossible– Ex : À quelle date le président Kennedy a­t­il été assassiné ? 

 ► Systèmes de Questions­Réponses(Meadow et al., 2000.)

Page 7: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

7Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Diversité des besoins d'information (2/2)

3. La recherche d’une information générale – L’utilisateur recherche une information sur un sujet en général. Il 

existe de nombreuses façons de décrire le sujet. – Il est possible que l’information pertinente ne soit pas reconnue– Cette information peut ne satisfaire l’utilisateur que de façon 

partielle.► Recherche d'information

4. L’exploration – Le but n’est pas de répondre à une question en particulier, mais de 

parcourir l’ensemble des données pour découvrir quels types d’informations concernant un sujet ou un domaine sont présents.

 ► Navigation

(Meadow et al., 2000.)

Page 8: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

8Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Difficultés de la recherche d'information (1/3)

• Difficultés d'accès, couverture, temps de traitement :– Les bases documentaires sont très grandes, réparties sur de 

nombreux supports dans des endroits différents

• Difficultés de définition de la pertinence– Comment un document remplit­il le besoin informationnel d'une 

personne donnée ?– Quelle est sa pertinence ? Comment la mesure­t­on ?

• Difficultés d'exploitation– Les documents pertinents ne sont pas nécessairement dans la langue 

de la requête– L'information recherchée n'est pas nécessairement clairement 

identifiable dans un document

Page 9: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

9Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Difficultés de la RI (2/3) : le facteur humain

• Le besoin d’information de l’utilisateur est parfois vague et toujours subjectif. – La perte d’information entre la réalité du besoin d’information et son 

expression peut être importante.– La pertinence d’un document pour une requête est une notion 

variable et très complexe à définir.

 ► Il ne peut pas exister de système de recherche d’information parfait. 

 ► L’évaluation d’un système dépasse les aspects habituels de performance informatique

• L'humain est subjectif, versatile, et il utilise un langage "naturel" !

Page 10: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

10Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Difficultés de la RI (3/3) : le facteur "langage"

• À la différence des langages artificiels, le langage "naturel" est– implicite : tout n'est pas dit dans les textes et leur compréhension 

requiert une importance connaissance sur le contexte et sur le monde– redondant : la langue offre de nombreuses façons de formuler le 

même contenu– ambigu : un même énoncé peut souvent être interprété de 

différentes façons

• La recherche d'information est encore compliquée par– le fait que les mots peuvent jouer des rôles différents dans les textes– le fait que les atomes de sens peuvent être des mots ou des groupes 

de mots (termes)

• Voir plus loin dans le cours

Page 11: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

11Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Grandes évolutions de la RI

• Précédemment :– Bases documentaires structurés et de petite taille– Accès par des métadonnées et rarement par le texte intégral– Utilisation de langages documentaires (contraints) par les spécialistes

• Aujourd'hui– Documents multimédia sous forme électronique– Nombreux formats de représentation (texte brut, HTML, XML, PDF, 

RTF, formats propriétaires...)– De plus en plus de données non structurées– Une masse d'information gigantesque (Web...)

Page 12: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

12Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Une masse immense d'informations multimédia– Du texte, des images, des vidéos, du Flash, de nombreux types de fichiers 

différents...– Taille du seul Wikipedia (version anglaise) en 2007 =

Recherche d'information et Internet (1/3)

Source : Nikola Smolenski

Page 13: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

13Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet (2/3)

• Un contenu (un peu) structuré– Métadonnées– Liens intra­ et inter­documents– Indications de forme– Balisage "sémantique" pour application de feuilles de style

• Un contenu dynamique– Les sites de nouvelles, blogs, forums... évoluent très vite – Les pages dynamiques sont très nombreuses

Page 14: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

14Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet (3/3)

• Tout le monde peut à la fois être lecteur et producteur d'info– Ajouter son propre contenu au Web est devenu simple et gratuit– Pages persos, blogs, wikis, forums, listes de diffusion...– Les institutions et les particuliers sont a priori sur le même pied

• Un enjeu économique important– 75 % des sites sont trouvés par l’intermédiaire d’un moteur de 

recherche (source : WebPosition)– Google, Yahoo et d'autres sont devenus des acteurs majeurs– Les algorithmes de recherche et les moyens mis en œuvre sont 

secrets

Page 15: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

15Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Le Web fourmille d'informations fausses (vecteur de désinformation)

• Les métadonnées sont peu utilisées• Les créateurs de pages peuvent modifier le contenu pour 

améliorer leur classement sur les moteurs de recherche– Répétition de mots­clés dans des couleurs non visibles ou dans les 

métadonnées– Spamming : pas de contenu mais une énumération de mots­clés destinés 

uniquement à être visible sur les moteurs de recherche

 ► On ne peut se fier tel quel au contenu des pages pour évaluer leur pertinence

 ► On ne peut pas se contenter des mesures de densité des mots de la recherche d'information sur des bases documentaires

Le Web, un contenu non contrôlé

Page 16: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

16Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet

• Utilisation massive par des utilisateurs non experts :– La requête typique est constituée d'au plus quelques mots­clés– Domaine en pleine expansion économique

• Une partie du Web n'est pas directement accessible (accès restreint, pages non liées, pages dynamiques...)

• L'information présente n'est pas toujours fiable (le Web, vecteur de désinformation)

• La visualisation de l'information est particulièrement importante (classement des documents, présentation d'extraits, extraction de segments, présentation graphique...)

Page 17: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

17Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet

Source : Nikola Smolenski

L'encyclopédie Wikipedia en 2007...

Page 18: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

18Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Relevance feedback

• "Réinjection de la pertinence"• Le but : 

– Sélectionner de nouveaux mot­clés et/ou modifier les poids– Réinjecter la nouvelle requête pour obtenir de meilleurs résultats

• "Manuel explicite" :– L'utilisateur visualise les n premiers résultats– Il estime la pertinence de chacun (0 ou 1)– Nouvelle requête obtenue à partir des documents jugés pertinents

• Automatique (blind relevance feedback) :– Les n premiers résultats du premier run sont supposés pertinents– Même processus que pour le relevance feedback manuel

Page 19: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

19Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche multimedia

• Texte et/ou image et/ou audio et/ou vidéo...• Des collections très volumineuses :

– ex : collection Wikipedia pour INEX– 4.6 Go en texte seul, 60 Go avec les images

• Documents structurés (MPEG­7...)

• Utilisation :– des métadonnées– du texte "environnant" les images (légende, point de référence...)– des caractéristiques propres des documents autres que le texte :

• Analyse d'image• Speech­to­text• ...

Page 20: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

20Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Indexation, modèle de document

Page 21: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

21Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation, pourquoi ?

• Le parcours complet de l'ensemble des documents avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif

• On passe par un traitement préalable : l'indexation• Le but de l'indexation automatique : "transformer des 

documents en substituts capables de représenter le contenu de ces documents" (Salton et McGill, 1983)

• Les difficultés de l'indexation sont pour beaucoup celles inhérentes à la langue des documents

• Les index peuvent prendre plusieurs formes : mots simples, termes complexes, syntagmes, entrées de thésaurus...

Page 22: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

22Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation : le fichier inverse

• Notion "classique" de l'index• Un fichier inverse associe des index aux documents qui les 

contiennent :a  ▸  d1, d2, d3, d4, d5...à  ▸  d1, d2, d3, d4, d5...abaissa    ▸  d3, d4...abaissable    ▸  d5abandon     ▸  d1, d5abandonna     ▸  d2abasourdi      ▸  d1...

Page 23: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

23Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation libre et contrôlée

• Indexation libre :– Mots, termes des documents

• Indexation contrôlée– Listes de termes prédéfinie– Vocabulaire contrôlé (évite polysémie, synonymie et problèmes de 

granularité)– Thésaurus

exemple : thésaurus UMLS

Page 24: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

24Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Chaîne d'indexation

Documents à indexer

Segmenteur (tokenizer)

Normalisation

Indexeur

Fichiers d'indexation

Page 25: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

25Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Constitution des fichiers inverses

Page 26: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

26Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Réduction de la taille des index

• Stemming :– Nombre de termes réduit d'environ 40 %– Nombre de pointeurs réduit de 10 à 20 %– Espace total réduit d'environ 30 %

• Non conservation de certaines formes– Liste de mots vides (stop list)– Environ 30 mots représentent environ 30 % des occurrences de 

termes dans les textes écrits– Éliminer les 150 termes les plus fréquents réduit l'espace 

d'environ 25 %

Page 27: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

27Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Pondération des termes

• Dans une requête comme dans un document, les termes n'ont pas tous la même importance

• Intuition #1 : plus un document contient d'occurrences d'un terme, plus il est "à propos" de ce terme (plus il sera pertinent par rapport à une requête contenant ce terme)

• C'est le modèle "sac de mots" – On raisonne en termes de fréquence et on oublie l'ordre des mots– Pour conserver l'ordre des mots, il faut mémoriser la position de 

chaque occurrence dans les index

• Les longs documents sont favorisés car ils sont susceptibles de contenir davantage d'occurrences

Page 28: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

28Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Pondération des termes : le td.idf (1/2)

• Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants)

• On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df)– Mesure simple :

– En pratique : 

• Le poids d'un terme dans un document D augmente avec sa fréquence dans D et avec sa rareté dans la collection

wi , d=tf i ,d . 1df i

wi , d=tf i ,d . log ndf i

Page 29: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

29Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Pondération des termes : le td.idf (2/2)

tf seul

tf.idf

Page 30: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

30Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'Information

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Modèle de recherche

Page 31: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

31Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Les trois courants

1. Modèles fondés sur la théorie des ensembles Modèle booléen►

2. Modèles algébriques Modèle vectoriel►

3. Modèles probabilistes Modélisation de la notion de "pertinence"►

• Courants fondés à l'aube de la discipline (années 60, 70)• Passage à l'échelle : des bases documentaires "jouets" au 

teraoctet de TREC et au Web

Page 32: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

32Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle booléen

• Le premier et le plus simple des modèles• Basé sur la théorie des ensembles et l'algèbre de Boole• Les termes de la requête sont soit présents soit absents

 ► Poids binaire des termes, 0 ou 1

• Un document est soit pertinent soit non pertinent ► Pertinence binaire, et jamais partielle (modèle exact)

• La requête s'exprime avec des opérateurs logiques– AND, OR, NOT  – (cyclisme OR natation) AND NOT dopage– le document est pertinent si et seulement si son contenu respecte la 

formule logique demandée

Page 33: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

33Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle booléen : exemple

Requête Q  : (cyclisme OR natation) AND NOT dopage

Le document contient Pertinence cyclisme natation cyclisme OR dopage NOT dopage du document

natation0 0 0 0 1 00 0 0 1 0 00 1 1 0 1 10 1 1 1 0 01 0 1 0 1 11 0 1 1 0 01 1 1 0 1 11 1 1 1 0 0

Page 34: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

34Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle booléen : avantages et inconvénients

• Avantage :– Le modèle est transparent et simple à comprendre pour l'utilisateur :

• Pas de paramètres "cachés"• Raison de sélection d'un document claire : il répond à une formule logique

– Adapté pour les spécialistes (vocabulaire contraint)

• Inconvénients :– Il est difficile d'exprimer des requêtes longues sous forme booléenne– Le critère binaire peu efficace

• Il est admis que la pondération des termes améliore les résultats• cf. modèle booléen étendu (plus loin)

– Il est impossible d'ordonner les résultats• Tous les documents retournés sont sur le même plan• L'utilisateur préfère un classement lorsque la liste est grande

Page 35: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

35Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle vectoriel

• Modèle statistique :– Aspect quantitatif des termes et des documents– Degré de similarité entre une requête et un document

 ► Liste ordonnée de résultats selon cette similarité

• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments, plus la probabilité qu’elles représentent la même information est élevée.

• Documents et requête sont représentés par un vecteur– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n 

dimensions (n : nombre de termes)– La longueur du vecteur (i.e. de sa projection sur chacun des 

axes/termes) est proportionnelle au poids des termes.– La pertinence du document correspond au degré de similarité entre le 

vecteur de la requête et celui du document

Page 36: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

36Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

D

t2

t3

0,8

0,45t

1

Modèle vectoriel : exemple

Q

Requête Q  :     t1 t

2 t

3

Document D :    ... t1 ... t

3 ...

poids wD,t1

 = 0.45

poids wD,t3

 = 0.80

Page 37: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

37Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle vectoriel : mesures de similarité

• Mesure de l'angle entre les vecteurs de Q  et de D – produit scalaire

– cosinus

– distance euclidienne, mesures de Jaccard et Dice...

• Normalisation telle que la norme du vecteur soit unitairePermet de gommer les différences de taille des documents

• Contribution d'un terme isolé :– S'il est présent dans le document et la requête, il augmente le score– S'il est présent dans un des deux seulement, il diminue le score

RSV Q , D = Q . D=∑i=1

n

wiQ ×wiD

RSV Q , D =Q . D

∣Q ∣×∣D∣=

∑wiQ ×wiD

∑wi Q2×∑wiD

2

Page 38: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

38Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle vectoriel : avantages et inconvénients

• Avantages :– Le langage de requête est plus simple (liste de mot­clés)– Les performances sont meilleures grâce à la pondération des termes– Le renvoi de documents à pertinence partielle est possible– La fonction d'appariement permet de trier les documents

• Inconvénients :– Le modèle considère que tous les termes sont indépendants

(inconvénient théorique)– Le langage de requête est moins expressif– L'utilisateur voit moins pourquoi un document lui est renvoyé

 ► Le modèle vectoriel est le plus populaire en RI

Page 39: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

39Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste (1/4)

• Estimation de la probabilité de pertinence d'un document par rapport à une requête

• Probability Ranking Principle (Robertson 77)

•  R  : D est pertinent pour Q• ¬R : D n'est pas pertinent pour Q• Le but : estimer

– P(R/D) : probabilité pour le document D de faire partie des documents pertinents pour Q

– P(¬R/D)

variables indépendantes, deux ensembles de documents séparés

siP R /D

P ¬R/D 1 ou si log

P R/D

P ¬R /D 0 alors D estpertinent

Page 40: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

40Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste (2/4)

• Rappel du théorème de Bayes :

P A /B= P B/ A .P AP B

P R/D =P D /R.P R

P D

Probabilité d'obtenir D en connaissant les pertinents

Probabilité d'obtenir un document pertinent en piochant au hasard

Probabilité de piocher D au hasard

• On ne sait pas calculer P(R/D), mais on peut calculer P(D/R)

Page 41: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

41Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste (3/4)

• En utilisant l'hypothèse d'indépendance des termes :

• Pour estimer les probabilités sur les termes, on utilise des requêtes déjà résolues (apprentissage) puis des pondérations

• Exemple (système Okapi) :– le tf.idf– la longueur du document– la longueur moyenne des documents

P D /R=∏i=1

n

P ti∈D /R P D /¬R=∏i=1

n

P t i∈D /¬R

Page 42: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

42Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste : conclusion

• Deux modèles phares : – 2­poisson – Okapi

• Autres modèles de type probabiliste :– Réseaux bayésiens– Modèle de langage

• Conclusion :– Problème des probabilités initiales– Termes indépendants– Résultats comparables à ceux du modèle vectoriel

Page 43: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

43Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Mesure de l'importance relative objective d'une page Web:– Indice de popularité ; notion de confiance collaborative– Utilisation de la structure des liens qui composent le Web :

• Les liens sortants (forward links) : facile de les connaître• Les liens entrants (backlinks) : difficile de les connaître tous

• Justification intuitive :– Le nombre de liens entrants d'une page est révélateur d'une certaine 

importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations)

– Une page ayant un lien entrant provenant d'un site lui­même important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page

Google : le PageRank (Page et al., 1998)

Page 44: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

44Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page

• Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages elles­mêmes importantes :

– Bu : ensemble des pages ayant un lien entrant sur la page u– C(v) : nombre de liens sortant de la page v (chaque page diffuse son 

vote de façon égale sur tous ses liens sortants)– d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun 

lien entrant aura un PageRank de 0.15– Le PR moyen est 1    (avec 1/N, la somme des PR est 1)

PR u=d ∑v∈Bu

PR vC v

1−d

Formule du PageRank

×1N

Page 45: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

45Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Le PageRank d'une page dépend des PageRanks des pages qui pointent vers elle:– Calcul des PageRanks sans connaître la valeur finale de tous les 

PageRanks impliqués– Itérations qui approchent des valeurs finales jusqu'à convergence– La valeur initiale n'affecte pas les valeurs finales mais le nombre 

d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages)

– Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet

Calcul du PageRank

Page 46: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

46Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Calcul du PageRank

Page 47: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

47Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Valeurs relatives des PageRanks des pages?

D'après (Rogers)

Calcul du PageRank : exemple (1/2)

Page A

Page B

Page C

Page D

Page 48: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

48Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• (20 itérations sont nécessaires pour la convergence)• La page D a une valeur minimale du PageRank (aucun lien entrant)• La page C a de nombreux liens entrants• La page A bénéficie du lien entrant provenant de la page C

Calcul du PageRank : exemple (2/2)

Page A

Page B

Page C

Page D

1.49

1.58

0.78

0.15PR moyen = 1

Page 49: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

49Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Calcul du PageRank : cas d'un site web simple

Home3.35

About1.1

Product1.1

Links1.1

External Site A0.34

External Site B0.34

External Site C0.34

External Site D0.34

Review A 0.23

Review D 0.23

Review B 0.23

Review C 0.23

2.44

0.84

0.84

0.84

0.23

0.23

0.23

0.23

Page 50: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

50Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Rétroaction des valeurs des PageRanks pour la page Home• Plus le nombre de liens sortant de la page Links est important, plus le 

partage du PageRank est diffus• Plus le nombre de pages augmente, plus des pages sans nouveaux liens 

entrant perdent de l'importance• Avoir un lien vers une page importante n'augmente pas le PR (!)

Calcul du PageRank : cas d'un site web simple

Page 51: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

51Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Le nombre de pages d'un site n'augmente pas le PR moyen• Une certaine organisation hiérarchique d'un site peut fortement concentrer 

le PR sur la page principale • Maintenant décelable par les robots (ex : Googlebot) qui pénalisent le site• Obtenir un bon score:

– Proposer un contenu riche qui sera référencé par de nombreux sites (mega­site)– Etre référencé par un mega­site (ex : un journal en ligne)

Amélioration du PageRank (anti­spamming)Main Page

331.0

Page B281.6

Spam 10,39

Spam 10000,39

............................

Page 52: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

52Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'Information

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Évaluation

Page 53: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

53Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Campagnes d'évaluation

• TREC (Text REtrieval Conference) :– Événement phare du domaine, tous les ans depuis 1992– Sponsorisée par la DARPA– De nombreux axes de recherche :

• Multimedia : image, vidéo, Web• Types de recheche spécifiques : questions­réponses, interactif, filtrage, 

"cross­language", "home page"• Domaines spécifiques : génomique, légal• Modes d'expression spécifiques : blogs, spams• ...

• CLEF (Cross­Language Evaluation Forum), spécialisée dans les langages européens

• NTCIR, spécialisée dans les langages asiatiques

Page 54: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

54Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Évaluation : précision et rappel (1/2)

ensemble des documents

R = ensemble des documents retournés

P = ensemble des documents pertinents

silencebruit

Rappel=∣P∩R∣∣P∣

Précision=∣P∩R∣∣R∣

Silence=1−Rappel

Bruit=1−Précision

Page 55: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

55Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Évaluation : précision et rappel (2/2)

• Le rappel augmente bien sûr avec le nombre de réponses• La précision diminue• On utilise la courbe rappel/précision pour caractériser les 

systèmes de recherche d'information

0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1

.2

.4

.6

.8

1

Page 56: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

56Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Évaluation : F­mesure

• Pour obtenir une valeur unique entre 0 et 1, on utilise la F­mesure (moyenne harmonique)

• Pour donner autant d'importance à la précision qu'au rappel, on choisit  = 1

•  < 1 favorise la précision,  > 1 favorise le rappel

F= 1

1p1−

1R

=21×P×R

2 PR

=1

21avec

F=2 P . RPR

Page 57: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

57Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Autres métriques d'évaluation

• MAP (Mean Average Precision) : aire sous la courbe R/P• P@5, P@10 : précision après 10 documents retrouvés

favorise la haute/très haute précision• P@100, ...• Taux d'erreur = (faux positifs + faux négatifs) / pertinents• et de nombreuses autres...

0

MAP

Page 58: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

58Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Le pooling (1/2)

• Problème du rappel dans les collections importantes– Le rappel impose en théorie de connaître tous les documents 

pertinents– Impossible en pratique

• Le pooling :– Une fusion "intelligente" des résultats– Les n premiers documents produits par les systèmes sont fusionnés

(n = 100 ou plus)– Seuls ces documents sont jugés par les experts humains– Les documents non jugés sont considérés comme non pertinents– Le calcul du rappel fait comme si tout avait été jugé

Page 59: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

59Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Le pooling (2/2)

• L’accord inter­annotateurs est d'environ 80%• Au mieux 50 à 70 % des documents pertinents seraient 

retrouvés par cette méthode (Zobel 98)• Le biais qui en résulte :

– Le rappel est sur­évalué– La précision est sous­évaluée– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent 

être pénalisés

• Mais :– Le biais est faible s'il y a suffisamment de requêtes et de systèmes– L'évaluation "relative" (comparaison entre systèmes) reste valable– On n'a pas le choix

Page 60: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

60Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Les campagnes d'évaluation, un passage obligé

• Les avantages :– Avec la taille des collections, il est très difficile pour un laboratoire 

d'évaluer un système sans passer par une campagne d'évaluation– Les documents et les jugements de pertinence sont fournis– Une comparaison objective avec les autres équipes est possible

• Les inconvénients :– Des choix méthodologiques qui orientent les recherches– Une adaptation des systèmes à des tâches précises, parfois peu 

réalistes– Des grosses machines qui empêchent peut­être des changements de 

techniques brutaux– Vision de laboratoire vs. vision du monde réel

Page 61: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

61Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Quelques outils

• smart • mg (version 1.3g) • lucy/zettair • cheshire • dataparksearch engine • lemur • lucene • terrier • wumpus • xapian 

liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html

ftp://ftp.cs.cornell.edu/pub/smart/http://www.nzdl.org/html/mg.htmlhttp://www.seg.rmit.edu.au/zettair/http://cheshire.lib.berkeley.edu/http://www.dataparksearch.org/http://www.lemurproject.org/http://jakarta.apache.org/lucene/docs/http://ir.dcs.gla.ac.uk/terrier/http://www.wumpus­search.org/http://www.xapian.org/

Page 62: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

62Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue

• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques

Page 63: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

63Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Caractère implicite de la langue (rappel)

• Les informations implicites sont celles qui manquent dans l'absolu pour interpréter un énoncé, mais qui sont reconstituées grâce à des connaissances communes au rédacteur et au lecteur– Connaissances du langage et des conventions langagières

Q : Le voisin est­il chez lui ? R : Sa voiture est devant le portail.    (implicature conversationnelle)

– Connaissances du contexteC'est la deuxième fois qu'il reçoit un carton. (football, courrier, accident ?)

– Connaissances du mondeLa France a taillé l'Écosse en pièces.      (métonymie + langage figuré +

actualité du rugby)

Page 64: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

64Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Caractère redondant de la langue (rappel)

• Au niveau lexical :– Synonymie : vélo et bicyclette – Hyperonymie et hyponymie : véhicule / vélo  /  VTT– Méronymie et holonymie : pédale / pédalier / vélo

• Abréviations et sigles : – s’il­vous­plaît et SVP, VTT et Vélo Tout Terrain

• Entre mots et expressions :– Périphrases : lave­vaisselle et machine à laver la vaisselle– Définitions : selle et petit siège, le plus souvent de cuir, d’un cycle ou 

d’un véhicule à deux roues à moteur

• Glissements de sens, la synonymie est contextuelle– papier et article

Page 65: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

65Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Caractère ambigu de la langue (rappel)

• Homographes (Catégories différentes mais des flexions coïncident)– Les poules du couvent couvent

• Polysèmes (mêmes flexions mais sens différents)– voler

• Ambiguïtés syntaxiques (pour la machine au moins)– Jean vend une tarte aux pommes.– Jean vend une tarte aux clients.

• Anaphores– Nicolas trahit Jacques. Sa femme lui en voulut longtemps.

• Ellipses– Les Stéphanois aiment le football et les Toulousains le rugby.– Les Stéphanois détestent les Parisiens et les Toulousains aussi.

Page 66: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

66Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Rôle des mots en contexte (rappel)

• L’identification du rôle (sémantique) des mots dans les phrases peut avoir un impact sur la recherche d’information :– Marie a été convoquée par sa directrice de thèse. (patient)– Marie a terminé la rédaction de son mémoire. (agent)– Cette entreprise fabrique des ordinateurs. (produits industriels)– L’ordinateur a produit des résultats étonnants. (instrument de calcul)– L’ordinateur est désormais présent dans une majorité de foyers. (objet 

qu’on possède)

• De nombreux rôles sont possibles : agent, patient, origine­source, but­bénéficiaire, instrument­moyen, résultat­produit, etc.

Page 67: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

67Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Mots composés et termes (rappel)

• Les mots composés sont beaucoup moins polysémiques – "pomme de terre" ≠ pomme + terre

– "traitement de texte" ≠ traitement + texte

• Ils ont un sens qui ne se déduit pas immédiatement des mots qui les composent– "carte bleue"– "homme­grenouille"

Page 68: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

68Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Limitations du vocabulaire (rappel)

• Le nombre de concepts à désigner est beaucoup plus grand que la taille du vocabulaire

• Il faut combiner des mots pour diminuer la polysémie des entrées du dictionnaire et désigner de façon non ambiguë

• Par ailleurs, le sens des mots composés ne se déduit pas directement du sens des mots qui les composent– AN : grand­mère, beau joueur– NA : carte bleue, gare routière– NàN : machine à laver, pompe à vélo– NdeN : traitement de texte, pomme de terre– NN : homme­grenouille, science­fiction– VN : porte­drapeau

Page 69: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

69Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie

– Normalisation linguistique au niveau du mot– Mots composés et termes– Acquisition terminologique

• Systèmes d'acquisition• Variation terminologique• Informations sémantiques

Page 70: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

70Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Normalisation linguistique (1/2)

• Conserver la forme fléchie ?• Ramener les mots à leur racine ?

– Racinisation (stemming)• En particulier algorithme de Porter pour l'anglais• En anglais : automates, automatic, automation  automat• En français : malade, maladie, maladif, maladive  malad

– Lemmatisation • Lemme = entrée du dictionnaire• Utilisation de transducteurs ou de dictionnaires de mots fléchis

• Conséquences attendues– Amélioration du rappel– Réduction de la précision   (marmaille, marmite  "marm")

Page 71: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

71Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Normalisation linguistique (2/2)

• Variantes de termes :– genetic disease (terme de base)– disease is genetic (variante syntaxique)– hereditary disease (variante sémantique)– genetically determined forms of the disease (variante 

morphosyntaxique)– disease is familial (variante syntaxico­sémantique)– transmissible neurodegenerative diseases (variante syntaxico­

sémantique)

• Nécessite l'identification de termes normalisés• Possibilité d'indexation dynamique en fonction des termes 

d'une requête pour des bases de documents de taille réduite

Page 72: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

72Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Mots composés : critères

• Institutionnalisation de l'usageL'utilisation des mots composés relève d'un choix largement partagé▸ On parle de "traitement de texte" et non de "*logiciel à écrire" ou de 

"*processeur de mots"

• Blocage des propriétés transformationnelles▸ Le voleur a pris le large▸ Passivation : *Le large a été pris par le voleur▸ Pronominalisation : *Le voleur l'a pris▸ Détachement : *Ce large, le voleur l'a pris▸ Extraction : *C'est le large que le voleur a pris▸ Relativisation : *Le large que le voleur a pris

▸ Synonymes : *Le voleur a pris le gros

Page 73: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

73Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Mots composés : critères

• PolylexicalitéMot composé = composition de plusieurs mots ayant par ailleurs un 

caractère autonome

• Atomicité sémantiqueLe sens des mots composés  ne peut être décomposé▸ "pomme de terre" ne s'obtient pas à partir d'un sens de pomme et d'un 

sens de terre

• Inséparabilité des composantsIl n'est pas possible de séparer les composants d'un mot composé pour y 

adjoindre des modifieurs ▸ "pomme de bonne terre" n'est plus lié à "pomme de terre"

Page 74: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

74Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Termes

• Les termes désignent des concepts dans des domaines techniques particuliers, ils ne remplissent pas nécessairement les critères des mots composés– entretien (périodique) de la chaudière– ministre (luxembourgeois) des affaires étrangères

• Le sens des termes peut varier d'un domaine à l'autre– ligne aérienne

▸ trajets d'avion (domaine aéronautique)▸ lignes électriques (domaine de l'énergie)▸ lignes téléphoniques (domaines des télécommunications)

Page 75: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

75Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Terme et construction de terminologie

• La conception classique du terme est réductrice – La connaissance est découpée a priori en domaines stables 

représentables par des réseaux de concepts dont les termes sont les représentants linguistiques

– Or, les terminologies peuvent varier en fonction de l’application pour un même domaine de connaissances

• On peut donc voir le terme comme le résultat d’une analyse terminologique (Bourigault et Jacquemin, 2000) – Décision sur le statut de terme d’une unité, qui débouche davantage 

sur la construction d’une terminologie plutôt que sa découverte

• Cette construction doit se faire selon une double pertinence :– corpus : termes spécifiques au domaine mais stables dans le corpus– application visée : termes utiles et permettant une certaine efficacité

Page 76: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

76Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Ingénierie terminologique

• Basée sur une réflexion méthodologique sur un corpus de référence plutôt que sur une théorie

• Travail mené de façon incrémentale par un terminologue (nécessité d'automatiser au maximum)

• Validation par des experts (conformité au domaine) et des utilisateurs (application)

• Typologie fonctionnelle de la construction de terminologie :– Acquisition de termes : extraction de candidats termes à partir d'un 

corpus validés par un terminologue (approche syntaxique et/ou statistique)

– Structuration de termes : classification ou repérage de relations– Alignement de termes : corpus multilingues

Page 77: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

77Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition de termes

• Objectifs Extraire de documents des informations linguistiques compactes et 

représentatives de leur contenu

• ApplicationsIndexation, résumé, construction de thésaurus, etc.

• ExtensionsReconnaissance d'entités nommées

Page 78: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

78Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition vs. reconnaissance de termes

• Deux domaines complémentaires• Acquisition : on cherche à découvrir des occurrences de 

termes dans les documents au moyen de techniques linguistiques ou statistiques

• Reconnaissance : un ensemble de termes contrôlés étant donné, on cherche à reconnaître les occurrences de ces termes ou de leurs variantes dans les documents

sur des documents sur des documentsquelconques connus

sans données indexation acquisitioninitiales libre terminologique

avec données indexation enrichissementinitiales contrôlée de thésaurus

Page 79: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

79Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Termes simples ou multi­mots

• Les enjeux sont différents pour un système d'extraction terminologique en fonction du type de termes visé :– simples : généralement ambigus, requièrent une désambiguïsation 

utilisant le contexte d'apparition du terme▸ chaîne (de montage ? outil ? séquence d'éléments chimiques ? ...)– multi­mots : moins ambigus mais sujets aux variations, requièrent 

une analyse syntaxique ou des mesures statistiques de co­occurrence▸ chaîne des Puys▸ chaîne de l'espoir▸ réactions en chaîne ▸ chaîne N­glycosylée▸ scie à chaîne

Page 80: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

80Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition terminologique à partir de corpus

• Au départ, extraction de termes candidats principalement sur le français et en milieu industriel– Types de termes plus difficiles à repérer qu'en anglais par exemple 

(utilisation de prépositions et de déterminants vs. juxtaposition de noms et d'adjectifs)

– Besoin fort pour la traduction 

▸ information retrieval  recherche d'information▸ natural language processing  traitement automatique des langues

– Disponibilité des corpus techniques

Page 81: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

81Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition : les projets pionniers

• Acabit (Daille, 1994) : IBM, construction de lexiques terminologiques multilingues pour la traduction

• ANA (Enguehard, 1995) : CEA, enrichissement de réseaux lexicaux exploités par un système de gestion de connaissances

• Lexter (Bourigault, 1996) : EDF, mise à jour d'un thésaurus utilisé par un système d'indexation automatique

Page 82: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

82Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition

– Acabit– ANA– Lexter– Terms

• Variation terminologique• Informations sémantiques

– Xtract– Fastr– Exit

Page 83: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

83Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acabit (Daille, 1994)

• Analyse superficielle et filtrage statistique : Acquisition sur un corpus pré­étiqueté et désambiguïsé. Deux étapes :

1.Analyse linguistique et regroupement de variantes : analyse du corpus par des transducteurs et production de candidats termes binaires▸ Nom Adj : connaissances informatiques▸ Nom1 à (Det) Nom2 : aide à domicile ▸ Nom1 Prep Nom2 : vente par téléphone, etc.

Décomposition : réseau de transit à satellite  réseau de transit et réseau à satellite

2.Filtrage statistique : tri des candidats termes à partir d'un corpus de référence et de termes validesComparaison de mesures statistiques en fonction de leur capacité à distinguer les termes des séquences ne correspondant pas à des termes

I3x , y=log2nbx , y 3

nbx .nb y Information mutuelle au cube : 

Page 84: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

84Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acabit : regroupement des variantes

Des transformations syntaxiques permettent d'associer une forme de base à plusieurs variantes– Coordination de termesassemblage et désassemblage de paquets   assemblage de paquets, 

désassemblage de paquets

– Surcomposition de termesréseau de transit à satellites   réseau de transit, 

réseau à satellites

– Modification adjectivale de termesliaisons multiples par satellites   liaisons par satellites

Page 85: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

85Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

ANA (Enguehard, 1995)

Extraction de termes candidats sans analyse linguistique :– Module de familiarisation : l’utilisateur fournit une liste de termes 

initiale (bootstrap)– Module de découverte de termes : repérage incrémental de 

répétitions de séquences de deux mots dont au moins un est déjà un terme :

1. associations fréquentes de deux termes (ex : cœur du réacteur)2. associations fréquentes d’un mot avec un terme, dans une structure de 

type X du T (ex : température du réacteur, où réacteur est un terme), ou dans une structure T X (ex : structure interne, où structure est un terme)

– Arrêt lorsqu’aucun nouveau terme n’est découvert– Organisation des termes en réseau qui relie les termes partageant les 

mêmes têtes ou les mêmes arguments

Page 86: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

86Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Lexter (Bourigault, 1996)

Acquisition terminologique par analyse superficielle– Acquisition sur un corpus pre­étiqueté et désambiguïsé– Trois étapes :

1.Extraction de syntagmes nominaux maximaux : repérage de frontières syntaxiques (ex : verbes, conjonctions)les clapets situés sur les tubes d’alimention  clapets, tubes d’alimentation

2.Décomposition de syntagmes nominaux : analyse récursive et extraction de têtes et d’expansions, avec désambiguïsation sur corpusrejet d’air froid  rejet froid, air froid(seul air froid est conservé après recherche sur corpus)

3.Structuration en réseau : chaque terme candidat est lié à ceux dont il est tête ou expansion. Calcul d’un coefficient de productivité pour mesurer la densité du réseau autour d’un terme.

Page 87: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

87Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Lexter, structuration du réseau terminologique

Page 88: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

88Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Terms (Justeson et Katz, 1995)

• Repose sur 2 hypothèses issues de l’analyse de corpus techniques et de dictionnaires spécialisés :– Les termes sont répétés dans un document technique plus 

fréquemment que les syntagmes non terminologiques– Les termes ont une structure et des variantes différentes de celles des 

syntagmes non terminologiques

• Utilisation d’un filtrage par un patron de catégories morphosyntaxiques décrit par l’expression régulière (pour l’anglais) :

         ((A|N)+ | (A|N)* (N P) (A|N)*) N

Page 89: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

89Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

XTract (Smadja, 1993)

• Extracteur de collocations • Associations lexicales préférentielles et répétées

• Hypothèses :– Les mots dans une collocation apparaissent ensemble plus 

fréquemment que par hasard (cf. mesure de l’information mutuelle)– Les mots apparaissent dans une palette limitée de positions relatives 

correspondant a des contraintes syntaxiques particulières

Page 90: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

90Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Xtract : fonctionnement

• Trois modules :– Extraction de collocations binaires : couples de mots (à une 

distance fixe) rencontrés plus fréquemment que par hasard (ex : rachat coûteux)

– Expansion des collocations : itération pour construire des collocations comprenant plus de deux mots

– Étiquetage des collocations : un analyseur linguistique étiquette les collocations selon trois familles : 

• Collocations prédicatives telles que verbe support + nom prédicatif (ex : make decision)

• Syntagmes figés (ex : stock market)• Phrases a trous (ex : X increase)

• A la différence d’Acabit, le filtrage linguistique est effectué en sortie de la sélection statistique

Page 91: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

91Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Fastr (Jacquemin, 1997)

• Analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée– Détection des variantes des termes en corpus (formes linguistiques 

différentes)– Variations capturées par des métarègles opérant 

à différents niveaux :• morphosyntaxique : flux de sève mesurés est une variation de 

mesure de flux s’appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure

• syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination

• syntaxico­semantique : évaluation de flux est une variante de mesure de flux s’appuyant sur le lien sémantique existant entre les noms évaluation et mesure

Page 92: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

92Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Fastr

• L’objectif n’est pas d’acquérir des termes de façon massive, mais d’enrichir des terminologies existantes avec des variantes de termes connus

• Application à la recherche d’information : indexation contrôlée– Indexation dynamique– Recherche dans le corpus des termes de la requête et de leurs 

différentes variantes

• Indexation libre pour recherche des termes sans liste de départ

Page 93: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

93Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Exit (Roche et al., 2004)

Extraction itérative de la terminologie– Extraction de termes sur un corpus normalisé et étiqueté– Réinjection des termes reconnus sous forme d’éléments uniques

1ère itération : assistant de gestion2ème itération : assistant­de­gestion de production

– Sélection de mesures statistiques sur leur capacité à reconnaître des termes

– Comparaison de courbes d’élévation, correspondant à la variation de la précision des termes en fonction du nombre de termes proposés a l’expert (le rappel étant incalculable)

Page 94: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

94Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Systèmes d'acquisition : bilan

Acabit Ana Lexter Terms Xtract Fastr Exit étiquetage ✓ ✓ ✓ ✓ ✓ racinisation ✓ ✓ patrons syntaxiques ✓ ✓ ✓ ✓ ✓ filtrage statistique ✓ ✓ ✓ ✓ ✓ ✓ incrémentalité ✓ ✓ ✓

Page 95: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

95Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition

• Variation terminologique• Informations sémantiques

Page 96: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

96Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

La variation terminologique : introduction (1/3)

• L’interprétation du contenu des textes est nécessaire pour évaluer leur pertinence relativement à une requête

• Des techniques de surface peuvent parfois extraire de bons indicateurs de contenu, par exemple ceux qu’un humain extrait visuellement lorsqu’il parcourt rapidement un texte

• Compromis :– Analyse peu profonde et non sensible au domaine des documents– Analyse fine requérant des connaissances sur un domaine précis

• Les termes constituent de très bons candidats pour l’indexation documentaire : ils peuvent être extraits par des techniques peu profondes et ils révèlent des concepts abordés dans les documents

Page 97: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

97Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

La variation terminologique : introduction (2/3)

• Un concept dénoté par un terme peut apparaître sous de nombreuses formes, ex. pour loan offer :– ...offer our commercial customers credit commercial loans...– ...offer a complete range of home investment and business loans...– ...offering a special jumbo mortgage loan...  

• Mais il ne s’agit pourtant pas de repérer les mots composant un terme dans une fenêtre de taille fixée :– ...interlibrary loan continues to offer a full range of services to our 

graduate students...– ...education loan center offers tutorials about references about financing 

scholarships...

Page 98: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

98Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

La variation terminologique : introduction (3/3)

• Problèmes :– Comment reconnaître automatiquement des termes ?– Comment repérer les variantes de termes connus ?– Ces variantes désignent­elles exactement les mêmes concepts ?

• Il serait impossible pour les terminologues d'énumérer a priori toutes les variantes des termes...

• Objectif : mettre en relation des segments de texte qui sont conceptuellement proches mais différent dans leur construction linguistique

Page 99: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

99Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : définition

• (Jacquemin, 2001)• Une variation terminologique est une transformation d'un 

terme contrôlé qui satisfait les 4 conditions suivantes :1. Les mots pleins du termes sont conservés par la transformation, ou 

ils sont transformés en des mots morphologiquement ou sémantiquement liés

2. Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison

3. Les relations de dépendances dans le terme d'origine doivent être conservées

4. Les variantes ne doivent pas contenir le terme de départ (ou une flexion)

Page 100: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

100Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 1

Les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés

– ex : recognized neural cells est une variante de cell recognition car cell est conservée et recognized et recognition sont liés morphologiquement

– Les mots outils (ex : prépositions, déterminants) peuvent être supprimés ou remplacés par une transformation, ex : réserve en eau est une variante de réserve d'eau

Page 101: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

101Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 2

Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison

– Les variantes qui ne mettent en jeu ni variation morphologique ni variation sémantique sont dites syntaxiques, ex : language comprehension et comprehension of language

– Les variantes mettant en jeu des mots appartenant à une même famille morphologique sont dites morphologiques, ex : determine the structure et structure determination

– Les variantes mettant en jeu des mots appartenant à une même famille sémantique sont dites sémantiques, ex : language comprehension et speech comprehension

Page 102: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

102Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 3

Les relations de dépendances dans le terme d'origine doivent être conservées

– L'ordre des mots dans les variantes peut être modifié et de nouveaux mots peuvent être insérés, mais les dépendances existant dans le terme d'origine doivent être conservées

– Ex : pressure fluctuation et fluctuation in mean arterial blood pressure sont des variantes, car la dépendance entre pressure et fluctuation se retrouve dans les deux

Page 103: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

103Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 4

Les variantes ne doivent pas contenir le terme de départ (ou une flexion)

– Ex : mean arterial pressures n'est pas une variante de arterial pressure car la suite de mots du terme contrôlé n'est pas modifiée

Page 104: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

104Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : exemples

• Exemples de variations sur le terme genetic disease :– genetic diseases : flexion– disease is genetic : syntaxique– hereditary disease : sémantique– genetically determined forms of the disease : morphosyntaxique– disease is familial : syntaxico­sémantique– transmissible neurodegenerative diseases : syntaxico­sémantique– genetic risk factors for coronary artery disease : pas une variante

• Distribution des variantes : par exemple, dans un corpus scientifique en anglais, 1/3 des occurrences de termes sont des variantes : 9% syntaxiques, 6.5% morphosyntaxiques, 22% sémantiques (Jacquemin, 1999)

Page 105: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

105Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Ressources pour la reconnaissances des variantes

• Normalisation flexionnelle : lemmatiseur

• Normalisation morphologique : base de données lexicale avec les structures des mots

• Normalisation syntaxique : règles de réécritures

• Normalisation sémantique : une ressource avec des liens sémantiques

Page 106: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

106Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique

• Informations sémantiques

Page 107: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

107Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Extension sémantique de requêtes : exemples

• Approche numérique– Enrichissement de la requête avec les termes ou les syntagmes qui 

cooccurrent fortement dans la collection avec les mots de la requête– Idée : retrouver des concepts de la requête non exprimés par 

l'utilisateur

• Approche symbolique– Enrichissement par les verbes liés aux noms de la requête (Claveau et 

Sébillot, 2004)– Interaction avec l'utilisateur pour une définition plus précise de la 

requête (Grefenstette, 1997)

• Utilisation de WordNet– Enrichissement par les synsets ou la hiérarchie– Problèmes de granularité et de désambiguïsation

Page 108: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

108Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Informations sémantiques pour l'indexation

• Indexation conceptuelle– Réservée à des domaines spécialisés– Extraction dans les textes de termes significatifs et des liens qui les 

unissent– Utilisation de bases de connaissances lexicales du domaine– Description des documents à l'aide d'un formalisme de 

représentation de connaissances• Graphes conceptuels• Réseaux sémantiques• Logiques de description

– Aide à l'interrogation par "navigation" dans les concepts du domaine

• (Woods et Ambroziak, 1998 ; Guarino et al., 1999 ; Chevallet, 1992 ; Zweigenbaum et al., 1994 ; Berrut, 1990)

Page 109: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

109Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Informations sémantiques pour l'indexation

• Indexation sémantique– À base de ressources existantes : indexation à base des synsets de 

WordNet (Mihalcea et Moldovan, 2000 ; Smeaton et Quigley, 1996)– À base d'informations acquises en corpus : indexation dynamique ou 

ajout des informations de cooccurrence– Encore et toujours, problème de désambiguïsation sémantique

Page 110: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

110Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Bibliographie (1/3)

• Bourigault, D. (1996) LEXTER, a Natural Language Processing tool for terminology extraction, Proceedings of the 7th EURALEX international congress, Gotebord, Suede

• Bourigault, D. et C. Jacquemin (2000) Construction de ressources terminologiques, dans Ingénierie des Langues, sous la direction de J.­M. Pierrel, Hermes

• Daille, B. (1994) Approche mixte pour l’extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse en informatique fondamentale, Université Paris 7

• Dias, G. (2002) Extraction automatique d'associations lexicales à partir de corpora, Thèse en informatique, Université Nouvelle de Lisbonne

• Fluhr, C. (2000) Indexation et recherche d’information textuelle, in Ingénierie des Langues, Jean­Marie Pierrel éditeur, Hermes

Page 111: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

111Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Bibliographie (2/3)

• Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d’habilitation à diriger des recherches en informatique fondamentale, Université de Nantes

• Jacquemin, C. (1999) Syntagmatic and paradigmatic representations of term variation, Actes de ACL'99, University of Maryland

• Jacquemin, C. (2001) Spotting and Discovering Terms through Natural Language Processing, MIT Press, Cambridge, États­Unis

• Jacquemin, C. (2004) Indexation et Recherche d'Information, Cours de DESS II et SCHM, Université Paris­Sud 11

• Korfhage, R. C. (1997), Information Storage and Retrieval. John Wiley & Sons, Inc.

Page 112: Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche d'Information et TAL Master 2 Recherche Recherche d'Information An alys e d es doc um ents

112Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Bibliographie (3/3)

• Lefèvre, P. (2000) La recherche d'informations, Hermes Sciences, Paris• Manning, C. et P. Raghavan (2004) Text retrieval and mining, CS276A, 

Cours, Université Stanford• Meadow, C. T., Boyce, B. R. et Kraft D. H. (2000), Text Information 

Retrieval Systems. Academic Press, New York City, NY, USA.• Moreau, F et Sébillot, S (2005) Contributions des techniques du 

traitement automatique des langues à la recherche d'information. Rapport de recherche, IRISA.

• Roche M., T. Heitz, O. Matte­Tailliez et Y. Kodratoff (2004) EXIT : Un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés, dans Actes de JADT'04, Louvain­la­Neuve, Belgique