Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...

Post on 26-Dec-2018

219 views 0 download

Transcript of Dialogue et Analyse de Textes - perso.limsi.fr · Dialogue et Analyse de Textes 3 Recherche...

Xavier TannierXavier.Tannier@limsi.fr

Dialogue et Analyse de Textes

Master 2 Recherche

Recherche d'Information et Traitement du Langage

2Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information– Introduction– Indexation– Recherche– Évaluation

• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques

3Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'Information

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Indexation, modèle de document

Requête

Modèle de recherche

4Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Information vs. Données

• "Les données sont reçues, stockées et retrouvées par un endosystème. Les données sont impersonnelles ; elles sont disponibles pour tout utilisateur du système. 

• L’information, en revanche, est un ensemble de données qui correspond à un besoin particulier. 

• Le concept d’information a des composantes personnelles et temporelles absentes du concept de donnée."

(R. R. Korfhage, 1997)

5Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Besoin d'information

• "Disposer des bonnes informations par rapport à une question ou à un problème donnés"

• Importance accrue de la veille scientifique, technologique, commerciale, culturelle, etc.

• Un besoin très grand public• Au départ, un besoin d'accès aux informations internes, mais 

l'accès aux informations externes est maintenant tout aussi important

6Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Diversité des besoins d'information (1/2)

1. La recherche d’un élément connu – L’utilisateur sait exactement quels éléments il recherche. Il sait 

reconnaître les éléments désirés s’il les voit. – Ex : recherche d'une citation bibliographique précise.

 ► SQL, XQuery, etc.   (bases de données)

2. La recherche d’une information spécifique – L’utilisateur recherche une information spécifique mais ignore sous 

quelle forme elle se présente.– Réponse partielle impossible– Ex : À quelle date le président Kennedy a­t­il été assassiné ? 

 ► Systèmes de Questions­Réponses(Meadow et al., 2000.)

7Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Diversité des besoins d'information (2/2)

3. La recherche d’une information générale – L’utilisateur recherche une information sur un sujet en général. Il 

existe de nombreuses façons de décrire le sujet. – Il est possible que l’information pertinente ne soit pas reconnue– Cette information peut ne satisfaire l’utilisateur que de façon 

partielle.► Recherche d'information

4. L’exploration – Le but n’est pas de répondre à une question en particulier, mais de 

parcourir l’ensemble des données pour découvrir quels types d’informations concernant un sujet ou un domaine sont présents.

 ► Navigation

(Meadow et al., 2000.)

8Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Difficultés de la recherche d'information (1/3)

• Difficultés d'accès, couverture, temps de traitement :– Les bases documentaires sont très grandes, réparties sur de 

nombreux supports dans des endroits différents

• Difficultés de définition de la pertinence– Comment un document remplit­il le besoin informationnel d'une 

personne donnée ?– Quelle est sa pertinence ? Comment la mesure­t­on ?

• Difficultés d'exploitation– Les documents pertinents ne sont pas nécessairement dans la langue 

de la requête– L'information recherchée n'est pas nécessairement clairement 

identifiable dans un document

9Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Difficultés de la RI (2/3) : le facteur humain

• Le besoin d’information de l’utilisateur est parfois vague et toujours subjectif. – La perte d’information entre la réalité du besoin d’information et son 

expression peut être importante.– La pertinence d’un document pour une requête est une notion 

variable et très complexe à définir.

 ► Il ne peut pas exister de système de recherche d’information parfait. 

 ► L’évaluation d’un système dépasse les aspects habituels de performance informatique

• L'humain est subjectif, versatile, et il utilise un langage "naturel" !

10Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Difficultés de la RI (3/3) : le facteur "langage"

• À la différence des langages artificiels, le langage "naturel" est– implicite : tout n'est pas dit dans les textes et leur compréhension 

requiert une importance connaissance sur le contexte et sur le monde– redondant : la langue offre de nombreuses façons de formuler le 

même contenu– ambigu : un même énoncé peut souvent être interprété de 

différentes façons

• La recherche d'information est encore compliquée par– le fait que les mots peuvent jouer des rôles différents dans les textes– le fait que les atomes de sens peuvent être des mots ou des groupes 

de mots (termes)

• Voir plus loin dans le cours

11Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Grandes évolutions de la RI

• Précédemment :– Bases documentaires structurés et de petite taille– Accès par des métadonnées et rarement par le texte intégral– Utilisation de langages documentaires (contraints) par les spécialistes

• Aujourd'hui– Documents multimédia sous forme électronique– Nombreux formats de représentation (texte brut, HTML, XML, PDF, 

RTF, formats propriétaires...)– De plus en plus de données non structurées– Une masse d'information gigantesque (Web...)

12Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Une masse immense d'informations multimédia– Du texte, des images, des vidéos, du Flash, de nombreux types de fichiers 

différents...– Taille du seul Wikipedia (version anglaise) en 2007 =

Recherche d'information et Internet (1/3)

Source : Nikola Smolenski

13Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet (2/3)

• Un contenu (un peu) structuré– Métadonnées– Liens intra­ et inter­documents– Indications de forme– Balisage "sémantique" pour application de feuilles de style

• Un contenu dynamique– Les sites de nouvelles, blogs, forums... évoluent très vite – Les pages dynamiques sont très nombreuses

14Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet (3/3)

• Tout le monde peut à la fois être lecteur et producteur d'info– Ajouter son propre contenu au Web est devenu simple et gratuit– Pages persos, blogs, wikis, forums, listes de diffusion...– Les institutions et les particuliers sont a priori sur le même pied

• Un enjeu économique important– 75 % des sites sont trouvés par l’intermédiaire d’un moteur de 

recherche (source : WebPosition)– Google, Yahoo et d'autres sont devenus des acteurs majeurs– Les algorithmes de recherche et les moyens mis en œuvre sont 

secrets

15Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Le Web fourmille d'informations fausses (vecteur de désinformation)

• Les métadonnées sont peu utilisées• Les créateurs de pages peuvent modifier le contenu pour 

améliorer leur classement sur les moteurs de recherche– Répétition de mots­clés dans des couleurs non visibles ou dans les 

métadonnées– Spamming : pas de contenu mais une énumération de mots­clés destinés 

uniquement à être visible sur les moteurs de recherche

 ► On ne peut se fier tel quel au contenu des pages pour évaluer leur pertinence

 ► On ne peut pas se contenter des mesures de densité des mots de la recherche d'information sur des bases documentaires

Le Web, un contenu non contrôlé

16Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet

• Utilisation massive par des utilisateurs non experts :– La requête typique est constituée d'au plus quelques mots­clés– Domaine en pleine expansion économique

• Une partie du Web n'est pas directement accessible (accès restreint, pages non liées, pages dynamiques...)

• L'information présente n'est pas toujours fiable (le Web, vecteur de désinformation)

• La visualisation de l'information est particulièrement importante (classement des documents, présentation d'extraits, extraction de segments, présentation graphique...)

17Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'information et Internet

Source : Nikola Smolenski

L'encyclopédie Wikipedia en 2007...

18Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Relevance feedback

• "Réinjection de la pertinence"• Le but : 

– Sélectionner de nouveaux mot­clés et/ou modifier les poids– Réinjecter la nouvelle requête pour obtenir de meilleurs résultats

• "Manuel explicite" :– L'utilisateur visualise les n premiers résultats– Il estime la pertinence de chacun (0 ou 1)– Nouvelle requête obtenue à partir des documents jugés pertinents

• Automatique (blind relevance feedback) :– Les n premiers résultats du premier run sont supposés pertinents– Même processus que pour le relevance feedback manuel

19Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche multimedia

• Texte et/ou image et/ou audio et/ou vidéo...• Des collections très volumineuses :

– ex : collection Wikipedia pour INEX– 4.6 Go en texte seul, 60 Go avec les images

• Documents structurés (MPEG­7...)

• Utilisation :– des métadonnées– du texte "environnant" les images (légende, point de référence...)– des caractéristiques propres des documents autres que le texte :

• Analyse d'image• Speech­to­text• ...

20Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Indexation, modèle de document

21Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation, pourquoi ?

• Le parcours complet de l'ensemble des documents avec les termes d'une requête est impossible : trop de documents et temps de réponse prohibitif

• On passe par un traitement préalable : l'indexation• Le but de l'indexation automatique : "transformer des 

documents en substituts capables de représenter le contenu de ces documents" (Salton et McGill, 1983)

• Les difficultés de l'indexation sont pour beaucoup celles inhérentes à la langue des documents

• Les index peuvent prendre plusieurs formes : mots simples, termes complexes, syntagmes, entrées de thésaurus...

22Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation : le fichier inverse

• Notion "classique" de l'index• Un fichier inverse associe des index aux documents qui les 

contiennent :a  ▸  d1, d2, d3, d4, d5...à  ▸  d1, d2, d3, d4, d5...abaissa    ▸  d3, d4...abaissable    ▸  d5abandon     ▸  d1, d5abandonna     ▸  d2abasourdi      ▸  d1...

23Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Indexation libre et contrôlée

• Indexation libre :– Mots, termes des documents

• Indexation contrôlée– Listes de termes prédéfinie– Vocabulaire contrôlé (évite polysémie, synonymie et problèmes de 

granularité)– Thésaurus

exemple : thésaurus UMLS

24Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Chaîne d'indexation

Documents à indexer

Segmenteur (tokenizer)

Normalisation

Indexeur

Fichiers d'indexation

25Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Constitution des fichiers inverses

26Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Réduction de la taille des index

• Stemming :– Nombre de termes réduit d'environ 40 %– Nombre de pointeurs réduit de 10 à 20 %– Espace total réduit d'environ 30 %

• Non conservation de certaines formes– Liste de mots vides (stop list)– Environ 30 mots représentent environ 30 % des occurrences de 

termes dans les textes écrits– Éliminer les 150 termes les plus fréquents réduit l'espace 

d'environ 25 %

27Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Pondération des termes

• Dans une requête comme dans un document, les termes n'ont pas tous la même importance

• Intuition #1 : plus un document contient d'occurrences d'un terme, plus il est "à propos" de ce terme (plus il sera pertinent par rapport à une requête contenant ce terme)

• C'est le modèle "sac de mots" – On raisonne en termes de fréquence et on oublie l'ordre des mots– Pour conserver l'ordre des mots, il faut mémoriser la position de 

chaque occurrence dans les index

• Les longs documents sont favorisés car ils sont susceptibles de contenir davantage d'occurrences

28Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Pondération des termes : le td.idf (1/2)

• Intuition #2 : des termes très fréquents dans tous les documents ne sont pas si importants (ils sont moins discriminants)

• On compense donc la fréquence des termes dans les documents (tf) en prenant en compte leur fréquence dans la collection (df)– Mesure simple :

– En pratique : 

• Le poids d'un terme dans un document D augmente avec sa fréquence dans D et avec sa rareté dans la collection

wi , d=tf i ,d . 1df i

wi , d=tf i ,d . log ndf i

29Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Pondération des termes : le td.idf (2/2)

tf seul

tf.idf

30Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'Information

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Modèle de recherche

31Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Les trois courants

1. Modèles fondés sur la théorie des ensembles Modèle booléen►

2. Modèles algébriques Modèle vectoriel►

3. Modèles probabilistes Modélisation de la notion de "pertinence"►

• Courants fondés à l'aube de la discipline (années 60, 70)• Passage à l'échelle : des bases documentaires "jouets" au 

teraoctet de TREC et au Web

32Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle booléen

• Le premier et le plus simple des modèles• Basé sur la théorie des ensembles et l'algèbre de Boole• Les termes de la requête sont soit présents soit absents

 ► Poids binaire des termes, 0 ou 1

• Un document est soit pertinent soit non pertinent ► Pertinence binaire, et jamais partielle (modèle exact)

• La requête s'exprime avec des opérateurs logiques– AND, OR, NOT  – (cyclisme OR natation) AND NOT dopage– le document est pertinent si et seulement si son contenu respecte la 

formule logique demandée

33Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle booléen : exemple

Requête Q  : (cyclisme OR natation) AND NOT dopage

Le document contient Pertinence cyclisme natation cyclisme OR dopage NOT dopage du document

natation0 0 0 0 1 00 0 0 1 0 00 1 1 0 1 10 1 1 1 0 01 0 1 0 1 11 0 1 1 0 01 1 1 0 1 11 1 1 1 0 0

34Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle booléen : avantages et inconvénients

• Avantage :– Le modèle est transparent et simple à comprendre pour l'utilisateur :

• Pas de paramètres "cachés"• Raison de sélection d'un document claire : il répond à une formule logique

– Adapté pour les spécialistes (vocabulaire contraint)

• Inconvénients :– Il est difficile d'exprimer des requêtes longues sous forme booléenne– Le critère binaire peu efficace

• Il est admis que la pondération des termes améliore les résultats• cf. modèle booléen étendu (plus loin)

– Il est impossible d'ordonner les résultats• Tous les documents retournés sont sur le même plan• L'utilisateur préfère un classement lorsque la liste est grande

35Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle vectoriel

• Modèle statistique :– Aspect quantitatif des termes et des documents– Degré de similarité entre une requête et un document

 ► Liste ordonnée de résultats selon cette similarité

• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments, plus la probabilité qu’elles représentent la même information est élevée.

• Documents et requête sont représentés par un vecteur– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n 

dimensions (n : nombre de termes)– La longueur du vecteur (i.e. de sa projection sur chacun des 

axes/termes) est proportionnelle au poids des termes.– La pertinence du document correspond au degré de similarité entre le 

vecteur de la requête et celui du document

36Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

D

t2

t3

0,8

0,45t

1

Modèle vectoriel : exemple

Q

Requête Q  :     t1 t

2 t

3

Document D :    ... t1 ... t

3 ...

poids wD,t1

 = 0.45

poids wD,t3

 = 0.80

37Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle vectoriel : mesures de similarité

• Mesure de l'angle entre les vecteurs de Q  et de D – produit scalaire

– cosinus

– distance euclidienne, mesures de Jaccard et Dice...

• Normalisation telle que la norme du vecteur soit unitairePermet de gommer les différences de taille des documents

• Contribution d'un terme isolé :– S'il est présent dans le document et la requête, il augmente le score– S'il est présent dans un des deux seulement, il diminue le score

RSV Q , D = Q . D=∑i=1

n

wiQ ×wiD

RSV Q , D =Q . D

∣Q ∣×∣D∣=

∑wiQ ×wiD

∑wi Q2×∑wiD

2

38Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle vectoriel : avantages et inconvénients

• Avantages :– Le langage de requête est plus simple (liste de mot­clés)– Les performances sont meilleures grâce à la pondération des termes– Le renvoi de documents à pertinence partielle est possible– La fonction d'appariement permet de trier les documents

• Inconvénients :– Le modèle considère que tous les termes sont indépendants

(inconvénient théorique)– Le langage de requête est moins expressif– L'utilisateur voit moins pourquoi un document lui est renvoyé

 ► Le modèle vectoriel est le plus populaire en RI

39Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste (1/4)

• Estimation de la probabilité de pertinence d'un document par rapport à une requête

• Probability Ranking Principle (Robertson 77)

•  R  : D est pertinent pour Q• ¬R : D n'est pas pertinent pour Q• Le but : estimer

– P(R/D) : probabilité pour le document D de faire partie des documents pertinents pour Q

– P(¬R/D)

variables indépendantes, deux ensembles de documents séparés

siP R /D

P ¬R/D 1 ou si log

P R/D

P ¬R /D 0 alors D estpertinent

40Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste (2/4)

• Rappel du théorème de Bayes :

P A /B= P B/ A .P AP B

P R/D =P D /R.P R

P D

Probabilité d'obtenir D en connaissant les pertinents

Probabilité d'obtenir un document pertinent en piochant au hasard

Probabilité de piocher D au hasard

• On ne sait pas calculer P(R/D), mais on peut calculer P(D/R)

41Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste (3/4)

• En utilisant l'hypothèse d'indépendance des termes :

• Pour estimer les probabilités sur les termes, on utilise des requêtes déjà résolues (apprentissage) puis des pondérations

• Exemple (système Okapi) :– le tf.idf– la longueur du document– la longueur moyenne des documents

P D /R=∏i=1

n

P ti∈D /R P D /¬R=∏i=1

n

P t i∈D /¬R

42Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Modèle probabiliste : conclusion

• Deux modèles phares : – 2­poisson – Okapi

• Autres modèles de type probabiliste :– Réseaux bayésiens– Modèle de langage

• Conclusion :– Problème des probabilités initiales– Termes indépendants– Résultats comparables à ceux du modèle vectoriel

43Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Mesure de l'importance relative objective d'une page Web:– Indice de popularité ; notion de confiance collaborative– Utilisation de la structure des liens qui composent le Web :

• Les liens sortants (forward links) : facile de les connaître• Les liens entrants (backlinks) : difficile de les connaître tous

• Justification intuitive :– Le nombre de liens entrants d'une page est révélateur d'une certaine 

importance (analogie : spéculation des futurs Prix Nobel par des comptages de citations)

– Une page ayant un lien entrant provenant d'un site lui­même important (journal en ligne, grand site, portail, etc.) est plus importante qu'une page ayant des liens entrant provenant de sites peu importants : notion récursive de l'importance d'une page

Google : le PageRank (Page et al., 1998)

44Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• La probabilité pour qu'un utilisateur cliquant au hasard arrive sur une page

• Obtenir un fort PageRank pour une page qui a de nombreux liens entrants et/ou des liens entrants provenant de pages elles­mêmes importantes :

– Bu : ensemble des pages ayant un lien entrant sur la page u– C(v) : nombre de liens sortant de la page v (chaque page diffuse son 

vote de façon égale sur tous ses liens sortants)– d : facteur d'amortissement ; d vaut 0.85, donc une page n'ayant aucun 

lien entrant aura un PageRank de 0.15– Le PR moyen est 1    (avec 1/N, la somme des PR est 1)

PR u=d ∑v∈Bu

PR vC v

1−d

Formule du PageRank

×1N

45Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Le PageRank d'une page dépend des PageRanks des pages qui pointent vers elle:– Calcul des PageRanks sans connaître la valeur finale de tous les 

PageRanks impliqués– Itérations qui approchent des valeurs finales jusqu'à convergence– La valeur initiale n'affecte pas les valeurs finales mais le nombre 

d'itérations pour atteindre la convergence (ex : prendre des valeurs initiales correspondant à la fréquentation des pages)

– Le coût pour le calcul des PageRanks est très faible relativement au temps de construction d'un index complet

Calcul du PageRank

46Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Calcul du PageRank

47Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Valeurs relatives des PageRanks des pages?

D'après (Rogers)

Calcul du PageRank : exemple (1/2)

Page A

Page B

Page C

Page D

48Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• (20 itérations sont nécessaires pour la convergence)• La page D a une valeur minimale du PageRank (aucun lien entrant)• La page C a de nombreux liens entrants• La page A bénéficie du lien entrant provenant de la page C

Calcul du PageRank : exemple (2/2)

Page A

Page B

Page C

Page D

1.49

1.58

0.78

0.15PR moyen = 1

49Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Calcul du PageRank : cas d'un site web simple

Home3.35

About1.1

Product1.1

Links1.1

External Site A0.34

External Site B0.34

External Site C0.34

External Site D0.34

Review A 0.23

Review D 0.23

Review B 0.23

Review C 0.23

2.44

0.84

0.84

0.84

0.23

0.23

0.23

0.23

50Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Rétroaction des valeurs des PageRanks pour la page Home• Plus le nombre de liens sortant de la page Links est important, plus le 

partage du PageRank est diffus• Plus le nombre de pages augmente, plus des pages sans nouveaux liens 

entrant perdent de l'importance• Avoir un lien vers une page importante n'augmente pas le PR (!)

Calcul du PageRank : cas d'un site web simple

51Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

• Le nombre de pages d'un site n'augmente pas le PR moyen• Une certaine organisation hiérarchique d'un site peut fortement concentrer 

le PR sur la page principale • Maintenant décelable par les robots (ex : Googlebot) qui pénalisent le site• Obtenir un bon score:

– Proposer un contenu riche qui sera référencé par de nombreux sites (mega­site)– Etre référencé par un mega­site (ex : un journal en ligne)

Amélioration du PageRank (anti­spamming)Main Page

331.0

Page B281.6

Spam 10,39

Spam 10000,39

............................

52Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Recherche d'Information

Analyse des documents

Analyse du 

besoin

fonction desimilarité

résultats

Évaluation

53Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Campagnes d'évaluation

• TREC (Text REtrieval Conference) :– Événement phare du domaine, tous les ans depuis 1992– Sponsorisée par la DARPA– De nombreux axes de recherche :

• Multimedia : image, vidéo, Web• Types de recheche spécifiques : questions­réponses, interactif, filtrage, 

"cross­language", "home page"• Domaines spécifiques : génomique, légal• Modes d'expression spécifiques : blogs, spams• ...

• CLEF (Cross­Language Evaluation Forum), spécialisée dans les langages européens

• NTCIR, spécialisée dans les langages asiatiques

54Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Évaluation : précision et rappel (1/2)

ensemble des documents

R = ensemble des documents retournés

P = ensemble des documents pertinents

silencebruit

Rappel=∣P∩R∣∣P∣

Précision=∣P∩R∣∣R∣

Silence=1−Rappel

Bruit=1−Précision

55Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Évaluation : précision et rappel (2/2)

• Le rappel augmente bien sûr avec le nombre de réponses• La précision diminue• On utilise la courbe rappel/précision pour caractériser les 

systèmes de recherche d'information

0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1

.2

.4

.6

.8

1

56Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Évaluation : F­mesure

• Pour obtenir une valeur unique entre 0 et 1, on utilise la F­mesure (moyenne harmonique)

• Pour donner autant d'importance à la précision qu'au rappel, on choisit  = 1

•  < 1 favorise la précision,  > 1 favorise le rappel

F= 1

1p1−

1R

=21×P×R

2 PR

=1

21avec

F=2 P . RPR

57Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Autres métriques d'évaluation

• MAP (Mean Average Precision) : aire sous la courbe R/P• P@5, P@10 : précision après 10 documents retrouvés

favorise la haute/très haute précision• P@100, ...• Taux d'erreur = (faux positifs + faux négatifs) / pertinents• et de nombreuses autres...

0

MAP

58Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Le pooling (1/2)

• Problème du rappel dans les collections importantes– Le rappel impose en théorie de connaître tous les documents 

pertinents– Impossible en pratique

• Le pooling :– Une fusion "intelligente" des résultats– Les n premiers documents produits par les systèmes sont fusionnés

(n = 100 ou plus)– Seuls ces documents sont jugés par les experts humains– Les documents non jugés sont considérés comme non pertinents– Le calcul du rappel fait comme si tout avait été jugé

59Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Le pooling (2/2)

• L’accord inter­annotateurs est d'environ 80%• Au mieux 50 à 70 % des documents pertinents seraient 

retrouvés par cette méthode (Zobel 98)• Le biais qui en résulte :

– Le rappel est sur­évalué– La précision est sous­évaluée– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent 

être pénalisés

• Mais :– Le biais est faible s'il y a suffisamment de requêtes et de systèmes– L'évaluation "relative" (comparaison entre systèmes) reste valable– On n'a pas le choix

60Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Les campagnes d'évaluation, un passage obligé

• Les avantages :– Avec la taille des collections, il est très difficile pour un laboratoire 

d'évaluer un système sans passer par une campagne d'évaluation– Les documents et les jugements de pertinence sont fournis– Une comparaison objective avec les autres équipes est possible

• Les inconvénients :– Des choix méthodologiques qui orientent les recherches– Une adaptation des systèmes à des tâches précises, parfois peu 

réalistes– Des grosses machines qui empêchent peut­être des changements de 

techniques brutaux– Vision de laboratoire vs. vision du monde réel

61Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Quelques outils

• smart • mg (version 1.3g) • lucy/zettair • cheshire • dataparksearch engine • lemur • lucene • terrier • wumpus • xapian 

liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html

ftp://ftp.cs.cornell.edu/pub/smart/http://www.nzdl.org/html/mg.htmlhttp://www.seg.rmit.edu.au/zettair/http://cheshire.lib.berkeley.edu/http://www.dataparksearch.org/http://www.lemurproject.org/http://jakarta.apache.org/lucene/docs/http://ir.dcs.gla.ac.uk/terrier/http://www.wumpus­search.org/http://www.xapian.org/

62Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue

• Terminologie• Systèmes d'acquisition• Variation terminologique• Informations sémantiques

63Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Caractère implicite de la langue (rappel)

• Les informations implicites sont celles qui manquent dans l'absolu pour interpréter un énoncé, mais qui sont reconstituées grâce à des connaissances communes au rédacteur et au lecteur– Connaissances du langage et des conventions langagières

Q : Le voisin est­il chez lui ? R : Sa voiture est devant le portail.    (implicature conversationnelle)

– Connaissances du contexteC'est la deuxième fois qu'il reçoit un carton. (football, courrier, accident ?)

– Connaissances du mondeLa France a taillé l'Écosse en pièces.      (métonymie + langage figuré +

actualité du rugby)

64Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Caractère redondant de la langue (rappel)

• Au niveau lexical :– Synonymie : vélo et bicyclette – Hyperonymie et hyponymie : véhicule / vélo  /  VTT– Méronymie et holonymie : pédale / pédalier / vélo

• Abréviations et sigles : – s’il­vous­plaît et SVP, VTT et Vélo Tout Terrain

• Entre mots et expressions :– Périphrases : lave­vaisselle et machine à laver la vaisselle– Définitions : selle et petit siège, le plus souvent de cuir, d’un cycle ou 

d’un véhicule à deux roues à moteur

• Glissements de sens, la synonymie est contextuelle– papier et article

65Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Caractère ambigu de la langue (rappel)

• Homographes (Catégories différentes mais des flexions coïncident)– Les poules du couvent couvent

• Polysèmes (mêmes flexions mais sens différents)– voler

• Ambiguïtés syntaxiques (pour la machine au moins)– Jean vend une tarte aux pommes.– Jean vend une tarte aux clients.

• Anaphores– Nicolas trahit Jacques. Sa femme lui en voulut longtemps.

• Ellipses– Les Stéphanois aiment le football et les Toulousains le rugby.– Les Stéphanois détestent les Parisiens et les Toulousains aussi.

66Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Rôle des mots en contexte (rappel)

• L’identification du rôle (sémantique) des mots dans les phrases peut avoir un impact sur la recherche d’information :– Marie a été convoquée par sa directrice de thèse. (patient)– Marie a terminé la rédaction de son mémoire. (agent)– Cette entreprise fabrique des ordinateurs. (produits industriels)– L’ordinateur a produit des résultats étonnants. (instrument de calcul)– L’ordinateur est désormais présent dans une majorité de foyers. (objet 

qu’on possède)

• De nombreux rôles sont possibles : agent, patient, origine­source, but­bénéficiaire, instrument­moyen, résultat­produit, etc.

67Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Mots composés et termes (rappel)

• Les mots composés sont beaucoup moins polysémiques – "pomme de terre" ≠ pomme + terre

– "traitement de texte" ≠ traitement + texte

• Ils ont un sens qui ne se déduit pas immédiatement des mots qui les composent– "carte bleue"– "homme­grenouille"

68Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Limitations du vocabulaire (rappel)

• Le nombre de concepts à désigner est beaucoup plus grand que la taille du vocabulaire

• Il faut combiner des mots pour diminuer la polysémie des entrées du dictionnaire et désigner de façon non ambiguë

• Par ailleurs, le sens des mots composés ne se déduit pas directement du sens des mots qui les composent– AN : grand­mère, beau joueur– NA : carte bleue, gare routière– NàN : machine à laver, pompe à vélo– NdeN : traitement de texte, pomme de terre– NN : homme­grenouille, science­fiction– VN : porte­drapeau

69Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie

– Normalisation linguistique au niveau du mot– Mots composés et termes– Acquisition terminologique

• Systèmes d'acquisition• Variation terminologique• Informations sémantiques

70Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Normalisation linguistique (1/2)

• Conserver la forme fléchie ?• Ramener les mots à leur racine ?

– Racinisation (stemming)• En particulier algorithme de Porter pour l'anglais• En anglais : automates, automatic, automation  automat• En français : malade, maladie, maladif, maladive  malad

– Lemmatisation • Lemme = entrée du dictionnaire• Utilisation de transducteurs ou de dictionnaires de mots fléchis

• Conséquences attendues– Amélioration du rappel– Réduction de la précision   (marmaille, marmite  "marm")

71Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Normalisation linguistique (2/2)

• Variantes de termes :– genetic disease (terme de base)– disease is genetic (variante syntaxique)– hereditary disease (variante sémantique)– genetically determined forms of the disease (variante 

morphosyntaxique)– disease is familial (variante syntaxico­sémantique)– transmissible neurodegenerative diseases (variante syntaxico­

sémantique)

• Nécessite l'identification de termes normalisés• Possibilité d'indexation dynamique en fonction des termes 

d'une requête pour des bases de documents de taille réduite

72Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Mots composés : critères

• Institutionnalisation de l'usageL'utilisation des mots composés relève d'un choix largement partagé▸ On parle de "traitement de texte" et non de "*logiciel à écrire" ou de 

"*processeur de mots"

• Blocage des propriétés transformationnelles▸ Le voleur a pris le large▸ Passivation : *Le large a été pris par le voleur▸ Pronominalisation : *Le voleur l'a pris▸ Détachement : *Ce large, le voleur l'a pris▸ Extraction : *C'est le large que le voleur a pris▸ Relativisation : *Le large que le voleur a pris

▸ Synonymes : *Le voleur a pris le gros

73Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Mots composés : critères

• PolylexicalitéMot composé = composition de plusieurs mots ayant par ailleurs un 

caractère autonome

• Atomicité sémantiqueLe sens des mots composés  ne peut être décomposé▸ "pomme de terre" ne s'obtient pas à partir d'un sens de pomme et d'un 

sens de terre

• Inséparabilité des composantsIl n'est pas possible de séparer les composants d'un mot composé pour y 

adjoindre des modifieurs ▸ "pomme de bonne terre" n'est plus lié à "pomme de terre"

74Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Termes

• Les termes désignent des concepts dans des domaines techniques particuliers, ils ne remplissent pas nécessairement les critères des mots composés– entretien (périodique) de la chaudière– ministre (luxembourgeois) des affaires étrangères

• Le sens des termes peut varier d'un domaine à l'autre– ligne aérienne

▸ trajets d'avion (domaine aéronautique)▸ lignes électriques (domaine de l'énergie)▸ lignes téléphoniques (domaines des télécommunications)

75Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Terme et construction de terminologie

• La conception classique du terme est réductrice – La connaissance est découpée a priori en domaines stables 

représentables par des réseaux de concepts dont les termes sont les représentants linguistiques

– Or, les terminologies peuvent varier en fonction de l’application pour un même domaine de connaissances

• On peut donc voir le terme comme le résultat d’une analyse terminologique (Bourigault et Jacquemin, 2000) – Décision sur le statut de terme d’une unité, qui débouche davantage 

sur la construction d’une terminologie plutôt que sa découverte

• Cette construction doit se faire selon une double pertinence :– corpus : termes spécifiques au domaine mais stables dans le corpus– application visée : termes utiles et permettant une certaine efficacité

76Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Ingénierie terminologique

• Basée sur une réflexion méthodologique sur un corpus de référence plutôt que sur une théorie

• Travail mené de façon incrémentale par un terminologue (nécessité d'automatiser au maximum)

• Validation par des experts (conformité au domaine) et des utilisateurs (application)

• Typologie fonctionnelle de la construction de terminologie :– Acquisition de termes : extraction de candidats termes à partir d'un 

corpus validés par un terminologue (approche syntaxique et/ou statistique)

– Structuration de termes : classification ou repérage de relations– Alignement de termes : corpus multilingues

77Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition de termes

• Objectifs Extraire de documents des informations linguistiques compactes et 

représentatives de leur contenu

• ApplicationsIndexation, résumé, construction de thésaurus, etc.

• ExtensionsReconnaissance d'entités nommées

78Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition vs. reconnaissance de termes

• Deux domaines complémentaires• Acquisition : on cherche à découvrir des occurrences de 

termes dans les documents au moyen de techniques linguistiques ou statistiques

• Reconnaissance : un ensemble de termes contrôlés étant donné, on cherche à reconnaître les occurrences de ces termes ou de leurs variantes dans les documents

sur des documents sur des documentsquelconques connus

sans données indexation acquisitioninitiales libre terminologique

avec données indexation enrichissementinitiales contrôlée de thésaurus

79Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Termes simples ou multi­mots

• Les enjeux sont différents pour un système d'extraction terminologique en fonction du type de termes visé :– simples : généralement ambigus, requièrent une désambiguïsation 

utilisant le contexte d'apparition du terme▸ chaîne (de montage ? outil ? séquence d'éléments chimiques ? ...)– multi­mots : moins ambigus mais sujets aux variations, requièrent 

une analyse syntaxique ou des mesures statistiques de co­occurrence▸ chaîne des Puys▸ chaîne de l'espoir▸ réactions en chaîne ▸ chaîne N­glycosylée▸ scie à chaîne

80Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition terminologique à partir de corpus

• Au départ, extraction de termes candidats principalement sur le français et en milieu industriel– Types de termes plus difficiles à repérer qu'en anglais par exemple 

(utilisation de prépositions et de déterminants vs. juxtaposition de noms et d'adjectifs)

– Besoin fort pour la traduction 

▸ information retrieval  recherche d'information▸ natural language processing  traitement automatique des langues

– Disponibilité des corpus techniques

81Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acquisition : les projets pionniers

• Acabit (Daille, 1994) : IBM, construction de lexiques terminologiques multilingues pour la traduction

• ANA (Enguehard, 1995) : CEA, enrichissement de réseaux lexicaux exploités par un système de gestion de connaissances

• Lexter (Bourigault, 1996) : EDF, mise à jour d'un thésaurus utilisé par un système d'indexation automatique

82Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition

– Acabit– ANA– Lexter– Terms

• Variation terminologique• Informations sémantiques

– Xtract– Fastr– Exit

83Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acabit (Daille, 1994)

• Analyse superficielle et filtrage statistique : Acquisition sur un corpus pré­étiqueté et désambiguïsé. Deux étapes :

1.Analyse linguistique et regroupement de variantes : analyse du corpus par des transducteurs et production de candidats termes binaires▸ Nom Adj : connaissances informatiques▸ Nom1 à (Det) Nom2 : aide à domicile ▸ Nom1 Prep Nom2 : vente par téléphone, etc.

Décomposition : réseau de transit à satellite  réseau de transit et réseau à satellite

2.Filtrage statistique : tri des candidats termes à partir d'un corpus de référence et de termes validesComparaison de mesures statistiques en fonction de leur capacité à distinguer les termes des séquences ne correspondant pas à des termes

I3x , y=log2nbx , y 3

nbx .nb y Information mutuelle au cube : 

84Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Acabit : regroupement des variantes

Des transformations syntaxiques permettent d'associer une forme de base à plusieurs variantes– Coordination de termesassemblage et désassemblage de paquets   assemblage de paquets, 

désassemblage de paquets

– Surcomposition de termesréseau de transit à satellites   réseau de transit, 

réseau à satellites

– Modification adjectivale de termesliaisons multiples par satellites   liaisons par satellites

85Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

ANA (Enguehard, 1995)

Extraction de termes candidats sans analyse linguistique :– Module de familiarisation : l’utilisateur fournit une liste de termes 

initiale (bootstrap)– Module de découverte de termes : repérage incrémental de 

répétitions de séquences de deux mots dont au moins un est déjà un terme :

1. associations fréquentes de deux termes (ex : cœur du réacteur)2. associations fréquentes d’un mot avec un terme, dans une structure de 

type X du T (ex : température du réacteur, où réacteur est un terme), ou dans une structure T X (ex : structure interne, où structure est un terme)

– Arrêt lorsqu’aucun nouveau terme n’est découvert– Organisation des termes en réseau qui relie les termes partageant les 

mêmes têtes ou les mêmes arguments

86Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Lexter (Bourigault, 1996)

Acquisition terminologique par analyse superficielle– Acquisition sur un corpus pre­étiqueté et désambiguïsé– Trois étapes :

1.Extraction de syntagmes nominaux maximaux : repérage de frontières syntaxiques (ex : verbes, conjonctions)les clapets situés sur les tubes d’alimention  clapets, tubes d’alimentation

2.Décomposition de syntagmes nominaux : analyse récursive et extraction de têtes et d’expansions, avec désambiguïsation sur corpusrejet d’air froid  rejet froid, air froid(seul air froid est conservé après recherche sur corpus)

3.Structuration en réseau : chaque terme candidat est lié à ceux dont il est tête ou expansion. Calcul d’un coefficient de productivité pour mesurer la densité du réseau autour d’un terme.

87Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Lexter, structuration du réseau terminologique

88Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Terms (Justeson et Katz, 1995)

• Repose sur 2 hypothèses issues de l’analyse de corpus techniques et de dictionnaires spécialisés :– Les termes sont répétés dans un document technique plus 

fréquemment que les syntagmes non terminologiques– Les termes ont une structure et des variantes différentes de celles des 

syntagmes non terminologiques

• Utilisation d’un filtrage par un patron de catégories morphosyntaxiques décrit par l’expression régulière (pour l’anglais) :

         ((A|N)+ | (A|N)* (N P) (A|N)*) N

89Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

XTract (Smadja, 1993)

• Extracteur de collocations • Associations lexicales préférentielles et répétées

• Hypothèses :– Les mots dans une collocation apparaissent ensemble plus 

fréquemment que par hasard (cf. mesure de l’information mutuelle)– Les mots apparaissent dans une palette limitée de positions relatives 

correspondant a des contraintes syntaxiques particulières

90Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Xtract : fonctionnement

• Trois modules :– Extraction de collocations binaires : couples de mots (à une 

distance fixe) rencontrés plus fréquemment que par hasard (ex : rachat coûteux)

– Expansion des collocations : itération pour construire des collocations comprenant plus de deux mots

– Étiquetage des collocations : un analyseur linguistique étiquette les collocations selon trois familles : 

• Collocations prédicatives telles que verbe support + nom prédicatif (ex : make decision)

• Syntagmes figés (ex : stock market)• Phrases a trous (ex : X increase)

• A la différence d’Acabit, le filtrage linguistique est effectué en sortie de la sélection statistique

91Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Fastr (Jacquemin, 1997)

• Analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée– Détection des variantes des termes en corpus (formes linguistiques 

différentes)– Variations capturées par des métarègles opérant 

à différents niveaux :• morphosyntaxique : flux de sève mesurés est une variation de 

mesure de flux s’appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure

• syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination

• syntaxico­semantique : évaluation de flux est une variante de mesure de flux s’appuyant sur le lien sémantique existant entre les noms évaluation et mesure

92Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Fastr

• L’objectif n’est pas d’acquérir des termes de façon massive, mais d’enrichir des terminologies existantes avec des variantes de termes connus

• Application à la recherche d’information : indexation contrôlée– Indexation dynamique– Recherche dans le corpus des termes de la requête et de leurs 

différentes variantes

• Indexation libre pour recherche des termes sans liste de départ

93Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Exit (Roche et al., 2004)

Extraction itérative de la terminologie– Extraction de termes sur un corpus normalisé et étiqueté– Réinjection des termes reconnus sous forme d’éléments uniques

1ère itération : assistant de gestion2ème itération : assistant­de­gestion de production

– Sélection de mesures statistiques sur leur capacité à reconnaître des termes

– Comparaison de courbes d’élévation, correspondant à la variation de la précision des termes en fonction du nombre de termes proposés a l’expert (le rappel étant incalculable)

94Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Systèmes d'acquisition : bilan

Acabit Ana Lexter Terms Xtract Fastr Exit étiquetage ✓ ✓ ✓ ✓ ✓ racinisation ✓ ✓ patrons syntaxiques ✓ ✓ ✓ ✓ ✓ filtrage statistique ✓ ✓ ✓ ✓ ✓ ✓ incrémentalité ✓ ✓ ✓

95Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition

• Variation terminologique• Informations sémantiques

96Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

La variation terminologique : introduction (1/3)

• L’interprétation du contenu des textes est nécessaire pour évaluer leur pertinence relativement à une requête

• Des techniques de surface peuvent parfois extraire de bons indicateurs de contenu, par exemple ceux qu’un humain extrait visuellement lorsqu’il parcourt rapidement un texte

• Compromis :– Analyse peu profonde et non sensible au domaine des documents– Analyse fine requérant des connaissances sur un domaine précis

• Les termes constituent de très bons candidats pour l’indexation documentaire : ils peuvent être extraits par des techniques peu profondes et ils révèlent des concepts abordés dans les documents

97Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

La variation terminologique : introduction (2/3)

• Un concept dénoté par un terme peut apparaître sous de nombreuses formes, ex. pour loan offer :– ...offer our commercial customers credit commercial loans...– ...offer a complete range of home investment and business loans...– ...offering a special jumbo mortgage loan...  

• Mais il ne s’agit pourtant pas de repérer les mots composant un terme dans une fenêtre de taille fixée :– ...interlibrary loan continues to offer a full range of services to our 

graduate students...– ...education loan center offers tutorials about references about financing 

scholarships...

98Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

La variation terminologique : introduction (3/3)

• Problèmes :– Comment reconnaître automatiquement des termes ?– Comment repérer les variantes de termes connus ?– Ces variantes désignent­elles exactement les mêmes concepts ?

• Il serait impossible pour les terminologues d'énumérer a priori toutes les variantes des termes...

• Objectif : mettre en relation des segments de texte qui sont conceptuellement proches mais différent dans leur construction linguistique

99Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : définition

• (Jacquemin, 2001)• Une variation terminologique est une transformation d'un 

terme contrôlé qui satisfait les 4 conditions suivantes :1. Les mots pleins du termes sont conservés par la transformation, ou 

ils sont transformés en des mots morphologiquement ou sémantiquement liés

2. Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison

3. Les relations de dépendances dans le terme d'origine doivent être conservées

4. Les variantes ne doivent pas contenir le terme de départ (ou une flexion)

100Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 1

Les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés

– ex : recognized neural cells est une variante de cell recognition car cell est conservée et recognized et recognition sont liés morphologiquement

– Les mots outils (ex : prépositions, déterminants) peuvent être supprimés ou remplacés par une transformation, ex : réserve en eau est une variante de réserve d'eau

101Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 2

Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison

– Les variantes qui ne mettent en jeu ni variation morphologique ni variation sémantique sont dites syntaxiques, ex : language comprehension et comprehension of language

– Les variantes mettant en jeu des mots appartenant à une même famille morphologique sont dites morphologiques, ex : determine the structure et structure determination

– Les variantes mettant en jeu des mots appartenant à une même famille sémantique sont dites sémantiques, ex : language comprehension et speech comprehension

102Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 3

Les relations de dépendances dans le terme d'origine doivent être conservées

– L'ordre des mots dans les variantes peut être modifié et de nouveaux mots peuvent être insérés, mais les dépendances existant dans le terme d'origine doivent être conservées

– Ex : pressure fluctuation et fluctuation in mean arterial blood pressure sont des variantes, car la dépendance entre pressure et fluctuation se retrouve dans les deux

103Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : condition 4

Les variantes ne doivent pas contenir le terme de départ (ou une flexion)

– Ex : mean arterial pressures n'est pas une variante de arterial pressure car la suite de mots du terme contrôlé n'est pas modifiée

104Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Variation terminologique : exemples

• Exemples de variations sur le terme genetic disease :– genetic diseases : flexion– disease is genetic : syntaxique– hereditary disease : sémantique– genetically determined forms of the disease : morphosyntaxique– disease is familial : syntaxico­sémantique– transmissible neurodegenerative diseases : syntaxico­sémantique– genetic risk factors for coronary artery disease : pas une variante

• Distribution des variantes : par exemple, dans un corpus scientifique en anglais, 1/3 des occurrences de termes sont des variantes : 9% syntaxiques, 6.5% morphosyntaxiques, 22% sémantiques (Jacquemin, 1999)

105Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Ressources pour la reconnaissances des variantes

• Normalisation flexionnelle : lemmatiseur

• Normalisation morphologique : base de données lexicale avec les structures des mots

• Normalisation syntaxique : règles de réécritures

• Normalisation sémantique : une ressource avec des liens sémantiques

106Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Plan

• La recherche d'information• La RI et la langue• Terminologie• Systèmes d'acquisition• Variation terminologique

• Informations sémantiques

107Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Extension sémantique de requêtes : exemples

• Approche numérique– Enrichissement de la requête avec les termes ou les syntagmes qui 

cooccurrent fortement dans la collection avec les mots de la requête– Idée : retrouver des concepts de la requête non exprimés par 

l'utilisateur

• Approche symbolique– Enrichissement par les verbes liés aux noms de la requête (Claveau et 

Sébillot, 2004)– Interaction avec l'utilisateur pour une définition plus précise de la 

requête (Grefenstette, 1997)

• Utilisation de WordNet– Enrichissement par les synsets ou la hiérarchie– Problèmes de granularité et de désambiguïsation

108Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Informations sémantiques pour l'indexation

• Indexation conceptuelle– Réservée à des domaines spécialisés– Extraction dans les textes de termes significatifs et des liens qui les 

unissent– Utilisation de bases de connaissances lexicales du domaine– Description des documents à l'aide d'un formalisme de 

représentation de connaissances• Graphes conceptuels• Réseaux sémantiques• Logiques de description

– Aide à l'interrogation par "navigation" dans les concepts du domaine

• (Woods et Ambroziak, 1998 ; Guarino et al., 1999 ; Chevallet, 1992 ; Zweigenbaum et al., 1994 ; Berrut, 1990)

109Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Informations sémantiques pour l'indexation

• Indexation sémantique– À base de ressources existantes : indexation à base des synsets de 

WordNet (Mihalcea et Moldovan, 2000 ; Smeaton et Quigley, 1996)– À base d'informations acquises en corpus : indexation dynamique ou 

ajout des informations de cooccurrence– Encore et toujours, problème de désambiguïsation sémantique

110Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Bibliographie (1/3)

• Bourigault, D. (1996) LEXTER, a Natural Language Processing tool for terminology extraction, Proceedings of the 7th EURALEX international congress, Gotebord, Suede

• Bourigault, D. et C. Jacquemin (2000) Construction de ressources terminologiques, dans Ingénierie des Langues, sous la direction de J.­M. Pierrel, Hermes

• Daille, B. (1994) Approche mixte pour l’extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse en informatique fondamentale, Université Paris 7

• Dias, G. (2002) Extraction automatique d'associations lexicales à partir de corpora, Thèse en informatique, Université Nouvelle de Lisbonne

• Fluhr, C. (2000) Indexation et recherche d’information textuelle, in Ingénierie des Langues, Jean­Marie Pierrel éditeur, Hermes

111Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Bibliographie (2/3)

• Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d’habilitation à diriger des recherches en informatique fondamentale, Université de Nantes

• Jacquemin, C. (1999) Syntagmatic and paradigmatic representations of term variation, Actes de ACL'99, University of Maryland

• Jacquemin, C. (2001) Spotting and Discovering Terms through Natural Language Processing, MIT Press, Cambridge, États­Unis

• Jacquemin, C. (2004) Indexation et Recherche d'Information, Cours de DESS II et SCHM, Université Paris­Sud 11

• Korfhage, R. C. (1997), Information Storage and Retrieval. John Wiley & Sons, Inc.

112Dialogue et Analyse de Textes ► Recherche d'Information et TAL Master 2 Recherche

Bibliographie (3/3)

• Lefèvre, P. (2000) La recherche d'informations, Hermes Sciences, Paris• Manning, C. et P. Raghavan (2004) Text retrieval and mining, CS276A, 

Cours, Université Stanford• Meadow, C. T., Boyce, B. R. et Kraft D. H. (2000), Text Information 

Retrieval Systems. Academic Press, New York City, NY, USA.• Moreau, F et Sébillot, S (2005) Contributions des techniques du 

traitement automatique des langues à la recherche d'information. Rapport de recherche, IRISA.

• Roche M., T. Heitz, O. Matte­Tailliez et Y. Kodratoff (2004) EXIT : Un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés, dans Actes de JADT'04, Louvain­la­Neuve, Belgique