1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret...

24
1 Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales Olivier Ferret Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue (LIC2M) CEA – LIST Fontenay-aux-Roses

Transcript of 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret...

Page 1: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

1

Découvrir des sens de mots à partir d’un réseau de cooccurrences lexicales

Olivier Ferret

Laboratoire d’Ingénierie de la Connaissance Multimédia Multilingue (LIC2M)

CEA – LIST

Fontenay-aux-Roses

Page 2: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

2

Problématique

Pré-requis de la désambiguïsation sémantique disposer d’un inventaire des sens des mots

Problèmes posés par les inventaires utilisables en TAL réseaux lexico-sémantiques de type WordNet nature des sens

• distinctions de sens trop fines par rapport à une utilisation en TAL– 41 sens pour le verbe run dans WordNet

• incomplétude des sens– les domaines de spécialité introduisent constamment des sens nouveaux

domaine nucléaire : piscine, crayon

caractérisation des sens• principalement au travers de relations de type hyperonymie, synonymie

• absence de caractérisation des contextes d’occurrence, ce qui est le plus utile pour la désambiguïsation sémantique

– piscine (général) : nageur, natation, maître-nageur, …

– piscine (nucléaire) : réacteur, centrale, combustible, radiation, …

Page 3: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

3

Définir des sens à partir d’un corpus

Une solution possible différencier les sens des mots à partir de leur usage dans un corpus

3 types d’approches Classification non supervisée des mots d’un corpus construction de

classes de synonymes (Pantel & Lin)• chaque mot est caractérisé par ses cooccurrents dans le corpus• 1 sens pour chaque classe d’appartenance d’un mot

Classification non supervisée des occurrences d’un mot (Schütze, Pedersen & Bruce, Purandare)

• chaque occurrence est caractérisée par un ensemble de traits : mots environnants, catégorie des mots environnants, …

Classification non supervisée des cooccurrents d’un mot (Véronis, Dorow & Widdows, Rapp)

• cooccurrents regroupés selon les relations qu’ils entretiennent entre eux

Page 4: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

4

Principes du travail présenté

Méthode fondée sur la classification des cooccurrents d’un mot (3ème approche)

Point de départ : réseau de cooccurrences lexicales nœud : mot du corpus arête : relation de cooccurrence dans le corpus entre les 2 mots liés

Pour chaque mot mi dont on veut différencier les sens délimitation du sous-graphe constitué des cooccurrents de mi et de

leurs relations construction d’une matrice de similarité des cooccurrents de mi

application d’une variante de l’algorithme Shared Nearest Neighbors (SNN ; Ertöz, Steinbach & Kumar)

• regroupement des cooccurrents de mi en C classes, C n’étant pas fixé a priori C sens

• élimination des cooccurrents sans relation avec les sens distingués

Page 5: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

5

Les réseaux de cooccurrences lexicales

Méthode de construction pré-traitement des textes : sélection des mots pleins comptage des cooccurrences au sein d'une fenêtre glissante accent mis sur les relations sémantiques et pragmatiques

• taille : 20 mots (environ 50 mots avant sélection)• pas d'ordre : m1 - m2 équivalent à m2 - m1• respect des frontières de texte

cohésion entre mots : information mutuelle normalisée filtrage des cooccurrences peu fréquentes

• fréquence 13 ; cohésion 0,13

2 réseaux construits français : 24 mois du journal Le Monde

• 19 000 lemmes et 340 000 cooccurrences anglais : 2 ans du journal Los Angeles Times (TREC)

• 23 500 lemmes et 335 000 cooccurrences taille des corpora ~ 40 millions de mots

Page 6: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

6

Exemple : graphe des cooccurrents de organe

Page 7: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

7

Matrice de similarité entre cooccurrents

2 types de similarité testés similarité fondée sur une cooccurrence de premier ordre similarité plus large, fondée sur une cooccurrence de premier et de

second ordre

Cooccurrence de 1er ordre similarité entre 2 mots : mesure de la cohésion entre ces 2 mots

dans le réseau

Cooccurrence de 1er et de 2nd ordre 2 mots peuvent être proches sans être directement cooccurrents

dans un texte ; souvent le cas avec les synonymes chaque mot est caractérisé par l’ensemble de ses cooccurrents

• pondération de chaque cooccurrent par sa cohésion avec le mot similarité entre 2 mots = mesure de la similarité entre les 2

ensembles les représentant• utilisation de la mesure cosinus

Page 8: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

8

Algorithme de classification : vue d’ensemble

Algorithme Shared Nearest Neighbors classification détection de composantes de forte densité dans un

graphe de similarité matrice de similarité entre cooccurrents graphe de similarité non

orienté• similarité non nulle entre 2 cooccurrents arête du graphe

3 grandes phases éclaircissement et transposition du graphe de similarité

détermination des germes des futurs sens et filtrage des cooccurrents sans relation avec ces sens

construction des sens

Page 9: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

9

Algorithme de classification : 1ère phase

Éclaircissement du graphe de similarité élimination des arêtes correspondant aux similarités les moins

significatives • en pratique, conservation pour chaque cooccurrent des arêtes en

direction de ses k plus proches voisins

Transposition du graphe de similarité construction du graphe des plus proches voisins partagés

• 2 cooccurrents y sont liés s’ils sont liés dans le graphe initial

• force du lien : nombre de voisins partagés par les 2 cooccurrents abstraction / aux valeurs absolues de similarité, après élimination

des valeurs les plus faibles

raisonnement en termes de densité de liens

Page 10: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

10

Algorithme de classification : 2ème phase

Détermination des germes de sens notion de lien fort : 2 cooccurrents sont fortement liés si leur nombre

de voisins partagés dépasse un seuil calcul pour chaque cooccurrent de son nombre de liens forts germe de sens : cooccurrent dont le nombre de liens forts est

supérieur à un seuil

Filtrage des cooccurrents élimination des cooccurrents dont le nombre de liens forts est

inférieur à un seuil

Seuils adaptés aux valeurs considérées exprimés comme des quantiles

de leur distribution liens forts : distribution du nombre de voisins partagés germes et filtrage : distribution du nombre de liens forts

Page 11: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

11

Algorithme de classification : 3ème phase

Rattachement des cooccurrents non filtrés aux germes de sens rattachement au germe le plus proche à condition que leur proximité

(i.e. nombre de voisins partagés) soit supérieure à un seuil

Fusion des sens proches possibilité de rattacher un germe de sens à un autre de la même

façon que pour les autres cooccurrents

Suppression des sens faiblement représentés les sens ne rassemblant que peu de cooccurrents sont éliminés

sens le plus souvent très proches de sens plus importants

Élargissement des sens rattachement de cooccurrents moins proches sur des bases plus

solides• proximité moyenne avec les cooccurrents d’un sens > seuil

Page 12: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

12

Un exemple : le mot barrage

1.1 manifestant, forces_de_l’ordre, préfecture, agriculteur, protester, incendier, calme, pierre

1.2 conducteur, routier, véhicule, poids_lourd, camion, permis, trafic, bloquer, voiture, autoroute

1.3 fleuve, lac, rivière, bassin, mètre_cube, crue, amont, pollution, affluent, saumon, poisson

1.4 blessé, casque_bleu, soldat, milicien, tir, milice, convoi, évacuer, croate, milicien, combattant

2.1 eau, mètre, lac, pluie, rivière, bassin, fleuve, site, poisson, affluent, montagne, crue, vallée

2.2 conducteur, trafic, routier, route, camion, chauffeur, voiture, chauffeur_routier, poids_lourd

2.3 casque_bleu, soldat, tir, convoi, milicien, blindé, milice, aéroport, blessé, incident, croate

Cooccurrence de 1er ordre

Cooccurrence de 2nd ordre

1.3 – 2.1 barrage hydraulique1.4 – 2.3 barrage frontière

manifestations à caractèreprofessionnel

1.2 – 2.2 barrage routier (camionneurs)1.1 barrage routier (agriculteurs)

Page 13: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

13

D’autres exemples (au 1er ordre)

1 patient, transplantation, greffe, malade, thérapeutique, médical, médecine, greffer, rein

2 procréation, embryon, éthique, humain, relatif, bioéthique, corps_humain, gène, cellule

3 constitutionnel, consultatif, constitution, instituer, exécutif, législatif, siéger, disposition

4 article, hebdomadaire, publication, rédaction, quotidien, journal, éditorial, rédacteur

Organe

1 compatible, sofware, computer, machine, user, desktop, pc, graphics, keyboard, device

2 laboratory, researcher, cell, gene, generic, human, hormone, research, scientist, rat

Mouse

1 ballroom, cocktail, champagne, guest, bash, gala, wedding, birthday, invitation, festivity

2 caterer, uninvited, party-goers, black-tie, hostess, buffet, glitches, napkins, catering

3 candidate, democrat, republican, gubernatorial, presidential, partisan, reapportionment

Party

Page 14: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

14

Plus globalement

Réseaux de cooccurrences faiblement représentatifs du sens de plus de la moitié des mots

LM-1 LM-2 LAT-1.no LAT-2.no

nombre de mots 17 261 17 261 6 177 6 177

nb. de mots avec au moins 1 sens

7 673(44,4%)

7 376(42,7%)

2 584 (41.8%)

2 406(39%)

nombre de sens par mot

2,8 2,2 1,9 1,5

nombre de mots par sens

16,1 16,3 20,2 18,9

LM-x : réseau issu du Monde

LAT-x.no : réseau issu du LA Times ; noms uniquement

x = 1 : cooccurrence 1er ordre ; x = 2 : cooccurrence 2nd ordre

Page 15: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

15

Évaluation : protocole

Principe général comparaison avec une ressource existante, en l’occurrence

WordNet 1.7.1 but : s’assurer que les sens découverts ne sont pas globalement

aberrants évaluation réalisée pour un ensemble de noms en anglais

(LAT-x.no) non ambigus du point de vue morpho-syntaxique

Protocole proposé par Pantel & Lin appariement d’un sens trouvé pour un mot avec un des synsets de

ce mot dans WordNet• mesure de similarité entre un sens et un synset

• appariement si similarité(sens, synset) > seuil

• accord avec un jugement humain : 88% mesure de précision seulement : proportion de sens s’appariant

avec un synset de WordNet

Page 16: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

16

Évaluation : appariement sens - synset

Similarité sens - synset moyenne des similarités entre les N (N=4) mots les plus

représentatifs du sens et le synset

Similarité mot – synset S(m) : ensemble des synsets contenant le mot m similarité(m, synset) = max similarité(synset, s)

Similarité de 2 synsets mesure proposée par Lin, fondée sur la seule hyperonymie

s S(m)

)(log)(log

)(log2),(

2121 sPsP

sPsssim

s : synset subsumant les synsets s1 et s2

P(s) : probabilité du synset s dans un corpus de référence (SemCor)

geological-formation (s)

natural-elevation shore

coast (s2)hill (s1)

Page 17: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

17

Évaluation : résultats

Choix des N (N=4) mots les plus représentatifs d’un sens(1) nombre de liens forts dans le graphe des voisins partagés

(2) choix optimal permettant de maximiser la précision de l’appariement sens - synset

LAT-1.no LAT-2.no

(1) nombre de liens forts 19,4 20,8

(2) choix optimal 56,2 63,7

Méthode proposée mots les plus représentatifs d’un sens = liés au contexte d’usage

Pantel & Lin précision : 60,8 mots les plus représentatifs d’un sens = synonymes,

hyperonymes ou hyponymes

Page 18: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

18

Utilisation pour la désambiguïsation

Stage de DEA effectué par Dany Sérichard

Désambiguïsation sémantique utilisant les sens de mots découverts comme référence

Variante de la méthode de Lesk simplifiée intersection entre la définition des sens candidats et le contexte de

l’occurrence à désambiguïser définition d’un sens de mot : sous-ensemble des co-occurrents du

mot contexte : fenêtre de X mots pleins centrée sur le mot cible à

désambiguïser• contexte optimal : entre 40 et 60 mots

Page 19: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

19

Principes de la désambiguïsation

M1 (p1)

M2 (p2)

M3 (p3)

M4 (p4)

M5 (p5)

M6 (p6)

M7 (p7)

M8 (p8)

M9 (p9)

M3 (p24)

M5 (p25)

M6 (p26)

M20 (p20)

M21 (p21)

M22 (p22)

M23 (p23)

M9 (p34)

M30 (p30)

M31 (p31)

M32 (p32)

M33 (p33)

M10 (p10)

M11 (p11)

M12 (p12)

M13 (p13)

Contexte

Sens 1

Sens 2

Sens 3

Scoresens1 = 0

Scoresens2 =

Scoresens3 = p9*p34

p3*p24 +

p5*p25 +

p6*p26

Sens attribué au contexte

=

Sens pour lequel le

score est le plus grand si > seuil

Page 20: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

20

Évaluation : constitution d’une référence

Annotation manuelle de phrases avec les sens de mots découverts phrases issues du journal Le Monde et du corpus JOC (cf.

Romanseval)

3 mots• BarrageBarrage hydraulique, routier, militaire

• LancementLancement bourse, média, engin

• FormationFormation groupe musical, dispositif, acquisition de connaissances,

qualification, groupe politique

pour chaque occurrence, choix d’un seul des sens ou du sens Autre mise à l’écart des occurrences pour lesquelles le degré d’accord

entre les annotateurs est insuffisant

Page 21: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

21

Évaluation : mesures d’accord entre annotateurs

Degré d’unanimité proportion des cas où tous les annotateurs sont en accord

Taux d’agrément par paires d’annotateurs n : nombre de paires d’annotateurs

TAp = avec

Taux d’agrément corrigé par rapport au hasard mesure Kappa

n

Rn

ii

1

mot du soccurrenced' nombre

identiques sens dechoix de nombreiR

hasard

hasardp

TA

TATAK

1

Page 22: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

22

Évaluation : résultats des mesures d’accord

Le sens majoritaire représente 57 % des instances restantes de Barrage (barrage hydraulique), 51 % de celles de Lancement (Autre), 79 % de celles de Formation (acquisition de connaissances)

UnanimitéUnanimité TATApp KK RépartitionRépartition Nombre d’instancesNombre d’instances

Barrage (LM) 0,63 0,87 0,830,83 39 9 32 24 Avant : 115 – Après : 104104

Lancement (LM) 0,38 0,74 0,660,66 13 22 27 27 Avant : 96 – Après : 8989Formation (LM) 0,23 0,64 0,580,58 6 0 79 1 14 7 Avant : 116 – Après : 107107

Barrage (JOC) 0,94 0,98 0,970,97 49 0 0 2 Avant : 52 – Après : 5151

Lancement (JOC) 0,94 0,97 0,960,96 0 4 7 38 Avant : 50 – Après : 4949

Formation (JOC) 0,04 0,42 0,330,33 0 8 71 2 0 1 Avant :113 – Après : 8282

Un des usages est très

majoritaire dans tous les sous-

corpus issus du JOC

Les taux d’agrément Les taux d’agrément corrigés sont bons pour corrigés sont bons pour

BarrageBarrage (0,90) et (0,90) et LancementLancement (0,81), mauvais (0,81), mauvais

pour pour Formation Formation (0,455)(0,455)

Le nombre d’instances Le nombre d’instances retirées est faible pour retirées est faible pour

BarrageBarrage (7,2 %) et (7,2 %) et LancementLancement (5,5 %), plus (5,5 %), plus

important pour important pour Formation Formation (17,5 %).(17,5 %).

Page 23: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

23

Résultats de la désambiguïsation

Vasilescu & Langlais : Lesk simplifié avec WordNet comme référence

Senseval 2 : Lexical sample task

Mesures

base : choix en faveur du sens majoritaire

Barrage Lancement Senseval 2 non

supervisé

Senseval 2 supervisé

Vasilescu Langlais

Véronis Hyperlex

P 0,73 0,78 0,52 0,71 0,62 0,97R 0,73 0,7 0,52 0,71 0,61Rbase 0,57 0,47 0,39 0,59 0,61 0,73

séesdésambiguï soccurrenced' nombre

correctschoix de nombre(P) Précision

serdésambiguï à soccurrenced' nombre

correctschoix de nombre(R) Rappel

Page 24: 1 Découvrir des sens de mots à partir dun réseau de cooccurrences lexicales Olivier Ferret Laboratoire dIngénierie de la Connaissance Multimédia Multilingue.

24

Pour conclure

Méthode de découverte de sens fondée sur la classification non supervisée des cooccurrents du mot

cible exploitant des relations de cooccurrence de 1er et 2nd ordre entre les

cooccurrents du mot cible mettant l’accent sur la « stabilité » des sens discriminés

Extensions prise en compte de la catégorie morpho-syntaxique des mots rôle des mots composés

Évaluation utilisation de mesures fondées sur des relations sémantiques plus

variées que celles exploitées par Lin (cf. Banerjee & Pedersen) validation dans un cadre applicatif de l’intérêt des sens discriminés,

par ex. pour l’expansion de requêtes