Université de Montréal - rali.iro.· Université de Montréal Désambiguïsation de corpus...

download Université de Montréal - rali.iro.· Université de Montréal Désambiguïsation de corpus monolingues

of 145

  • date post

    17-Sep-2018
  • Category

    Documents

  • view

    216
  • download

    0

Embed Size (px)

Transcript of Université de Montréal - rali.iro.· Université de Montréal Désambiguïsation de corpus...

  • Universit de Montral

    Dsambigusation de corpus monolingues par des

    approches de type Lesk

    par

    Florentina Vasilescu

    Dpartement dinformatique et de recherche oprationnelle

    Facult des arts et des sciences

    Mmoire prsent la Facult des tudes suprieures

    en vue de lobtention du grade de matrise s sciences (M.Sc.)

    en informatique

    aot, 2003

    Florentina Vasilescu, 2003

  • Universit de Montral

    Facult des tudes suprieures

    Ce mmoire intitul :

    Dsambigusation de corpus monolingues par des

    approches de type Lesk

    prsent par :

    Florentina Vasilescu

    a t valu par un jury compos des personnes suivantes :

    Yoshua Bengio

    prsident-rapporteur

    Philippe Langlais

    directeur de recherche

    Guy Lapalme

    membre du jury

  • Rsum

    La dsambigusation dun texte consiste dterminer le sens correct des mots de ce

    texte. Cest une tche ncessaire la bonne ralisation de nombreuses applications du

    traitement des langues naturelles, telles que : la traduction automatique, la recherche

    d'informations, la reconnaissance de la parole ou l'analyse grammaticale. De ce fait, cest

    devenu de droit une discipline cl de la linguistique informatique.

    Lalgorithme de Lesk est une mthode de dsambigusation bien connue qui

    consiste compter le nombre de mots communs entre les dfinitions dun mot

    (gnralement trouves dans un dictionnaire lectronique) et les dfinitions des mots de son

    contexte. Le sens retenu correspond la dfinition pour laquelle on compte le plus de mots

    communs avec le contexte. Cette ide simple a donn des rsultats intressants et sest

    avr meilleure que bon nombre de techniques plus volues.

    Ltude que nous avons entreprise sappuie sur une srie dexpriences visant la

    mthode originelle de Lesk et des variantes que nous avons adaptes aux caractristiques de

    WordNet, une base de donnes lexicale organise comme un ensemble de rseaux

    smantiques. Les rsultats obtenus nous semblent intressants par leur capacit de mettre en

    vidence, dun ct, certaines modalits damlioration par rapport aux tudes antrieures,

    dun autre ct, les limites de la mthode.

    Le mmoire porte, en principal, sur une prsentation du domaine, y compris le cadre

    organis dvaluation des systmes de dsambigusation automatique, Senseval, une

    description de la structure de WordNet, du corpus de test et des algorithmes implments,

    ainsi quune analyse dtaille des rsultats de la recherche.

    Mots cls : algorithme de Lesk, dictionnaire lectronique, WordNet,

    dsambigusation automatique, linguistique informatique

  • Abstract

    Word Sense Disambiguation (WSD) can be defined as the task of detecting the

    correct sense of an ambiguous word in a given context. It is a domain highly connected

    with other applications from Natural Language Processing (NLP): automatic translation,

    information retrieval, speech recognition, grammatical analysis, etc., and consequently a

    key discipline of computational linguistics.

    Lesks algorithm is a well-known disambiguation method based on counting the

    overlaps between the definitions of sense of a target word (supplied by a machine readable

    dictionary), and the definitions of words in the context. The selected sense for this word

    corresponds to the definition of sense containing the maximal number of overlaps with the

    context.

    The present study deals with a series of experiments on the original method and on

    some variants that we adapted to WordNet, a lexical data base structured as a set of

    semantic networks. The results of our study seem interesting, proving, on one hand, some

    possible ways of improvement as compared with previous studies, and, on the other hand,

    the limits of the method.

    This paper presents an overview of the domain and some references to Senseval

    evaluation framework, a brief description of WordNet, test corpus and implemented

    algorithms, and also a detailed analysis of the results of our research.

    Key words: Lesks algorithm, machine readable dictionary (MRD), WordNet, word

    sense disambiguation (WSD), computational linguistics

  • Table des matires

    Liste des tableaux

    Liste des figures

    Liste des abrviations

    1. Avant-propos . . . . . . . . . 1

    1.1. Aperu du domaine . . . . . . . 1

    1.1.1. Premiers pas . . . . . . . 1

    1.1.2. Les approches dintelligence artificielle . . . 2

    1.1.3. Mthodes bases sur les connaissances . . . 3

    1.1.4. Les approches bases sur le corpus . . . . 3

    1.1.5. Mthodes hybrides . . . . . . 4

    1.2. valuation des systmes de dsambigusation automatique . . 4

    1.2.1. Repres et mesures de performance . . . . 5

    1.2.2. Le cadre dvaluation Senseval . . . . 5

    1.3. Notre projet . . . . . . . . . 6

    2. Ressources . . . . . . . . . . 9

    2.1. Description de WordNet . . . . . . . 9

    2.1.1. Architecture de WordNet . . . . . 11

    2.1.2. Forme des mots . . . . . . 12

    2.1.3. Les noms . . . . . . . 13

    2.1.4. Les verbes . . . . . . . 15

    2.1.5. Les adjectifs . . . . . . . 16

    2.1.6. Les adverbes . . . . . . . 18

    2.1.7. Quelques donnes statistiques . . . . . 18

    2.1.8. Choix de WordNet . . . . . . 20

    2.2. Le corpus de test . . . . . . . . 20

    2.2.1. Mtriques d'valuation . . . . . 21

    2.2.2. Le corpus de test de Senseval 2 . . . . 21

  • 2.2.3. Le corpus de test extrait de Semcor . . . . 26

    2.2.4. Quelques graphiques comparatifs . . . . 30

    3. Description de larchitecture . . . . . . . 33

    3.1. Le module de prtraitement . . . . . . 35

    3.1.1. Mise en forme des donnes de test . . . . 35

    3.1.2. Extraction des dfinitions et des relations de WordNet . 39

    3.2. Le module de dsambigusation . . . . . . 41

    3.3. Le module danalyse . . . . . . . 42

    3.3.1. Etude des rponses du systme . . . . 42

    3.3.2.Analyse du corpus de test . . . . . 45

    4. Description des algorithmes . . . . . . . 46

    4.1. Algorithme de Lesk . . . . . . . 46

    4.1.1. Information syntaxique. Contexte local / global . . 47

    4.1.2. Qualit du dictionnaire . . . . . 48

    4.1.3. Calcul des scores et longueur du contexte . . . 49

    4.1.4. Performances . . . . . . . 49

    4.2. Travaux connexes . . . . . . . . 49

    4.2.1. Senseval 1 . . . . . . . 49

    4.2.2. Senseval 2 . . . . . . . 52

    4.2.3. Dautres recherches drives de lide de Lesk . . 55

    4.3. Algorithmes implments dans le cadre du projet . . . . 60

    4.3.1. Algorithme Lesk de base . . . . . 61

    4.3.2. Algorithme de Lesk simplifi . . . . . 62

    4.3.3. Normalisation du score par la taille de description de sens . 63

    4.3.4. Contributions des mots pondrs par la distance du mot

    cible et par la frquence dusage . . . . 64

    4.3.5. Poids appris . . . . . . . 65

    4.3.6. Chanes lexicales . . . . . . 70

    4.3.7. Tableau de votes . . . . . . 73

    4.3.8. Stop liste . . . . . . . 76

  • 5. Rsultats exprimentaux . . . . . . . 77

    5.1. Encodage des expriences . . . . . . . 77

    5.2. Performances . . . . . . . . 79

    5.2.1. Corpus de test Senseval2 . . . . . 79

    5.2.2. Corpus de test extrait de Semcor . . . . 83

    5.3. Influence des paramtres . . . . . . . 85

    5.3.1. Longueur du contexte . . . . . 85

    5.3.2. Description des sens et nombre de dcisions par dfaut . 87

    5.3.3. Frquence relative des sens candidats . . . . 91

    5.3.4. Topologie des rponses par rapport aux choix de BASE . 94

    5.3.5. Catgorie grammaticale . . . . . 102

    5.3.6. Interdpendance des sens choisis . . . . 109

    5.3.7. Granularit du dcoupage de sens . . . . 110

    5.4.Pistes d'investigation . . . . . . . 112

    5.4.1. Combinaison des meilleurs dcideurs . . . . 113

    5.4.2. Dtection de la catgorie grammaticale par le tagger RALI . 114

    5.5.Etude comparative . . . . . . . . 114

    6. Conclusions . . . . . . . . . 117

    6.1. Performances des diffrentes mthodes . . . . . 117

    6.2. Influence des paramtres . . . . . . . 118

    6.2.1. Taille de la fentre de contexte . . . . 118

    6.2.2. Granularit du dcoupage des sens . . . . 119

    6.2.3. Descriptions des sens. Nombre de dcisions par dfaut . 119

    6.2.4. Catgorie grammaticale . . . . . 120

    6.2.5. Interdpendance des sens . . . . . 120

    6.3. Evaluation comparative . . . . . . . 121

    6.4. Travaux futurs . . . . . . . . 121

    7. Rfrences bibliographiques . . . . . . . 122

    8. Annexes . . . . . . . . . . 126

  • Liste des tableaux

    2.1. Suffixes et terminaisons par catgorie grammaticale . . . . 12

    2.2. Exemples dexceptions par catgorie grammaticale . . . . 13

    2.3. Nombre de mots, synsets et sens dans WordNet . . . . . 18

    2.4. Rpartition des mots dans WordNet en monosmiques et polysmiques . 19

    2.5. Poly