?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L.,...

23
T.A.L., vol. 41, n 2, pp. 1–?? FLEMM : UN ANALYSEUR FLEXIONNEL DU FRAN ¸ CAIS ` A BASE DE R ` EGLES Fiammetta NAMER * esum´ e - Abstract Cet article pr ´ esente un programme de lemmatisation du fran¸ cais bas ´ e sur r` egles baptis ´ e FLEMM qui op ` ere sur un texte ´ etiquet ´ e, et fournit, outre le lemme de chaque mot du texte, les informations exionnelles de celui-ci calculables hors contexte. Notre objectif est de d ´ ecrire en quoi cet analyseur exionnel est pertinent pour la recherche d’information (RI). Notamment, nous montrerons, par l’analyse d’exemples ou par la pr ´ esentation de r ´ esultats d’exp ´ eriences ef- fectu ´ ees sur des corpus totalisant 2,8 millions de mots, que (i) les analyseurs morphologiques en fran¸ cais en g ´ en´ eral trouvent leur utilit ´ e en RI, (ii) FLEMM est novateur, par rapport ` a d’autres syst ` emes connus, en termes de concep- tion (utilisation de connaissances linguistiques et donc pas simple troncation, dictionnaire r ´ eduit ` a une petite liste d’exceptions, et donc pas simple apparie- ment avec les entr ´ ees d’un dictionnaire), (iii) FLEMM est robuste en termes de esultats, car il analyse les mots inconnus, (iv) les informations exionnelles qui enrichissent ces r ´ esultats peuvent simplier la t ˆ ache de tout analyseur d ´ e- rivationnel situ ´ e en aval (dans le but p. ex. de produire la famille morphologique du mot analys ´ e), et (v) ce programme am ´ eliore en outre les performances des ´ etiqueteurs qui ont cat ´ egoris´ e les corpus avec lesquels il a ´ et´ e test ´ e. This paper aims at describing a lemmatizer called FLEMM and at emphasizing its relevance for Information Retrieval (IR) in French by showing that: (1) in general inectional analysis is relevant for IR in French, (2) in particular, FLEMM is innovative in terms of design (linguistic knowledge-based truncation rules, use of a lexicon reduced to a small exception list), (3) FLEMM is able to parse unknown words, and thus is robust in term of results, (4) FLEMM computes the lemmas inectional features, and this facilitates the tasks downstream, and (5) FLEMM enhances the tagger performance. Mots clefs - Keywords Morphologie exionnelle, lemmatisation par r ` egles, analyse de mots inconnus Inectional morphology, rule-based lemmatization, unknown words parsing *. Universit ´ e Nancy2 & laboratoire LANDISCO. E-mail : [email protected] c ATALA 1

Transcript of ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L.,...

Page 1: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

T.A.L., vol. 41, n 2, pp. 1–??

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAIS A BASE DEREGLES

Fiammetta NAMER *

Resume - Abstract

Cet article presente un programme de lemmatisation du francais base surregles baptise FLEMM qui opere sur un texte etiquete, et fournit, outre le lemmede chaque mot du texte, les informations flexionnelles de celui-ci calculableshors contexte. Notre objectif est de decrire en quoi cet analyseur flexionnel estpertinent pour la recherche d’information (RI). Notamment, nous montrerons,par l’analyse d’exemples ou par la presentation de resultats d’experiences ef-fectuees sur des corpus totalisant 2,8 millions de mots, que (i) les analyseursmorphologiques en francais en general trouvent leur utilite en RI, (ii) FLEMMest novateur, par rapport a d’autres systemes connus, en termes de concep-tion (utilisation de connaissances linguistiques et donc pas simple troncation,dictionnaire reduit a une petite liste d’exceptions, et donc pas simple apparie-ment avec les entrees d’un dictionnaire), (iii) FLEMM est robuste en termes deresultats, car il analyse les mots inconnus, (iv) les informations flexionnellesqui enrichissent ces resultats peuvent simplifier la tache de tout analyseur de-rivationnel situe en aval (dans le but p. ex. de produire la famille morphologiquedu mot analyse), et (v) ce programme ameliore en outre les performances desetiqueteurs qui ont categorise les corpus avec lesquels il a ete teste.This paper aims at describing a lemmatizer called FLEMM and at emphasizingits relevance for Information Retrieval (IR) in French by showing that : (1) ingeneral inflectional analysis is relevant for IR in French, (2) in particular, FLEMMis innovative in terms of design (linguistic knowledge-based truncation rules,use of a lexicon reduced to a small exception list), (3) FLEMM is able to parseunknown words, and thus is robust in term of results, (4) FLEMM computes thelemmas inflectional features, and this facilitates the tasks downstream, and (5)FLEMM enhances the tagger performance.

Mots clefs - Keywords

Morphologie flexionnelle, lemmatisation par regles, analyse de mots inconnus

Inflectional morphology, rule-based lemmatization, unknown words parsing*. Universite Nancy2 & laboratoire LANDISCO. E-mail : [email protected]

c ATALA 1

Page 2: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

INTRODUCTION

La pertinence de la relation entre une requ ete et un document est de-terminee, en recherche d’information (desormais RI), par le nombre et la fre-quence des termes partages, ou des variantesmorphologiques de ces termes.C’est pour calculer ces variantes que de nombreux algorithmes de racinisation(stemming) ont vu le jour. Les plus connus, pour l’anglais du moins, suiventune demarche de troncation visant a reduire les differentes formes a une ra-cine commune.

De nombreuses etudes sur la RI en anglais (Lennon M. et al. 1981),(Frakes W. 1984), (Niedermair G. et al. 1985) indiquent que les r esultatsobtenus sont satisfaisants, et soulignent que l’ajout de connaissances linguis-tiques n’apporteraient aucune amelioration sensible. (Krovetz R. 1993) tem-pere cette affirmation par la confrontation de diff erentes techniques (tronca-tion et approches linguistiques) sur diff erentes collections de requetes et do-cuments.

Ce qui peut sembler vrai en anglais pour certains est par ailleurs d ementidans les langues qui possedent une morphologie plus riche : ainsi, une de-marche utilisant des connaissances morphologiques offre des r esultats beau-coup plus probants que la simple troncation pour le n eerlandais (Kraaij W. &Pohlmann R. 1996), le slovene (Popovic M. & Willett P. 1992) ou encore a plusforte raison l’hebreu (Choueka Y. 1992) cite par (Krovetz R. 1993). Sur uneechelle classant les langues par leur complexite croissante en termes de para-digmes flexionnels, on peut dire que l’anglais et l’hebreu sont aux extremites,le francais se situant a mi-chemin entre ces deux langues. A la suite de cetteconstatation, il est legitime de se poser la question suivante : est-ce que le re-cours a la morphologie flexionnelle (desormais MF) constitue une demarchevalide en francais pour la RI?

Pour repondre a cette premiere question, nous allons au 1 examiner,puis projeter pour le francais, les r esultats des travaux de (Hull D. A. & Gre-fenstette G. 1996) qui poursuivent les experiences de (Krovetz R. 1993) enetudiant dans quelles circonstances, meme en anglais, la MF devient une ap-proche d’un interet comparable a celle de la troncation.

La seconde question, qui est une consequence de la premiere, concernealors l’interet de disposer d’un nouveau systeme pour le francais : en d’autrestermes, meme en admettant que la MF est pertinente en RI, qu’apporte FLEMM,le systeme presente ici? En quoi est-il novateur? Le 2 va permettre de r e-pondre a cette seconde question, et sera suivi de la description ( 3) et del’evaluation ( 4) de FLEMM.

1. MORPHOLOGIE FLEXIONNELLE ET RECHERCHE D’INFORMATION?

1.1. Experience de D. Hull et G. GrefenstetteEn reprenant les experiences de R. Krovetz (Krovetz R. 1993), D. Hull

et G. Grefenstette (Hull D. A. & Grefenstette G. 1996) veulent prouver qu’en

2

Page 3: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

anglais la performance de l’algorithme employe (troncation vs demarche lin-guistique) depend en fait du type de requete formulee ; ils calculent ainsi lapertinence des documents renvoyes en reponse a une requete en comparanta des donnees ”temoins” (i.e. requete et corpus de documents non racinises),des donnees traitees par les algorithmes de : (1) racinisation, (2) lemmatisa-tion et (3) derivation. Lors de chaque test, les auteurs font varier les donn eesutilisees, i.e. la complexite des requetes et la masse de documents explores.Lemmatisation et derivation sont effectuees par des outils linguistiques deve-loppes a Xerox, alors que les experiences de racinisation sont realisees aumoyen des algorithmes de (Lovins B. 1968) et (Porter M. F. 1980).

Concernant l’approche de Porter, les auteurs signalent pour la RI en an-glais des erreurs - relevant essentiellement de la d erivation - penalisant aussibien la precision que le rappel. Mais si on adapte son programme au fran-cais 1 (langue morphologiquement plus complexe que l’anglais), on s’apercoitque les resultats sont encore moins bons, puisqu’a elles seules, les variationsrencontrees en MF vont entraıner un grand nombre d’erreurs affectant s erieu-sement le taux de rappel : ainsi dans l’hypothese de regles de racinisation par-ent et -er, des formes comme proliferent et proliferer ou achevent et acheverne sont pas appariees 2.

Les resultats des experiences de (Hull D. A. & Grefenstette G. 1996)vont dans le sens de leur hypothese de depart, a savoir que la performanced’un algorithme de racinisation (troncation a la (Lovins B. 1968), a la (PorterM. F. 1980), lemmatisation ou derivation) depend des caracteristiques de la re-quete formulee. Notamment, en selectionnant des requetes-type (importantesrelativement au test de Friedman), les auteurs montrent que la lemmatisationest dans 40% des cas l’une des deux meilleures methodes pour retrouver etclasser les documents pertinents obtenus en r eponse a ces requetes. L’ana-lyse detaillee de celles-ci amene d’ailleurs les auteurs a proposer un certainnombre de modifications a apporter aux approches linguistiques de facon ales adapter a la RI. Ainsi, ils soulignent que les echecs de la methode de lem-matisation sont (1) lies a la puissance de certaines decisions, pertinentes enlinguistique (e.g. le nom optics n’est pas appari e avec optic qui est un adjectif)mais dommageables en RI (la requete fiber optics (technologies optoelectro-niques) ne permet pas de retrouver des documents traitant de fiber optic (fibreoptique), pourtant pertinents), et (2) dues a la non-reconnaissance de motsinconnus.

1. Ce programme est a l’URL2. La racinisation par regles n’est pas la seule approche de racinisation. J. Goldsmith (cf.

URL , option ’Automorpholo-gy’) a developpe un systemeprobabiliste, dans lequel l’apprentissage et l’activation des reglesde troncation est fonction de criteres lies a la co-frequence, dans le texte analyse, des motsayant une sequence commune. Un test, effectue sur un corpus scientifique du francais de 1,3millions de mots, met en evidence de nombreuses erreurs du meme type que celles rencon-trees chez Porter.

3

Page 4: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

Cependant, quand il est transpose au francais, le probleme de la puis-sance de l’information linguistique devient un atout : en effet, face a de rarescas ambigus comme le nom cours, ou une lemmatisation entraıne effective-ment la baisse du taux de precision (cour ou cours?), la lemmatisation permetde prendre en compte le grand nombre de variantes allomorphiques (e.g. pro-lifer#er/prolifer#ent 3) qui, en l’absence de MF ne sont pas appariees, ce quiengendre une baisse - beaucoup plus sensible - du taux de rappel.

Par consequent, a condition de disposer d’un lemmatiseur non tributaired’un dictionnaire (ce qui elimine l’inconvenient de la non-reconnaissance desmots inconnus), on peut predire pour le francais des resultats encore meilleursque ceux obtenus pour l’anglais dans le cadre d’exp eriences similaires a cellesmenees par (Hull D. A. & GrefenstetteG. 1996) : le fait de disposer de donn eeslemmatisees peut ameliorer la pertinence des documents recuperes en RI.

1.2. Un nouveau lemmatiseur?FLEMM est un analyseur flexionnel librement utilisable a des fins de re-

cherche 4 et fonctionnant sur presque toutes les plate-formes, qui prend enentree un texte etiquete5. En dehors des interfaces d’entree et de sortie, lesysteme est compose d’un module central qui realise la lemmatisation d’unmot en effectuant les etapes suivantes : (1) decomposition du mot selon la ter-minaison la plus vraisemblable, (2) mise en relation de la base obtenue avecsa forme citationnelle par une regle de reduction d’allomorphes, (3) le casecheant, calcul de la desinence de l’infinitif.A chaque etape, toutes les informations flexionnelles immediatement calcu-lables sans ambiguıte sont recuperees. L’activation de certaines regles estsoumise a la consultation prealable de la liste d’exceptions appropri ee. Endehors de ces listes aucun dictionnaire n’est utilis e.

En quoi le systeme qui vient d’etre brievement decrit est-il original parrapport a l’existant, et pertinent en cela pour la RI ? Pour r epondre a cettequestion, nous passons en revue le fonctionnement d’un certain nombre d’ eti-queteurs et lemmatiseurs ( 2.2) dans la perspective de trois probl emes cru-ciaux dans le cadre de la RI ( 2.1). Ceci nous amenera a degager les ca-racteristiques de FLEMM qui en font un outil novateur et important en RI. A la

3. Le symbole ”#” designe la coupure entre deux morphemes.4. cf. URL5. L’une des deux demarches en lemmatisation, adoptee e.g. par (Guilbaud J.-P. & Boitet C.

1997), consiste a lemmatiser un texte non etiquete et en proposer ainsi une analyse flexion-nelle et categorielle non deterministe. Dans la mesure du possible, les ambiguıtes sont alorslevees par la suite au moyen d’un desambiguısateur. Pouvant disposer d’etiqueteurs de bonnequalite pour le francais, nous avons opte pour l’autre demarche : tout en etant applicable ades textes non etiquetes, FLEMM est concu pour fonctionner en aval d’un etiqueteur, et luiapporte trois fonctionnalites nouvelles et importantes en RI (cf. 2.1) : calcul du lemme, pro-duction d’informations flexionnelles, et prise en compte de mots inconnus, nouveaux ou malorthographies.

4

Page 5: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

suite de cet etat de l’art, nous presenterons les fonctionnalites essentielles dusysteme, ainsi que le format des resultats ( 3), et nous terminerons par unephase d’evaluations ( 4) qui mettent en evidence successivement : (1) les per-formances de FLEMM, a grande echelle, en termes de construction de lemmes(en comparant les resultats de FLEMM avec les 412 000 formes repertoriesdans le TLFnome6), (2) sa capacite a detecter et corriger certaines erreursd’etiquetage et de segmentation, produites par deux etiqueteurs: BRILL 7 etTREETAGGER 8, sur un corpus de grande taille, (3) les r esultats de lemmati-sation sur des mots nouveaux, (inventes, mal orthographies ou appartenantau vocabulaire technique) a partir de corpus de tailles et de types diff erents,et categorises par les deux etiqueteurs ci-dessus, (4) la validit e de l’ensembledes informations linguistiques calculees, par une validation humaine externe.

2. ETIQUETAGE, ANALYSE MORPHOLOGIQUE ET RI EN FRANCAIS

De par sa conception, FLEMM s’emploie sur un texte categorise. La ques-tion qui se pose ici est de savoir en quoi, et par quelles fonctionnalit es, l’ajoutd’un module de lemmatisation augmente les performances d’un etiqueteurdans une application en recherche documentaire. Nous passons ici en revueun certain nombre de problemes, ainsi que la solution adoptee par plusieursetiqueteurs du francais.

2.1. Taches pertinentes en RIIl existe trois taches dont l’accomplissement par un etiqueteur/analyseur

ameliore substantiellement les performances en recherche documentaire, soitparce qu’elles favorisent l’extension des requetes, soit parce qu’elles ame-liorent la classification et donc le filtrage des documents retrouv es:

T : fournir le lemme. (Hull D. A. & Grefenstette G. 1996), rappelons-le(cf. 1.1), soulignent la pertinence de cette t ache en RI. Un autre argu-ment en faveur de l’utilite de cette tache est mis en evidence en acqui-sition automatique de variantes morphologiques de termes dans le do-maine medical par (Zweigenbaum P. & Grabar N. 1999) : l’utilisation d’unlemmatiseur (en l’occurrence les auteurs ont utilise FLEMM) ameliore laprecision semantique des familles de termes obtenues.

T : analyser les mots inconnus. L’interet de cette tache est immediat :la maıtrise des mots inconnus permet la production d’une racine nonambigue et ameliore ainsi la precision des reponses a une requete.

6. TLFnome est un lexique de formes flechies construit a l’INaLF par M. Papin et J. Mau-court, a partir de la nomenclature du Tresor de la Langue Francaise (TLF). Ce lexique contientactuellement 63 000 lemmes, 412 000 formes et 500 000 entrees. Il est en cours de completiongrace a 36 400 lemmes supplementaires issus de l’index du TLF.7. BRILL est la version entraınee a l’INaLF pour le francais de l’etiqueteur concu par (Brill E.

1995), cf. (Lecomte J. & Paroubek P. 1996).8. cf. (Schmid H. 1994).

5

Page 6: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

T : calculer les informations flexionnelles. Il existe deux types d’infor-mations flexionnelles qui peuvent s’averer cruciales dans l’interpretationd’une requete. Le premier est mentionne dans (Riloff E. M. 1994) 9 : l’au-teur remarque une difference tres sensible de probabilite (0,8 vs 0,4) pourqu’un concept represente un document pertinent, selon que ce conceptest exprime par un terme au singulier ou au pluriel. Cette observationreflete la relation entre semantique (e.g. genericite/specificite) et flexion,qui necessite que l’on memorise l’operation flexionnelle qui relie la formeflechie au lemme calcule.Un second type d’information participe indirectement a l’amelioration desperformances en RI ; il s’agit des codes morphologiques acquis en lem-matisation, et utilisables, en aval, par un analyseur derivationnel, pourle calcul e.g. des variantes morphologiques des termes. Des exemplesd’acquisition et utilisation de codes sont illustres dans la Table 1. La lem-matisation du mot flechi (colonne 2) permet d’acquerir un code flexionnelqui accompagne le lemme (colonne 3). Ce code conditionne l’applicationde regles derivationnelles (colonne 4) et determine ainsi la reconnais-sance des liens allomorphiques entre le lemme et le derive (colonne 5).Ainsi, la regle , qui force l’aperture de la voyelle thematique dela base lors de la construction du derive nominal en -ment, s’active enpresence des codes (ligne 3 : achevement) et (ligne 4 :dereglement).

Lemmatisation DerivationMot Flechi Lemme / Code Code : Regle Mot Derive

1 guettent guett(er) / guetteur2 crochettent crochet(er) / crocheteur3 achevent achev(er) / achevement4 dereglent deregl(er) / dereglement

TAB. 1 –: Acquisition et exploitation du code flexionnel

2.2. Les etiqueteurs et leurs solutionsDans ce qui suit, nous passons en revue un certain nombre de syst emes

d’etiquetage/analyse flexionnelle disponibles pour le francais, en mettant l’ac-cent a chaque fois sur leur capacite a effectuer les taches T , T etT mentionnees au paragraphe precedent.

– Nous commencons par une breve description du systeme de J. Savoy,qui integre etiquetage, lemmatisation et derivation.

– Nous continuons par une presentation des travaux de l’equipe ’Multi-Lingual Theory and Technology’ (MLTT) de Xerox, qui offrent (entre autres)

9. Les travaux de Riloff concerne l’analyse d’informations, mais son propos est parfaitementtransposable en RI.

6

Page 7: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

deux demonstrations interactives que nous avons test ees ; la premiereest focalisee sur la desambiguısation10 ; l’autre, sur l’analyse morpholo-gique11.

– Ensuite, nous proposons une vue d’ensemble d’INTEX (Silberztein M.1993) et du systeme developpe par E. Tzoukermann et al., (Tzouker-mann E. et al. 1997), qui, tout en etant fort differents l’un de l’autre, par-tagent la caracteristique d’etre plutot des boıtes a outils dont les compo-santes sont independantes les unes des autres.

– Dans un quatrieme temps, nous passons rapidement en revue l’etique-teur FIPSTAG du LATL caracterise par sa conception basee entierementsur des hypotheses linguistiques.

– Enfin, nous examinons plus en detail BRILL et TREETAGGER, qui ont servia etiqueter les corpus donnes en entree a FLEMM.

2.2.1. J. Savoy : un systeme ”trois-en-un”L’analyseur de J. Savoy (Savoy J. 1993) est un exemple de syst eme qui

integre etiquetage, lemmatisation et analyse derivationnelle, qui repose sur unalgorithme base sur l’utilisation d’un dictionnaire, en plus des r egles d’ana-lyse. Le systeme prend en entree un texte simple (non etiquete) et l’analysemorphologique, qui realise les taches T et T , concerne la flexion et laderivation. Les limites de son approche (J. Savoy (1993) mentionne un tauxd’erreur non compressible de 16%) sont probablement dues au fait que :

1. analyse derivationnelle et analyse flexionnelle sont effectu ees en memetemps et cette demarche se revele peu efficace. On a en effet tout int ereta cloisonner les modules de lemmatisation et d’analyse derivationnelle,de facon a optimiser les performances du premier, qui est constitue d’unensemble fini d’operations, et donc d’ameliorer l’efficacite de l’ensemble.

2. le calcul des neologismes et des mots contenant des erreurs de frappeest limite, d’une certaine maniere, par la dependance du systeme a undictionnaire.

2.2.2. Les outils de MLTTLe desambiguısateurde parties du discours, concu et d eveloppeauMLTT

pour un grand ensemble de langues, et d ecrit pour le francais dans (ChanodJ.-P. & Tapanainen P. 1995), a pour but d’associer aux mots d’un texte donn een entree leur categorie grammaticale ainsi que leur lemme.

L’analyseur morphologique, realise par cette meme equipe, (KarttunenL. 1993), est lui base sur l’application successive : (i) de transducteurs lexi-caux, qui calculent pour un mot donne l’ensemble des lemmes et categories

10. cf. l’URL .11. cf. l’URL .

7

Page 8: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

possibles, (ii) d’un analyseur a deux niveaux pour une description du mo-dele, cf. (Sproat R. 1992), (Karttunen L. 1993), (Fradin B. 1994) et (AntworthE. L. 1990), et (iii) d’un etiqueteur qui se charge de la desambiguısation. Enresultat, l’analyseur renvoie pour chaque mot, son lemme etiquete, ainsi qu’unensemble d’informations flexionnelles.

En globalite, les resultats du MLTT sont tres bons, et il en existe des ap-plications qui fonctionnent pour un grand nombre de langues. A eux deux, lesoutils du MLTT sont capables d’executer les taches T et T . Cepen-dant, un test en mode interactif que nous avons r epete sur tous les etiqueteursa notre disposition a montre que les deux produits du MLTT etaient peu per-formants face a des mots inconnus. Ce test a porte sur l’analyse de la phrasefarfelue suivante :

(1) Les galvanolobotherapies des schtroumpfettes sont delocovalisitees.

dont les mots non grammaticaux, bien que totalement inexistants, sontparfaitement categorisables. Le resultat, reporte dans la Table 2 de la sec-tion 2.3, indique que le desambiguısateur affecte la bonne categorie aux motsinconnusmais sans les lemmatiser. Quant a l’analyseurmorphologique, il n’estcapable de leur associer ni un lemme ni une etiquette grammaticale.

2.2.3. Etiqueteurs ”boıtes a outils”INTEX (Silberztein M. 1993) est une sorte de boıte a outils qui se base sur

les dictionnaires electroniques des mots simples (DELAS) et composes (DE-LAC) (Courtois B. & Silberztein M. 1989), sur lesquels s’applique un ensembled’automates a etats finis de facon a produire, entre autres, a partir d’un corpusd’entree : (1) un correcteur grammatical et orthographique, et (2) une indexa-tion automatique, incluant l’analyse des mots composes et la resolution desambiguıtes d’etiquetage.

L’approche de E. Tzoukermann et al. est un systeme de desambiguısa-tion des parties du discours qui consiste en (1) une phase de transducteurs aetats finis, effectuant une analyse morphologique non d eterministe, et (2) unephase de traduction basee sur l’utilisation d’un etiqueteur hybride, qui com-bine l’utilisation de connaissances linguistiques et de methodes statistiques.Ce systeme est modulaire, ce qui fait que l’on peut combiner ses composantsde differentes facons.

Ces deux systemes realisent les taches T et T . En revanche,nous les avons testes sur la phrase (1) 12, avec des resultats similaires a savoirl’absence d’analyse pour les mots hors-dictionnaire.

12. Je remercie N. Masson (Limsi) qui dispose d’INTEX, et E. Tzoukermann (Bell Labs), quiont gentiment accepte de faire ce test pour moi sur leur systeme respectif.

8

Page 9: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

2.2.4. L’etiqueteur FIPSTAGL’etiqueteur FIPSTAG, developpe au LATL par P. Ruch est une emana-

tion de l’analyseur syntaxique FIPS (Laentzlinger C. & Wehrli E. 1991), bas esur les resultats theoriques de la grammaire generative. Teste grace a la de-monstration interactive 13 sur la phrase (1), l’etiqueteur presente une granderobustesse vis a vis de la reconnaissance des mots inconnus (t ache T ),et propose de plus quelques traits flexionnels (t ache T ), comme le montrela Table 2 du 2.3. Le defaut de ce programme, toujours d’apres le resultat dela demonstration, est qu’il ne realise pas la tache T .

2.2.5. BRILL et TREETAGGERPour terminer, nous donnons une description de BRILL et TREETAGGER

entraınes pour le francais, qui etiquettent les corpus lemmatises par FLEMM.Ces etiqueteurs, publiquement disponibles a des fins de recherche, produisentdes etiquetages de tres bonne qualite le programme d’evaluation Grace in-dique pour BRILL un taux de precision proche de 1 (Adda G. et al. 1999), touten procedant selon des algorithmes assez differents. C’est pour la qualite desresultats, entre autres, que les jeux d’ etiquettes de ces deux categorisateurssont les seuls que FLEMM accepte pour l’instant en entr ee a l’exception d’uneadaptation des etiquettes d’INTEX, cf. (Abeille A. et al. 1998).

BRILL a ete entraıne pour le francais a l’INaLF (Lecomte J. & ParoubekP. 1996). L’etiquetage d’un texte segmente se fait en deux phases, au moyend’un dictionnaire de 412 000 formes. Une etiquette par defaut est attribuee auxmots inconnus. BRILL n’effectue ni la tache T , ni la tache T . En cequi concerne T , BRILL ne fournit, le cas echeant, que le nombre du motetiquete.

TREETAGGER (Schmid H. 1994) est un categoriseur independant de lalangue, dont le fonctionnement est probabiliste : il se fonde sur l’utilisationd’arbres de decision et se sert d’un dictionnaire de petite taille. Le syst emecomprend egalement un module de segmentation, et lors de l’etiquetage, lelemme et certaines informations linguistiques (temps pour les verbes, opposi-tion defini/non defini pour les determinants, etc.) sont calculees. Contrairementa BRILL, TREETAGGER propose le lemme de l’unite etiquetee: en d’autrestermes TREETAGGER accomplit les taches T et T . Quand l’unite eti-quetee est un mot inconnu, la valeur arbitraire du lemme est , cequi indique de TREETAGGER, tout comme BRILL, n’effectue pas T .

Ajoutons que BRILL et TREETAGGER partagent un meme defaut, a savoirla production d’erreurs d’etiquetage et de segmentation. Ces erreurs sont duesnotamment aux decisions prises en presence d’un mot inconnu en termes dechoix de categorie; leur nombre devient important quand le corpus etiquetecontient une forte proportion de vocabulaire technique, et elles entraınent leplus souvent une mauvaise lemmatisation, comme le souligne la Table 4 au

13. cf. URL .

9

Page 10: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

3.2.1. Ces erreurs ont ete analysees au 4.2 pour chaque etiqueteur a partirde corpus de grande taille et de nature diff erente.

2.3. Conclusion : aspects innovants de FLEMM

En synthese, nous avons brievement montre differents systemes parmilesquels aucun n’est capable d’effectuer a lui seul les trois taches optimisantla reponse d’une requete en recherche documentaire : calcul du lemme, desinformations flexionnelles et analyse des mots inconnus. De fait, (i) la simulta-neite des operations de flexion et derivation rend non perfectibles les perfor-mances d’un raciniseur (Savoy), (ii) la dependance d’un systeme a l’emploi degros lexiques peut entraıner des probl emes de taille, de droits, de reconnais-sance de mots inconnus (MLTT, INTEX, desambiguısateur d’E. Tzoukermann,BRILL, TREETAGGER), (iii) les etiqueteurs peuvent commettre des erreurs decategorisation et de segmentation (BRILL, TREETAGGER), (iv) aucun des eti-queteurs disponibles publiquement ne calcule a la fois le lemme et les traitsflexionnels des mots du corpus analyse.

Dans la suite de cet article, on va montrer que FLEMM pallie les inconve-nients observes pour (1) les raciniseurs (car, gr ace a l’utilisation de connais-sances linguistiques, il gere les exceptions), (2) les etiqueteurs avec lesquels ilpeut etre associe (car il peut en ameliorer les performances: detection et cor-rection d’erreurs d’etiquetage et de segmentation, apport de traits flexionnels)et (3) tout systeme base sur l’utilisation de gros dictionnaires (car il lemmatiseles mots inconnus).

Pour illustrer ces deux dernieres proprietes, la Table2 compare les dif-ferentes analyses des mots inconnus de la phrase (1), r ealisees successive-ment par FIPSTAG, l’etiqueteur du MLTT, BRILL, BRILL+FLEMM, TREETAGGERet TREETAGGER+FLEMM14 : dans les lignes ou il est teste avec un etiqueteur,FLEMM15 procede a une verification prealable et a une (eventuelle) substitutiondes etiquettes de ce dernier, cf. 4.2 pour plus de d etails.

3. PROGRAMME

3.1. PresentationLe programme FLEMM a ete concu dans le cadre du projet ILIAD 16, cf.

(Toussaint Y. et al. 1998), dont le resultat a ete la production d’une chaınetotalement automatisee pour l’analyse de l’information sous formes de clusters14. Les participes passes sont codes, respectivement, au moyen d’etiquettes contenant

la sequence PAR (BRILL(+FLEMM)), par PAP (MLTT), par VER suivi de ”pper” (TREETAG-GER(+FLEMM)) ; les traits flexionnels nominaux et adjectivaux calcules par FLEMM indiquentle genre (f ou m) suivi du nombre (s ou p), sont separes par ”:”, et sont representes par ” ”quand ils sont sous-specifies ou inconnus.15. Une experience relatee au 4.3 evalue, en fonction du corpus et de l’etiqueteur, la quan-

tite de mots inconnus analyses par FLEMM.16. Projet finance par le GIS Sciences de la Cognition

10

Page 11: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

Etiqueteur Les galvanolobotherapies des schtroumpfettes sont deloco-valisitees

FIPSTAG les galvanolobotherapies NOM-PLU des schtroumpfettes NOM-PLU sont delocovalisitees ADJ

etiq. MLTT Les galvanolobotherapies+NOUN PL des schtroump-fettes+NOUN PL sont delocovalisitees+PAP PL

BRILL Les galvanolobotherapies/PRO:pl des schtroumpfettes/ADJ:plsont delocovalisitees/ADJ1PAR:pl

BRILL+ FLEMM Les galvanolobotherapies/SBC: :p/galvanolobotherapie desschtroumpfettes /ADJ:f:p/schtroumpfet sont delocovalisitees/ADJ1PAR:f:p/delocovalisiter

TREETAGGER Les galvanolobotherapies NOM unknown desschtroumpfettes NOM unknown sont delocovalisiteesVER:pper unknown

TREETAGGER+FLEMM

Les galvanolobotherapies NOM: :p galvanolobotherapie desschtroumpfettes NOM: :p schtroumpfette sont delocovalisiteesVER(pper):f:p delocovalisiter

TAB. 2 –: Etiqueteurs et Mots Nouveaux

a partir de gros corpus. Dans ce projet, le d eveloppement de FLEMM avait pourbut de preparer efficacement ces textes aux etapes d’indexation et d’extractionterminologiques.

Le programme, dont le fonctionnement est detaille ci-dessous, est consti-tue pour son module d’analyse morphologique d’une centaine de r egles, etd’environ 3000 mots repartis dans 50 listes d’exceptions (la distribution des ex-ceptions en plusieurs listes a des motivations purement linguistiques : il s’agitde regrouper ensemble les formes caract erisees par les memes irregulari-tes flexionnelles). A part ces listes, dont est tributaire l’activation de certainesregles, FLEMM fonctionne sans l’aide de dictionnaire, ce qui lui conf ere unecertaine robustesse: par exemple, les neologismes, les mots contenant desfautes de frappe etc. sont analyses comme des mots flechis reguliers.

3.2. Fonctionnement du programme

Le programme prend en entree un couple mot/etiquette grammaticale etrenvoie en sortie la forme non flechie du mot, ainsi que l’ensemble des traitsflexionnels calculables hors-contexte. Il se decompose en deux modules.

3.2.1. Module de transcodage

Le premier module est une interface d’entr ee/sortie, qui controle la va-lidite de l’etiquette fournie par l’etiqueteur (et eventuellement corrige celle-ci)et convertit le format d’entree dans une notation interne independante du sys-teme d’etiquetage. Le format de depart est restitue en sortie.

11

Page 12: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

3.2.1.1. Entrees-Sorties. L’interfaced’entree/sortieest un (double) filtre quieffectue un transcodage categoriel de facon a apparier les jeux d’etiquettes enentree a un jeu interne, et inversement une fois le traitement effectu e. Cettemise en correspondance assure l’independance de l’analyseur par rapport aucategorisateur utilise en amont et, par consequent, garantit la modularite dusysteme. De plus, le jeu d’etiquettes utilise en interne ne contient que des cat e-gories pertinentes du point de vue flexionnel : les etiquettes sont donc souventplus generales que celles fournies par les etiqueteurs, comme en temoignentles exemples de la Table 3, illustrant certains cas de conversion r ealises apartir de et vers BRILL et TREETAGGER 17.

Etiqueteur Format d’Entree Format Interne ValeurBRILL VNCNT, ANCNT,ENCNT PPRES part. pres.

ADJ1PAR,VPAR,ADJ2PAR,APAR,EPAR PPAST part. passe

TREETAGGER VER:ppre, VER:aux:ppre PPRES part. pres.VER:pper, VER:aux:pper PPAST part. passe

TAB. 3 –: Exemples de Transcodages

3.2.1.2. Validite de l’etiquetage. Lors du transcodage on examine egale-ment la segmentation et la validite des etiquettes. En effet, la mauvaise seg-mentation d’une sequence (presence residuelle de signes de ponctuations endebut ou en fin de la sequence) peut etre redhibitoire pour les resultats de lalemmatisation. Un petit module se charge d’effectuer les segmentations r esi-duelles.

L’autre controle concerne la coherence formelle entre l’etiquette E fourniepar le categorisateur et la terminaison T du mot : une regle compare le couple(E,T) avec l’ensemble des couples (E,Ti) valides. Ainsi, pour E = VNCFF (verbeinfinitif), Ti er, ir, oire, dre, ... , pour E = PPAST, Ti e, i, is, us, it, u ,etc. Quant aux etiquettes categorisant les mots outils (pronoms, determinants,etc.), la validation consiste pour le programme a consulter la liste (finie) de cesmots.

Quand FLEMM detecte une erreur d’etiquetage, la nouvelle partie du dis-cours qu’il attribue au mot est la categorie qui occupe vraisemblablement lameme place que l’etiquette a corriger, tout en etant conforme a la terminaisondu mot : ainsi, dans le cas de BRILL, l’etiquette adjectif (ADJ) se substitue auxetiquettes caracterisant le participe passe (VPAR, ADJ1PAR, ADJ2PAR). LaTable 4 donne un echantillon des erreurs observees a partir d’un corpus de

17. Les etiquettes BRILL qui se terminent par la sequence ”NCNT” (resp. ”PAR”) designentle participe present (resp. passe) alors que la sequence initiale sert a distinguer les differentstypes de participes (E = formes d’etre, A = formes d’avoir, V = formes de tout autre verbe, ADJ1et ADJ2 = formes adjectivales) ; des distinctions similaires apparaissent chez TREETAGGERpar des concatenations de traits separes par ”:” : ainsi, ”aux” designe un auxiliaire, et ”ppre”est la forme participe present.

12

Page 13: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

textes techniques etiquetes par BRILL, et des resultats obtenus apres correc-tion18.

Etiquetage BRILL Re-etiquetage FLEMMcryoresistance / VNCFF = cryoresistance/SBCarbo-rea/VCJ = arbo-rea/SBCmicro-environnementale / VNCNT = micro-environnementale/ADJ

TAB. 4 –: Erreurs d’etiquetage et corrections

Toutes les erreurs d’etiquetage ne sont pas detectables par comparai-son de terminaisons. Par ailleurs, l’approximation dans la correction conduitfatalement a remplacer certaines erreurs par d’autres. La proportion d’erreursd’etiquetage et de segmentation, ainsi que le pourcentage de ”bonnes” correc-tions de la part de FLEMM sont presentes a la section 4.2.

3.2.2. Module d’analyse

Le deuxiememodule est l’analyseur morphologique a proprement parler,qui calcule le lemme, les traits morphologiques et traite les ambiguıt es. Il sedecompose en deux, au plus, trois operations chargees de determiner la fron-tiere base/terminaison et de calculer la forme neutre de la base. Nous avonsegalement mentionne comment chaque etape donne lieu dans la mesure dupossible au calcul de traits flexionnels. Dans cette section, nous pr esentonspar des exemples ces etapes de l’analyseur.

3.2.2.1. Operation 1 : detecter la terminaison du mot. Les regles de de-coupage sont groupees en paquets qui sont actives en fonction de l’etiquettedu mot. Le mot a decouper est examine de droite a gauche : toutes les termi-naisons potentielles sont prises en compte. Ainsi, la sequence ”erent” donnelieu a l’ensemble de terminaisons ent, erent . Ce n’est alors qu’en examinantla base resultante (et eventuellement en en calculant la forme neutre) que l’ondecide laquelle des terminaisons de l’ensemble est la bonne. Ainsi, on observeque le decoupage selon erent est le plus frequent,marquant la 3eme personnedu pluriel du passe simple : ced#erent ced#er. Plus rarement, le bon choixest ent, marquant la 3eme personne du pluriel du present : legifer#ent le-gifer#er. Enfin, on remarque des cas exceptionnels de d ecoupage ambigus :lac#erent lac#er versus lacer#ent lacer#er. Pour tenir compte de ces troiscas de figures, l’operation de decoupage se deroule selon le schema suivant :

1. Les situations exceptionnelles, comme lacer/lacerer, sont lexicalisees (lesdeux lemmes sont codes dans une liste.) Cette situation concerne unnombre tres restreint de formes en francais.

18. VCJ code un verbe conjugue, SBC, un nom commun.

13

Page 14: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

2. Sinon, une confrontation avec le TLFnome, que l’on considere comme lelexique de reference, a permis de classer les decoupages ambigus selonle cardinal des ensembles que les bases resultantes constituent. On sti-pule alors que l’ensemble le plus petit est l’exception, alors que l’autre re-flete le comportement regulier : c’est ainsi que l’on a determine les listesd’exceptions, que la regle consulte avant de s’appliquer pour decider dudecoupage du mot. Il est sous-entendu, dans ce raisonnement, que toutmot nouveau suit le comportement du plus grand nombre.

3.2.2.2. Operation 2 : reduction des allomorphes. Le calcul de la baseneutre exploite les relations allomorphiques qui existent entre les diff erentesformes de base d’un meme mot (e.g. lanc, lanc , ou bref, brev , etc.). Cesrelations sont prises en compte par un ensemble de r egles qui s’appliquent surle couple (base, terminaison) obtenu au pr ealable. L’application des regles peutetre precedee par la comparaison de la base a un ensemble de sequencesapparaissant dans une liste d’exceptions. C’est ainsi que les formes guette,jette, melomanes et romanes donnent lieu respectivement aux bases guett,melomane (exception) et jet, roman (regulier). Si la base neutre est celle d’unverbe, alors on calcule pour finir la desinence appropriee de l’infinitif.

3.2.2.3. Operation 3 : calcul des informations flexionnelles. La collec-tion des informations flexionnelles se fait en deux temps, i.e. au cours desoperations 1 et 2.

– La partition base/terminaison declenche la synthese des traits accord,temps, cas ... selon la partie du discours concernee.

– Le calcul de la terminaison, en association avec celui de la forme neutrepermet de deduire un autre type de traits, a savoir le modele flexionnel.Ce code, rappelons-le (cf. 2.1), permet de classer les elements d’unememe categorie grammaticale en fonction des regles flexionnelles qu’ilsactivent pour leur lemmatisation. Des exemples de codes sont donnesdans la Table 1.

3.2.3. Format des resultats et traitement des ambiguıtes

Resultat Commentaire1 examine/VCJ: 1 3 p:s:pst: ind subj

2p:s:pst:imper / examiner:1ere ou 3eme personne du singulier dupresent indicatif ou subjonctif, ou 2emepersonne du singulier de l’imperatif.

2 cours/SBC:m: /cours: soit le nom mas. sg. ou pl.courscours/SBC:f:p/cour: soit le pluriel du nom feminin cour

TAB. 5 –: Exemples de Resultats Ambigus (BRILL+FLEMM)

14

Page 15: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

Les exemples de la Table 5 sont des sorties d’analyse ambigues pro-duites a partir de textes etiquetespar BRILL, une notation similaire etant utiliseequel que soit l’etiqueteur d’origine. Deux types d’ambiguıt es y sont illustres :

1. Cas 1 - Un lemme avec plusieurs ensembles potentiels de traitsflexionnels : Le lemmatiseur calcule tous les traits potentiels associes aune sequencedonnee. Ainsi, lors de la lemmatisation de la forme verbaleexamine, l’ambiguıte affecte le mode (indicatif, subjonctif ou imperatif) etla personne (1ere, 2eme ou 3eme, selon le mode). Les traits ambigussont factorises par des regroupements entre “ ... ” et s epares par “ ”.

2. Cas 2 - Lemmes ambigus. L’autre type d’ambiguıte concerne l’ensemblede la forme flechie. L’exemple 2 de la Table 5 resulte de la lemmatisationde cours, et reflete le fait que cette forme est soit le nom masculin, denombre sous-specifie, soit le nom feminin pluriel. Contrairement au pre-mier, ce type d’ambiguıte est contre-performante en RI. C’est ainsi quepar exemple, la lemmatisation d’une requete portant sur ”Les cours de laBourse” affecte le taux de precision des documents recuperes (cf. 1).Il est donc necessaire de prevoir un post-traitement qui selectionne lelemme le plus vraisemblable. Cette tache se fonde sur plusieurs heu-ristiques, dont les principales sont : (a) pr esence locale d’informationsflexionnelles discriminantes (par exemple, un determinant ou un adjectifmarquant le feminin singulier elimine la possibilite que cours soit mascu-lin), et (b) proportion, pour chaque candidat, du nombre de lemmes nonambigus dans le texte.

4. EVALUATIONS

Les evaluations portent sur differents aspects de FLEMM. Tout d’abord,on procede a l’etalonnage de FLEMM en lui faisant recalculer les lemmes des412 081 formes etiquetees du TLFnome. On se sert de ce lexique commetemoin en raison de la fiabilite de ses etiquettes et de ses lemmes, qui ontete soumis a de nombreuses verifications. La deuxieme serie d’evaluationsporte sur les facultes de FLEMM a ameliorer les performances de l’etiqueteuravec lequel il est associe : deux experiences sont menees, l’une en termes dedetection et correction d’erreurs de segmentation et etiquetage, l’autre centreesur la lemmatisation de mots inconnus. Ces deux experiences sont repeteessur trois corpus de contenus tr es differents, chacun etiquete par BRILL et parTREETAGGER : un corpus de taille moyenne (73 000 mots) et deux corpus degrande taille (respectivement 1 534 600 et 1 247 500 mots). Les trois corpussont au format ASCII :

– AChristie, le premier corpus, est un court extrait d’un roman d’AgathaChristie, caracterise par un niveau de langue assez soutenu et de tr esnombreux dialogues, ce qui se manifeste entre autres par la pr esencede subjonctifs imparfait, de verbes conjugues a toutes les personnes,

15

Page 16: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

et de questions/reponses accompagnees d’inversions sujet-verbe. Nousavons soumis AChristie a un script procedant au “decollage” des ponc-tuations avant l’etiquetage par BRILL, cet etiqueteur ne disposant paspour l’instant de module de segmentation.

– Le second corpus, LeMonde, est une collection d’articles tires du jour-nal “Le Monde” de l’annee 1992. Il se presente sous une forme verti-calisee, a raison d’une unite lexicale par ligne. Son contenu est redigedans une langue de type journalistique, utilisant majoritairement le voca-bulaire courant, un tres grand nombre de noms propres, une syntaxe etune morpho-syntaxe tres riches et variees (les articles pouvant rappor-ter des dialogues et citations, les niveaux de langues passent du familierau tres soutenu, et le vocabulaire peut contenir des termes techniquesappartenant a n’importe quel domaine).

– Le dernier corpus, Agro, est un recueil de notices bibliographiques pr e-segmentees (les signes de ponctuations sont “decolles”) dans le do-maine de l’agroalimentaire 19. Contrairement aux deux autres corpus, ilest caracterise par une syntaxe et un vocabulaire specifiques des textestechniques et scientifiques.

Enfin, le dernier type d’evaluation est une verification manuelle des re-sultats de FLEMM effectuee a l’IRIN (Nantes).

4.1. Etalonnage de FLEMM

Le corpus qui a servi de temoin a l’etalonnage est le lexique TLFnome,etiquete par BRILL. Chaque entree est de la forme :

Un filtre extrait du TLFnome tous les couples ,appelle FLEMM qui en calcule le lemme, et compare le resultat de FLEMM aulemme apparaissant dans l’entree correspondante du TLFnome. Les taux d’er-reurs, analyses pour chaque etiquette, sont resumes dans le Tableau 6.

Etiquette Taux d’Erreurs Exemple Lemme correct / Erreur (FLEMM)Participe Passe 0,08% decrue decroire/decroıtreParticipe Present 0,16% mouvant mouver/mouvoirVerbes Conjugues 1,04% embatait embatre/embaterNoms 3,8% retrouvailles retrouvailles/retrouvaille

wagons-lits wagon-lit/wagons-litAdjectifs 0,62% aubergine aubergine/aubergin

TAB. 6 –: Comparaison avec le lexique du TLFnome

19. Il s’agit d’un corpus de 7 272 resumes de textes extraits de la base PASCAL, base docu-mentaire scientifique developpee a et maintenue par l’INIST-CNRS.

16

Page 17: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

Les erreurs observees ont essentiellement les causes suivantes :

– Le taux d’erreurs le plus important concerne les noms, pour lesquels tousles aspects de la lemmatisation n’ont pas encore ete pris en compte :parmi eux, celui qui s’avere le plus complexe a realiser est le traitementdes noms composes par hyphenation: hauts-fourneaux, garde-mangers,etc., cf. entre autres (Silberztein M. 1990) et (Mathieu-Colas M. 1994), cf.4.4. Actuellement en effet, FLEMM ne lemmatise pas correctement les

mots composes : le second composant (et seulement lui) est systemati-quement lemmatise (on obtient ainsi vide-poche au lieu de vide-poches,sociaux-democrate au lieu de social-democrate, hauts-fourneau au lieude haut-fourneau, etc.).

– Certains phenomenes exceptionnels ne recoivent pas encore de traite-ment : pluriels intrinseques (funerailles), variations allomorphiques nonrepresentatives (rigolo/rigolote), adjectifs invariables en genre r esultantd’une conversion nominale (aubergine).

– Le TLFnome prend en compte des graphies obsoletes ou inusitees (no-tamment pour les verbes) ce qui entraıne des r esultats differents entermes de lemmatisation. En particulier, embatre est considere par leTLFnome comme une variante de embattre, seule graphie admise parFLEMM, qui, par consequent, analyse embatait par defaut, i.e. comme unverbe du premier groupe. On observe la meme difference d’acceptationavec, par exemple,mouver ou decroire.

– Il y a une difference d’interpretation en ce qui concerne le role du lemma-tiseur : ainsi le TLFnome lemmatise les noms feminins derives de nomsmasculins par la forme masculine (agnelles agneau), alors que FLEMMfait l’hypothese qu’il s’agit d’une tache qui trait a la derivation et non pasa la morphologie flexionnelle (agnelles agnelle).

– D’autres erreurs de FLEMM resultent de traitements encore incomplets,comme certaines formes du subjonctif imparfait qui ne sont pas prisesen compte a l’heure actuelle. Enfin, certaines diff erences entre FLEMM etTLFnome ne peuvent pas etre comblees ; ainsi, le TLFnome etiquette’SBC’ (substantif) nombre de mots empruntes soit de langues etran-geres, soit du latin ou du grec, que FLEMM lemmatise evidemment a tortau moyen du systeme flexionnel du francais.

4.2. Segmentation et etiquetageCette seconde experience a consiste a (1) repertorier les erreurs de seg-

mentation et d’etiquetage detectees par FLEMM, au moyen de l’option corres-pondante du programme, (2) dresser la liste correspondante des unit es lexi-cales dont les etiquettes sont “bien” corrigees. Les resultats ont ete reportesdans la Table 7, commente ci-dessous.

17

Page 18: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

Corpus Etiqueteur Re-segmentation Erreurs Re-etiquetage(Nombre d’etiquetage Correctde mots)AChristie BRILL 0,06% 0,85% 77%(73 000) TREETAGGER 3,1% 0,4% 65%LeMonde BRILL 0% 0,03% 70%(1 534 592) TREETAGGER 0,02% 0,12% 33%Agro BRILL 0,75% 3% 90%(1 247 504) TREETAGGER 0,13% 0,77% 70%

TAB. 7 –: Re-segmentation et re-etiquetage

Les performances de TREETAGGER en termes de segmentation se me-surent surtout par rapport a AChristie, seul corpus qui est, a l’origine, totale-ment non segmente : or on remarque que la proportion d’erreurs de segmen-tation detectee par FLEMM, quasi nulle par ailleurs, y atteint 3,1%. Les erreursde segmentation entraınent souvent des erreurs d’ etiquetage, ce qui justifieque l’on s’interesse a cette tache prealable de FLEMM. Par exemple, FLEMMdetecte et corrige : en deux temps : il decolle lepoint d’une part, et corrige l’ etiquette d’autre part en isolant la forme verbale dupronom et en supprimant le trait flexionnel attribue a tort par TREETAGGER ; laforme traitee par le module de lemmatisation est par consequent : .

D’un point de vue quantitatif, les erreurs d’ etiquetagedetectees par FLEMMconstituent un pourcentage quasi-nul, a l’exception du score de 3% d’uniteslexicales re-etiquetees par FLEMM sur Agro-BRILL. Parmi celles-ci, plus de lamoitie concernent des termes techniques (e.g.

, ), cequi permet de remarquer au passage la plus grande fiabilit e de TREETAGGERpour la categorisation des textes techniques.

Enfin, lors de la correction des erreurs, FLEMM se trompe environ pour30% des cas. Ce pourcentage est la somme de l’ensemble des erreurs nondetectables formellement (ainsi, BRILL code abiotique comme “nom”) et decelui des etiquettes mal corrigees: e.g. FLEMM ne dispose pas des regles lo-cales suffisantes pour re-etiqueter en nom propre, d’ou la recat egorisation er-ronee de Leonides, code ”participe” par BRILL, et re-etiquete en ”adjectif” parFLEMM. En general le taux de succes de flemm est meilleur avec BRILL et plusfaible avec TREETAGGER, moins performant vis a vis de la reconnaissance dessigles, noms propres, abreviations, etc.

La question qui se pose, en synthese, est la suivante : est-ce que FLEMMpeut mieux faire? En termes d’augmentation du score de reperage des mau-vaises etiquettes deux pistes peuvent etre envisagees: (i) repertorier l’en-semble fini des mots-outils du francais, et (ii) exploiter les r esultats de la mor-phologie derivationnelle. En ce qui concerne le re-etiquetage, les seules ame-liorations, qui s’obtiendraient par raffinage de l’heuristique de remplacement

18

Page 19: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

des categories, n’interessent qu’une minorite des entrees: pour les autres,qu’il faudrait recategoriser ”nom propre”, ”abr eviation”, etc., FLEMM n’a pas lesmoyens de prendre la bonne decision.

4.3. Mots nouveauxL’experience suivante, quantitativement plus interessante, a pour objectif

de mettre en lumiere la quantite de mots inconnus des etiqueteurs utilises, etd’examiner les resultats de FLEMM sur cesmots nouveaux. Pour TREETAGGER,la detection des mots nouveaux a ete triviale, puisqu’il a suffit de filtrer, pourchaque corpus, les entrees contenant la mention (cf. 2.2.5). PourBRILL, le filtre a ete construit en confrontant automatiquement chaque unit e eti-quetee de chacun des corpus avec le lexique des formes fl echies de l’etique-teur. Ensuite chacune des 6 listes obtenues a ete lemmatisee par FLEMM ; lesresultats ont ete filtres manuellement de facon a en extraire les mots nouveauxcorrectement lemmatises.

Les differentes etapes de l’experience sont reunies dans la Table 8 etappellent les commentaires suivants : (1) AChristie, de par sa nature, contientessentiellement du vocabulaire general, ce qui explique le faible pourcentagede mots inconnus, quel que soit l’etiqueteur; (2) 79% des mots inconnus deLeMonde sont des noms propres, independamment de l’etiqueteur; (3) Lepourcentage le plus eleve de mots inconnus hors noms propres correspondlogiquement au corpus Agro de textes techniques ; parmi les mots inconnusde TREETAGGER, 55% sont des termes, cette proportion passant a 60% pourBRILL ; (4) L’application de FLEMM a ces listes de mots inconnus permet d’ob-tenir une forte proportion de bons r esultats : les echecs proviennent essentiel-lement des tentatives de lemmatisation de noms propres mal etiquetes.

Corpus Etiqueteur Mots Inconnus Lemmatisation(nombre de mots) correcteAChristie (73 000) BRILL 1,2% 70%

TREETAGGER 2% 70%LeMonde (1 534 592) BRILL 7,5% 77%

TREETAGGER 4,6% 90%Agro (1 247 504) BRILL 3,7% 80%

TREETAGGER 6% 80%TAB. 8 –: Lemmatisation des Mots Nouveaux

4.4. Validation humaine externeEnfin, la derniere experiencede validation de FLEMM a ete une evaluation

manuelle effectuee a l’IRIN (Nantes) a partir d’un corpus en francais developpea partir de la revue ’La Recherche’, et etiquete par BRILL. Ce corpus comprend450 articles publies entre 1997 et 1998, sa couverture pluridisciplinaire (unetrentaine de themes) est a usage scientifique. Ce test a ete effectue sur un

19

Page 20: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

echantillon de 5% (64 610 mots) pris au hasard dans ce corpus. Les r esultatsportent sur deux points :

(i) Le choix de la convention pour l’expression des lemmes des pronomspersonnels : actuellement, et pour des motifs d’efficacite, FLEMM affecteun seul lemme a toutes les formes pronominales clitiques, et les dis-tingue par des traits de nombre, personne et cas (ainsi, “lui” et “le” sontmis en correspondance avec la forme citationnelle unique “il”, le premieravec le cas datif, le secoind avec le cas accusatif). Un traitement similaireest reserve aux formes toniques. L’evaluateur propose de renommer leslemmes de facon a rendre leur interpretation plus conviviale. Ce travailest en cours de realisation;

(ii) Le pourcentage d’erreurs de lemmatisation en ne tenant compte quedes mots etiquetes correctement : En integrant la lemmatisation despronoms qu’il juge erronee, l’evaluateur arrive a une moyenne de 2%d’erreurs de lemmatisation. Un second calcul, qui ne tient pas comptedes pronoms, aboutit a un taux d’erreurs de lemmatisation ne depas-sant pas 0,2%. L’evaluateur conclut ainsi a un bon fonctionnement duprogramme, dans le contexte d’un module de segmentation/ etiquetagecorrect.

CONCLUSION - PERSPECTIVES

On a presente un analyseur flexionnel (i) que ses fonctionnalit es rendentpotentiellement combinable avec n’importe quel etiqueteur, (ii) qui presenteun fort taux de bonnes lemmatisations comparativement au TLFnome, (iii) quipermet d’ameliorer les performances de l’etiquetage, surtout dans le cas destextes de specialite et notamment en ce qui concerne l’analyse des mots nou-veaux, (iv) qui enrichit les resultats de ces etiqueteurs aux moyens d’informa-tions flexionnelles reutilisables pour optimiser certains aspects de la recherched’information 20, (v) et qui est distribue librement a des fins de recherche pourLinux, Unix et Windows.

Parmi les ameliorations qui sont prevues a court terme, et qui ressortentde l’etalonnage presente au 4.1, citons l’ajout de regles de lemmatisationpour les noms et adjectifs composes par hyphenation. Ceux-ci constituent plu-sieurs paradigmes flexionnels selon la categorie interne qui subit la flexiondans le compose (le nom dans sous-fifres, le premier nom dans chevaux-vapeur, les deux adjectifs dans sociales-democrates, rien dans vide-poches,etc.). Or, pour que FLEMM puisse definir l’ensemble des regles (et exceptions)de lemmatisation des mots composes, il faudrait que les etiqueteurs four-nissent a ces mots une etiquette externe et une repr esentation categorielleinterne. Etant donne le nombre eleve de neologismes composes observablesdans toutes les langues de specialite, cette tache semble une amelioration in-

20. Les codes flexionnels sont en cours d’integration.

20

Page 21: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

dispensable a envisager a court terme ; cependant, elle incombe aux categori-sateurs, et non pas au lemmatiseur, qui, s’il fournissait des parties du discoursa des unites lexicales, se substituerait a l’etiqueteur, ce qu’il ne peut et ne doitpas faire.

REFERENCES

ABEILLE, Anne ; CLEMENT, Lionel ; REYES, Rodrigo (1998) : “TALANA An-notated Corpus : the first Results”, in 1st International Conference on Lan-guage Resources and Evaluation, Granada.

ADDA, Gilles ; MARIANI, Joseph ; PAROUBEK, Patrick ; RAJMAN, Martin ; LE-COMTE, Josette (1999) : “Metrique et premiers resultats de l’evaluationGRACE des etiqueteurs morpho-syntaxiques pour le francais”, in Actesde la Conference TALN’99, pp. 15–24, Cargese.

ANTWORTH, E. L. (1990) : PC-KIMMO: a two-level processor for morphologi-cal analysis, Rapport technique, Dallas, Summer Institute of Linguistics.

BRILL, Eric (1995) : “transformation-based error-driven learning and naturallanguage processing: A case study in part-of-speech tagging”, in Compu-tational Linguistics, pp. 543–565, Trento, Italie.

CHANOD, Jean-Pierre ; TAPANAINEN, Pasi (1995) : “Creating a tagset, lexiconand guesser for a French tagger”, in Actes de ACL SIGDAT ’From texts toTags : Issues in Multilingual Language Analysis’, pp. 58–64, UniversityCollege Dublin, Ireland.

CHOUEKA, Y. (1992) : “Responsa: An Operational Full-Text Retrieval Systemwith Linguistic Components for Large Corpora”,Computational Lexicologyand Lexicography: a Volume in Honor of B. Quemada, A. Zampolli (ed).

COURTOIS, Blandine ; SILBERZTEIN, Max (1989) : “Les dictionnaires electro-niques DELAS et DELAC”, in Actes du colloque sur les langues romanes,ASSTRIL-LADL, Universite LAVAL, Quebec.

FRADIN, Bernard (1994) : “L’approche a deux niveaux en morphologie compu-tationnelle et les developpements recents de la morphologie”, Morpholo-gie Computationnelle, T.A.L., vol. 25, n ˚ 2, pp. 9–48.

FRAKES, W.B. (1984) : “Term Conflation for Information Retrieval”, Researchand Development in Information Retrieval, C.J. van Rijsbergen, (Eds.), pp.383–390.

GUILBAUD, Jean-Pierre; BOITET, Christian (1997) : “Comment rendre unemorphologie robuste du francais encore plus robuste en traitant finementles mots inconnus avec les donnees disponibles”, in Actes de TALN’97,Grenoble, France.

HULL, David A. ; GREFENSTETTE, Gregory (1996) : A Detailed Analysis ofEnglish Stemming Algorithms - Report MLTT-96 023, Rapport technique,Meylan - France, Xerox Grenoble Research Center.

21

Page 22: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

Fiammetta NAMER

KARTTUNEN, Lauri (1993) : Finite-State LexiconCompiler, Report ISTL-NLTT-1993-04-02, Rapport technique, Palo Alto - California, Xerox Palo AltoResearch Center.

KRAAIJ, Wessel ; POHLMANN, Renee (1996) : “Viewing Stemming as Re-call Enhancement”, in Proceedings of ACM-SIGIR96, Conference on Re-search and Development in Information Retrieval, H.-P. Frei, D. Harman,P. Schauble and R. Wilkinson (Eds.), pp. 40–48.

KROVETZ, Robert (1993) : “Viewing Morphology as an Inference Process”,in Proceedings of ACM-SIGIR93, Conference on Research and Develop-ment in Information Retrieval, H.-P. Frei, D. Harman, P. Schauble and R.Wilkinson (Eds.), pp. 191–202.

LAENTZLINGER, Christopher ; WEHRLI, Eric (1991) : “FIPS : Un analyseurinteractif pour le francais”, TA Informations, vol. 32, n ˚ 2, pp. 35–49.

LECOMTE, Josette ; PAROUBEK, Patrick (1996) : Le categoriseur d’Eric Brill.Mise en œuvre de la version entraınee a l’INaLF, Rapport technique,Nancy, CNRS–INaLF.

LENNON, M. ; PIERCE, D. ; TARRY, B. ; WILLETT, Peter (1981) : “An Evalua-tion of some Conflation Algorithms for Information Retrieval”, Journal ofInformation Science, n ˚3, pp. 177–183.

LOVINS, B.J. (1968) : “Development of a stemming algorithm”, MechanicalTranslation and Computational Linguistics, vol. 11, pp. 22–31.

MATHIEU-COLAS, Michel (1994) : Les mots a trait-d’union: problemes de lexi-cographie informatique, Paris, Didier Erudition.

NIEDERMAIR, G.T. ; THURMAIR, Gregor ; BUTTEL, I. (1985) : “MARS: a Re-trieval Tool on the Basis of Morphological Analysis”, Research and Deve-lopment in InformationRetrieval, C.J. van Rijsbergen, (Eds.), pp. 369–380.

POPOVIC, Mirko ; WILLETT, Peter (1992) : “The Effectiveness of Stemming fornatural-language Access to Slovene Textual Data”, JASIS: Journal of theAmerican Society for Information Sciences, vol. 43, n ˚ 5, pp. 384–390.

PORTER, Martin F. (1980) : “An Algorithm for Suffix Stripping”,Program, n ˚14,pp. 130–137.

RILOFF, Ellen M. (1994) : Information Extraction as a Basis for Portable TextClassification Systems, Ph.d, University of Massachusetts, Amherst.

SAVOY, Jacques (1993) : “Stemming of French Words Based on Grammati-cal Categories”, JASIS: Journal of the American Society for InformationSciences, vol. 44, n ˚ 1, pp. 1–9.

SCHMID, H. (1994) : “Probabilistic Part-of-Speech Tagging Using DecisionTrees”, in Proceedings of the International Conference on New Methodsin Language Processing, pp. 44–49, Manchester, UK.

SILBERZTEIN, Max (1990) : “Le dictionnaire electronique des mots compo-ses”, Langue Francaise, vol. 87, pp. 71–83.

SILBERZTEIN, Max (1993) : Dictionnaires electroniques et analyse automa-tique de textes - Le systeme INTEX, Paris, Masson.

22

Page 23: ?? : UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA …fiamm.free.fr/Publications/TAL2000_Namer.pdfT.A.L., vol. 41,n 2, pp. 1–?? FLEMM: UN ANALYSEUR FLEXIONNEL DU FRAN¸CAISA BASE DE` REGLES`

FLEMM : UN ANALYSEUR FLEXIONNEL DU FRANCAISA BASE DEREGLES

SPROAT, Richard (1992) : Morphology and Computation, Cambridge, Massa-chusetts, MIT Press.

TOUSSAINT, Yannick ; NAMER, Fiammetta ; JACQUEMIN, Christian ; DAILLE,Beatrice ; ROYAUTE, Jean ; HATHOUT, Nabil (1998) : “Une approche lin-guistique et statistique pour l’analyse de l’information en corpus”, in Actesde la Conference TALN’98, Paris.

TZOUKERMANN, Evelyne ; RADEV, Dragomir R. ; GALE, William A. (1997) :“Tagging French Without Lexical Probabilities - Combining LinguisticKnowledge and Statistical Learning”, Natural Language Processing usingVery Large Corpora, Susan Amstrong, Kenneth Church, Pierre IsabelleEvelyne Tzoukermann and David Yarowsky, (Eds.).

ZWEIGENBAUM, Pierre ; GRABAR, Natalia (1999) : “A Contribution of MedicalTerminology to Medical Language Processing Resources: Experimentsin Morphological Knowledge Acquisition from Thesauri”, in Proceedingsof Conference on NLP and Medical Concept Representation, Phoenix,Arizona.

23