Fouille de données séquentielles pour l’extraction d ...· Fouille de données séquentielles

download Fouille de données séquentielles pour l’extraction d ...· Fouille de données séquentielles

of 29

  • date post

    14-Sep-2018
  • Category

    Documents

  • view

    213
  • download

    0

Embed Size (px)

Transcript of Fouille de données séquentielles pour l’extraction d ...· Fouille de données séquentielles

  • Fouille de donnes squentiellespour lextraction dinformationdans les textes

    Thierry Charnois* Marc Plantevit** Christophe Rigotti*** Bruno Crmilleux*

    * Universit de Caen Basse Normandie, GREYC, CNRS, UMR6072, F-14032, France

    {thierry.charnois,bruno.cremilleux}@info.unicaen.fr

    ** Universit de Lyon, CNRS, Universit Lyon 1, LIRIS, UMR5205, F-69622, France

    marc.plantevit@liris.cnrs.fr

    *** Universit de Lyon, CNRS, INSA-Lyon, LIRIS, UMR5205, F-69621, France

    christophe.rigotti@insa-lyon.fr

    RSUM. Cet article montre lintrt dutiliser les motifs issus des mthodes de fouille de don-nes dans le domaine du TAL appliqu la biologie mdicale et gntique, et plus particulire-ment dans les tches dextraction dinformation. Nous proposons une approche pour apprendreles patrons linguistiques par une mthode de fouille de donnes fonde sur les motifs squentielset sur une fouille dite rcursive des motifs eux-mmes. Une originalit de notre approche est desaffranchir de lanalyse syntaxique tout en permettant de produire des rsultats symboliques,intelligibles pour lutilisateur, a contrario des mthodes numriques qui restent difficilementinterprtables. Elle ne ncessite pas de ressources linguistiques autres que le corpus dappren-tissage. Pour la reconnaissance dentits biologiques nommes, nous proposons une mthodefonde sur un nouveau type de motifs intgrant une squence et son contexte.

    ABSTRACT. This paper shows the benefit of using data mining methods for Biological NaturalLanguage Processing. A method for discovering linguistic patterns based on a recursive se-quential pattern mining is proposed. It does not require a sentence parsing nor other resourceexcept a training data set. It produces understandable results and we show its interest in theextraction of relations between named entities. For the named entities recognition problem, wepropose a method based on a new kind of patterns taking account the sequence and its context.

    MOTS-CLS : extraction dinformation, fouille de donnes, motifs squentiels et motifs LSR, TALappliqu aux textes biologiques et gntiques.

    KEYWORDS: information extraction, data mining, sequential patterns and LSR patterns, BioNLP.

    TAL. Volume 50 n 3/2009, pages 59 87

  • 60 TAL. Volume 50 n 3/2009

    1. Introduction

    Le volume des publications dans le domaine biologique, mdical et gntique sac-crot un rythme considrable : prs de 18 millions de publications sont actuellementrecenses dans la base MedLine et disponibles via PubMed1 et 2 4 000 rfrencessont ajoutes chaque jour. Dans cette masse de donnes textuelles, la recherche ma-nuelle dinformation nest pas imaginable. Lextraction dinformation est donc deve-nue un enjeu crucial. titre dexemple, citons deux types de requtes qui intressentles utilisateurs biologistes.

    (1) Dans quels articles parle-t-on du gne X ?

    (2) Avec quel(s) gne(s), le gne X interagit-il ? et sous quelle forme ?

    Depuis une bonne quinzaine dannes de nombreux travaux en extraction dinfor-mation et en fouille de textes appliques au domaine biomdical ont vu le jour. Danscet article, nous explorons deux tches correspondant aux deux requtes mention-nes prcdemment : la premire ncessite la reconnaissance dentits nommes detype biologique (noms de gnes, protines, fonctions biologiques, etc.) et la secondeconcerne lidentification et le typage de relations entre entits biologiques prcdem-ment reconnues (interactions entre gnes).

    Les travaux relatifs ces deux tches sinscrivent dans deux grandes catgories.Lune fonde sur des mthodes statistiques ou probabilistes obtient les meilleurs rsul-tats mais se fondent sur des attributs difficilement comprhensibles, et surtout non in-terprtables pour un expert. loppos, les approches symboliques du TAL sappuientsur des connaissances linguistiques : lexiques, rgles dextraction, analyse syntaxiquevoire smantique de la phrase, pour identifier linformation extraire (Zweigenbaumet al., 2007). Gnralement, lextraction sopre aprs lanalyse de la phrase pouramliorer les rsultats. Le processus est donc fortement dpendant des rsultats de lasyntaxe, et, en dpit des progrs rcents effectus dans ce domaine, ce type danalysenest pas encore fiable. Par ailleurs, ce type de mthodes a un cot important en termesdcriture et de dveloppement des ressources (e.g., cration des lexiques et rgles).

    Lobjet de cet article est de montrer lintrt dutiliser les motifs issus des m-thodes de fouille de donnes dans le domaine du TAL appliqu la biologie mdicaleet gntique, pour apprendre les ressources linguistiques ncessaires sans analyse syn-taxique de la phrase. cette fin, nous proposons deux mthodes fondes sur les motifssquentiels (dune part, pour reprer des entits nommes et, dautre part, pour dtec-ter des interactions entre entits nommes). Nous montrons comment il est possiblede tirer profit de la puissance des motifs squentiels pour dvelopper des mthodesdextraction dinformation dans les textes ainsi que leur mise en uvre dans des ap-plications relles.

    1. http ://www.ncbi.nlm.nih.gov/pubmed/

  • Fouille de donnes squentielles pour lEI 61

    Plus prcisment, nous proposons une approche pour apprendre les patrons lin-guistiques par une mthode de fouille de donnes fonde sur les motifs squentiels etsur une fouille dite rcursive des motifs eux-mmes. notre connaissance, les mo-tifs squentiels nont pas encore t utiliss pour raliser de lextraction dinformationdans des textes biomdicaux. Une originalit de notre approche est de saffranchir delanalyse syntaxique pour lapprentissage des patrons et pour leur application (extrac-tion dinteractions entre entits nommes) tout en permettant de produire des rsul-tats symboliques qui sont intelligibles pour lutilisateur. Notre approche scarte desautres mthodes sans analyse syntaxique qui, elles, sont fondes sur des mthodes nu-mriques difficilement interprtables. Elle ne ncessite pas de ressources linguistiquesautres que le corpus dapprentissage. En ce qui concerne la reconnaissance dentitsbiologiques nommes, nous proposons une mthode fonde sur un nouveau type demotifs intgrant une squence et son contexte, mais relchant la relation dordre entreles mots du contexte. Cette mthode a pour avantage de combiner les bonnes capacitsde prcision des rgles et les bonnes performances en rappel obtenues par la relaxationde lordre au sein du contexte.

    Cet article est organis comme suit. Aprs une prsentation de ltat de lart etdes motifs squentiels (sections 2 et 3), nous dcrivons en section 4 la mthode dap-prentissage des patrons linguistiques propose pour lextraction dinteractions entreentits nommes. La mthode de reconnaissance des entits nommes est, elle, pr-sente dans la section 5. Finalement, nous concluons et prsentons les perspectives dece travail en section 6.

    2. tat de lart

    Dans la continuit des Message Understanding Conferences (MUC) autour desannes 90 (voir (Poibeau et Nazarenko, 1999) pour un bilan), les travaux en extractiondinformation ont connu un nouvel essor depuis une quinzaine dannes. La proli-fration des donnes textuelles en biologie gntique sest en effet accompagne debesoins croissants doutils automatiques pour accder linformation textuelle perti-nente par les experts biologistes. Ces donnes ont donc fourni un nouveau cadre ap-plicatif lextraction dinformation. Les tches dfinies lors de la 7e confrence MUCsont particulirement tudies : la reconnaissance dentits nommes (NER) nomsde gnes, protines, fonction biologiques, etc. et lidentification de relations sman-tiques entre entits nommes par exemple linteraction entre gnes ou protines.

    Lune des approches les plus utilises sur ces deux tches sinscrit dans le courantdu TAL symbolique. Le problme NER revient alors localiser une sous-chane dansla phrase et lui attribuer une catgorie prdfinie. Plusieurs particularits rendent leproblme difficile (Leser et Hakenberg, 2005). En effet, un gne ou une protine peuttre nomme par un sigle, un terme compos de plusieurs mots, ou encore par unepartie ou une abrviation du terme compos ou du sigle. De plus, labsence de nomen-clatures figes du fait de nologismes, la polysmie (certains noms communs commepigs, set, she ou encore clock dsignent des gnes), lexistence de plusieurs d-

  • 62 TAL. Volume 50 n 3/2009

    nominations pour un mme gne (RNF53, BRCC1, BRCA1 et BRCA1/BRCA2-containing complex, subunit 1 dsignent le mme gne, alors que BRAP et BRCA1associated protein en dsignent un autre), la prsence de signes de ponctuation di-verses au sein mme des termes (CCAAT/enhancer binding protein (C/EBP), alpha)ainsi que leurs variations morphosyntaxiques (esterase 31 ou brain carboxyleste-rase BR3 pour carboxylesterase 3) complexifient encore le processus de reconnais-sance. Parmi les mthodes ddies cette tche, celles base de dictionnaires tententun appariement exact ou partiel avec des mesures de distances comme (Tsuruoka etichi Tsujii, 2003). Elles sont simples mettre en uvre mais souffrent dun tauxde couverture bas. Un autre type de mthode effectue la reconnaissance partir dergles qui peuvent reposer sur des expressions rgulires telles que dans (Fukudaet al., 1998), un des premiers systmes base de rgles. Elles peuvent aussi utiliser desformes plus sophistiques (comme des grammaires locales (Charnois et al., 2006)),avec dans certains cas, au pralable, une analyse syntaxique de la phrase (Gaizauskaset al., 2003). En ce qui concerne les rsultats obtenus, ces mthodes peuvent atteindreun bon taux de prcision, mais le rappel est souvent bas et les mthodes peu robusteslorsque les rgles sont trop spcifiques (Leser et Hakenberg, 2005). En ce qui concernela tche dextraction de relations entre entits, elle consiste reprer la relation din-teractions entre gnes et/ou protines, et la caractriser (e.g. inhibition, formationdassociations) (Zweigenbaum et al., 2007) (Cohen et Hersh, 2005). Au sein destextes, l