Fouille de Textes : de l’utilité d’une approche « lipn.univ- Fouille de Textes : de...

download Fouille de Textes : de l’utilité d’une approche « lipn.univ- Fouille de Textes : de l’utilité

of 12

  • date post

    10-Sep-2018
  • Category

    Documents

  • view

    218
  • download

    0

Embed Size (px)

Transcript of Fouille de Textes : de l’utilité d’une approche « lipn.univ- Fouille de Textes : de...

  • 1

    Fouille de Textes : de lutilit dune approche oriente

    linguistique

    Yves Kodratoff

    CNRS, LRI Bt. 490, Universit Paris-Sud

    91405 Orsay, yk@lri.fr

    1 . Quelques dfinitions (dont une pour la FdT)

    2. Approche en comptage (stats pures) / approche en comprhension

    (traitement linguistique pralable)

    3. TREC ('Text Retrieval Conference')

    4. Notre systme

    1. DEFINITIONS

    1.1. Apprentissage non supervis/ supervis

    --- Apprentissage non (ou partiellement) supervis : donnes non annotes (ou

    incorrectement annotes) fournies lalgorithme dinduction.

    Exemple : tiquetage grammatical

  • 2

    Phrase dorigine (sans tiquetage) fournie au systme.

    Aigner also confirmed that in the 1999\2000 season, the

    champions league would have four qualifying groups of six

    teams instead of the present six groups of four teams. @/@ 15-

    APW19980825.1034

    **********

    Phrase obtenue par tiquetage dun tiqueteur entran sur un corpus de

    textes financiers (+ nettoyage pralable) phrase incorrectement tiquete

    fournie au systme

    Aigner/NP also/RB confirmed/VBD that/IN in/IN the/DT 1999\2000/CD

    season/VBP ,/, the/DT champions/NNS league/VBP would/MD have/VB

    four/JJ qualifying/NN groups/NNS of/IN six/JJ teams/NNS

    instead_of/IN the/DT present/NN six/JJ groups/NNS of/IN four/JJ

    teams/NNS ./. @/@ 15-APW19980825.1034/CD

    **********

    --- Apprentissage supervis : donnes correctement tiquetes (ou

    classes) fournies lalgorithme dinduction problmes lis aux

    mesures defficacit dun algorithme dinduction :

    - problmes faciles (p.ex. the/DT) (en gnral prcision de 100%)- problmes difficiles) (p. ex. acts/VBZ ou acts/NNS, p.ex. that/IN ou

    that/WDT, etc.)(prcision possible : 0%)

    Phrase correctement tiquete fournie au systme.

    Aigner/NP NPP also/RB confirmed/VBD that/IN in/IN the/DT

    1999\2000/CD ?? JJ season/VBP NN,/, the/DT champions/NNS

    league/VBP NN would/MD have/VB four/JJ ?? CD qualifying/NN

    JJ (ou VBG ?) groups/NNS of/IN six/JJ ?? CD teams/NNS

    instead_of/IN the/DT present/NN JJ six/JJ ?? CD groups/NNS

    of/IN four/JJ ?? CD teams/NNS ./. @/@ 15-APW19980825.1034/CD

  • 3

    1.2 Recherche documentaire (information retrieval) / Extraction de

    connaissances (information extraction)

    --- La recherche documentaire traite le problme de la pertinence [dfinie par

    un dirigeant] dun groupe de textes, dun texte, dune partie de texte

    Exemple 1 : Reconnaissance du langage utilis, reconnaissance dun auteur,

    reconnaissance de ltat desprit dun auteur.

    Exemple 2 : (problme de classification, clustering )

    Fournir tous les textes relatifs aux relations entre FIFA et American League.

    Exemple 3 : (problmes de pertinence)

    La phrase ci-dessus est-elle pertinente relativement aux relations entre FIFA et

    American League ?

    --- Lextraction de connaissances

    Recueillir des donnes, des informations ou des connaissances contenues

    dans un texte, reprer des formes prsentes dans les textes.

    Exemple 1 : Systmes de questions-rponses.

    Exemple 2 : Lister les propositions du prsident de la FIFA relativement aux

    relations entre FIFA et American League.

    Exemple 3 : Dcouvrir et annoter des interactions

    regle_6 : The/DT salm_gene [acts-independently of]abd_A/INTERNULL ./.

    regle_0 : DNA/NN binding/NN studies/NNS in/IN[yeast_systems suggest-that-the-homeodomain-is_necessary-for]

  • 4

    abd_A::Ecol_LexA_proteins/INTERPOSMOU12 to/TObind/VB to/TO Ubx_sites/NNNT ,/, but/CC the/DThomeodomain/NN does/VBZ not/RB contact/VB DNA/NNexactly/RB like/IN bacterial/JJ helix_turn_helix/NNproteins/NNS ./.

    1.3 La fouille de textes

    La fouille de textes est constitue dun ensemble de mthodologies qui

    modifient le texte afin den prciser le sens dans le but damliorer la

    solution dun problme spcifique.

    Classiquement, on essaie de transformer le texte en tableau de donnes

    afin dappliquer des techniques de fouille de donnes.

    2. COMPTAGES OU LINGUISTIQUE ? : un faux problme

    Les pour et les contre dune approche faisant usage des proprits

    linguistiques des textes.

    Question relle : quelles proprits linguistiques est-il dsirable dutiliser ?

    - Au nettoyage : Locutions ou pas ?

    123 215 locutions issues de WordNet

    P. ex. : La plupart des locutions verbales sont vraies de temps en temps

  • 5

    - Etiquetage grammatical ou pas ?

    novel/NN par dfaut, et en biologie novel/JJ quasi exclusivement

    - Etiquetage fonctionnel ou pas ?

    Linguistique de type grammatical ou de type fonctionnel ?

    Ford/NomPropre ou /NomGnrique_dorganisation ?

    - Terminologie ou pas ?

    These/DT observations/NNS suggest/VBP that/IN nuclear/JJ targeting/NN of/IN CBF1/FRM

    is/VBZ itself/PRP a/DT component/NN of/IN CBF1-mediated_gene_regulation/NN and/CC

    etc.

    CBF1-mediated_gene_regulation ou (texte brut) : CBF1-mediated gene regulation

    ou encore CBF1-mediated gene_regulation ?

    Etiquetage: NN ou NNP = composant des ractions en chimie de la biologie ?

    - Analyse syntaxique, superficielle, profonde, ou pas du tout ?

    Exemple dune phrase toute simple de biologie molculaire :

    These observations suggest that nuclear targeting of CBF1 is itself a component of CBF1-mediated gene

    regulation and that in the absence of signalling, CBF1 enters the nucleus precommitted to a

    transcriptional repression function.

    - Rsolution des corfrences ou pas ?

    Si non, alors statistiques sur this molecule, this site, it, etc.

    Exemple de limportance du probleme : TREC, demande par les participants de

    textes dans lesquelles les corfrences ont t rsolues ( !)

    - Concepts ou pas ?

  • 6

    3. TREC (Text Retrieval Conference)

    ou : pourquoi faut-il participer aux challenges internationaux (nationaux !)

    4.1 Statistiques instantanes (peut-tre non significatives ?)

    TREC information retrieval : 7 thmes diffrents, 103 quipes participantes.

    Participation franaise en 2004 : 3 : IRIT (novelty, t.1, t2, t3, t4) , LAMSADE

    (web), LRI (novelty, t1 et 2),

    TREC video 1 seul thme, 20 quipes participantes. Participation franaise : 4.

    Problme de financement ?

    4.2 Les thmes de TREC

    Genomics : 2002- (pertinence de textes + dextraction de connaissances

    (abandonn !))

    Novelty : 2002-2004 (T1 : pertinence et T2 : nouveaut de phrases (les

    pertinentes tant donnes) )

    Question-Answering : 1999- (extraction de connaissances sur des sujets trs

    varis (p. ex. Place des Club Med aux USA) )

    Web : 1999 2004, continue en 2005 avec Industry (web de compagnies

    industrielles, au lieu de .gov)

    Terabyte 2004 - (en fait _ terabyte)

    Robust 2003 - (tches mal traites par les autres thmes)

    HARD (High Accuracy Retrieval from Documents) 1994 - (quel type

    dinformation doit on ajouter au textes pour amliorer la prcision en

    pertinence)

    Spams (2005)

  • 7

    4.3 Les autres comptitions

    NTCIR : Comptition organise par les Japonais :

    NTCIR : National Test Collection for Information Retrieval avec

    - Cross-Lingual Information Retrieval, multilingual, (Chinois, Japonais,

    Coren, Anglais), bilingual, avec langage pivot (intermdiaire entre 2 langages)

    - Question Answering challenge (en Japonais)

    - Web challenge

    CLEF (2000-2005)

    Cross-Language Evaluation Forum (2005: DELOS Network of Excellence)

    8 competitions , images inclues.

    PASCAL Pattern Analysis, Statistical Modelling and Computational Learning

    KDD cup

    DEFT 05 - 06

    4.4 Pourquoi concourir ?

    Permet de savoir 1. si on est loin de ltat de lart ou non

    2. si sa mthode est assez flexible pour sadapter des

    tches voisines.

    3. Au cours des annes, savoir si on amliore ou non son

    systme.

    Devrait tre obligatoire pour les projets financs une certaine hauteur.

    Etrange en particulier que les projets europens ny soient pas soumis !

  • 8

    4. NOTRE APPROCHE

    4.1 Ncessit dun tiquetage grammatical et minimalement smantique

    - CorTag

    Un langage permettant lexpert du domaine dcrire facilement des

    centaines dexpressions rgulires relatives au contexte des mots.

  • 9

    Principe : le langage est conu de sorte que les rgles sauto-commentent.

    - ETIQ

    Aide la cration dun corpus parfaitement tiquet pour que les (puissantes)

    techniques dapprentissage napprennent pas les fautes dtiquetage du

    corpus de dpart ( !)

    On part dun corpus tiquet laide dun tiqueteur gnraliste Corpus0 qui deviendraSureCorpi-1 dans le traitement iteratif.

    Lexpert crit des rgles (en CorTag) qui corrigent certains dfauts quil a remarqu, ilapplique ses rgles Corpus0 ExpRulCorp0Ensuite ETIQ travaille sur 4 versions successives du mme corpus: SureCorpi-1, ExpRulCorpi,IndRulCorpi et SureCorpi.

    ExpRulCorpi est obtenu par application rgles crites en CorTag.

    - Le systme induit des rgles partir des contre-exemples de SureCorpi-1, et desexemples de ExpRulCorpi. (p. ex. C4.5rules)

    IndRulCorpi = rsultat de lapplication des rgles induites SureCorpi-1.

    - Lexpert examine les differences dtiquetage entre ExpRulCorpi et IndRulCorpi.

    SureCorpi est le corpus qui conserve les tiquettes issues des rgles expertes (si elles ontgagn), les tiquettes induites (si linduction a gagn) ou imposes par lexpert (sil voitdes erreurs en passant surtout si ces erreurs de contexte expliquent lerreur de ses rgles).

    - En principe, lexpert ragit ses erreurs en modifiant ses rgles ExpRul