Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI)...

28
Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de l’Ecole Doctorale 2003

Transcript of Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI)...

Page 1: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Fouille de textes : Extraction Itérative de la Terminologie

Mathieu ROCHE (Équipe IA-TAO du LRI)

12 novembre 2003

Journées de l’Ecole Doctorale 2003

Page 2: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

2

Axe « fouille de textes » de l’équipe IA-TAO

Yves KodratoffAhmed Amrani

Jérôme AzéThomas Heitz

Oriane Matte-TailliezMathieu Roche

Page 3: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

3

Plan de l’exposé

Approche globale

EXIT : EXtraction Itérative de la Terminologie– La méthode utilisée– L’évaluation des résultats

Conclusion et perspectives

Page 4: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

4

Approche globale- - - - -

- - - - -

- - - - -

Corpus brut

- - - - -

- - - - -

- - - - -

Corpus nettoyé

- - - - -

- - - - -

- - - - -

Corpus étiqueté

- - - - -

- - - - -

- - - - -

TermesTraces de concepts

- découverte de règles d’association

- extraction d’information par patrons d’extraction

Nettoyeur Etiqueteur

EXIT

Détection des traces de

concepts

Extraction d’informations

Page 5: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

5

Étape 1 : Nettoyage

Description du corpus

La question biologique : Comprendre l’organisation, la dynamique des protéines qui interagissent directement avec l’ADN, chez la levure Saccharomyces cerevisiae.

DNA-binding proteins Yeast 6000 textes (10 Mo)

MEDLINE - NCBI

6000 résumés d’articles = CORPUS

Page 6: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

6

Étape 1 : Nettoyage

Nettoyage lié au format du corpus1: Biochim Biophys Acta 2001 Dec 30;1522(3):175-86

The modulation of the biological activities of mitochondrial histone Abf2p byyeast PKA and its possible role in the regulation of mitochondrial DNA contentduring glucose repression.

Cho JH, Lee YK, Chae CB.

Department of Life Science and Division of Molecular and Life Science, Pohang University of Science and Technology, 790-784, Pohang, South Korea

The mitochondrial histone, Abf2p, of Saccharomyces cerevisiae is essential forthe maintenance of mitochondrial DNA (mtDNA) and appears to play an importantrole in the recombination and copy number determination of mtDNA.

PMID: 11779632 [PubMed - in process]

Page 7: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

7

Étape 1 : Nettoyage

Uniformisation du corpusRègles :Grâce à une liste de près de 2000 alias

de gènes associés à leur nom générique, nous avons remplacé ces alias par leur nom générique.

Ex : ISE1, LIS1, SED6 ERG6

alias

Page 8: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

8

- - - - - - - - - - - - - - - - - - - - - - - - - -

Étiqueteurgrammatical

Corpus nettoyé Corpus étiqueté

- - - - - - - - - - - - - - - - - - - - - - - - - -

Étape 2 : Étiquetage

The modulation of the biological activities of mitochondrial histone Abf2-protein ...

The/DT modulation/NN of/IN the/DT biological/JJ activities/NNS of/IN mitochondrial/JJ histone/NNP Abf2-protein/NNP ...

Étiqueteur de Brill

Page 9: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

9

- - - - - - - - - - - - - - - - - - - - - - - - - -

Étiqueteurgrammatical

Corpus nettoyé Corpus étiqueté

- - - - - - - - - - - - - - - - - - - - - - - - - -

Étape 2 : Étiquetage

ETIQ : Application pour adapter l’étiquetage de Brill à des textes spécialisés (Ahmed AMRANI).

Page 10: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

10

Étape 3 : EXIT (Extraction Itérative de la Terminologie)

- - - - - - - - - - - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - - - - - - - -

Corpus étiqueté

DNA binding

TATA binding

binding motif

transcription factor

Liste de termes

Termes extraits :

Nom-Nom

Adjectif-Nom

Nom-Préposition-Nom

Nom-verbe_gérondif

Formule-Nom

Page 11: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

11

Étape 4 : Détection de traces de concepts

Exemple de traces de concepts en biologie

TRANSCRIPTION-ACTIVATOR-GENE

TRANSCRIPTIONINITIATION

TRANSCRIPTIONREGULATION

TRANSCRIPTION

TFIID-complexSAGA-complex

TRANSCRIPTIONINITIATION MACHINERY

MSN4MSN2

Page 12: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

12

Étape 4 : Détection de traces de concepts

Exemples d’instances de concepts– (bending:Sujet,influence:Verbe) Bendng– transcription-factor Regulfactor

Caractérisation des traces de concepts dans les textes – utilisation du logiciel de visualisation

ROWAN– induction en extension sur les concepts

Page 13: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

13

2 patrons d'extraction sont nécessaires pour rechercher la spécificité des protéines codées par les gènes de régulation detranscription :

MSN2 encodes SpécificitéFacteur MSN4 encodes SpécificitéFacteur

Étape 5 : Extraction d’informations

Extraction d'informations par patrons d'extraction

Exemple:…MSN2 encodes a zinc-finger transcriptional activator

, ...…MSN4 encodes a DNA-binding component of the stress

responsive system , ...

Page 14: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

14

1 seul patron d'extraction suffit pour rechercher la spécificité des protéines codées par les gènes de régulation de transcription avecla connaissance sémantique.

$TranscriptionActivitor encodes SpécificitéFacteur

Étape 5 : Extraction d’informations

Extraction d'informations par patrons d'extraction

Exemple:…MSN2 encodes a zinc-finger transcriptional activator ,

...…MSN4 encodes a DNA-binding component of the stress

responsive system , ...

Page 15: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

15

Étape 5 : Extraction d’informations

Extraction de règles d’associations [Kodratoff et al., 2003]

(bending:Sujet,influence:Verbe) BendngDNA-duplex DNAconformatntranscription-factor Regulfactorgal4-binding Regulfactorinteraction-with-TFIIB Transcriptn

Bendng, DNAconformatn, Regulfactor Transcriptn

Page 16: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

16

Approche globale- - - - -

- - - - -

- - - - -

Corpus brut

- - - - -

- - - - -

- - - - -

Corpus nettoyé

- - - - -

- - - - -

- - - - -

Corpus étiqueté

- - - - -

- - - - -

- - - - -

TermesTraces de concepts

- découverte de Règles d’association

- extraction d’informations par patrons d’extraction

Nettoyeur Etiqueteur

EXIT

Détection des traces de

concepts

Extraction d’informations

Page 17: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

17

- - - - - - - - - - - - - - - - - - - - - - - - - -

Étiqueteurgrammatical

Extraction des collocations

Sélection des “meilleurs”

collocations

Corpus nettoyé Corpus étiqueté

- - - - - - - - - - - - - - - - - - - - - - - - - -

insertion mutation

hydrogen peroxide

DNA binding

SH2 domain

EXIT : la méthode utilisée (1/5)

DNA binding

TATA binding

binding motif

transcription factor

Page 18: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

18

EXIT : la méthode utilisée (2/5)

Une méthode statistique

Information Mutuelle [Church et Hanks, 1990]

P(X)P(Y)

P(X,Y)YXIM 2log),(

Page 19: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

19

EXIT : la méthode utilisée (3/5) Une méthode statistique Rapport de vraisemblance [Dunning, 1993]

RV = a log(a) + b log(b) + c log(c)

+ d log(d) - (a+b) log(a+b) - (a+c) log(a+c)

- (b+d) log(b+d) - (c+d) log(c+d)

+ (a+b+c+d) log(a+b+c+d)

y y' avec y' y

x a b

x' avec x' x c d

Page 20: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

20

EXIT : la méthode utilisée (4/5) Paramètres ajoutés [Roche, 2003]

Privilégier les termes qui apparaissent dans des textes différents.

Page 21: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

21

EXIT : la méthode utilisée (5/5)

Interface développée en Java par Thomas Heitz

Page 22: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

22

EXIT : évaluation des résultats (1/5)

La précision

extraits termesde nombre

pertinents extraits termesde nombreprécision

1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…

1. real world2. neural network 3. frequent itemset 4. remote sensing 5. naive bayes…

Termes extraits

Page 23: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

23

EXIT : évaluation des résultats (2/5)

Les courbes d’élévation (« lift chart ») : variation de la précision en fonction du nombre de termes proposés à l’expert

Page 24: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

24

EXIT : évaluation des résultats(3/5)

Le rappel

pertinents termesde nombre

pertinentsextraits termesde nombrerappel

Impossible à calculer !!

Page 25: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

25

EXIT : évaluation des résultats(4/5)

Comparaison de mesures [Roche et al., 2003]

Nb de termes proposés à l'expert

100 200 500 1000

Information mutuelle 89.0 % 90.8 % 92.2% 91.9 % Information mutuelle au cube 96.0 % 97.5 % 94.0 % 94.1 % Mesure d'association 90.0 % 91.2 % 93.0 % 92.5 % Coefficient de Dice 92.0 % 92.9 % 92.6 % 93.0 % Rapport de vraisemblance 98.0 % 97.5 % 95.4 % 94.1 % J-mesure 89.0 % 89.1 % 89.4 % 95.2 % Conviction 96.9 % 97.4 % 97.2 % 95.2 % Sebag-Schoenauer 93.1 % 94.9 % 94.7 % 94.7 % Moindre contradiction 96.0 % 96.1 % 95.3 % 95.9 % Intensité d'implication 99.0 % 96.6 % 95.5 % 93.0 % Intensité d'implication nor. 99.0 % 96.6 % 95.5 % 92.8 %

Page 26: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

26

EXIT : évaluation des résultats(5/5)

Courbes d’élévation avec l’information mutuelle et le rapport de vraisemblance

Page 27: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

27

Conclusion et perspectives

Expérimenter les mesures d’induction mises en place

Étudier les textes entiers.

Page 28: Fouille de textes : Extraction Itérative de la Terminologie Mathieu ROCHE (Équipe IA-TAO du LRI) 12 novembre 2003 Journées de lEcole Doctorale 2003.

Journée de l'Ecole Doctorale 2003

28

Approche globale- - - - -

- - - - -

- - - - -

Corpus brut

- - - - -

- - - - -

- - - - -

Corpus nettoyé

- - - - -

- - - - -

- - - - -

Corpus étiqueté

- - - - -

- - - - -

- - - - -

TermesTraces de concepts

- découverte de règles d’association

- extraction d’information par patrons d’extraction

Nettoyeur Etiqueteur

EXIT

Détection des traces de

concepts

Extraction d’informations