Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de...

22
Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen http://www.info.unicaen.fr/~jvergne TALN 2003 atelier : "TALN et multilinguisme"

Transcript of Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de...

Page 1: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

Un outil d'extraction terminologiqueendogène et multilingue

Jacques VergneGREYC - Université de Caen

http://www.info.unicaen.fr/~jvergne

TALN 2003

atelier : "TALN et multilinguisme"

Page 2: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -2-

• sites de presse --- système ---> revues de presse

• utilisateurs : journalistes, internautes"de quoi et de qui est-il question aujourd'hui dans la

presse de tel espace géographique ou linguistique ?"

• inversion de la problématique des moteurs de recherche

mots-clés (thèmes) ---> documents

espace de recherche ---> thèmes principaux de l'actualité

• les "Unes" des sites de presse ---> hyperliens : URL et code source des "textes" des hyperliens

la Unedu Monde

application cadre (1)

Page 3: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -3-

• "textes" des hyperliens des "Unes" : un choix éditorial des journalistes des sites de presse

• "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites

• ---> graphe de termes nœuds = termes pondérés (sites - articles) arcs = relations pondérées entre termes (co-occurrences de 2 termes dans un même texte de lien)

• l'utilisateur navigue dans ce graphe pour accéder à des termes liés et à des articles

la Unedu Monde

application cadre (2)

Page 4: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -4-

interfaceutilisateur

santé

école

été

alcool

suivi

loi

gouvernement

jeunes

milieuscolaire

santédes

jeunes

naviguer dans le graphe des termes

Page 5: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -5-

• corpus des "textes" des hyperliens des "Unes" --extraire--> termes présents sur plusieurs sites

• méthode capable de repérer à la fois :les mots vides rares et les mots pleins très fréquents (tels que guerre ou war )

• pour centrer les termes sur des mots pleins

• dans un corpus multilingue (15 000 à 30 000 mots)

• de langues alphabétiques, non diagnostiquées

• sans analyse syntaxique, ni dictionnaire, ni stoplist

spécifications de l'outil

Page 6: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -6-

• méthodes d'André Salem, Helena Ahonen, François Rousselot :

- recherche de motifs répétés en utilisant des algorithmes extrapolés de l'algorithme glouton

(recherche des n-grammes à partir des n-1-grammes)

- avec, en entrée, les mots vides de la langue traitée pour éviter de les prendre comme termes (stopword-list)

l'existant : motifs répétés

Page 7: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -7-

un outil endogène• terme proposé par Didier Bourigault :

calculer le "rattachement des groupes prépositionnelset des adjectifs ou groupes adjectivaux" dans un corpus monolingueavec dictionnaire et analyse syntaxique

• même sens générique :

utiliser des régularités distributionnelles lexicales dans un corpus pour traiter ce même corpus

• mais sens spécifique différent :

repérer à la fois les mots vides rares et les mots pleins très fréquentsdans un corpus multilinguesans analyse syntaxique, ni dictionnaire, ni stoplist

Page 8: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -8-

• fréquence des mots => silence sur les mots pleins fréquents

• Zipf : "the principle of least effort" plus un mot est fréquent, plus il est courtles mots courts et fréquents sont les mots vides

• Saussure : "dans la langue, il n'y a que des différences"

• => se servir des différences de longueur et d'effectif de 2 mots contigus

• pas d'autre ressource que le corpus traité lui-même, sans se préoccuper de la langue

comment poser le problème (1)

Page 9: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -9-

• texte : suite de mots vides et de mots pleins

Manifestazioni per la pace in tutto il mondo

résultat recherché :

comment poser le problème (2)

Manifestazioni per la pace in tutto il mondo

P P P Pv v v v

Page 10: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -10-

• critères de différence entre 2 mots contigus :

- différence de longueur en nombre de lettres :

il mondo (2 lettres - 5 lettres)

- différence d'effectif dans le corpus :

il mondo (19 occurrences - 3 occurrences)

comment poser le problème (3)

Page 11: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -11-

• rechercher 2 types de séquences de mots, où 1 ou 2 mots vides sont encadrés par 2 mots pleins :

tutto il mondo Manifestazioni per la pace

solution proposée : principe

séquence PvP

du la of im ne il le lui y en

séquence PvvP

de la of the aus dem que des ist ein a étén'a is the qui ne

P P P Pv v v

Page 12: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -12-

1) Étudier le corpus pour en extraire les mots vides

2) Générer les termes candidats

solution proposée : processus (0)

Page 13: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -13-

1) Étudier le corpus pour en extraire les mots vides

• segmenter le corpus sur les limites de textes de liens

et sur les ponctuations --> virgulots

• pour chaque virgulot,

rechercher les séquences PvP et PvvP

à partir des différences de longueur et d'effectif

solution proposée : processus (1)

Page 14: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -14-

déductions Plein vide vide Plein Plein vide Plein

effectifs 1 < 10 207 > 2 62 3 < 19 > 3

profil rare fréquent fréquent rare rare fréquent rare

• pour chaque virgulot, rechercher les séquences PvP et PvvP

Manifestazioni per la pace in tutto il mondo

longueurs 14 > 3 2 < 4 2 5 > 2 < 5

profil long court court long long court long

solution proposée : processus (2)

Page 15: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -15-

2) Générer les termes candidats

• selon les motifs :

P+ Manifestazioni pace

tutto mondo

P+ v+P+ Manifestazioni per la pace

pace in tutto

tutto il mondo

P+ v+P+ v+P+ Manifestazioni per la pace in

tutto pace in tutto il mondo

solution proposée : processus (3)

Page 16: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -16-

de : 340la : 207l' : 153

le : 113d' : 107à : 107

du : 103et : 99

des : 88en : 87les : 84

a : 82

un : 80Le : 74La : 72L' : 62in : 62

une : 56

Les : 55's : 55to : 53

pour : 43au : 41

sur : 41

résultats (1)

espace de recherche 2 :

une centaine de sites publiés par Google News, environ la moitié étant des sites nord-américains(http://news.google.fr/news/)

163 Ko, 28 500 mots

2435 occurrences de 820 termes candidats (de 47 à 2 occurrences / terme)

espace de recherche

corpus

termescandidats

mots vides les plus

fréquents

(15 mars 2003)

to : 327in : 280of : 237

the : 230's : 166

de : 154

for : 144on : 143and: 138

a : 126The :118

en : 76

la : 75by : 55Al : 53

with : 52is : 41A : 38

from: 36at : 34

i : 34't : 32

un : 31à : 31

espace de recherche 1 :

22 sites de la presse française nationale et régionale, 17 sites de la presse européenne (Suisse, Belgique, Allemagne, Italie, Espagne, UK, Irlande), et 4 sites de presse nord-américaine, chaque langue étant représentée par au moins 2 sites

84 Ko, 14 800 mots

1566 occurrences de 584 termes candidats (de 42 à 2 occurrences / terme)

Page 17: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -17-

espace de recherche 1 :

résultats (2)

espace de recherche 2 :

termes candidats

les plus fréquents

silence sur les mots vides =>

bruit sur les termes

candidats

article : 42guerre : 21Jean-Luc    Lagardère :

17monde : 12Açores : 11

Weitere      Artikel : 10

mort : 10Bagdad : 8empire : 8

semaine : 8Lettre : 7

Plan : 7fin : 7

guerra : 7procès : 7

réforme : 7sommet : 7

Echos : 6

Was : 5Tutti : 4vous : 3About: 2Alors : 2

Ein : 2Have : 2

If : 2Mais : 2

Qu' : 2Wie : 2Wo : 2

avant : 2contra: 2

could : 2depuis:2encore:2

faut : 2mieux: 2nous : 2now : 2

plusieurs: 2

that : 2tout : 2

tutto : 2

25/584 = 4,3% des 584 termes candidats extraits

Läs mer: 47ÉÑ Ä : 29

Laden : 24war : 22

Kabul : 20Qaeda : 20China : 18

Statement : 17

Sep 12 : 15Pak : 14Press    

Secretary : 13

Sep 11 : 13Northern  

Alliance: 12guerra : 12

Irak : 11Kandahar :

11

This: 12How : 7Don' : 6

It : 6Most : 4

contra: 4

won' : 4Alla : 3My : 3auf : 3

One : 2Wer : 2

Where:2Why : 2

après : 2down : 2einer : 2

enough:2only : 2they : 2

when : 2which: 2

22/820 = 2,7% des 820 termes candidats extraits

Page 18: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -18-

espace de recherche 1 :

résultats (3)

espace de recherche 2 :

bruit sur les mots vides => silence

sur les termes

candidats

termes retenus les

plus fréquents

(nb de sites - nb d'articles)

guerre (12-24)Lagardère (11-16)

Jean-Luc            Lagardère (9-12)

monde (8-13)15 (7-10)

16 (7-9)Aznar (7-8)

Açores (7-10)empire (7-8)

semaine (7-8)Chirac (6-6)

Premier ministre    (6-7)

fin (6-9)français (6-9)

mort (6-10)pays (6-10)

site (6-8)sommet (6-6)

Policy (19-23)U.S. (18-39)

China (14-29)war (14-71)

Special (12-24)This (12-24)

United (12-18)Privacy Policy      

(11-11)Week (11-14)

East (10-12)American (9-14)

Information (9-13)Press (9-25)

Saddam (9-13)Azores (8-8)

How (8-10)Index (8-8)

Middle East (8-8)Money (8-8)

War : 9paix : 7soir : 7war : 7aide : 4

dimanche: 4Photo : 3baisse : 3

Aide : 2Groupe : 2

attendu : 2home : 2

turn : 2voie : 2

world : 2

News : 77New: 43

news : 23killed : 18

Home : 17

Help : 16Free : 10Global : 9

Air : 8help : 8

make : 8First : 7Get : 7get : 7

groups : 7

15/584 = 2,6% des 584 termes candidats extraits

88/820 = 10,7% des 820 termes candidats extraits

Page 19: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -19-

résultats (4)

• les mots vides rares et les mots pleins très fréquents

sont-ils correctement repérés ?

calcul fondé sur des différences entre mots et non des valeurs absolues

(aucun seuil)

=> détection des mots vides ou pleins presque indépendante de leur effectif

article (42), guerre (21), monde (12), mort (10), guerra (9) : mots pleins

von (8), con (7), della (6), sous (5), vom (4), zum (3), einer (2), grâce (1) :

mots vides

il suffit qu'un seul contexte ait pu les détecter au moyen des différences adéquates

Page 20: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -20-

conclusion

• méthode originale n'utilisant ni analyse syntaxique, ni dictionnaire, ni stoplist- capable de repérer à la fois les mots vides rares et les mots pleins fréquents- dans un corpus multilingue, de langues alphabétiques, inconnues a priori, mélangées dans le corpus, et non diagnostiquées dans les calculs

• calculs indépendants des langues, insensibles à l'ajout d'une nouvelle langue, ni aux proportions entre langues différentes

• bonne qualité des résultats et adéquation de la méthode à la tâche => des propriétés linguistiques très générales sont exploitées :

les différences (ou valeurs relatives) l'optimisation du code : plus un mot est fréquent, plus il est court

Page 21: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -21-

vos questions ?

Page 22: Un outil d'extraction terminologique endogène et multilingue Jacques Vergne GREYC - Université de Caen jvergne TALN 2003 atelier.

14/6/2003 © Jacques Vergne Atelier : "TALN et multilinguisme" -22-