1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche...

39
1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances humaines) Extraction d’Informations (EI)

Transcript of 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche...

Page 1: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

1

• Une version (très) affaiblie de la compréhension automatique de texte

• Ciblée sur une tâche précise• Des résultats exploitables (80 % des

performances humaines)

Extraction d’Informations (EI)

Page 2: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

2

I. Tâche et architecture

BUT : Extraire des informations, factuelles, à partir de textes

– Un type d'informations bien spécifique, – A partir d’un type de textes (corpus « homogène » -

textes courts type « dépêches d’agences »)– Une tâche spécifique : constituer des « fiches »

(« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes.

Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes d’évaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements.

« On sait ce qu’on cherche, où le chercher, et (à peu près) sous quelle forme »

Page 3: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

3

Exemples de textes et d’informations à extraire

Exemple 1 : ( veille technologique)Corpus : Articles de revues sur l'industrie des semi-

conducteursInformation extraite : Nature chimique des dépôts,

épaisseur des couches, température de dépôts, dépositaires du procédé

 

Exemple 2 : (veille économique)Corpus : articles de journaux [± spécialisés], dépêches

d'agences…Information extraite :Joint ventures (MUC 5, 1993) ou autres opérations

financières Mouvements dans la direction des sociétés (MUC 6, 1995)

 

Page 4: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

4

Exemple 3 : (informations politiques)Corpus : Articles de presseInformation extraite : Descriptifs

d'attentats terroristes (MUC 3, 1991)

Exemple 4 : (informations médicales, épidémiologie)Corpus : C.R. d’hospitalisationInformation extraite : pathologie, examens,

interventions, résultats (Projet Européen Ménélas)

Page 5: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

5

Exemples de « templates »

Exemple 3 : Attentats terroristes (MUC 3, 1991)

Page 6: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

6

Page 7: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

7

Extraction d’information Passer du texte à la base de données (veille technologique,

économique…)

Opération : nouveau produitSociété: Trusted LogicMatériel : Trusted NFC platformUsage : Google Android

Opération : nouveau produitSociété: ASKMatériel : contactless USB readerUsage : home or desk

Page 8: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

8

Opération : prise de participationAuteur : CDC EntrepriseCible : Nom :OpenPortal Software

Activité : Editeur de logicielMontant : 1,5 MEuros

Opération : acquisitionAuteur : Nom : Grand Chaix de France

Activité : producteur de vinsCible : Nom : Sauvion

Activité : Négociant en vinsMontant : —

Page 9: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

9

Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995)CHARLOTTE, N.C., Sept. 13 ICNWI ‑ United Dominion

Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president‑Europe.

Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.

Page 10: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

10

MUC‑style templates can be produced in french or english language, from either input text : <SUCCESSION‑EVENT‑c2O97. english .txt‑16> :=

ORGANIZATION:<ORGANIZATION‑c2O97.english.txt‑43>POST: "executive vice president"PERSON: <PERSON‑c2O97. english .txt‑48>VACANCY‑REASON:OTH‑UNK

<ORGANIZATION‑c2O97. english .txt‑43> :=NAME: "United Dominion Industries Ltd."ALIAS: "United Dominion"

"UDI"TYPE: COMPANY

 <PERSON‑c2O97. english .txt‑48> :=NAME: "John G. MacKay"ALIAS: "MacKay"TITLE: "Mr."

Page 11: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

11

The system produces identical summaries from both these texts, in English:

United Dominion Industries Ltd. appoints John G. MacKay as executive vice president.

 and in French:  United Dominion Industries Ltd. nomme John G. MacKay vice‑président di recteur.

Page 12: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

12

Chaîne de traitement documentaire

• En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD.

• Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes d’origine)

• Interrogation possible en LN (en utilisant +/- le même analyseur)

Page 13: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

13

Exemple de chaîne de traitements : Scisors

Page 14: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

14

Analyse linguistique :

• Adapter le schéma général de la C.A. pour traiter de vrais textes

• Combiner approches top-down et bottom-up

But: fiches à remplir

Texte

BOTTOM-UP

Analyseslinguistiques (syntaxe, sémantique…)

TOP-DOWN

Connaissancesdu domaine, Recherche d’ «éléments pertinents» dans le texte (« attentes »)

FRUMP (1982)Lexique, apprentissage…

Patrons d’extraction

TACIT LASIE

- Généricité +

Page 15: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

15

Schéma général d’un système d’EI « actuel »

Prétraitements

- Tokenisation- Correction orthographique- Extraction des entités nommées

I

Analyse linguistique

- Analysemorphologique- Analyse syntaxique- Analyse sémantique- Analyse du discours

II

Instantiation des formulaires- Identification des entités et événements- Remplissage des champs - Inférences

III

Page 16: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

16

II. Méthode « des patrons d’extraction »

Page 17: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

17

Exemple

19 Mars – Une bombe a explosé ce matin près d’une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

Page 18: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

18

Préliminaires :Observation un corpus significatif pour définir le micro-domaine et le format des

fiches

Type d ’attentat : attentat à l ’explosif

Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San

SalvadorAuteur : FMLNCible humaine : NonCible physique : centrale électriqueEffet : graveEngin explosif : bombe

Page 19: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

19

Types d ’entités :Personnes (fonctions…)Organisations politiques.Bâtiments (installations industrielles…)Engins explosifs et armes (bombes,

véhicules piégés…)Lieux géographiques, dates.

Evénements : Nature : AttentatsAttributs : cible (humaine/physique),

instrument, auteur, gravité…

Page 20: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

20

Analyse linguistique

• Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus)

• Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités

• « patrons d ’extraction » --> Evenements

• Discours : Coréférence, temps …

Page 21: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

21

Traitement linguistique (1) : Analyse Morphologique ...

19 Mars – Une bombe a explosé ce matin, à 6:50 près d’ une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

Page 22: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

22

… et Entités nommées

[e.n. Date-jour 19 Mars ] – Une bombe a explosé ce matin, à [e.n. Date-heure 6:50 ] près d’ une centrale électrique à [e.n. géo-ville/pays

San Salvador ]. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L’ attentat est

attribué au [e.n. acro Orga.pol. FMLN ] par [e.n. pers. M. Ramirez ], chef de la police de la ville.

Page 23: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

23

(2) Analyse syntaxique locale : groupes nominaux (entités)

[19 Mars ] – [gn e1 Une bombe] a explosé ce matin, à [6:50 ] près d’ [gn e2 une centrale

électrique ] à [en e3 San Salvador ]. [gn e4

La charge de forte puissance ] a gravement endommagé [gn e5 la centrale ], ….

e1 : bombe e3 : ville e2 : centrale_elect

e4 : charge_explosive (qualif : puissance = forte)

e5 : centrale_elect

Page 24: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

24

(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective

orientée par le domaine et le but

[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.

Pattern 1 :<engin> <vb : exploser> <prep : près_de>

<cible> {<lieu>}<engin> := <gn : bombe, charge, voiture piégée…

><cible> := <cible humaine> | <cible matérielle> <lieu> := prep_loc <e.n. géo>

Page 25: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

25

(3) Evénements : Recherche de « Patterns »Un mixte d ’analyse syntaxique et sémantique sélective

orientée par le domaine et le but

[Une bombe] a explosé ce matin, à [6:50 ] près_d’ [une centrale électrique ] à [ San Salvador ]. [La charge de forte puissance ] a gravement endommagé [la centrale ], plongeant la ville dans le noir pendant plusieurs heures.

Pattern 2 : <engin> <atteindre> <cible>< atteindre > := <vb : toucher, endommager,

atteindre…>

Page 26: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

26

(4) Coréférence

[e1 Une Une bombebombe] a explosé ce matin, à [6:50 ] près_d’ [e2 une centrale électrique ] à [e3 San Salvador ]. [e4 La La charge charge dede forteforte puissancepuissance ] a gravement endommagé [e5 la centrale ], plongeant [e6la ville] dans le noir pendant plusieurs heures.

e1 = e4 e2 = e5 e3=e6

Page 27: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

27

Etape 3 : Remplissage des Fiches

[e1 Une bombeUne bombe] [EV1 a explosé ce matin], à [6:50 ] près_d’

[e2une centrale électrique ] à [e3 San Salvador ].

[e1 La charge de forte puissanceLa charge de forte puissance ] [EV2a gravement

endommagé] [e2 la centrale ], plongeant [e3 la ville] dans le

noir pendant plusieurs heures.

Evénements : Ev1 : exploser, engin = e1, cible : e2, lieu = e3Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2

Page 28: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

28

Type d ’attentat : attentat à l ’explosif (Ev1)Date : 19 Mars 1982Lieu : pays = El Salvador, Ville = San Salvador (e3)Auteur : FMLNCible humaine : NonCible physique : centrale électrique (e3-e5)Effet : grave (Ev2)Engin explosif : bombe (e1)

Evénements et entités extraites : Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 Ev1 = Ev2

e1 : bombe e2 : centrale_electe3 : ville e4 : charge_explosive (qualif : puissance = forte)e5 : centrale_electe1 = e4 e3 = e5

Page 29: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

29

Problème : Acquisition de ressources

• Un « goulot d ’étranglement » pour le portage sur de nouveaux corpus/tâches

• Outils d’exploration de corpus

• Apprentissage de classes sémantiques et de patterns

Page 30: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

30

Idée : élargir les patterns par « similitude »• On part d’un ensemble de motifs pertinents

Une bombe a explosé près d’une centrale…Une centrale a été la cible d’un attentat à la voiture

piégée…

• On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituablesBombe = charge (explosive) = engin explosif…Installation industrielle hypéronyme de centrale

électrique…==> des patrons de même forme, avec un lexique + riche

• On cherche des motifs « similaires » par des « patrons à trous »X a explosé près de Y ==> nouvelles entités engin

(X) et cible(Y)Une bombe E ==> nouvel événement E de type

« exploser »

• Le système fournit un ensemble de « candidats » validés par le développeur

Page 31: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

31

III. Autres architectures

• LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte– Analyse morpho-syntaxique et sémantique =>

Forme Quasi Logique (QLF)– Constitution des fiches

Avantages/désavantages+ Généricité- limites des analyses « tout venant » :

syntaxe, référence…

Page 32: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

32

•TACIT (Caen) : Constats d’accidents automobiles

Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le

témoin cité.

Page 33: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

33

Texte A-11Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et m’a entraîné vers le mur amovible du pont de Gennevilliers que j’ai percuté violemment. D’après les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après m’avoir heurtée, il a pris la fuite et n’a pu être rejoint par le témoin cité.

Accident A-11Impacts : I1,I2

Impact I1Véhicules : V1,V2Autres_entités  : —

Impact I2Véhicules : V1Autres_entités :“ Le mur amovible du pont de Gennevillier ”

Personne P1Identité : RédacteurA/B : AVéhicule : V1

Personne P2Identité : —A/B : BVéhicule : V2

Véhicule V1Type : —Conducteur: P1Parties_touchées : <pare_choc, avant, droite>

Véhicule V2Type : —Conduct : P2Parties_touchées : —

Constat et formulaires associés

Page 34: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

34

Méthode : « partial (shallow) parsing »Combinaison :

– d’analyses linguistiques génériques « légères » et « sûres »:• Analyse morpho-syntaxique partielle « sûre » (J

Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet)

• Calcul de référence « sûr » : certains pronoms…– et de « ressources » spécifiques du corpus:

• schémas actanciels des « verbes de choc » => analyse syntaxico-sémantique restreinte à certaines propositions

• Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule

• ….

Avantages/désavantages+ exploite des analyseurs génériques fiables, et

seulement ceux-ci+ moins figé que les patrons (+ générique)- certaines étapes « ad hoc »

Page 35: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

35

IV. Bilan, discussion(1) Evaluation

• Une nécessité (et un acquis des MUC)• Mesure quantitative des performances

Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues

Précision (P) = nombre de réponses correctes / nombre total de réponses

• Meilleurs résultats : R = 50-75% P = 70-85%70 à 80% des performances humainesVarie selon la complexité des textes et des fichesTACIT : P = 84 % R= 73% F-mesure = 78 %.

• A la limite des applications “industrielles”

Page 36: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

36

Thème Indice de complexité

Rappel Précision

F-mesure

MUC-4 Attentats terroristes 1,87 62% 53% 55,93%

MUC-5 Fusion d'entreprise 2,67 57% 64% 52,75%

MUC-6 Changement d'un membre de direction

2,47 47% 70% 56,40%

MUC-7 Lancement d'engins spatiaux

2,44 67% 50% 57,14%

Page 37: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

37

(2) Améliorations linguistiques

• Analyse morphologique et syntaxique (?)

• Calcul de la coréférence

• Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…

Page 38: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

38

(3) Portage sur de nouvelles applications

• Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité »)

• Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation d’analyseurs…)

• Intérêt d’une analyse linguistique « générique » accompagnée d’une adaptation au corpus.

Page 39: 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

39

• Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC

http://www.nist.gov/tac/publications/2008/index.html

• Et site général sur la recherche d’informations (Conférences TREC)

http://trec.nist.gov/