Download - Apprentissage faiblement supervisé de paraphrases Florence Duclaye - 28 janvier 2003 - LIMSI Équipe Langues Naturelles, France Télécom R&D, Lannion Département.

Apprentissage faiblement supervisé de paraphrases

Florence Duclaye - 28 janvier 2003 - LIMSI

Équipe Langues Naturelles, France Télécom R&D, Lannion

Département INFRES, Groupe Information, Interaction, Intelligence, ENST, Paris

France Télécom R&D, 11/04/23

Déroulement de la présentation

Présentation du sujet et du contexte général

Sujet de recherche

Précisions terminologiques préliminaires

Etat de l’art

Système d’apprentissage automatique de paraphrases

Aperçu général

Procédures d’acquisition, de classification et de filtrage des paraphrases

Résultats

Conclusions et perspectives


Présentation du sujet de recherche

• Sujet :

L’apprentissage automatique de paraphrases sur le Web pour l’amélioration d’un système de questions-réponses.

• Exemple :

Question : Quelle est la hauteur de la Tour Eiffel ?

Réponse : La hauteur de la Tour Eiffel est 300 mètres.

Paraphrases possibles de la réponse :

La Tour Eiffel culmine à 300 mètres.

La Tour Eiffel fait 300 mètres de haut.

…


Précisions terminologiques préliminairesParaphrase

• Subjectivité de la relation d’équivalence de sens

• Différents types de paraphrases

• Invariant sémantique entre les phrases, sur lequel peuvent se greffer diverses modifications sémantiques (règles d’inférence chez Lin et Pantel, Univ. Alberta, Canada)

• Dépendance par rapport au contexte

Formulation :

Pour l’instant, forme verbale (ex : acheter) d’une relation sémantique. Par la suite, forme verbale ou nominalisée (ex : l’acquisition de … par …).

Tuple d’arguments :

Ensemble des arguments régis par une formulation (ex : AOL - Netscape)


Quelques éléments intéressants de l’état de l’art

• Barzilay (Univ. Cornell, USA) et McKeown (Univ. Columbia, USA) Apprentissage de paraphrases à partir de corpus parallèles (Harris)

• Lin (Univ. Alberta, Canada) et Pantel (Univ. Alberta, Canada) Apprentissage de règles d’inférence pour le QA

• Ellen Riloff (Univ. Utah, USA) : Bootstrapping pour l’extraction de lexiques sémantiques

• Kentaro Torisawa (Univ. Tokyo) : Apprentissage de paraphrases avec l’algo EM

•Seigei Brin (Google) : Extraction de relations à partir du Web

• Thomas Hofmann et Jan Puzicha : LSA, PLSA

• Peter Turney (Institut des technologies de l’information, Ottawa) : fouille du Web à la découverte de relations de synonymie


Fonctionnement global du système d’apprentissage de paraphrases (1/3)

AOL a acheté Netscape

AOL f Netscape

f =acquiertrelance

a achetéveut ressusciter

Thomson Learning f NetgVivendi f Seagram

HP f CompaqVodafone f Ericsson

f =choisitrachèteavalevient

a acheté

a achetérachètechoisit

CLASSIFICATION



Extracteur de formulationsExtracteur d'arguments

Phrase 1

...

Phrase k

Requête 1

...

Requête k

Phrase 1

...

Phrase l

Requête 1

...

Requête l

Ens. de tuplesd'argument{a1, ..., a k}

Ens. deformulations

{f1, ...,f j}

Phrase initiale

ETAPE D'ACQUISITION

E

T

A

P

E

D

E

CLASSIFICATION



AOL - Netscape

...

Phrases {P1,...,Pl}

Phrases {P1,...,Pj}Vivendi - Seagram

Phrases {P1, ..., Pn}

...

Phrases {P1, ... Pk}

a acheté

veut ressusciter

rachète

a achetéveut ressusciter

acquiertrachèteavalevient

AOL - Netscape

Thomson Learning -Netg

Vivendi - Seagram

HP - CompaqVodafone - Ericsson

AOL a acheté Netscape

ETAPE D'ACQUISITION

ETAPE

DE

CLASSIFICATION

Phrases {P1,...,Pm}



Procédure d’acquisition automatique de paraphrases potentielles

Technique employée : bootstrapping

Outil utilisé : système de questions-réponses + analyseur syntaxique

Éléments acquis alternativement : formulations et tuples d’args

Hypothèse de départ : hypothèse distributionnelle de Harris


Utilisation du système de questions-réponses comme outil d’IE (1/3)



Analyseur utilisé par le système de Questions-Réponses : produit une analyse syntaxique par étiquetage parenthésé (chunks)

Exemple :

GS2 : GN-NP GV-CT GN-NC GP-NPSEPF

Hermann Melville est l’auteur de Moby Dick.

GS1 GN-NP GN-NP GV-CT GN-D GN-NC GP-S GN-NP GN-NP SEPF

[Hermann] [Melville] [être] [le] [auteur] [de] [Moby] [Dick] [.]


• La requête est envoyée telle quelle au système

Ex : tuple d’arguments : Melville – Moby Dick -> = requête

• Patrons d’extraction des formulations et des tuples d’arguments écrits spécialement pour nos besoins

Ex : Melville [GV] Moby Dick ; Moby Dick [GV] Melville

[GN-NP] a écrit [GN-NP]

• Accès restreint aux 1000 premiers résultats des moteurs de recherche (previews)



Acquisition automatique : quelques mots sur le corpus utilisé

AVANTAGES

Application immédiate : QA sur le Web

Source d’informations linguistiques constamment mise à jour

Redondance des informations

Variété des informations sous des formes linguistiques différentes

Information linguistique en contexte

INCONVÉNIENTS

Corpus mouvant

Hétérogénéité, non pertinence des données -> bruit

Forte dépendance vis-à-vis des moteurs de recherche utilisés

Rapidité d’accès au Web très variable

Corpus de taille difficile à évaluer



Phrase 1

...

Phrase k

Requête 1

...

Requête k

Phrase 1

...

Phrase l

Requête 1

...

Requête l

Ens. de tuplesd'argument{a1, ..., a k}

Ens. deformulations

{f1, ...,f j}

Phrase initiale

ETAPE D'ACQUISITION

E

T

A

P

E

D

E

CLASSIFICATION


Procédure de classification et de filtrage des paraphrases potentielles acquises (1/2)

• Apprentissage très faiblement supervisé

• Classification (2 classes)

• Nombreuses méthodes de calcul possibles

EM, diverses mesures de similarité/distance comme Jaccard, …

• Multiples stratégies de filtrage possibles

Ex : conserver x meilleures formulations, prendre un seuil, …

• Méthodes testées : algo EM, Jaccard pondéré


Procédure de classification et de filtrage des paraphrases potentielles acquises (2/2)

vouloir intégrer choisit acquiert rachèteachetait

AOL – Netscape 1 2 1 12 1

Vivendi – Seagram 0 0 2 2 0

HP – Compaq 1 0 0 6 0

Apple – Astarte 0 0 0 2 1

…

Exemple de tableau de comptages d’occurrences :


Filtrage par Estimation-Maximisation (1/4)

Objectif : classer chaque formulation acquise comme une paraphrase valide de la relation sémantique de départ ou une paraphrase invalide, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments.

Supervision très faible : On a un exemple positif de départ (rép. à une question)

On considère que chaque phrase (1 formulation f et 1 tuple d’arguments a) est générée par le modèle stochastique suivant :

( , ) ( , | ) ( )

( , ) ( | ) ( | ) ( )s S

s S

P f a P f a s P s

P f a p f s P a s P s

f : formulation

a : tuple d’arguments

S : ens. des relations sémantiques exprimées dans les phrases du corpus (S = 1 ou 0)


Estimation

Maximisation

f : formulation

a : tuple d’arguments

s : relation sémantique

N : comptage d’occurrences


( ) ( | ) ( | )( | , )

( ) ( | ) ( | )

( , ) ( | , )

( | )( , ) ( | , )

( , ) ( | , )( | )

( , ) ( | , )

( , ) ( | , )

( )( , )

s S

f F

a A f F

a A

f F a A

f F a A

f F a A

P s P f s P a sP s f a

P s P f s P a s

N f a P s f a

P a sN f a P s f a

N f a P s f aP f s

N f a P s f a

N f a P s f a

E step

M ste

P s

p

N f a


Puis on fait tourner EM (itérations de E-steps et de M-steps) jusqu’à convergence des paramètres maximisés

fi : formulation de départ

ai : tuple d’argts de départ

f : autres formulations

a : autres tuples d’arguments

S : relation sémantique


:

( 1| , ) 1

( 1| , ) 0.6,

( | , ) 0.5,

i i

i i

i

Initialisation

P S f a

P S f a a a

P S f a f f


Étape finale de classification :

( 1) ( | 1)

( 0) ( | 0)

P S P f Sr

P S P f S

Mais on peut imaginer plusieurs autres stratégies de classification différentes



Résultats quantitatifs obtenus sur EM

Stratégie de filtrage : Estimation-Maximisation (1ère itération)

Indice de filtrage Taux de sélection Précision

7 44% 42.9% (3.5% – 100%)

25 29.8% 47.3% (1.7% - 100%)

48 23.9% 47.3% (6.1% - 100%)

117 14.2% 54.9% (2.8% - 100%)

186 10% 66.6% (2.8% - 100%)

232 9.4% 65.4% (3.3% - 100%)


Résultats qualitatifs : un exemple

Relation d’achat

• 1ère itération :

' acheter', ' pour intégrer‘, vouloir réssusciter‘,' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' ramasser', ' parler', ' choisir‘,' permettre‘, signer‘,' supplanter', 'envoie au diable', ' lire, ' sélectionner', ' compter', ' signifier', ' collaborer pour intégrer', ' enfant utiliser', ' modifier‘,' choisir d‘,' défiler', ' lancer', ' dévoiler', ' qui acheter', ' absorber‘,' publier', ' envoyer un message'

• 2ème itération :

' acheter', ' pour intégrer', ' vouloir réssusciter', ' choisir', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler‘,' ramasser', " n' être", ' venir', ' passer', ' voir', ' féliciter', ' permettre', ' sélectionner', 'envoie au diable', ' lire', ' compter', ' supplanter‘, ' signer', ' détrôner', ' qui devancer', ' dominer', ' prendre', ' battre', ' signifier', ' devenir’, ' dépasser', ' ils parler', ' collaborer pour intégrer', ' enfant utiliser', ' qui signifier', ' qui parler', ' remplacer le magnétoscope', ' rejoindre'

• 3ème itération :

' acheter‘,' pour intégrer', ' vouloir réssusciter', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler', ' ramasser', ' choisir', " n' être", ' venir‘,' passer', ' féliciter', ' voir', ' permettre', 'envoie au diable', ' sélectionner', ' lire', ' compter', ' tracer', ' aimer', ' encourager', ' venir renforcer', ' obliger‘, ' à louer la', ' autoriser', ' rester sur', ' recevoir', ' qui voir', ' grouper'


Filtrage par la mesure de Jaccard pondérée (1/2)

Objectif : calculer l’indice de similarité entre chaque formulation acquise et la formulation de départ, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments.

Principe : Nb de caractéristiques partagées (intersection) / union des caractéris.

11

1 2

11

( , ).

( , )( , ).( )

1 1

1 1 1 1

x

jj

x

jj

d a a

f f fd a a

j 1 j 2

j 1 j 2 j 1 j 2

n(a ,f )>0 n(a ,f )>0

n(a ,f )>0 n(a ,f )>0 n(a ,f )>0 n(a ,f )>0

.

+ .


Filtrage par la mesure de Jaccard pondérée (2/2)

Étape finale de classification :

Conservation des N meilleures formulations

Leurs distances d(F, F1) doivent être les plus fortes de toutes les formulations (F1

= formulation de départ)


Conclusions

• Mise en place d’un outil d’apprentissage automatique de paraphrases faiblement supervisé (1 exemple positif d’apprentissage)

• Stratégies de classification et de filtrage testées basées sur EM, Jaccard pondéré

• Intérêts :

• Paraphrases : amélioration du système de QA (réponses + rapides et + fiables, complexification des questions possibles), classification automatique de documents, recherche d’informations, résumé automatique, TAO, …

• Formulations thématiques (ex : AOL a acheté Netscape -> lancer, englober, investir, détenir, sauver, lorgner, …) : constitution d’annuaires thématiques

• Couples d’entités nommées acquis (ex : Castro dirige Cuba -> Irak – Saddam Husseim, Milosevic – Serbie, Chili – Salvador Allende, …) : lexiques sémantiques, constitution de BDD spécialisées

• Mécanisme d’apprentissage indépendant de la langue visée


• Amélioration acquisition :

• Formulations plus complexes (ex : l’acquisition de Y par X, analyse en dépendances)

• Reclassification préliminaire des previews : utilisation d’informations contextuelles pour améliorer la constitution du corpus à chaque requête

• Amélioration du filtrage :

• Autres méthodes de calcul de similarité (Chi2, cosinus, …)

• Autres stratégies de filtrage (prendre plusieurs phrases de départ, conserver les x meilleures formulations, exemples négatifs avec les y plus mauvaises formulations, supervision manuelle, éliminer les arguments avec peu de productions, …)

• Évaluation de mes travaux sur le système de QA

Perspectives pour les mois à venir


Références bibliographiquesE. Riloff : “Learning Dictionaries for Information Extraction by multi-level bootstrapping”, AAAI99.

R. Barzilay, K. McKeown : “Extracting paraphrases from a parallel corpus”, ACL01.

D. Lin, P. Pantel : “Discovery of inference rules for QA”, NL Engineering 7(4) : 343-360, 2001.

X. Zhu, R. Rosenfeld : “Improving Trigram Language Modeling with the World Wide Web”, ICASSP01.

C. Fuchs : “La Paraphrase”, PUF, 1982.

T. Hofmann : “Probabilistic Latent Semantic Analysis”, UAI99.

Publications de thèse :

F. Duclaye, P. Filoche, J. Sitko, O. Collin : “A Polish Question-Answering for Business Information”, BIS02

F. Duclaye, F. Yvon, O. Collin : “Using the Web as a linguistic resource for learning reformulations automatically”, LREC02


Merci !