Apprentissage faiblement supervisé de paraphrases
Florence Duclaye - 28 janvier 2003 - LIMSI
Équipe Langues Naturelles, France Télécom R&D, Lannion
Département INFRES, Groupe Information, Interaction, Intelligence, ENST, Paris
France Télécom R&D, 11/04/23
Déroulement de la présentation
Présentation du sujet et du contexte général
Sujet de recherche
Précisions terminologiques préliminaires
Etat de l’art
Système d’apprentissage automatique de paraphrases
Aperçu général
Procédures d’acquisition, de classification et de filtrage des paraphrases
Résultats
Conclusions et perspectives
France Télécom R&D, 11/04/23
Présentation du sujet de recherche
• Sujet :
L’apprentissage automatique de paraphrases sur le Web pour l’amélioration d’un système de questions-réponses.
• Exemple :
Question : Quelle est la hauteur de la Tour Eiffel ?
Réponse : La hauteur de la Tour Eiffel est 300 mètres.
Paraphrases possibles de la réponse :
La Tour Eiffel culmine à 300 mètres.
La Tour Eiffel fait 300 mètres de haut.
…
France Télécom R&D, 11/04/23
Précisions terminologiques préliminairesParaphrase
• Subjectivité de la relation d’équivalence de sens
• Différents types de paraphrases
• Invariant sémantique entre les phrases, sur lequel peuvent se greffer diverses modifications sémantiques (règles d’inférence chez Lin et Pantel, Univ. Alberta, Canada)
• Dépendance par rapport au contexte
Formulation :
Pour l’instant, forme verbale (ex : acheter) d’une relation sémantique. Par la suite, forme verbale ou nominalisée (ex : l’acquisition de … par …).
Tuple d’arguments :
Ensemble des arguments régis par une formulation (ex : AOL - Netscape)
France Télécom R&D, 11/04/23
Quelques éléments intéressants de l’état de l’art
• Barzilay (Univ. Cornell, USA) et McKeown (Univ. Columbia, USA) Apprentissage de paraphrases à partir de corpus parallèles (Harris)
• Lin (Univ. Alberta, Canada) et Pantel (Univ. Alberta, Canada) Apprentissage de règles d’inférence pour le QA
• Ellen Riloff (Univ. Utah, USA) : Bootstrapping pour l’extraction de lexiques sémantiques
• Kentaro Torisawa (Univ. Tokyo) : Apprentissage de paraphrases avec l’algo EM
•Seigei Brin (Google) : Extraction de relations à partir du Web
• Thomas Hofmann et Jan Puzicha : LSA, PLSA
• Peter Turney (Institut des technologies de l’information, Ottawa) : fouille du Web à la découverte de relations de synonymie
France Télécom R&D, 11/04/23
Fonctionnement global du système d’apprentissage de paraphrases (1/3)
AOL a acheté Netscape
AOL f Netscape
f =acquiertrelance
a achetéveut ressusciter
Thomson Learning f NetgVivendi f Seagram
HP f CompaqVodafone f Ericsson
f =choisitrachèteavalevient
a acheté
a achetérachètechoisit
CLASSIFICATION
France Télécom R&D, 11/04/23
Fonctionnement global du système d’apprentissage de paraphrases (2/3)
Extracteur de formulationsExtracteur d'arguments
Phrase 1
...
Phrase k
Requête 1
...
Requête k
Phrase 1
...
Phrase l
Requête 1
...
Requête l
Ens. de tuplesd'argument{a1, ..., a k}
Ens. deformulations
{f1, ...,f j}
Phrase initiale
ETAPE D'ACQUISITION
E
T
A
P
E
D
E
CLASSIFICATION
France Télécom R&D, 11/04/23
Extracteur de formulationsExtracteur d'arguments
AOL - Netscape
...
Phrases {P1,...,Pl}
Phrases {P1,...,Pj}Vivendi - Seagram
Phrases {P1, ..., Pn}
...
Phrases {P1, ... Pk}
a acheté
veut ressusciter
rachète
a achetéveut ressusciter
acquiertrachèteavalevient
AOL - Netscape
Thomson Learning -Netg
Vivendi - Seagram
HP - CompaqVodafone - Ericsson
AOL a acheté Netscape
ETAPE D'ACQUISITION
ETAPE
DE
CLASSIFICATION
Phrases {P1,...,Pm}
Fonctionnement global du système d’apprentissage de paraphrases (3/3)
France Télécom R&D, 11/04/23
Procédure d’acquisition automatique de paraphrases potentielles
Technique employée : bootstrapping
Outil utilisé : système de questions-réponses + analyseur syntaxique
Éléments acquis alternativement : formulations et tuples d’args
Hypothèse de départ : hypothèse distributionnelle de Harris
France Télécom R&D, 11/04/23
Utilisation du système de questions-réponses comme outil d’IE (1/3)
France Télécom R&D, 11/04/23
Utilisation du système de questions-réponses comme outil d’IE (2/3)
Analyseur utilisé par le système de Questions-Réponses : produit une analyse syntaxique par étiquetage parenthésé (chunks)
Exemple :
GS2 : GN-NP GV-CT GN-NC GP-NPSEPF
Hermann Melville est l’auteur de Moby Dick.
GS1 GN-NP GN-NP GV-CT GN-D GN-NC GP-S GN-NP GN-NP SEPF
[Hermann] [Melville] [être] [le] [auteur] [de] [Moby] [Dick] [.]
France Télécom R&D, 11/04/23
• La requête est envoyée telle quelle au système
Ex : tuple d’arguments : Melville – Moby Dick -> = requête
• Patrons d’extraction des formulations et des tuples d’arguments écrits spécialement pour nos besoins
Ex : Melville [GV] Moby Dick ; Moby Dick [GV] Melville
[GN-NP] a écrit [GN-NP]
• Accès restreint aux 1000 premiers résultats des moteurs de recherche (previews)
Utilisation du système de questions-réponses comme outil d’IE (3/3)
France Télécom R&D, 11/04/23
Acquisition automatique : quelques mots sur le corpus utilisé
AVANTAGES
Application immédiate : QA sur le Web
Source d’informations linguistiques constamment mise à jour
Redondance des informations
Variété des informations sous des formes linguistiques différentes
Information linguistique en contexte
INCONVÉNIENTS
Corpus mouvant
Hétérogénéité, non pertinence des données -> bruit
Forte dépendance vis-à-vis des moteurs de recherche utilisés
Rapidité d’accès au Web très variable
Corpus de taille difficile à évaluer
France Télécom R&D, 11/04/23
Extracteur de formulationsExtracteur d'arguments
Phrase 1
...
Phrase k
Requête 1
...
Requête k
Phrase 1
...
Phrase l
Requête 1
...
Requête l
Ens. de tuplesd'argument{a1, ..., a k}
Ens. deformulations
{f1, ...,f j}
Phrase initiale
ETAPE D'ACQUISITION
E
T
A
P
E
D
E
CLASSIFICATION
France Télécom R&D, 11/04/23
Procédure de classification et de filtrage des paraphrases potentielles acquises (1/2)
• Apprentissage très faiblement supervisé
• Classification (2 classes)
• Nombreuses méthodes de calcul possibles
EM, diverses mesures de similarité/distance comme Jaccard, …
• Multiples stratégies de filtrage possibles
Ex : conserver x meilleures formulations, prendre un seuil, …
• Méthodes testées : algo EM, Jaccard pondéré
France Télécom R&D, 11/04/23
Procédure de classification et de filtrage des paraphrases potentielles acquises (2/2)
vouloir intégrer choisit acquiert rachèteachetait
AOL – Netscape 1 2 1 12 1
Vivendi – Seagram 0 0 2 2 0
HP – Compaq 1 0 0 6 0
Apple – Astarte 0 0 0 2 1
…
Exemple de tableau de comptages d’occurrences :
France Télécom R&D, 11/04/23
Filtrage par Estimation-Maximisation (1/4)
Objectif : classer chaque formulation acquise comme une paraphrase valide de la relation sémantique de départ ou une paraphrase invalide, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments.
Supervision très faible : On a un exemple positif de départ (rép. à une question)
On considère que chaque phrase (1 formulation f et 1 tuple d’arguments a) est générée par le modèle stochastique suivant :
( , ) ( , | ) ( )
( , ) ( | ) ( | ) ( )s S
s S
P f a P f a s P s
P f a p f s P a s P s
f : formulation
a : tuple d’arguments
S : ens. des relations sémantiques exprimées dans les phrases du corpus (S = 1 ou 0)
France Télécom R&D, 11/04/23
Estimation
Maximisation
f : formulation
a : tuple d’arguments
s : relation sémantique
N : comptage d’occurrences
Filtrage par Estimation-Maximisation (2/4)
( ) ( | ) ( | )( | , )
( ) ( | ) ( | )
( , ) ( | , )
( | )( , ) ( | , )
( , ) ( | , )( | )
( , ) ( | , )
( , ) ( | , )
( )( , )
s S
f F
a A f F
a A
f F a A
f F a A
f F a A
P s P f s P a sP s f a
P s P f s P a s
N f a P s f a
P a sN f a P s f a
N f a P s f aP f s
N f a P s f a
N f a P s f a
E step
M ste
P s
p
N f a
France Télécom R&D, 11/04/23
Puis on fait tourner EM (itérations de E-steps et de M-steps) jusqu’à convergence des paramètres maximisés
fi : formulation de départ
ai : tuple d’argts de départ
f : autres formulations
a : autres tuples d’arguments
S : relation sémantique
Filtrage par Estimation-Maximisation (3/4)
:
( 1| , ) 1
( 1| , ) 0.6,
( | , ) 0.5,
i i
i i
i
Initialisation
P S f a
P S f a a a
P S f a f f
France Télécom R&D, 11/04/23
Étape finale de classification :
( 1) ( | 1)
( 0) ( | 0)
P S P f Sr
P S P f S
Mais on peut imaginer plusieurs autres stratégies de classification différentes
Filtrage par Estimation-Maximisation (4/4)
France Télécom R&D, 11/04/23
Résultats quantitatifs obtenus sur EM
Stratégie de filtrage : Estimation-Maximisation (1ère itération)
Indice de filtrage Taux de sélection Précision
7 44% 42.9% (3.5% – 100%)
25 29.8% 47.3% (1.7% - 100%)
48 23.9% 47.3% (6.1% - 100%)
117 14.2% 54.9% (2.8% - 100%)
186 10% 66.6% (2.8% - 100%)
232 9.4% 65.4% (3.3% - 100%)
France Télécom R&D, 11/04/23
Résultats qualitatifs : un exemple
Relation d’achat
• 1ère itération :
' acheter', ' pour intégrer‘, vouloir réssusciter‘,' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' ramasser', ' parler', ' choisir‘,' permettre‘, signer‘,' supplanter', 'envoie au diable', ' lire, ' sélectionner', ' compter', ' signifier', ' collaborer pour intégrer', ' enfant utiliser', ' modifier‘,' choisir d‘,' défiler', ' lancer', ' dévoiler', ' qui acheter', ' absorber‘,' publier', ' envoyer un message'
• 2ème itération :
' acheter', ' pour intégrer', ' vouloir réssusciter', ' choisir', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler‘,' ramasser', " n' être", ' venir', ' passer', ' voir', ' féliciter', ' permettre', ' sélectionner', 'envoie au diable', ' lire', ' compter', ' supplanter‘, ' signer', ' détrôner', ' qui devancer', ' dominer', ' prendre', ' battre', ' signifier', ' devenir’, ' dépasser', ' ils parler', ' collaborer pour intégrer', ' enfant utiliser', ' qui signifier', ' qui parler', ' remplacer le magnétoscope', ' rejoindre'
• 3ème itération :
' acheter‘,' pour intégrer', ' vouloir réssusciter', ' utiliser', " c' être", ' tester le navigateur', ' de vouloir intégrer', ' parler', ' ramasser', ' choisir', " n' être", ' venir‘,' passer', ' féliciter', ' voir', ' permettre', 'envoie au diable', ' sélectionner', ' lire', ' compter', ' tracer', ' aimer', ' encourager', ' venir renforcer', ' obliger‘, ' à louer la', ' autoriser', ' rester sur', ' recevoir', ' qui voir', ' grouper'
France Télécom R&D, 11/04/23
Filtrage par la mesure de Jaccard pondérée (1/2)
Objectif : calculer l’indice de similarité entre chaque formulation acquise et la formulation de départ, en se basant sur des données de cooccurrence entre formulations et tuples d’arguments.
Principe : Nb de caractéristiques partagées (intersection) / union des caractéris.
11
1 2
11
( , ).
( , )( , ).( )
1 1
1 1 1 1
x
jj
x
jj
d a a
f f fd a a
j 1 j 2
j 1 j 2 j 1 j 2
n(a ,f )>0 n(a ,f )>0
n(a ,f )>0 n(a ,f )>0 n(a ,f )>0 n(a ,f )>0
.
+ .
France Télécom R&D, 11/04/23
Filtrage par la mesure de Jaccard pondérée (2/2)
Étape finale de classification :
Conservation des N meilleures formulations
Leurs distances d(F, F1) doivent être les plus fortes de toutes les formulations (F1
= formulation de départ)
France Télécom R&D, 11/04/23
Conclusions
• Mise en place d’un outil d’apprentissage automatique de paraphrases faiblement supervisé (1 exemple positif d’apprentissage)
• Stratégies de classification et de filtrage testées basées sur EM, Jaccard pondéré
• Intérêts :
• Paraphrases : amélioration du système de QA (réponses + rapides et + fiables, complexification des questions possibles), classification automatique de documents, recherche d’informations, résumé automatique, TAO, …
• Formulations thématiques (ex : AOL a acheté Netscape -> lancer, englober, investir, détenir, sauver, lorgner, …) : constitution d’annuaires thématiques
• Couples d’entités nommées acquis (ex : Castro dirige Cuba -> Irak – Saddam Husseim, Milosevic – Serbie, Chili – Salvador Allende, …) : lexiques sémantiques, constitution de BDD spécialisées
• Mécanisme d’apprentissage indépendant de la langue visée
France Télécom R&D, 11/04/23
• Amélioration acquisition :
• Formulations plus complexes (ex : l’acquisition de Y par X, analyse en dépendances)
• Reclassification préliminaire des previews : utilisation d’informations contextuelles pour améliorer la constitution du corpus à chaque requête
• Amélioration du filtrage :
• Autres méthodes de calcul de similarité (Chi2, cosinus, …)
• Autres stratégies de filtrage (prendre plusieurs phrases de départ, conserver les x meilleures formulations, exemples négatifs avec les y plus mauvaises formulations, supervision manuelle, éliminer les arguments avec peu de productions, …)
• Évaluation de mes travaux sur le système de QA
Perspectives pour les mois à venir
France Télécom R&D, 11/04/23
Références bibliographiquesE. Riloff : “Learning Dictionaries for Information Extraction by multi-level bootstrapping”, AAAI99.
R. Barzilay, K. McKeown : “Extracting paraphrases from a parallel corpus”, ACL01.
D. Lin, P. Pantel : “Discovery of inference rules for QA”, NL Engineering 7(4) : 343-360, 2001.
X. Zhu, R. Rosenfeld : “Improving Trigram Language Modeling with the World Wide Web”, ICASSP01.
C. Fuchs : “La Paraphrase”, PUF, 1982.
T. Hofmann : “Probabilistic Latent Semantic Analysis”, UAI99.
Publications de thèse :
F. Duclaye, P. Filoche, J. Sitko, O. Collin : “A Polish Question-Answering for Business Information”, BIS02
F. Duclaye, F. Yvon, O. Collin : “Using the Web as a linguistic resource for learning reformulations automatically”, LREC02
France Télécom R&D, 11/04/23
Merci !
Top Related