Pascale S ébillot Équipe TexMex, IRISA, Rennes

27
Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect boîte noire Pascale Sébillot Équipe TexMex, IRISA, Rennes

description

Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect bo îte noir e. Pascale S ébillot Équipe TexMex, IRISA, Rennes. Plan. Acquisition num érique versus symbolique Principes de la programmation logique inductive (PLI) - PowerPoint PPT Presentation

Transcript of Pascale S ébillot Équipe TexMex, IRISA, Rennes

Page 1: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Acquisition de connaissances linguistiques en corpus par apprentissage symbolique

ou quand l’apprentissage perd son aspect boîte noire

Pascale Sébillot

Équipe TexMex, IRISA, Rennes

Page 2: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Plan

Acquisition numérique versus symbolique

Principes de la programmation logique inductive (PLI)

Expérience d’acquisition de relations sémantiques nomino-verbales par PLI

Page 3: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Acquisition numérique versus symbolique

Pas opposition numérique vs linguistique Approche numérique

exploite l’aspect fréquentiel des données utilise des techniques statistiques indices statistiques, analyse distributionnelle…

Approche symbolique exploite l’aspect structurel des données utilise des informations structurelles ou symboliques expertise linguistique ou apprentissage symbolique

Page 4: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Indices statistiques (app. num.)

Cooccurrences dans une fenêtre

Mots apparaissant ensemble de manière

statistiquement significative

Coefficients d’association table de contingence

coefficient d’information mutuelle IM= log2(a/(a+b)(a+c))

test du 2 (Church-Gale 91) = (ad-bc)2/((a+b)(a+c)(b+c)

(b+d))

Segments répétés (Lebart et Salem 94)

m2 mk≠m2

m1 a b

ml≠m1 c d

Page 5: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Analyse distributionnelle (app. num.)

Linguistique Harrissienne (Harris et al. 89) Approches en 3 étapes

extraction des cooccurrents d'un mot mise en évidence de la proximité/distance

des mots 2 à 2 selon leurs cooccurrents regroupement en classes

Classes sémantiques… Grefenstette 94, Bouaud et al. 97…

Limites : interprétabilité, détection au niveau du corpus… mais portabilité

Page 6: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Approche linguistique (app. symb.)

Définitions opérationnelles des éléments à acquérir, établies par expertise linguistique

Patrons, marqueurs Lexter (Bourigault 94)… Seek (Jouis 95) : règles d'exploration

contextuelle plus de 220 règles SI <condition de co-présence de marqueurs

linguistiques> ALORS <actions> OU <conclusions> manipulant plus de 3300 marqueurs linguistiques, construites manuellement

détection de couples de mots en relation binaire (localisation, tout à partie…)

Page 7: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Apprentissage symbolique (app. symb.)

Marqueurs de la relation issus d’une analyse d’exemples et non d’une connaissance linguistique a priori extraction de patrons à partir d’exemples

Hearst (92) : méthodologie en 5 étapes1. choisir une relation cible R2. réunir une liste de paires en relation R3. trouver les phrases contenant ces paires ; enregistrer leurs

contextes lexical et syntaxique4. trouver les points communs entre ces contextes ; supposer

que c’est un schéma de R5. appliquer les schémas pour avoir de nouvelles paires et

retourner en 3

Hyponymie (Morin 99) SN tel que LISTE (arbres fruitiers tels que des pommiers, des

poiriers…)

Page 8: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Intérêt de l’approche symbolique

Interprétabilité, détection au niveau de l’occurrence

Définition opérationnelle d’un concept Intérêt quand une relation est connue

partiellement en extension et pas en intention, c’est-à-dire non formalisée par une règle

Généraliser automatiquement apprentissage artificiel (automatique) symbolique

Page 9: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Principes de la PLI [Muggleton & De Raedt 94]

Intérêt : exemples à manipuler contenant un nombre variables d’objets et relations entre objets importantes

Technique d’apprentissage symbolique supervisée E+ et E- : exemples positifs et négatifs (contre-exemples) B : connaissances préalables (background knowledge) B, E+, E- exprimés en logique des prédicats

But : l’algorithme de PLI infère, par généralisation des exemples positifs, des règles (hypothèses, clauses) H qui caractérisent les exemples positifs par rapport aux négatifs

possibilité d’autoriser un peu de bruit (exemples négatifs couverts)

Page 10: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Exemple : apprendre quels animaux volent

E+ = {vole(canari). vole(chauve-souris).} E- = {:-vole(chien).} B = {oiseau(canari). mamm(chien). mamm(chauve-

souris). ailé(chauve-souris). ailé(canari).} H = {vole(X) :- ailé(X).}

vole(X).

vole(X) :- oiseau(X).

vole(X) :- mamm(X).

vole(X) :- oiseau(X), mamm(X).

vole(X) :- ailé(X).

Eh

général

spécifique

Page 11: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Un peu plus formellement… Choix du langage des exemples et du langage des

hypothèses Lien entre les deux espaces : notion de couverture Hypothèses organisées par une notion de

généralisation Algorithme de PLI (ALEPH - Srinivasan 00)

1. choisir un exemple dans E+ ; arrêt s’il n’y en a plus

2. définir un espace de recherche d’hypothèses à partir de E+ et du langage d’hypothèses

3. rechercher l’hypothèse dans l’espace de solutions maximisant une fonction de score

4. conserver cette hypothèse et ôter les exemples qu’elle couvre (explique) ; retourner en 1

Page 12: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Expérience d’acquisition de relations sémantiques N-V par PLI

Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco) et V. Claveau (Irisa) logiciel ASARES

Acquisition de couples N-V sémantiquement liés Liens définis dans la structure des qualia du Lexique

génératif (Pustejovsky 95) : rôles qualia télique : fonction ou but d’un objet (couper – couteau) agentif : mode de création d’un objet (construire – maison) couple N-V qualia par la suite

Pas d’a priori sur les structures portant les rôles qualia dans un corpus

Méthode symbolique d’acquisition : intérêt linguistique (schémas porteurs, verbalisation des rôles)

Page 13: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Extraction symbolique supervisée

Concept à apprendre : distinguer les paires N-V qualia des non-qualia en contexte (en corpus)

Informations utilisées contexte (informations apportées par étiquetages) ordre et distance entre N et V, succession des mots

Construction d’ensembles d’exemples E+ et E- par un expert

e+ : « À l’aide des manettes, déverrouiller le siège et ... » e- : « Gonfler la roue à la pression prescrite... »

Règles générées = patrons d’extraction interprétables

fonction

?

Page 14: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

couples qualia

Extraction symbolique supervisée

E+ et E-

expert LG

corpus

corpus étiquetéÉtiquetage

s

système PLI

patrons d’extraction

B

?

Page 15: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Corpus et étiquetages Manuel de maintenance d’hélicoptères de MATRA-CCR

corpus technique : nombreux termes concrets vocabulaire et structures syntaxiques homogènes 104 000 mots, 700 Koctets

Étiquetage catégoriel segmentation, lemmatisation, étiquetage (moins de 2%

d’erreurs) manettes est un nom commun au pluriel

Étiquetage sémantique (Bouillon et al. 00)

construction d’une hiérarchie d’étiquettes (à partir de WordNet) ex : un instrument est un type d’artefact, d’objet... manettes désigne un instrument moins de 1.5% d’erreurs

Page 16: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Exemples et connaissances a priori

Exemples description des mots de la phrase

étiquettes catégorielles étiquettes sémantiques

description des successions de mots distance en nombre de mots et verbes entre N et

V

Connaissances préalables : entre autres les hiérarchies des étiquettes catégorielles et sémantiques pour permettre des généralisations

Page 17: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Spécificités

Hypothèse bien formée pour identifier une paire N-V qualia clause donnant des informations sur les mots (N, V,

mots du contexte) ou sur les positions respectives du N et du V dans la phrase

Prise en compte des connaissances hiérarchiques

Règles linguistiquement pertinentes concision : au plus une information catégorielle et

sémantique par mot introduction de variables si contraintes

Page 18: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Inférence des patrons d’extraction

Supervision : 3000 exemples positifs et 3000 négatifs

Apprentissage : 20min (vs 12h+ sans modifications)

Résultats : 9 patrons inférés is_qualia(N,V) :- precedes(V,N), near_verb(N,V),

infinitive(V), action_verb(V). V d’action à l’infinitif + (tout sauf un verbe)* + N obturer avec les bouchons is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C),

pred(N,D), punctuation(D), singular_common_noun(N). V + : + (tout mot)* + [:,;] + N ouvrir : le capot coulissant, le capot droit et…

Page 19: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Résultats - validation

Validation théorique de l’apprentissage et de ses paramétrages (validation croisée)

Validation empirique jeu de test sous-corpus de 32 000 mots focus sur 7 noms : vis, écrou, porte,

voyant… 286 paires annotées par des experts du LG,

dont 66 qualia

Page 20: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Résultats - validation Application des 9 patrons et

comparaison des résultats d’extraction des patrons inférés à ceux des experts

Calcul des taux de rappel, précision et F-mesure (2PR/(P+R))

Système

Précision (P) Rappel (R)

F-mesure

PLI 62.2% 92.4% 0.744

Page 21: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Comparaison avec des méthodes d’extraction statistiques

Cooccurrences de N et V dans une phrase, basées sur les lemmes

Meilleure précision mais taux de rappel plus faible Travail uniquement sur les lemmes alors que la PLI

bénéficie d’informations sémantiques et catégorielles Pas besoin de supervision

Système Précision (P) Rappel (R) F-mesure

PLI 62.2% 92.4% 0.744

coeff Ochiai 82.4% 42.4% 0.56

coeff IM3 92.3% 36.4% 0.522

test chi2 78.1% 37.9% 0.464

coeff loglike 80% 42.4% 0.554

Page 22: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Comparaison avec une méthode syntaxique manuelle

Extraction basée sur une analyse syntaxique : annotation syntaxique (sujet, objet, modifieur) manuelle des paires N-V

Paire N-V détectée si en relation syntaxique

Le lien qualia est plus qu’un simple lien syntaxique (rappel) (poser l’ensemble : rondelle, vis et serrer au couple)

Système Précision (P)

Rappel (R)

F-mesure

PLI 62.2% 92.4% 0.744

lien synt. 79.2% 86.4% 0.826

Page 23: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Pertinence linguistique des patrons d’extraction

1. is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V), action_verb(V).

2. is_qualia(N, V) :- contiguous(N, V).3. is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N,

V), suc(V,C), preposition(C).4. is_qualia(N, V) :- near_word(N, V), sentence_beginning(N).5. is_qualia(N, V) :- precedes(V, N), singular_common_noun(N),

suc(V,C), colon(C), pred(N,D), punctuation(D).6. is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D),

action_verb(D).7. is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C),

punctuation(C).8. is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D),

pred(D,E), preposition(E), sentence_beginning(N).9. is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C),

subordinating_conjunction(C).

Page 24: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Pertinence linguistique des patrons d’extraction

À ce niveau de généralisation, peu de marqueurs linguistiques usuels sauf informations morphologiques et sémantiques pour les verbes

infinitifs et verbes d’action privilégiés

Autres critères proximité : N et V proches dans la phrase, sans verbe entre eux position : N ou V souvent en début de phrase (en particulier V) ponctuations telles que « : » « , » « ; » catégorisation morphosyntaxique

1e clause verbe d’action à l’infinitif débrancher les prises, déposer les obturateurs…

Page 25: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Pertinence linguistique des patrons d’extraction

Patrons propres au corpus et interprétables Recoupement en partie de structures trouvées

manuellement (Galy 00) V infinitif + déterminant + N (visser le bouchon) N + V (un bouchon obture) être + V participe passé + par + déterminant + N (sont obturées par

les bouchons) …

Pertinence des structures infinitives, patrons avec N et V proches

Généralisations des structures de Galy (actif et passif clause 2)

Non trouvés : marqueurs polylexicaux (avoir pour but de…)

Mais indices nouveaux par rapport à l’analyse manuelle

Page 26: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Approche numérique vs symbolique

Numérique méthodes portables, automatiques résultats peu interprétables détection au niveau du corpus : une occurrence (retenue

ou non) pas explicable cas rares problématiques

Symbolique connaissances a priori (patrons, exemples) résultats interprétables détection au niveau de l’occurrence cas rares pouvant être pris en compte

Page 27: Pascale S ébillot Équipe  TexMex, IRISA, Rennes

Acquisition de connaissances linguistiques en corpus par apprentissage symbolique

ou quand l’apprentissage perd son aspect boîte noire

Pascale Sébillot

Équipe TexMex, IRISA, Rennes

Merci de votre attention