1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

55
1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

Transcript of 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

Page 1: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

1

Analyse syntaxique profonde sur corpus

« Alpage à Barcelone 2007 »

Benoit Crabbé

Page 2: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

2

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 3: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

3

Motivations générales Spécificité dans ALPAGE ?

Linguiste Idéologie : « Computational linguistics »

Utilisation de l’informatique pour apporter un éclairage nouveau sur l’étude de la langue française

En retour : volonté d’exprimer une théorie formalisée « computer friendly » du Français

Question générale Que tirer comme généralités de la linguistique de corpus ? Volonté de (contribuer à) formuler une grammaire du français

informée explicitement par les données empiriques (stats) Inspiration type Claire Blanche-Benveniste (GARS):

(Variationnisme) Contrastes de différents registres de langage : oral vs écrit

Confronter théorie introspective vs approche empirique

Page 4: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

4

Besoin premier Données structurées

Produire un observatoire sur la langue Française en particulier

Produire des ressourcesCorpus annotés en syntaxeDifférents genres (oral/écrit)

Produire les moyens de les exploiter Méthode qualitative (concordances) Méthodes quantitatives (stats)

N’existe à peu près pas pour le français…Et pas en syntaxe…

Page 5: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

5

Quels types de données ?

Corpus annotés et corrigés suivant une grammaire explicite Au moins constituants et fonctions

Bonnes propriétés informatiques Bonne expressivité linguistique

La partie essentielle dans l’annotation d’un corpus c’est la conception des guides d’annotation (= de la grammaire) :

= Explicitation de la théorie= Revient à décrire explicitement une grammaire de

performance (!) Conséquence = favorise la cohérence de l’annotation Pour le Français on pourrait s’inspirer de la GGF et du

FTB

Page 6: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

6

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 7: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

7 Problèmes du parsing symbolique pour

l’analyse de corpus Trois problèmes de l’analyse symbolique :

Ambiguité Non Robustesse Ouverture des données

Admettons que l’ambiguité puisse être résolue par des heuristiques de préférences (ex. Frazier & Fodor 78)

La non robustesse est fondamentale : Distinction grammatical ~ non-grammatical ex. Accord (Point fort de TAG) :

En théorie : La fille que le gars qui est venu hier a estimé que Pierre imagine que le frère de Julie pense que le garçon a aperçue

En corpus : Le professeur de français que le frère de Paul a vue hier s’en est allée. Mais c’était bien une femme !

Page 8: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

8 Propriété formelle d’un corpus : loi de

Zipf Les objets d’un corpus sont en distribution de Zipf :

Les mots Les règles de grammaire …

La distribution pour le LN est une distribution de rang/fréquence, pour chaque mot : Rang (r) = fonction du Nbre d’occurrences du mot

(ordre décroissant) Fréquence f(r) = Nbre de d’occurrences du mot de rang Loi de Zipf (version intuitive) :

Conséquences : Très peu de mots très fréquents Très grand nombre de mots de basse fréquence

f (r) =K

r

Page 9: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

9

Loi de Zipf

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Distribution Rang/Fréquence

d’une PCFG extraite du FTB

(treebank3+)

Distribution Rang/Fréquence

d’une PCFG extraite du FTB

(treebank3+)

Page 10: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

10

Conséquences L’analyse automatique de la langue naturelle à

large couverture demande de gérer le mieux possible les objets inconnus Méthodes de lissage en Stats Méthodes de prétraitement en analyse symbolique

Problème grammaire symbolique pour anal. corpus : Env. 2/3 des règles n’apparaissent que 1 ou 2 fois

Ecrire une grammaire exhaustive est inenvisageable Demande d’écrire « indéfiniment » des règles aussi

générales que les autres pour un nombre infini de cas rarissimes

--> Crée ambiguité Nécessité de distinguer le vraiment général du rarissime

Idem pour les lexiques

Page 11: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

11

La grammaire sur corpus

Annoter = écrire une grammaire Avantage sur la méthode symbolique :

Les cas rares sont associés à l’exemple annoté Induction d’une grammaire de treebank

Probabilités associées aux règles Surgénéralisation -> robustesse

Robustesse intéressante Produit généralement des arbres complets

Facilite le calcul sémantique (ex. RMRS)

Page 12: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

12

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 13: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

13

Paradigmes d’analyse syntaxique Paradigme génératif*

Modèles bayésiens de type PCFG « La grammaire engendre une chaine de surface »

Paradigme discriminatifParadigme discriminatif Modèles de type Maximum d’entropie et CRF Modèles de type Maximum d’entropie et CRF « Etant donnée une chaine de surface et l’ensemble des « Etant donnée une chaine de surface et l’ensemble des

analyses possibles, l’application d’un ensemble de analyses possibles, l’application d’un ensemble de contraintes ordonne les modèles pour garder le meilleur »contraintes ordonne les modèles pour garder le meilleur »

Modèles mixtesModèles mixtes Génératif : rapide mais expressivité réduiteGénératif : rapide mais expressivité réduite Discriminatif : expressif mais lentDiscriminatif : expressif mais lent ==> Mixte : reranking (Charniak 05, Collins 06): ==> Mixte : reranking (Charniak 05, Collins 06):

(1) Générer un sous-ensemble des solutions(1) Générer un sous-ensemble des solutions (2) Appliquer des contraintes pour les ordonner entre elles(2) Appliquer des contraintes pour les ordonner entre elles

Machine learningMachine learning Arbres de décision (Magerman 94); SSN (Henderson & Arbres de décision (Magerman 94); SSN (Henderson &

Titov 03)Titov 03)

Page 14: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

14

Paradigme génératif Modèles non lexicalisés

Vanilla PCFG BitPar (CKY all paths) Algos de Johnson (CKY Best First, 90s)

Problème formel de PCFG : Hypothèse d’indépendance conditionnelle est trop forte ==> Réintroduire des dépendances conditionnelles

Parent Transformation : (Johnson 99) Accurate Unlexicalised Parsing (Klein and Manning 2003) Berkeley Parser : Algorithme de Petrov (2006-2007)

Modèles lexicalisés (Collins 96-99, Bikel 2004-5, Charniak 2000-5) Problème de PCFG pour la langue nat :

Interaction avec le lexique Idée : combiner un modèle de langage en dépendances

lexicales avec un modèle de langage en constituantsProblème à addresser : dispersion des données

Page 15: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

15

PCFG Modèle de langage :

CFG dont chaque règle A --> est associée à une probabilité telle que :

Une PCFG définit une distribution de probabilité sur l’ensemble des arbres finis générés par la grammaire. Telle que la probabilité d’un arbre (t) :

Autrement dit, on calcule la probabilité conjointe d’engendrer cet arbre en posant une hypothèse d’indépendance conditionnelle entre les instances de règles qui interviennent pour dériver cet arbre

P(A→α ) =1α |A→α ∈P

P(t) = P(A→α )A→α ∈t

∏ P(A→α ) = P(α | A)[ ]

Page 16: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

16

Modèles non lexicalisés 1 : le split

SPLIT Problème PCFG : conditions d’indépendance trop

fortes « Coup de codage » (< HMM Trigrammes) Ex. Parent annotation (Johnson 1998)

=> Transformation (réversible) du Treebank Idée :

Un NP^S est un sujet, un NP^VP est un objet Un NP sujet est structurellement différent d’un NP Objet :

NP suj. plus court (pronom ou NP défini) qu’un NP objet

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image. ==>QuickTime™ et un

décompresseur TIFF (non compressé)sont requis pour visionner cette image.

Page 17: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

17 Modèles non lexicalisés 2 : le

mergeMERGE

Problème du split Spécialise trop les règles -> éparpillement des

données

Idée du MERGE : lissage Ex. Markovisation des règles (Klein,Manning

2003) = Mise en CNF dégénérée (// hyp. simplif. HMM)

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

BaseCNF = Markov(2) Markov(1) Markov(0)

Page 18: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

18 Modèles non lexicalisés 3 :

split/merge Algorithme de Berkeley (Petrov/Klein 06-07)

Split/merge sur les catégories de la grammaire + Markovisation d’ordre k

Utilise EM (< Dedans-Dehors < Baum Welch HMM) Convergence non garantie !

Remarque 1 : L’algorithme apprend tout seul à reconnaître des types

de constituants potentiellement intéressants : Grammaires des unités monétaires…

Remarque 2 : Algorithme qui repose uniquement s/ propriétés

formelles et de l’apprentissage => multilingue

Page 19: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

19

Architecture du processus

TreebankTreebank Treebank’Treebank’TransfoTransfo EstimationEstimation GrammaireGrammaire

ParsingParsingRaw TextRaw Text Transfo-1Transfo-1Treebank’Treebank’ TreebankTreebank

Entrainement :

Analyse :

Page 20: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

20

Modèles lexicalisés Collins 96-99 (Bikel 2004)/ Charniak 97 Intuition :

Combiner à la fois modèle PCFG et dépendances lexicales

Trois Modèles de langage : Modèle 1 : Head Driven Modèle 2 : Sous-cat (non illustré dans le talk) Modèle 3 : Dépendances à longue distance (non illustré)

+ Un algorithme de Lissage + Modèle de Repli (Backoff,non illustré) + Modèle de lissage lexical basique (suffixes prédéfinis,

non illustré)

Page 21: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

21

Lexicalisation motivations

Besoin d’informations lexicales ! Sous-catégorisation Coordination (scope)

Exemple, PCFG décide arbitrairement :

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.?

Page 22: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

22

Lexicalisation Annotation

Annote les têtes (Unité Lexicale + catégorie) Annotation semi-automatique par transduction sur la

grammaire (Magerman 95)

Problème : données beaucoup trop dispersées, demande d’estimer des probabilités pour des règles du type :

VP<lance,V> --> V<lance,V> NP<bille,N>càd :

P(V<lance,V>, NP<bille,N> | VP<lance,V)

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.==>

Page 23: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

23

Modèle 1 (Lecture

algorithmique) Pseudo-Markovisation

Hypothèse d’indépendance : Un élément de la règle dépend uniquement de la tête et de LHS

Exemple : VP<lance,V> --> STOP V<lance,V> NP<bille,N> STOP

Vue d’une règle de grammaire :

Génération de la tête : P(H|LHS) = P (V<lance,V> | VP<lance,V>)

Génération de la partie gauche : P(Li | H, LHS)

Génération de la partie droite : P(Ri | H, LHS)

LHS→ LnLn−1 ... H ... Rn−1Rn

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 24: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

24

Modèle 1 (Lecture probabiliste)

Soit :

On a le modèle suivant (modèle 1):

Complications supplémentaires : Ajout d’un paramètre de distance par rapport à la tête (Modèle 2) Ajout d’un paramètre ‘cadre de sous-cat’

pour les verbes

LHS→ LnLn−1 ... H ... Rn−1Rn

P(LnLn−1HRn−1Rn | LHS) = P(Li |H,LHS) × P(H | LHS)i=1

n

∏ × P(Ri |H,LHS)i=1

n

gauche droitetête

Page 25: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

25

Vision harissienne… Empruntée à (Pereira 00)

Z. Harris 91 : propose informellement une grammaire de dépendances basée sur la théorie de l’information (Collins l’implante largement)

Sélection lexico-sémantique (ex. traduits) : L’enfant dort ; Les oiseaux dorment peu; la ville dort ; les

arbres dorment en hiver ; le soleil dort…

COURANT <<>> INATTENDU

Digression (Corrélation probabilité / grammaticalité peu claire)

Chomsky 56 : argument prosodique (Pereira 00 : prob) les idées vertes incolores dorment furieusement (Proba haute) * furieusement vertes dorment idées les incolores (Proba

basse)

Page 26: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

26

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 27: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

27

Grammaire du français

But privilégié à long terme : Syntaxe sur corpus :

Données quantitatives sur la syntaxe du français Contraste entre grammaire de l’oral et grammaire de

l’écrit à partir de corpus annotés en syntaxe

But à court/moyen terme : Produire les annotations Outil privilégié :

Parser statistique Moyen envisagé :

Augmentation du French Treebank Ecrit et Oral (ESTER2)

Page 28: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

28

Analyse du françaisUtilisation du French Treebank

Version très récente Ré-annotation des composants internes de

mots composés Fonctions syntaxiques (dépendants verbaux)

Spécificités (vs PTB) Annote les mots composés Morphologie Lemmes Cat et sous-cat

Page 29: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

29

FTB : Exemple <SENT nb="453">

<w cat="ADV" ee="ADV" ei="ADV" lemma="pourtant"> Pourtant </w>

<w cat="PONCT" ee="PONCT-W" ei="PONCTW" lemma="," subcat="W"> , </w>

<w cat="ADV" ee="ADV" ei="ADV" lemma="globalement"> globalement </w>

<w cat="PONCT" ee="PONCT-W" ei="PONCTW" lemma="," subcat="W"> , </w>

<NP fct="SUJ">

<w cat="D" ee="D-def-fs" ei="Dfs" lemma="le" mph="fs" subcat="def"> l’ </w>

<w cat="N" ee="N-C-fs" ei="NCfs" lemma="économie" mph="fs" subcat="C"> économie </w>

</NP>

<VN>

<w cat="ADV" ee="ADV-neg" ei="ADV" lemma="ne" subcat="neg"> n’ </w>

<w cat="V" ee="V--P3s" ei="VP3s" lemma="être" mph="P3s" subcat=""> est </w>

</VN>

<w cat="ADV" ee="ADV-neg" ei="ADV" lemma="pas" subcat="neg"> pas </w>

<AP fct="ATS">

<w cat="A" ee="A-qual-fs" ei="Afs" lemma="apathique" mph="fs" subcat="qual"> apathique </w>

</AP>

<w cat="PONCT" ee="PONCT-S" ei="PONCTS" lemma="." subcat="S"> . </w>

</SENT>

Page 30: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

30

Fiche signalétique du FTB

Token counts : 385458Type counts : 24098Tag token counts : 385458Non Tag Symbol token counts : 242551Function token counts : 65055Sentence counts : 12351Compound tokens : 55950 (14.52%)

Page 31: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

31

Stats brutes diverses

88702 NP48883 PP28298 VN13687 AP12351 SENT9286 N8813 COORD7024 VPinf4929 VPpart3636 Srel3576 ADV3298 P3287 Ssub2395 D1682 Sint778 C732 AdP500 V352 A307 PRO28 ET5 CL2 I

Symboles

96372 N66102 D62965 P50481 PONCT39841 V26385 A15662 ADV11320 C8433 CL6116 PRO1502 ET235 PREF44 I

Tags20756 MOD19056 SUJ15162 OBJ3320 ATS2253 A-OBJ2192 DE-OBJ1469 P-OBJ272 obj245 ATO124 SUJ/OBJ64 SUJ/A-OBJ45 Aobj32 SUJ/DE-OBJ27 DEobj9 OBJ/A-OBJ8 SUJ/MOD6 SUJ/ATS5 SUJ/P-OBJ2 DE-OBJ/OBJ1 A-OBJ/DE-OBJ…

FonctionsPCFG

45420 PP --> P NP22828 NP --> D N14788 VN --> V13825 NP --> N11674 NP --> D N PP10673 AP --> A4535 NP --> D N AP4528 VN --> CL V4204 NP --> PRO3340 VN --> V V2972 N --> N A2510 COORD --> C NP…

Page 32: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

32

Construction de l’outil d’annotation

Analyseur syntaxique dérivé du French Treebank comme outil d’annotation

Buts de l’outil d’annotation : Doit être aussi ‘correct ?’ (angl. accurate) que possible

=> peu d’intérêt pour les questions d’efficacité Sorties aussi riches que les données d’entraînement

=> But non standard en stat parsing : Categories (+sous-cats) Morphologie + lemmes Mots composés (originalité du FTB : 14% des tokens !) Fonctions syntaxiques

En cours… deux étapes : Analyse en constituants Analyse en fonctions syntaxiques (prospectif)

Corollaire : proposer des améliorations à la grammaire existante

Page 33: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

33

Cinq+ expériences Génération de treebanks opérationnels à partir du

FTB Treebank 1

Baseline Treebank 2

But : interface avec analyseur morphologiqueVariante : Treebank2+ (mots composés)

Treebank 3 (en cours)But : maximiser la correction de la grammaire induiteVariante : Treebank3+ (mots composés)

Treebank 4 (prospectif)But : maximiser la correction de la grammaire induite Variante prévue : Treebank4+ (mots composés)

Treebank 5 (prospectif, non illustré dans le talk)But : extraction de fonctions syntaxiquesVariante prévue : Treebank5+ (mots composés)

Page 34: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

34

TreeBank 1 But

Fournit une baseline indicative Contenu

Utilise uniquement les catégories majeures Mots composés sont ignorés (Catégories des composés

ont même statut que les autres) Fusion des traces

Ex : du/P -None-/D --> du/P+D Fusion des nombres en chiffres arabes : 19 000 , 8 -->

19000,8 Exemple :

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 35: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

35

Treebank 2 But

Produire un jeu de tags interfacé avec un analyseur morpho (ex. FLEMM)

Contenu = Treebank 1 + : Ajout des infos du trait subcat + morphologie sur les

Terminaux Enrichissement artificiel des annotations de mots composés

(traits de souscat non annotés) pour éviter les biais Variante (Treebank2+)

Fusion des mots composés = 1 seul Token

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 36: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

36

Treebank 2Jeu de tags compatible avec FLEMM-TT

=>> Inférence de morphologie =>> ‘Many to one’ mapping sur FLEMM-TT

67354 NC49341 DET46337 PONCT40623 P20950 ADJ10941 NPRP10372 VP3SG10337 VPP9738 P+D8839 ADV7612 CC7059 VINF

4153 CLS4081 VP3PL3918 ADVNEG3544 PROREL2630 CS2424 CLR2018 VIPF2011 PRO1506 CLO1407 VPR1354 VF1027 VC

360 VSP311 VP234 PREF225 VPAST196 ET82 PROWH58 P+PRO44 VIMP43 I28 DETWH9 VSIPF

Page 37: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

37

Treebank 3 But

Améliorer la correction de l’analyse

Contenu Modifications des catégories non terminales

(heuristiques) Se rappeler de la parent transfo de Johnson !

1) Enrichissement du jeu de tags de traits : MODE,WH, REL…

2) Propagation des traits dans les arbres //grammaires symboliques

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 38: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

38

Treebank 4 (Prospectif)

But : Améliorer la correction de l’analyse

Contenu : Modifications structurelles des arbres Identifier un/des constituants S clairs (vs SENT)

Introduction d’un niveau SBAR vs S Introduction d’un trait INV (inversion) Mise en évidence des structures à extraction (WH, REL) Mise en évidence des complémenteurs

Gérer la coordination … [à voir]

Normalisation de la ponctuation Cause d’éparpillement des données

Idée générale : remonter la ponctuation Ponctuation « parenthétique » : descendue au niveau du

constituant parenthésé si possible Traiter le ‘:’ comme une CS

Problème: Difficile de garantir la correction automatisée des

modifications Suggère des extensions/modifs du schéma d’annotation

Page 39: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

39

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 40: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

40

Evaluations I But :

Décider quel algorithme d’analyse est le mieux adapté pour parser le français (Charniak ignoré, trop spécifique au PTB)

Protocole : Concertation avec S. Petrov Vieux Treebank d’Edinburgh (composés fusionnés):

80% entrainment 10% dev 10% test

Unlexicalised Parsing : Berkeley parser : sans modifications

Tagging accurracy : bug < schéma d’annotation Parsing : Labelled F1-Score : bug < schéma d’annotation Parsing coverage : bug < schéma d’annotation

Lexicalised Parsing : Bikel (Collins emulation, Abishek Arun Edinburgh)

Tagging accurracy : 95.20% (Tagger = TNT) Parsing : Labelled F1-Score : 79.13 Parsing coverage : 99.97%

Page 41: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

41 Evaluations II

But : Comparer différents schémas d’annotation

Protocole French Treebank récent 80% entrainement 10% dev 10% test Berkeley parser : évaluation par evalb avec paramètres

Collins Expériences :

Treebank 1 : Tagging accurracy : 97.84% Parsing : Labelled F1-Score : 82.16 Parsing coverage : 100%

Treebank 2 : Tagging accurracy : 91.49% Parsing Labelled F1-Score : 82.43 Parsing coverage : 99.9%

Treebank2+ : Tagging accurracy : 96.40 Parsing Labelled F1-Score : 83.57 Parsing coverage : 99.9%

Treebank3+: Tagging accurracy : 96.73 Parsing Labelled F1-Score : 84.23 Parsing coverage : 99.9%

Page 42: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

42

Commentaires

On choisit l’analyseur de Berkeley Hypothèse : Bikel biaisé par des heuristiques X-BAR type PTB.

FTB ne suit pas X-BAR.--> suggère : modif. sérieuses de l’algo Bikel pour le Français

Mise en place d’un ‘Vanilla PCFG’ : TNT + LNCKY de Johnson Avec Treebank3+, on obtient F = 84.23 ; meilleur résultat en

constituants obtenu à ce jour pour le français : Edinburgh-fr : F = 79.13 Dublin-mft : F = 83.5 Avec Treebank 1 on obtient les meilleurs résultats en tagging ?

Comparaison avec autres langues : Anglais : F = 90.6 (Charniak 05 = 92.0) Allemand : F = 80.75 (Berkeley) Chinois : F = 86.3 (Berkeley) Espagnol : F = 85.1 (Collins 05) Italien : F = 68.49 (Corazza 04 , mini treebank de 1500 phrases)

Page 43: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

43

Améliorations envisagées

Il y a encore pas mal de marge pour améliorer… >> Thématique de recherche (Mots composés) :

On voit que les mots composés sont mal gérés (Treebank2 vs 2+): Suggère une stratégie en pipeline avec dico + apprentissage

endogène à la Bourigault Suggère une stratégie originale en pipeline inversé :

augmentation de l’annotation du FTB (subcat) pour les mots composés. Parsing d’abord avec détection des mots composés à postériori.

Expériences à venir avec Treebank 4 et 5 Error mining Meilleur modèle de langage pour estimer les mots inconnus

Réutilisation de l’algo de Brants /Samuelsson (TNT)

Page 44: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

44 Remarque choix des

transformations

Comment trouver les bonnes transformations ? Deux aspects

Théorie linguistique sert de guide Théorie de l’information aussi :

Faire baisser l’entropie croisée de la grammaire Mais pas le F-Score :

Dépendant d’un+ algorithme

Synthèse : En modifiant le Treebank, on fait « tourner un EM à la

main » en cherchant à converger vers le modèle d’entropie minimale (en fait l’entropie croisée pour des raisons techniques)

Page 45: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

45

Remarque implémentation

Travail d’implantation sous-jacent : Architecture ciblée = pipeline UNIX Python + lib NLTK Format de travail = PTB/Brown

Permet la réutilisation d’outils de la communauté Parsers (Berkeley, Johnson), evalb, tgrep2, etc. Taggers : Brill/MXPOST Segmenteur : MXTERMINATOR

Format IMS IMS CWB, TNT, TreeTagger

Commandes ciblées : convert (= recode) tsed (= sed) tdiff (= diff) tgrep (= grep) twc (= wc) treeviewer

Analyse de données : R

Page 46: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

46

Screenshot

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)

sont requis pour visionner cette image.

Page 47: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

47

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 48: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

48

Perspective Analyse fonctionnelle

Tâche connue : Functional Role Labelling

Intérêt : Comparaison avec l’état de l’art français

(Syntex/PASSAGE) Annotation en fonctions ‘de surface’ Pas très utile pour le TAL (--> dépendances sémantiques)

Jeu de fonctions envisagé : Jeu de RASP (= GDE++ de Caroll et. Al.) Plus fin que Passage et FTB, possible de le dégrader pour

comparaisons Annotation :

Relationnelle ou sur constituants ? => les deux mais préférence pour annotation sur

constituants

Page 49: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

49

Techniquement

Deux options :Approche intégrée

Le parser annote directement en fonctions = Usage de catégories complexesProblème attendu : éparpillement des données

Approche en pipelineLe parser annote uniquement en constituantsTagger fonctionnel en seconde passe

Page 50: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

50

Pipeline Pipeline :

Tagger Fonctionnel Stat

(voir Blaheta et Charniak, Merlo et Henderson) (Proposition) symbolique :

Adapter l’algo d’annotation de Collins à des fins d’annotation fonctionnelle Identifier têtes (Magerman 95) Identifier arguments

Extraire relations (n-tuples avec n = 3 or 4), exemple :

Jean demande à Marie de partir à quatre heures (sujet, Jean, demander) (objet, à, Marie, demander) (xcomp,de,partir,demander) (sujet,Marie,partir) //optionnel dans un premier temps (mod,à,heures,partir) // dépend de la désambig.

Page 51: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

51

Exemple

Source Annotation constituants (Tête/arg)

Propagation

S ==> NP[SUJ] VN[H] NP[OBJ]NP ==> D ADJ N[H]NP ==> D N[H]

(sujet, garçon,lance)

(objet,balle,lance)

Extraction de tuples

Page 52: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

52

Plan de l’exposé 

Motivations et objectifs de recherche Motivations générales Inadéquation des grammaires symboliques pour

l’analyse de corpus et préférence aux modèles statistiques

Analyse syntaxique statistique du Français Algorithmes d’analyse Développement de grammaire sur le FTB Premiers résultats Perspectives

Collaborations et Intégration dans ALPAGE

Page 53: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

53

Sujets de recherche Vital :

Mots composés et expressions multi-mots (traitement algo) Capital pour l’analyse du Français (Bcp Prépositions + Conj sub composés)

Bonus : Ajout d’un tagger sémantique

Sémantique lexicale (voir Gildea-Palmer & cie) Sémantique formelle (voir Bos, Clark, Curran & cie)

Sortent des (U-)DRS

Discours et Anaphores Résolution d’anaphores Relations de discours

Super Bonus : Algo d’analyse syntaxique stat

(ATOLL) Dériver des treebanks pour d’autres cadres

E.g. grammaires de dépendances

Page 54: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

54

Collaborations Collaborations envisageables :

Abeillé + LLF : syntaxe du Français (+ oral) Amsili ? : Sémantique formelle Candito : (grammaire ? Mots composés ? Sémantique

lex. ?) Sagot : mots composés ? + interfaces lexique LEFFF Seddah : comparaisons algos parsing (Bikel/Collins) Manuélian : anaphores Nasr : algos parsing (modèles discriminatifs) Student friendly Autres ?

Prix Diderot Valorisation : Financement

Page 55: 1 Analyse syntaxique profonde sur corpus « Alpage à Barcelone 2007 » Benoit Crabbé

55

En marge… Grammaires TAG

XMG : Développements de grammaires du français (fini)

KMG : Sinwon Yoon : Grammaire TAG du coréen

FTAG S. Barrier : Adjectifs

MLV Grammaire TAG du français

Chinois ? Segmentation et parsing : P. Magistry pour le DEA