9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de...

24
9 octobre 2009 ATALA 1 L’analyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève [email protected] , [email protected] http://www.latl.unige.ch

Transcript of 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de...

Page 1: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 1

L’analyseur syntaxique Fips

Eric Wehrli, Luka Nerima

LATL-Département de linguistique

Université de Genève

[email protected], [email protected]

http://www.latl.unige.ch

Page 2: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 2

LATL

La recherche en TAL au LATL

Développement d’une plateforme multilingue pour le traitement automatique des langues

Analyseurs, étiqueteurs, phonétiseurs, extracteurs terminologiques, générateurs de phrases, etc.

Cœur du système : l’analyseur Fips Analyseur syntaxique « profond », basé sur une interprétation

assez libre de la théorie de la grammaire générative chomskyenne

Quelques propriétés de Fips analyseur ascendant, avec une stratégie d’attachement à

droite traitement parallèle des alternatives recours à des heuristiques pour limiter le nombre

d’alternatives

Page 3: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 3

LATL

Le modèle de grammaire

Basée sur le modèle chomskyen des principes et paramètres, ainsi qu’en partie sur le modèle minimaliste.

Toutes les structures syntaxiques obéissent au même schéma:

où X (∈ {N, V, A, D, P, Adv,Conj}) est la tête de la projection XP, L et R sont des listes de projections maximales (les sous-constituants gauches et droits du syntagme XP).

Les attachements à gauche et à droite sont décrits dans un (pseudo) formalisme, à la fois relativement intuitif et facile à encoder.

[XP L X R ]

Page 4: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 4

LATL

Crée une projection syntaxique

soit à partir d’un item lexical:

X --> XP X ∈ {N, V, A, D, P, Adv, Conj} projection étendue (métaprojection):

verbe conjugué -->

pronoms et noms propres --> DP

Le mécanisme de projection

VPT

TP

Page 5: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 5

LATL

Combinaison (merge)

Combine deux projections adjacentes A et B attache A comme sous-constituant de B

(=attachement à gauche) ; attache B comme sous-constituant d’un nœud actif sur l’arête

droite de A (attachement à droite) :

A

B

A B

Page 6: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 6

LATL

Procédure d’attachement « coin droit »

TP

VPDP

DP

Jean a lu un

Pile de nœuds actifs :

…poème

NP

Page 7: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 7

LATL

Exemples de règles d’attachement à gauche

AP + NPa.AgreeWith(b, {number, gender})

a.HasFeature( prenominalAdj)

DP + TPa.AgreeWith(b, {number, person})

a.IsArgumentOf(b, subject)

DP + PPb.HasFeature(postposition)

Page 8: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 8

LATL

Exemples de règles d’attachement à droite

NP + APa.AgreeWith(b, {number, gender})

~b.HasFeature( prenominalAdj)

VP + DPb.IsArgumentOf(a, {directObject})

PP + DPa.HasFeature(preposition)

a.EmptyRight()

Page 9: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 9

LATL

Grammaire procédurale

La partie procédurale de la grammaire de Fips comprend :

Un mécanisme de construction de chaînes (mouvement-wh, constructions clitiques dans les langues romanes, etc.)

Un mécanisme de traitement des structures prédicat-arguments (verbes, noms, adjectifs prédicatifs) La structure argumentale est spécifiée dans l’entrée

lexicale (nombre et type des arguments – fonction grammaticale et attributs, par ex. type de la préposition pour un argument de catégorie PP, type de phrase pour un argument S, etc.).

Page 10: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 10

LATL

Opérations sur la structure argumentale

Certains processus grammaticaux modifient la structure argumentale d’un prédicat :

Le passif

peut être vu comme un processus d’absorption du sujet, soit en syntaxe (anglais, langues romanes, etc.), soit dans la morphologie (hongrois, japonais, latin, etc.).

Constructions causatives

En français, la construction faire + Vinf est analysée comme un processus de modification de la structure argumentale du verbe infinitif par l’adjonction d’un argument supplémentaire (le sujet du verbe « faire »), ce qui provoque le reclassement du sujet du verbe infinitif sous la forme d’un objet direct ou d’un objet indirect.

Paul corrige cette épreuve

Jean a fait corriger cette épreuve à Paul

Jean lui a fait corriger cette épreuve

Page 11: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 11

LATL

Identification des collocations

Les collocations associent deux unités lexicales qui entretiennent un rapport syntaxique étroit, soit de modification, soit de complémentation.

La procédure de reconnaissance intervient au moment de l’attachement d’un constituant.

Paul est un gros fumeur Paul a battu son record du saut en longueur

Le mécanisme de chaînage permet d’exprimer la relation entre position de « surface » et position « profonde ».

Le record qu’elle a battu datait d’une dizaine d’années Ce record, Jean le considère comme difficile à battre

Page 12: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 12

LATL

Catalogue des lexiques

lexique monolingue mots mots composés (mots contigus)

lexique des collocations combinaison arbitraire et récurrente de mots, non

nécessairement adjacents, nombreuses configurations syntaxiques

p.e. exercer - profession, république bananière, code de la route

contient aussi les idiomes - avaler la pilule, promettre la lune

Page 13: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 13

LATL

Schéma conceptuel du lexique monolingue

Motchaîne orthographiquechaîne phonétique

Paradigme flexionnel

Nom Verbe Adj Det Adv Conj Interj

pers.tempsmode

genrenombre

genrenombre

Lexème

Nom Verbe Adj

type Vtraits syntraits sem

type Nomtraits Nom

1 *

traits Adj*

forme de base 1

autre forme

Arg N Arg V

Prep

Arg Adj

0..1 (0)1..4 0..1

fct gramfct thematraits sel

fct gramfct thematraits sel

fct gramfct thematraits sel

Prep

type

Det

type

< est réalisé par

association

généralisation (est un)

composition

« xor »

Variantegraphie alternativetype variante

* varie 1

Page 14: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 14

LATL

Le lexique des collocations

ensemble d'associations binaires d’items lexicaux

Item lexical

associe ^

2

*

Lexème Collocation

chaîne orthographiquetype (configuration syntaxique)traits de figement

définition récursive de la collocation permet de prendre en compte des collocations > 2 termes p.e. tomber en panne sèche, arme de destruction massive

Page 15: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 15

LATL

Interface monolingue

Page 16: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 16

LATL

Interface monolingue

Page 17: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 17

LATL

Interface monolingue - insertion

Page 18: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 18

LATL

Interface monolingue - insertion

Page 19: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 19

LATL

Interface monolingue - insertion

Page 20: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 20

LATL

Interface monolingue - insertion

Page 21: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 21

LATL

Interface collocation

pour l'entrée manuelle des collocations outil d'assistance sophistiqué

1) analyse de la collocation entrée (Fips) 2) propose les unités lexicales (base et collocatif) 3) détermine le type de la collocation 4) détermine les traits de la collocation

Page 22: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 22

LATL

Interface collocation - insertion

Page 23: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 23

LATL

Lexiques - quelques chiffres

lexèmes fr: 40’163 entrées

mots fr: 237’729 entrées

collocations fr: 14’091 entrées

Page 24: 9 octobre 2009ATALA1 Lanalyseur syntaxique Fips Eric Wehrli, Luka Nerima LATL-Département de linguistique Université de Genève Eric.Wehrli@unige.chEric.Wehrli@unige.ch,

9 octobre 2009 ATALA 24

LATL

Conclusion

L’expérience accumulée avec les différentes versions de l’analyseur Fips a permis d’affiner (et souvent de simplifier) par étapes la structure et l’implémentation de ce modèle d’analyseur, jusqu’à la version actuelle.

Le double choix d’un modèle linguistique abstrait (théorie chomskyenne) et d’une modélisation basée sur la notion d’objets se révèle judicieux pour la réalisation d’un analyseur multilingue.

L’évaluation d’un analyseur syntaxique est une opération difficile, qui n’a pas encore été entreprise pour l’analyseur Fips. En attendant les résultats de la campagne d’évaluation PASSAGE, nous pouvons faire état des quelques chifffres suivants :

> 80% d’analyses complètes (anglais et français) sur des corpus journalistiques ;

~0,2% de mots inconnus (hors noms propres) ; Temps de traitement : 100-250 mots/seconde.