Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales...

21
Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait augmenter la quantité d'ambiguïté lexicale Jeu de 15 étiquettes (catégories grammaticales) : 1,6 étiquette par mot simple Jeu de 1000 étiquettes (catégories grammaticales, traits flexionnels, délimitation des mots composés, lemmes) : 2,0 étiquettes par mot simple Systèmes de levée d'ambiguïté lexicale Levée d'ambiguïtés

Transcript of Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales...

Page 1: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes...

Cela fait augmenter la quantité d'ambiguïté lexicale

Jeu de 15 étiquettes (catégories grammaticales) :1,6 étiquette par mot simple

Jeu de 1000 étiquettes (catégories grammaticales, traits flexionnels, délimitation des mots composés, lemmes) :2,0 étiquettes par mot simple

Systèmes de levée d'ambiguïté lexicale

Levée d'ambiguïtés

Page 2: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Systèmes de levée d'ambiguïtés lexicales

Etiquetage d'un texte par dictionnaire, puis application d'une grammaire de levée d'ambiguïtés lexicales

Grammairen règles

Texte étiqueté

m analyses

Textem' analyses

Systèmede levée

d'ambiguïtéslexicales

Page 3: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Systèmes de levée d'ambiguïtés lexicales

Grammaire de levée d'ambiguïtés : n règles

Texte : ensemble de m analyses

ambResol(gramm, texte) texte

Rappel : nb d'analyses retenues parmi les analyses correctes

Précision : nb d'analyses correctes parmi les analyses retenues

Page 4: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Construction et maintenance manuelles

Lisibilitérègles simples, lisibles et compréhensibles

Cumulativitéimpossibilité de perturber le fonctionnement des règles existantes quand on ajoute de nouvelles règles

Page 5: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Dépendances entre règles (1/2)

Exemples non linguistiques pour commencer

Exemple avec hiérarchie entre règles

Les dépendances entre règles compliquent l’interprétation et la mise à jour du système

r1 : supprimer les analyses qui comportent la séquence a br2 : ne pas supprimer les analyses qui comportent la séquence a b cSi r2 s’applique, r1 ne s’applique pas

Page 6: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Dépendances entre règles (2/2)

Exemple avec chevauchement

Une règle peut ainsi perturber son propre fonctionnement

r1 : supprimer les analyses qui comportent la séquence a br2 : supprimer les analyses qui comportent la séquence b cSi deux règles sont applicables à la même analyse avec une partie commune, seule la plus à gauche s’applique

Page 7: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Indépendance des règles (1/2)ambResol ((ri)1 i n , texte) =

1 i n ambResol (ri , texte)

a ambResol ((ri)1 i n , texte) i [1, n] a ambResol (ri , texte)

Les résultats ne peuvent pas dépendre de l'ordre d'application des règlesChaque règle s’applique au texte représenté avec toutes ses ambiguïtés

Avantages- l'introduction de nouvelles règles ne modifie pas le fonctionnement des anciennes- si toutes les règles ont un rappel de 100 %, alors la grammaire aussi

Page 8: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Exemple linguistique

r1 : Tout mot immédiatement à gauche de -t-il, -t-elle ou -t-on est un verber2 : voilà, revoilà peuvent apparaître immédiatement à gauche de -t-il Si r2 s’applique, r1 ne s’applique pas

r1 : Tout mot immédiatement à gauche de -t-elle ou -t-on est un verbe r2 : Tout mot immédiatement à gauche de -t-il est soit un verbe, soit voilà ou revoilà

On peut reformuler en deux règles indépendantes :

Page 9: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Dépendances entre analyses (1/4)

Exemple avec priorité entre analyses

1 a 3 1 a 3

2 b 4

(autres trans.) (autres trans.)

Synchronisation (pointillés verticaux) : états correspondant à un même point du texte

Page 10: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Dépendances entre analyses (2/4)

Exemple avec condition portant sur une ambiguïté

1 a 3 1 a 3

4 c 6

2 b 5 2 b 5

(autres trans.) (autres trans.)

Page 11: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Dépendances entre analyses (3/4)

Exemple avec condition portant sur une non-ambiguïté

1 b 2

q a r q a r

(autres trans.)(autres tr.)

Toute transition entrant dans unétat r synchronisé avec 1 estétiquetée a

Page 12: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Dépendances entre analyses (4/4)

Dans les exemples précédents, les conditions portent sur un ensemble d’analyses, non sur une seule analyse

Les règles ne sont pas utilisables pour d'autres types d'ambiguïtés (ex. : phonétiques), car les ensembles d’analyses seraient différents

Exemple : La chaîne freine la rouechaîne - chêne - ...freine - frêne - ...roue - roux - ...

Page 13: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Indépendance des analyses (4/5)

ambResol (gramm, (aj)1 j m) =1 j m ambResol (gramm, aj)

a ambResol (gramm, (aj)1 j m) a ambResol (gramm, a)

La propriété d'indépendance des analyses est une propriété du système de levée d'ambiguïtés (formalisme et règles), non une propriété des analyses

Page 14: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Exemple linguistique

Dans toute séquence <avoir.V> <V:K>, toutes les ambiguïtés lexicales sont résolues en faveur du verbe avoir et du participe passé

On peut reformuler en règles qui ont la propriété d’indépendance des analyses, mais il faut partir des structures grammaticales qu'on veut éliminer :

Nous les avions révisés immédiatementLes avions révisés repartent aussitôtLes avions lui font peur

Page 15: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Exemple avecordre d’application des règles

(1/2) r1 :

b 2 b 21 a 1 a

3

r2 : 4 c 4 c

d 6 d 65

b r1 puis r2 : abd 1 a d 2

c r2 puis r1 : acd

Page 16: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Exemple avecordre d’application des règles

(2/2) Dans un système qui permet cet exemple, il y a nécessairement

1) des dépendances entre règlesQuand on crée une nouvelle règle, si elle doit s’appliquer avant les règles existantes, leur fonctionnement peut être perturbé

2) des dépendances entre analysesChacune des deux règles définit une priorité entre analyses

Page 17: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Indépendance doubleambResol ((ri)1 i n , (aj)1 j m) =

1 i n 1 j m ambResol (ri , aj)

a ambResol ((ri)1 i n , (aj)1 j m) i [1, n] a ambResol (ri , a)

Réalisation par le système Elag :- chaque règle = un automate- grammaire = intersection des règles- ambResol(gramm, texte) = gramm texte

Interface utilisateur :- format utilisateur lisible- format compilé prêt pour intersection

Page 18: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Exemples linguistiquesPronoms préverbaux et postverbaux en français (Ppv)Soit à gauche d'un verbe :

Soit à droite (graphe analogue : Fais-le, Le fait-il ?)

Page 19: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

Ambiguïtés avec d'autres pronomselle,.PRO+PpvIL+z1:3fselle,.PRO+Ton+z1:3fetc.

Ambiguïtés avec d'autres catégoriesen,.PREP+z1en,.PRO+PpvPR+z1

j,j.N:mp:msje,.PRO+PpvIL+z1:1ms:1fsje,je.N:mp:ms

la,.N+[Mus]+z1:ms:mpla,le.DET+Ddef+z1:fsla,le.PRO+PpvLE+z1:3fs

leur,.DET+Dposs3p+z1:ms:fsleur,.PRO+Pposs3p+z1:ms:fsleur,.PRO+PpvLUI+z1:3mp:3fp

etc.

Page 20: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

On le véhicule d'ici à la place principale

1. Les règles ci-dessous ont-elles la propriété d’indépendance des analyses ?

1.1. si un Ppv est ambigu avec un autre pronom et suivi d'un mot qui ne peut être qu’un verbe, ses ambiguïtés sont résolues en faveur du Ppv1.2. si un Ppv est ambigu avec un autre pronom et précédé d'un mot qui ne peut être qu’un verbe et d'un trait d'union, ses ambiguïtés sont résolues en faveur du Ppv1.3. si un mot qui peut être un Ppv est suivi d'un mot qui peut être un verbe, ses ambiguïtés sont résolues en faveur du Ppv1.4. si un mot qui peut être un Ppv est précédé d'un mot qui peut être un verbe et d'un trait d'union, ses ambiguïtés sont résolues en faveur du Ppv

Page 21: Les applications évoluées (traduction automatique) nécessitent beaucoup d'informations lexicales : délimitation des mots composés, lemmes... Cela fait.

1.5. si lui est précédé de ne, les ambiguïtés lexicales de lui sont résolues en faveur du Ppv

(la réponse à la question dépend de la formulation

précise de la règle)1.6. dans les analyses où leur est précédé de <le.PRO+Ppv>, les ambiguïtés lexicales de leur sont résolues en faveur du Ppv1.7. dans les analyses où leur est précédé d'un trait d'union et de <le.PRO+Ppv>, les ambiguïtés lexicales de leur sont résolues en faveur du Ppv

2. En supposant que les règles ci-dessus sont indépendantes des autres règles de la grammaire ou qu'elles sont utilisées seules, ont-elles un rappel de 100 % ?