Traduction anglais franc¸ais : exemple Introduction a la ...

21
Introduction ` a la Traduction Automatique Traitement Automatique des Langues Aur ´ elien Max Universit ´ e Paris-Sud 11, Orsay Ann ´ ee 2008-09 Traduction anglaisfranc ¸ais : exemple Bataille De la Grande-Bretagne J’ai toujours ´ et´ e un ventilateur de ce film et avais impatiemment attendu un egagement de DVD pendant un certain temps. Quand j’ai d´ ecouvert que MGM lib ´ eraient ce film sur DVD, j’ai ´ et´ e enchant ´ e ai suivi d’une certaine irritation quand j’ai d ´ ecouvert le RRP 19,99, £ car le film ´ etait dehors aux USA pour $8. Encore un autre disque d’ ´ edition sp ´ eciale deuxi ` emes des morceaux avec augment´ e vers le haut de l’´ etiquette des prix. Je fais des excuses par ceci ` a MGM pour de telles pens´ ees d’unkind, parce que cette ´ edition est superbe. La version des USA est dans mono, o` u ce d ´ egagement a 5,1 et DTS (il est excellent) et pour des ventilateurs de William Walton (ils ont seulement employ ´ e environ 5 minutes de ses points dans le film original, Ron Goodwin assurant le repos), la bande sonore avec les pleins points de Walton comme alternative. L’image a ´ et´ egalement reconstitu ´ ee et a une pleine image anamorphic de 2.35 :1. Traduction anglaisfranc ¸ais : exemple Bataille De la Grande-Bretagne J’ai toujours ´ et´ e un ventilateur (fan) de ce film et avais impatiemment attendu un egagement (release) de DVD pendant un certain temps. Quand j’ai d´ ecouvert que MGM lib ´ eraient (were releasing) ce film sur DVD, j’ai ´ et´ e enchant ´ e ai suivi d’une certaine irritation quand j’ai d ´ ecouvert le RRP 19,99, £ (the RRP (£19.99)) car le film ´ etait dehors aux USA (was out in the US ) pour $8. Encore un autre disque d’ ´ edition sp ´ eciale deuxi ` emes des morceaux avec augment´ e vers le haut de l’ ´ etiquette des prix (with a hiked up price tag ). Je fais des excuses par ceci ` a MGM pour de telles pens´ ees d’unkind, parce que cette ´ edition est superbe. La version des USA est dans mono, o` u ce egagement a 5,1 et DTS (il est excellent) et pour des ventilateurs de William Walton (ils ont seulement employ ´ e environ 5 minutes de ses points (score) dans le film original, Ron Goodwin assurant le repos)(Ron Goodwin supplying the rest ), la bande sonore avec les pleins points de Walton comme alternative. L’image a ´ et´ e ´ egalement reconstitu ´ ee et a une pleine image anamorphic de 2.35 :1. Introduction Traduction automatique Approches bas ´ ees sur des r` egles Approches bas ´ ees sur des donn´ ees ´ Evaluation Conclusions Plan du cours 1 Introduction 2 Traduction automatique 3 Approches bas ´ ees sur des r` egles 4 Approches bas ´ ees sur des donn´ ees 5 ´ Evaluation de la traduction automatique 6 Quelques conclusions Traitement Automatique des Langues Universit ´ e Paris-Sud 11, Orsay

Transcript of Traduction anglais franc¸ais : exemple Introduction a la ...

Introduction a la Traduction AutomatiqueTraitement Automatique des Langues

Aurelien Max

Universite Paris-Sud 11, Orsay

Annee 2008-09

Traduction anglais→francais : exemple

Bataille De la Grande-BretagneJ’ai toujours ete un ventilateur de ce film et avais impatiemment attendu undegagement de DVD pendant un certain temps. Quand j’ai decouvert que MGMliberaient ce film sur DVD, j’ai ete enchante ai suivi d’une certaine irritation quandj’ai decouvert le RRP 19,99, £ car le film etait dehors aux USA pour $8. Encoreun autre disque d’edition speciale deuxiemes des morceaux avec augmente versle haut de l’etiquette des prix.Je fais des excuses par ceci a MGM pour de telles pensees d’unkind, parce quecette edition est superbe. La version des USA est dans mono, ou ce degagementa 5,1 et DTS (il est excellent) et pour des ventilateurs de William Walton (ils ontseulement employe environ 5 minutes de ses points dans le film original, RonGoodwin assurant le repos), la bande sonore avec les pleins points de Waltoncomme alternative. L’image a ete egalement reconstituee et a une pleine imageanamorphic de 2.35 :1.

Traduction anglais→francais : exemple

Bataille De la Grande-BretagneJ’ai toujours ete un ventilateur (fan) de ce film et avais impatiemment attendu undegagement (release) de DVD pendant un certain temps. Quand j’ai decouvertque MGM liberaient (were releasing) ce film sur DVD, j’ai ete enchante ai suivid’une certaine irritation quand j’ai decouvert le RRP 19,99, £ (the RRP (£19.99))car le film etait dehors aux USA (was out in the US ) pour $8. Encore un autredisque d’edition speciale deuxiemes des morceaux avec augmente vers le hautde l’etiquette des prix (with a hiked up price tag ).Je fais des excuses par ceci a MGM pour de telles pensees d’unkind, parce quecette edition est superbe. La version des USA est dans mono, ou ce degagementa 5,1 et DTS (il est excellent) et pour des ventilateurs de William Walton (ils ontseulement employe environ 5 minutes de ses points (score) dans le film original,Ron Goodwin assurant le repos) (Ron Goodwin supplying the rest ), la bandesonore avec les pleins points de Walton comme alternative. L’image a eteegalement reconstituee et a une pleine image anamorphic de 2.35 :1.

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Plan du cours

1 Introduction

2 Traduction automatique

3 Approches basees sur des regles

4 Approches basees sur des donnees

5 Evaluation de la traduction automatique

6 Quelques conclusions

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Dotation des langues en moyens informatiques

Dotation minimale pour le traitement de la langue ecrite (Berment, 2004)

• saisie et visualisation : polices de caracteres, saisie verticale,claviers virtuels, etc.

• recherche et remplacement de texte : probleme pour les languesdont les mots peuvent etre ecrits de differentes manieres(orthographe non fixee ou probleme inherent au mode de saisie)

• selection de texte : probleme pour les systemes d’ecriture nonsegmentee

• tri lexicographique : probleme pour les langues non segmentees,et pour celles pour lesquelles il n’existe pas de tri lexicographique(ou plusieurs)

• correction orthographique

• (correction grammaticale, assistance stylistique )

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Identification automatique des langues

• Probleme : determiner automatiquement la langue d’un texte pourpouvoir lui faire subir le traitement approprie

• Informations frequemment utilisees en apprentissage supervise• codes de caracteres (ex : n, c, œ)• caracteristiques des syllables• probabilite independante d’apparition de caracteres• probabilite jointe de combinaisons de plusieurs caracteres• presence de mots outils/mots courts

• Difficultes• Necessite une certaine taille de texte• Segmentation en langues lorsque plusieurs langues dans un meme

document

• Exemples de systemeshttp://www.xrce.xerox.com/competencies/content-analysis/tools

http://rali.iro.umontreal.ca/Technologies/identificationLinguistique.fr.html

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemple : trigrammes de lettres

• Segmentation de textes de 1 million de mots en 10 langues(Grefenstette, 1995)

• Ajout de marqueurs de debut et de fins de mots (ex : ck , th )• Obtention de 2500-3500 trigrammes par langue, et conservation de

ceux apparaissant plus de 100 fois• Probabilite d’un trigramme : nombre d’occurrences de ce trigramme

sur le nombre d’occurrences de trigrammes total

• Probabilite qu’une phrase soit dans une langue donnee : calcul de laprobabilite de l’ensemble des tri-grammes constituant la phrase

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemple : mots courts frequents

• Les mots frequents (ex : conjonctions, determinants, prepositions)peuvent etre caracteristiques d’une langue

• Extraction des mots de cinq lettres ou moins sur le corpusprecedent (Grefenstette, 1995)

• Obtention de 1000-2700 mots par langue (conservation de ceuxapparaissant plus de 3 fois)

• Probabilite qu’une phrase soit dans une langue donnee : calcul de laprobabilite de l’ensemble des mots courts constituant la phrase

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Resultats sur l’identification des langues

• Les deux methodes ont une tres bonne performance pour lesphrases d’au moins 15 mots

• En dessous de 15 mots, l’approche par trigrammes de lettres estplus performante (les mots courts sont plus rares, par exemple dansdes titres)

• Matrices de confusion pour les deux methodes

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Corpus multilingues

• Fort besoin de corpus multilingues : concordanciers, extraction determinologies, construction de systemes de traduction statistique,etc.

• Les corpus parall eles sont les plus utiles mais les plus rares :traductions de memes textes

• Un des premiers corpus paralleles multilingues connus (-196) : lapierre de Rosette (hieroglyphes, demotique, grec)

• Alignement possible au niveau des phrases, des mots, dessyntagmes, des termes, etc.

• Principales hypotheses pour l’alignement de phrases• l’ordre des phrases dans deux traductions sera identique ou tres

proche• peu de suppressions ou d’ajout (alignements 1 :1 preponderants)• correlation des longueurs de phrases (ex : rapport de 1,1 entre le

francais et l’anglais)• presence de mots en relation de traduction entre eux (ancrage lexical )• utilisation de cognates (occurrences identiques ou qui se ressemblent

graphiquement (ex : dates, symboles))

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemples de corpus multilingues paralleles

• Europarl : debats parlementaires europeens en 11 langues(> 30M mots)http://www.statmt.org/europarl/

• Hansards : debats parlementaires canadiens anglais-francais(> 20M mots)http://www.isi.edu/natural-language/download/hansard

• Acquis Communautaire : textes de legislation dans les langueseuropeennes (> 50M mots)http://langtech.jrc.it/JRC-Acquis.html

• Autres sources :• ELRA (European Language Resource Association)

(http://catalog.elra.info)• LDC (Linguistic Data Consortium) (http://www.ldc.upenn.edu)• NIST (National Institute of Standards and Technology)

(http://www.nist.gov)• GigaWord corpus Fr-En, etc.

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

La redaction a visee multilingue

• Langue de production des documents• dans une langue vehiculaire (essentiellement l’anglais)

• les redacteurs redigent souvent dans une langue etrangere• besoin d’uniformisation linguistique entre locuteurs de langues differentes• besoin de traduction vers les autres langues• necessite de modifier l’ensemble des traductions lors des mises a jour

• dans la langue du redacteur• documents maıtres de meilleur qualite• besoin de traduction vers les autres langues• necessite de modifier l’ensemble des traductions lors des mises a jour

• redaction technique parallele• des redacteurs techniques de langues differentes recoivent l’information

simultanement• redaction independante (localisation ) pour chaque langue• necessite de nombreux redacteurs• necessite de modifier l’ensemble des version lors des mises a jour

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Contraintes sur la redaction

• Conventions de bonne r edaction : assurer la bonnecomprehension des documents et l’homogeneite de documentsrediges par plusieurs redacteurs• conventions d’ecriture (ex : emplois des abreviations)• preferences terminologiques (ex : decourager les abstractions inutiles

(frequency selector Vs frequency channel selecting device)• preferences stylistiques (ex : preferer la repetition de mots plutot que

l’emploi de synonymes, limiter la longueur des phrases)• preferences syntaxiques (ex : decourager l’usage de la voix passive)

• Developpement des langues contr ol ees : garantir lacomprehensibilite et la traductibilite des textes• difficultes de formalisation (defaut d’explicitation claire entre des

relations entre les regles d’une langue controlee et celles de la languedont elle est issue)

• difficulte a faire evoluer suffisamment rapidement la terminologie ainsique pour anticiper toutes les utilisations des mots par les auteurs

• outils de verification de conformite a une langue controlee (problemesde propagation des corrections, problemes des correctionsimpossibles a automatiser (ex : limiter la longueur des phrases))

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemples de regles de langue controlee

• use only approved terminology, e.g. windscreen rather thanwindshield

• use only approved sense : follow only as ’come after’, not ’obey’

• avoid ambiguous words : replace, either (a) remove and put back, or(b) remove and put something else in place

• only one ’topic’ per sentence, e.g. one instruction, command

• do not use pronouns instead of nouns if possible

• use short sentences, e.g. maximum 20 words

• avoid coordination of phrases and clauses

• . . .

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Aides a la traduction

• Dictionnaires et terminologies multilingues• Memoires de traduction

• base d’alignements de phrases deja traduites• proposition de phrases candidates au traducteur puis post-edition• comparaisons au niveau de la phrase (fuzzy match ou exact match) :

peu flexibles et non prise en compte du contexte• outils tres repandus dans le domaine de la redaction technique

• Recours a des systemes de Generation Automatique de Textemultilingue• limites a des domaines assez restreints (ex : bulletins meteo)• systemes couteux a construire et a maintenir• systemes de generation interactive multilingue : interessants pour des

domaines tres contraints lorsque les donnees n’existent pas

• Recours a des systemes de Traduction Automatique• traduction humaine assistee par ordinateur (Machine-aided translation)• traduction automatique interactive (Human-aided machine translation)• traduction automatique revisee ou completement automatique

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Plan du cours

1 Introduction

2 Traduction automatique

3 Approches basees sur des regles

4 Approches basees sur des donnees

5 Evaluation de la traduction automatique

6 Quelques conclusions

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

(pris de (Hutchins et Somers, 1992))

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Types de traduction

• Traduction (completement) automatique :• revision (post-editing) importante si diffusion• revision minimale ou pas de revision pour lecture rapide (assimilation )• pre-edition du texte pour reduire les ambiguıtes et la complexite du

texte• a l’extreme, utilisation de langues controlees

• Traduction interactive• resolution par un utilisateur d’ambiguıtes et plus generalement de

problemes difficiles a resoudre de facon automatique

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Types de choix

Les choix lies aux ambiguıtes interviennent a tous les niveaux• lors de l’analyse du texte source

• ambiguıte lexicale : analyse de to cry→ to weep/pleurer ou toshout/crier

• ambiguıte structurale : he saw her shaking hands1 he saw her welcoming somebody2 he saw her suffering from the cold

• lors du transfert lexical et structural entre langues• choix lexical : to know→ connaıtre ou savoir• choix structural : transformation d’une structure infinitive (He likes to

swim) en une structure adverbiale en allemand (Er schwimmt gern)

• lors de la generation du texte cible• choix lexical : grand→ big, large ou great• choix de l’ordre des mots : ses mains tremblantes→ her shaking

hands

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction assistee par ordinateur : hypotheses

• Au moins une partie de la tache de traduction peut etre modelisee etresolue en programmant un ordinateur

• Les differences entre langues peuvent dans une certaine mesureetre regularisees

• La recherche en traduction automatique doit donc :• identifier les informations les plus utiles pour une situation donnee• attribuer des poids relatifs aux differents types d’informations

• Types de choix a considerer (Hutchins, 1991)• groupes de mots particuliers• informations morphologiques• fonctions et relations syntaxiques• traits et relations semantiques• connaissances sur le domaine

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction de groupes de mots

• Choix de traductions pour des groupes de mots particuliers :• collocations , ex : pomme de terre• idiomes , ex : ne pas etre aux pieces• metaphores , ex : le pied de la montagne

• L’identification des groupes de mots est un probleme plusgeneralement pour l’ensemble des applications du TraitementAutomatique des Langues (Sag et al., 2002)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction de groupes de mots

• Les collocations doivent etre traitees comme des unites detraduction, ex :pomme de terre ne devient pas *apple of earth

• Possibilite d’enrichir les entrees des mots des dictionnaires, ex :ambiguıte de l’adjectif light (adjectifs leger ou clair, nom lumiere) ; uneentree light bulb dans un dictionnaire permettra de choisir la traductioncorrecte, ampoule (et non *bulbe de lumiere ou *bulbe legere)

• Les idiomes impliquent des mots dans un sens qui n’est pas leursens litteral• memorisation : to cry off→ se decommander, to cry one’s heart out→

pleurer a chaudes larmes• variations possibles, ex : stop crying your heart out

• Certaines metaphores peuvent etre traitees de facon similaire, ex :mouth of river→ embouchure d’une riviere, leg of the table→ pied de table

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Enrichissement des dictionnaires

• La memorisation de structures complexes plus ou moins figees dansles dictionnaires de traduction permet de :• diminuer la quantite et la complexite de l’analyse• garantir la bonne formation des elements dans la langue cible• (arguments repris par les approches statistiques)

• Mais une analyse peut parfois etre necessaire, ex :le point de non retour avait ete atteint→ atteindre le point de non retour

• ... et des formulations idiomatiques peuvent etre utilisees dans leursens litteral, ex :casser sa pipe, kick the bucket

• Un decoupage syntaxique doit en general preceder l’identificationde structures figees, ex :[To lift the well water] [pressure is obtained from the pump]

1 (*) Pour faire monter [le puits] [la pression d’eau] est obtenue . . .2 Pour faire monter [l’eau du puits] [la pression] est obtenue . . .

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Analyse syntaxique pour la traduction

• Il est necessaire de connaıtre les structures syntaxiques et lesrelations grammaticales, ex :to know→ connaıtre ou savoirI know his brother→ je connais son frereI know what he said→ je sais ce qu’il a dit

• Transformations syntaxiques• minimales, ex : deplacement de la position des adjectifs entre l’anglais

et le francais (ex : blue bike→ velo bleu)• deplacement de constituants, de clauses entieres (ex : entre langues

SVO et SOV)

• Besoin d’identification des relations syntaxiques profondes, ex : Johnpersuaded Mary to visit his father→ John a persuade Mary de rendre visite a son pere (Mary est le sujet devisit)John promised Mary to visit his father→ John a promis a Mary de rendre visite a son pere / qu’il rendrait visite ason pere (John est le sujet de visit)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Erreurs liees a la syntaxe

Phrase source : Our group requires target dates to be set at the Nicesummit or immediately afterwards , by which negotiations onmembership should be concluded .Traduction de reference : Notre groupe demande que l’on fixe a Nice , ouimmediatement apres le sommet de Nice , les dates-butoirs pour menera terme les negociations d’ adhesion .Traduction automatique(∗) : Notre groupe exige des dates butoirs pouretre fixes lors du Sommet de Nice ou immediatement apres , par lequelles negociations d’ adhesion devrait etre conclu .

Phrase source : In that case , it will , in my view , have failed in its missionand purpose .Traduction de reference : Elle aura alors , selon moi , manque a lamission qui etait la sienne et perdu sa finalite .Traduction automatique(∗) : Dans ce cas , il sera , a mon avis , ont failli asa mission et objectif .

(*) systeme de traduction statistique baseline base sur moses

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemple d’analyse syntaxique

Analyse avec le parseur de Stanford (Klein and Manning, 2003)

Our declaration of rights is the first of this millennium .

(ROOT

(S

(NP

(NP (PRP Our) (NN declaration))

(PP (IN of) (NP (NNS rights))))

(VP (VBZ is)

(NP

(NP (DT the) (JJ first))

(PP (IN of) (NP (DT this) (NN millennium)))))

(. .)))

poss(declaration-2, Our-1)

nsubj(first-7, declaration-2)

prep_of(declaration-2, rights-4)

cop(first-7, is-5)

det(first-7, the-6)

det(millennium-10, this-9)

prep_of(first-7, millennium-10)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Analyse semantique pour la traduction

• Importance des roles s emantiques (roles qu’entretiennent lesentites nominales avec les verbes), ex :The bottle was opened with a corkscrew (instrument)The bottle was opened with difficulty (maniere)The bottle was opened with the meal (contexte)

• Identification particulierement importante pour des couples delangues tres differentes, ex :The earthquake (instrument) destroyed (action) the buildings (objet)→ jishin (earthquake) de (by-means-of) kenbutsu (buildings) ga (sujet)kowareta (collapsed)

• Des traits s emantiques peuvent etre associes aux elementslexicaux (ex : humain, non-humain, anime, liquide), ex :The boy ate the banana (agent humain)→ Der Junge hat die Banane gegessenThe monkey ate the banana (agent non humain)→ Der Affe hat die Banane gefressen

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Utilisation d’analyses semantiques

• Pas d’ensembles universels de roles et de traits semantiques

• Identification difficile, qui peut necessiter une prise en compte ducontexte, ex :((hydraulic brake) fluid) : fluid for hydraulic brake(diluted (brake fluid)) : brake fluid which is diluted

• Probleme d’acquisition (et de maintenance) de connaissances• Solutions possibles pour les systemes de traduction

• developpement manuel de ressources et/ou acquisition(semi-)automatique

• contraindre les domaines de traduction avec des dictionnaires despecialite (hypotheses fortes)

• demander a un humain pendant la traduction (ou lui permettre derediger pendant la phase de revision)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Utilisation de connaissances

Des connaissances sur le contexte et le domaine sont souventnecessaires, ex :

• choix lexicaux, ex :elle regarde la glace → ice, miror, ice cream?

• rattachement adjectivaux, ex :blue X and Y→ des X et des Y bleus ou des X bleus et des Y(connaissances sur le domaine)pregnant women and children→ les femmes enceintes et les enfants(connaissances sur le monde)

• propositions relatives, ex :Peter mentioned the book I sent to Mary (connaissances sur le contexte)→ Peter mentioned the book which I sent to Mary ou→ Peter mentioned to Mary the book which I sent

• complements circonstantiels de temps, ex :We will meet the man you told us about yesterday (connaissancestemporelles)We will meet the man you told us about tomorrow

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Generation pour la traduction

Un texte bien traduit doit pouvoir etre lu comme s’il avait ete directementecrit dans sa langue (eviter les calques)

• Compromis entre fid elit e au texte source (adequacy) et caract erenaturel (fluency)

• Les traductions peuvent etre trop litterales, ex :Much of our debate is based . . . (Notre debat repose . . .)→ * Beaucoup de notre debat est base . . .

• Certains choix rendent les textes plus naturels, ex :developpement rapide→ rapid developmentprogres rapides→ swift progressacces rapide→ fast accessreponse rapide→ reponse rapide

• Les modeles de langue statistiques sont limites, ex :I was delighted that my report was adopted unanimously→ Je me rejouis que mon rapport a ete adopte a l’ unanimite

• Les langues ont des preferences stylistiques, ex :The possibility of rectification of the fault is presented→ Nous presentons la possibilite de reparation de la panne

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Plan du cours

1 Introduction

2 Traduction automatique

3 Approches basees sur des regles

4 Approches basees sur des donnees

5 Evaluation de la traduction automatique

6 Quelques conclusions

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Architectures des systemes de traduction automatique

• Certains systemes de TA integrent tous ces niveaux de choix dansun meme programme :• approche directe , entre deux langages particuliers et dans un sens

particulier• D’autres systemes ont des modules specifiques pour chacun de ces

niveaux :• approche par transfert• approche par langue pivot (interlingua) : plutot que de formuler des

modifications entre deux langues, la traduction a lieu vers et depuisune langue pivot

Anal

yse

Génération

Langue cibleLangue source

Interlangue

Transfert sémantique

Transfert syntaxique

Traduction directe

(Vauquois,1968)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Approches par transfert et par langue pivot

Approche par transfert

Approche par langue pivot (interlingua)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemple : Systran

Historique (Hutchins and Somers, 1992)

• Debut de la construction du systeme a l’universite Georgetown a lafin des annees 1950 (rus→ang)

• La compagnie Systran (System translation) est fondee en 1968(projets pour l’U.S. Air Force et la NASA)

• Adoption progressive par la Commission de la CommunauteEuropeenne :• 1975 : demonstration du systeme ang→fra et signature d’un contrat de

developpement• 1976 : travail sur la version ang→fra, puis fra→ang et ang→ita• 1981 : service de production pilote au Luxembourg

• Annees 1980 : developpement des systemes jap→ang

• Annees 2000 : au moins 38 paires de langues dont 16 disponiblesen version commerciale

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Systran : architecture

• Systeme basee sur une longue ingenierie linguistique

• Architecture heritee du systeme initial (traduction directe)• Principaux composants

• programmes systeme independants des langues (ex : routines deconsultation des dictionnaires)

• programmes de traduction composes de plusieurs modules :• modules d’analyse et de generation• base commune pour les langues latines

• dictionnaires bilingues contenant des correspondances lexicales,mais aussi des informations grammaticales et semantiques utiliseesdurant l’analyse et la generation sous forme d’algorithmes executes adifferentes etapes

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Systran : les dictionnaires

Les dictionnaires de Systran sont divises en :• un dictionnaire principal de racines (stems)

• informations morphologiques, syntaxiques, semantiques pour chaqueracine

• ex : categorie grammaticale, accord, type de nom (‘anime’,‘comptable’, ‘abstrait’, etc.), marqueurs semantiques (‘proprietephysique’, ‘conteneur’, ‘produit alimentaire’)

• un dictionnaire bilingue de mots simples• chaque mot source a un et un seul mot cible qui sera conserve comme

traduction par defaut s’il n’est pas modifie par un autre dictionnaire• ex : station est traduit (par defaut) par poste• les homographes (categories grammaticales diff.) sont distingues

• plusieurs dictionnaires contextuels de groupes de mots(transparent suivant)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Systran : les dictionnaires contextuels

Modifier les analyses ou les traductions en fonction du contexte• le dictionnaire d’idiomes contient des expressions figees

• ex : on the one hand→ d’un cote)

• le dictionnaire de s emantique (( limit ee )) definit les relationssyntaxiques dans les syntagmes nominaux• ex : machine translation→ traduction automatique

• le dictionnaire d’homographes contient des informationspermettant de les desambiguıser en fonction du contexte

• les dictionnaires (( analytiques )) contiennent des exceptions quis’appliquent a des mots particuliers• ex : la conjonction nor ne respecte pas la regle habituelle des

conjonctions car elle peut etre suivie par un sujet et verbe inverses,ex : nor could he see the difficulties

• le dictionnaire de s emantique conditionnelle intervient lors dutransfert pour les choix lexicaux• ex : la traduction par defaut de to grow est grandir, mais elle peut

devenir elever dans le cas d’un complement ’anime’, ou cultiver dansle cas d’une plante

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction par Systran

• Les etapes principales de la traduction par Systran sont :1 les pre-traitements2 l’analyse du texte source3 le transfert4 la generation du texte cible

• Etapes de pre-traitements• Chargement du texte source et identification des informations de

formatage (titres, paragraphes, indentation, etc.)• Identification des expressions figees par consultation du dictionnaire

d’idiomes, et choix de categories grammaticales uniques (ex : in orderto est marque comme une preposition)

• Consultation du dictionnaire principal pour les mots restants

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction par Systran : analyse (1/2)

• Analyse morphologique :• essais de combinaisons entre les racines et les terminaisons

(stockees separement)• essai d’analyse pour les mots inconnus afin de determiner leur

categorie grammaticale

• Identification des noms composes par consultation du dictionnairede semantique (( limitee )) (ex : femme de menage→ charlady)

• Les elements presents dans ce dictionnaire sont toujours traitescomme des noms composes, ex :• Il parla a la femme de menage→ He spoke to the woman about

housekeeping (impossible )

• Resolution des homographes par examen des categoriesgrammaticales de mots adjacents dans les phrases, ex :• states apres l’adjectif any est un nom

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction par Systran : analyse (2/2)

• Segmentation des phrases en une proposition principale et despropositions subordonnees par recherche de marques deponctuation, de conjonctions, de pronoms relatifs, etc.

• Determination des relations syntaxiques ’primaires’, ex : entre lesnoms et leurs modifieurs, entre les verbes et leurs objets

• Resolution des enumerations par utilisation d’informationssyntaxiques ou semantiques, ex :(Smog) and (pollution control) are important factors((Smog and pollution) control) is under consideration

• Identification des sujets et des predicats : les verbes finis dejaidentifies deviennent des predicats et les noms (ou pronoms) nondeja identifies comme objets deviennent des sujets potentiels

• Identification de relations profondes entre predicats et arguments,ex : identification du sujet grammatical d’une forme passive commeobjet logique du verbe

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction par Systran : transfert

• Transfert lexical d’idiomes (( conditionnels )), ex :• si le verbe to agree est au passif (ex : it is agreed that), il est traduit par

convenir

• Traductions des prepositions non encore traduites, en utilisant desinformations associees aux verbes

• Transfert structurel utilisant des routines lexicales, i.e. des testsspecifies dans les dictionnaires pour des mots particuliers ou descategories syntaxiques ou semantiques particulieres, ex :• traduction du verbe to expect en francais avec introduction d’une forme

reflexive et du subjonctif• He expects to come→ Il s’attend a ce qu’il vienne

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction par Systran : generation

• Traduction par defaut pour chaque mot non encore traduit, ex :• station serait traduit par poste s’il n’avait par ex. deja ete traduit par

gare

• Generation morphologique a partir de differentes sourcesd’informations, ex :• les verbes francais de mouvement sont conjugues avec l’auxiliaire etre

au passe au lieu de l’auxiliaire avoir, ex : il est parti

• Generation :• ordre de mots en langue cible, ex : reagencement des adjectif-nom en

nom-adjectif entre l’anglais et le francais• elisions, ex : le homme→ l’homme• forme des pronoms, ex : selection de il ou elle en francais en fonction

de l’antecedent du pronom it en anglais

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Caracteristiques de Systran

Systran ne peut pas a proprement parler etre categorise comme unsysteme de traduction par transfert (Hutchins and Somers, 1992)

• pas de separation des donnees linguistiques en des dictionnairesmonolingues pour l’analyse et la generation

• pas de distinction claire entre les phases de transfert et degeneration : le seul processus monolingue est celui de la generationmorphologique

• pas d’analyse complete des phrases : aucune theorie linguistique neguide l’analyse

• des fragments deja traduits (ex : en tant qu’idiomes) sont marqueset ne peuvent plus etre traduits

• transfert structural dirige par le lexique : strategies de traduction pardefaut, (( reparee )) si possible

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Bilan sur Systran

• Exemple de systeme en production : ang-fra a la Commission desCommunautes Europeennes ; evalue entre 1976 et 1978 :• amelioration du score de comprehensibilite de 47% a 78%• diminution du taux de correction de 40% a 36%• en 1987 : fra-ang (14%), all-ang (21%), ang-ita (29%), ang-all (30%),

all-fra (67%)• de nombreuses compagnies utilisent Systran a large echelle

• Les systemes de Systran se sont toujours ameliores avec le temps(Hutchins, 2003)

• Utilisation possible pour l’obtention de brouillons qui seront revises,ainsi que pour des textes pour une assimilation rapide d’informations

• Les systemes fonctionnent sur tous domaines, mais peuvent utiliserdes dictionnaires de specialite

• La comparaison avec les systemes statistiques est en general endefaveur de Systran (mais dans le domaine d’apprentissage)

• Autre systeme : R (http://www.reverso.net)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Plan du cours

1 Introduction

2 Traduction automatique

3 Approches basees sur des regles

4 Approches basees sur des donnees

5 Evaluation de la traduction automatique

6 Quelques conclusions

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Approches basees sur des donnees

• Le developpement de systemes est couteux et complexe• Disponibilite de corpus parall eles en plusieurs langues

• contourner le probleme de l’acquisition des connaissances entraduction avec des regles

• utiliser l’expertise contenue dans des traductions effectuees par deshumains

• Translation by analogy (Nagao, 1984) : The most important function[...] is to find out the similarity of the given input sentence and anexample sentence, which can be a guide for the translation of theinput sentence.

Quelques chiffres (d’apres Koehn)

• une personne peut lire 10,000 mots par jour, et jusqu’a 300 millionsde mots dans une vie

• on pourra prochainement utiliser plus de textes traduits qu’unhumain n’en lit dans sa vie

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Corpus paralleles pour la traduction

• Utilisation de corpus paralleles• Corpus disponibles

• Europarl : 30 millions de mots en 11 langues• Acquis Communautaire : 8 a 50 millions de mots en 20 langues• Hansard canadien : 20 millions de mots en anglais et francais• etc.

• Course aux donnees : plus on en a, meilleures sont les traductionsqu’on obtient

(Koehn, 2003)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemple de corpus alignes

Hansard canadien, aligne au niveau des phrases

La Charte canadienne des droitset libertes

Canadian Charter of rights andfreedoms

L’hon. Benoıt Bouchard(secretaire d’Etat du Canada) :

Hon. Benoıt Bouchard (Secretaryof State of Canada) :

Monsieur le President, je vou-drais porter a l’attention de laChambre que nous celebrons au-jourd’hui, comme le savent les ho-norables deputes, l’anniversairede la proclamation de la Chartecanadienne des droits et libertes[...]

Mr Speaker, I would like to bringto the attention of the House thattoday, as Hon. Members are nodoubt aware, we are celebratingthe anniversary of the proclama-tion of the Canadian Charter ofRights and Freedoms [...]

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction basee sur l’exempleExample-based Machine Translation (EBMT)

• Intermediaire entre la traduction basee sur les regles et la traductionpurement statistique• algorithme de mise en correspondance entre une entree en langue

source et des exemples en langue cible (calcul de similarite)• algorithme de (re)combinaison pour obtenir une phrase en langue

cible a partir de fragments retrouves dans le corpus aligne

• Exemple de (Nagao, 1984)• phrase a traduire de l’anglais vers le japonais :

He buys a book on international politics.• exemples de phrases alignees :

he buys a notebook→ kare wa noto wo kau (he topic notebook objbuy)I read a book on international politics→ watashi wa kokusai seijinitsuite kakareta hon wo yomu (I topic international politics aboutconcerned book obj read)

• traduction par l’exemple :Kare wa kokusai seiji nitsuite kakareta hon o kau

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Caracteristiques de EBMT

• Besoin de corpus paralleles alignes a differentes granularites

• Besoin de nombreux exemples• Caractere approprie des exemples

• certains systemes n’utilisent que des exemples filtres manuellement• un nombre d’exemples important n’est utile que si la mesure de

correspondance est sensible a la frequence• distinction entre exemples generaux et exemples exceptionnels

• Stockage des exemples• couples de chaınes de caracteres• structures d’arbres annotees• exemples generalises (patrons), ex :

X wo onegai shimasu→ may I speak to the X(X = jimukyoku (office), etc.)X wo onegai shimasu→ please give me the X(X = bangoo (number), etc.)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

EBMT : mise en correspondance

• Trouver le ou les exemples qui correspondent le mieux a une phrasea traduire

• Les techniques de mise en correspondance (matching) sont plus oumoins linguistiquement motivees :• basees sur les caracteres (similaire aux mesures de distance d’edition)• basees sur les mots : utilisation d’une methode pour mesurer la

similarite entre mots en rapport a leur sens ou a leur usage• basees sur les mots annotes (ex : categories morphosyntaxiques)• basees sur les structures (ex : distances entre arbres)• etc.

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

EBMT : exemples de mises en correspondance

Traduction du japonais vers l’anglais d’enonces contenant la particule nopar mesure de similarite entre les mots mis en jeu :

• Tookyoo-de no kenkyukai→ a workshop in Tokyo

Fragment japonais Structure anglaise Fragment anglais

yooka no gogo (8thno afternoon)

B of A the afternoon of the 8th

kaigi no sankaryoo(confence no fee)

B for A the fee for the conference

kyooto-de no kaigi(Kyoto no confe-rence)

B in A the conference in Kyoto

isshukan no kyuka(a week no holiday)

A’s B a week’s holiday

mittsu no hoteru(three no hotel)

AB three hotels

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

EBMT : adaptation et recombinaison

• Les traductions associees aux fragments trouves sont combineespour obtenir une traduction de la phrase d’origine

• Tache difficile (similaire a celle d’une personne monolingue utilisantune memoire de traduction pour traduire un texte dans une languequ’elle ne connaıt pas)

• Probleme des conflits de limites (boundary friction )• ex : marquage du cas grammatical• The handsome boy ate his breakfast→ Der schone Junge aß seinen

Fruhstuck• I saw the handsome boy→ (*) Ich sah der schone Junge• I saw the handsome boy→ Ich sah den schonen Jungen

• Solutions possibles• utilisation des categories morphosyntaxiques qui peuvent preceder et

suivre les fragments combines• utilisation de modeles de langues

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Bilan sur EBMT

• Plus adaptee a la traduction de sous-langages

• Permet d’eviter les traductions trop litterales

• Adaptee a des paires de langues tres differentes (ex : ang-jap)

• Portage aise a d’autres langues (sous reserve de la disponibilited’un corpus aligne au niveau requis)

• Les connaissances linguistiques d’un systeme peuvent etreenrichies par l’ajout d’exemples

• Conditions sous lesquelles EBMT peut etre preferee aux approchespar regles (Somers, 1999)• l’ecriture d’une regle de transformation est difficile• une regle generale ne peut decrire un phenomene particulier• la traduction ne peut etre realisee de facon compositionnelle a partir

des mots traduits en langue cible

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction statistique : des mots aux segments

Modeles bases sur les mots (word-based) (Brown et al., 1990)

(d’apres (Knight, 1997))

Modeles bases sur les segments (phrase-based) (Koehn et al., 2003)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction automatique statistique

• Traduire de f (francais) vers e (anglais) :

e∗ = argmaxe

Pr(e|f) (Brown et al., 1990)

• Regle de Bayes :

e∗ = argmaxe

Pr(f|e)Pr(e)

• Ponderation des modeles :

e∗ ≈ argmaxe

p(f|e)λ1p(e)λ2

• Combinaison lineaire des logs des scores :

e∗ ≈ argmaxe

i

λihi(f,e)

ou par ex. h1(f,e) = logp(f|e), h2(f,e) = logp(e), etc.

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduction statistique basee sur les segments

• Equation de la traduction statistique :

e∗ = argmaxe

Pr(f|e)Pr(e)

• Pr(e) : modele de langue pour la langue cible• Pr(f|e) : utilise un modele de segments ; estime par frequences

relatives :

p(f|e) =count(f,e)∑f′ count(f′,e)

• calcul du argmax : decodeur (ex : Moses (Koehn et al., 2007))• necessite notamment une table de segments (et un modele de

distortion)

source target p(target |source)in this case dans ce cas 0.220779

- dans le cas present 0.073593- dans ce cas precis 0.017316- dans ce cas, 0.017316- en l’espece 0.012987- dans cette affaire 0.012987. . . . . . . . .

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Apprentissage de modeles bases sur les segments

• Alignements sur les mots (modeles IBM 1 a 5)• Symetrisation d’alignements dans les deux directions (ex :

intersection) et heuristiques d’ajouts de points d’alignement

• Heuristiques d’extraction d’alignement n-m (ex : tous les mots d’unsegment doivent etre uniquement alignes avec ceux de l’autresegment et reciproquement)

• Estimation des probabilites par frequences relativesTraitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

This beautiful plant is unique (transparent Ph. Langlais)

language model

ce beau plante :-(cette belle usine :-|belle usine est :-)

. . .

transfer table

this ↔ ce↔ cette

beautiful ↔ belle↔ beau

plant ↔ plante↔ usine

is ↔ estunique ↔ seule

↔ uniquebeautiful plant

l

belle planteplante magnifique

empty

1

1-words

2

3

2-words 3-words

4

5

8

9

6 7

10

11

12

13

4-words

14

15

16

5-words

17

18

1

2

ce

3

cette

4

belle

5

beau

6belle plante

belle plante7

plante magnifique

plante magnifique

8

belle

9

beau

plant

e

plante

10usine

11usine

12usine

13

plante

14est

15

est

16est

est

est

17seule

seule

seul

e

18

unique

unique

unique

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Generation de treillis

Construction d’un treillis qui represente l’ensemble des traductionspossibles et permet de trouver leur score et de garder mes N meilleures(N-best lists), ex :

Treillis pour ’muchas gracias senor Cohn-Bendit’ (Dechelotte, 2007)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Exemple d’architecture PBSMT (Dechelotte, 2007)

Corpusparallèle

Giza++

TexteCibleet extraction

Réévaluation

monolingueCorpus

Extraction de Réseau de neurones

Mod. de traduction Mod. de langage 3g Mod. de langage 4g

$n$meilleuresTexte

segments

Source decodeur mosestraductions

systeme SRILM

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Comparaison des approches (Dechelotte, 2007)

Phrase-based Word-based

En→SpDev06 50.03 41.41Eval07 50.91 39.52

Sp→EnDev06 47.93 39.04Eval07 48.93 40.39

• les modeles a base de segments obtiennent de meilleurs resultats(environ 10 points BLEU)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Transformation d’arbres syntaxiques (Yamada et Knight,2001)

• Traduction de chaınes en arbres syntaxiques et transformations

• Apprentissage de regles de reordonnancement

Sequence d’origine Sequence reordonnee p(reord.|orig)PRP VB1 VB2 PRP VB1 VB2 0.074PRP VB1 VB2 PRP VB2 VB1 0.723PRP VB1 VB2 VB1 PRP VB2 0.061PRP VB1 VB2 VB1 VB2 PRP 0.037PRP VB1 VB2 VB2 PRP VB1 0.083PRP VB1 VB2 VB2 VB1 PRP 0.021

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Modeles de segments hierarchiques (Chiang, 2005)

• Bi-grammaires hors-contexte : un symbole terminal se reecrit enune sequence de symboles non terminaux et terminaux

• Types de traductions• X → daba una botefada | slap

• X → X bleue | blue X

• X → ne X pas | not X

• X → X1 X2 | X2 of X1

• Extraction de regles

• Approche competitive avec les modeles bases sur les segments,domaine de recherche tres actif

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Bilan (partiel) sur SMT

• Apprentissage entierement non-supervise (construction denouveaux systemes faciles)

• Probleme de disponibilite des corpus paralleles (vers l’utilisation decorpus comparables )

• Question de l’application des modeles de traduction statistiques ad’autres domaines (adaptation )

• Probleme de montee en charge avec des tailles de corpus toujoursplus grandes (vers des approches hybrides statistiques/baseessur l’exemple (Lopez, 2008))

• Utilisation des mots tels qu’ils apparaissent dans les textes :problemes de generalisation (cf. modeles factorises)

• Difficultes pour la modelisation linguistique• Generation du texte cible a partir de traductions de mots ou de

segments n’ayant pas necessairement de nature linguistique (vers desmodeles syntaxiques)

• Difficultes pour prendre en compte certains phenomenes linguistiques(ex : dependances a longue portee ; approches par Treelets)

• Besoin de prise en compte d’informations sur le contexte du textesource pour choisir les traductions de segments (ex : (Stroppa et al.,2007 ; Carpuat et Wu, 2007))

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Evaluation des systemes de traduction automatique

• Criteres d’evaluation possibles (Hutchins and Somers, 1992)• fidelite au texte source et caractere naturel du texte cible• evaluation par la tache• couts et benefices

• La recherche en traduction automatique a besoin de moyens pourevaluer rapidement les performances relatives de systemes entreeux ou de versions d’un meme systeme

• Les criteres d’evaluation sont (deja) difficiles pour les humains

• Les differentes metriques proposees sont sujettes a de nombreusescritiques, mais le jugement humain coute cher

• Une evaluation automatique :• doit etre rapide• doit s’appliquer a plusieurs langues• doit correler au mieux avec le jugement humain

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

BLEU∗ (Papineni et al., 2002)

Hypothese

Plus un texte traduit automatiquement ressemble a un texte produit parun traducteur professionnel humain, plus il est de bonne qualite

• Permettre une evaluation rapide des systemes de traductionautomatique

• Comparer une traduction avec une ou plusieurs traductions dereference sur la base de groupes de mots en commun

• Se base sur :• une mesure de proximite de traduction (translation closeness) inspiree

de la mesure du taux d’erreurs sur les mots (word error rate entraitement de la parole)

• un corpus de textes traduits par des traducteurs professionnels

(*) BiLingual Evaluation Understudy(suppleant pour les evaluations bilingues)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Calcul de scores BLEU

Moyenne ponderee des precisions n-gram (avec n ∈ {1,4})

score = BP∗exp(N∑

n=1

wn|ngramstrad∩ngramsref|

|ngramstrad|)

BP = min(1,exp(|trad|/|ref|)) (brevity penalty)

wn =1N

Exemple de calcul de score (Dechelotte, 2007)

I am feeling goodRef1: I am happy

Ref2: I am feeling very good

p1 = 1 p2 = 23 p3 = 1

2 p4 = 01

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Points en faveur de BLEU

• Evaluation par BLEU de trois systemes (S1, S2, S3), d’un humainn’ayant ni la langue source ni la langue cible comme languematernelle (H1) et d’un traducteur anglophone (H2) vers l’anglais

• La force principale de BLEU reside dans le fait que la mesuresemble correler relativement bien avec l’evaluation humaine enrealisant une moyenne sur les erreurs pour des phrasesindividuelles sur un corpus de test

• Des experiences ont montre de bonnes correlations avecl’evaluation humaine pour des traductions vers l’anglais depuis 3familles de langues

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Limitations de BLEU

• L’evaluation sur des phrases individuelles n’a pas vraiment de sens(comme ils disent : (( quantity leads to quality )))

• Nombre de traductions de reference necessaires• necessite de prendre en compte plusieurs formulations possibles

d’une meme traduction : plusieurs traductions de reference peuventdonc etre utilisees, ce qui mene a des scores plus forts

• des experiences ou une seule traduction de reference est choisie auhasard parmi 4 donnent des classements comparables : un groscorpus de test avec une seule traduction de reference par phrase peutetre suffisant

• Un meilleur choix de traduction ne resulte pas necessairement enl’amelioration du score

• Conclusions• besoin d’autres metriques automatiques d’evaluation qui prennent

mieux en compte les variations (beaucoup ont ete proposees)• besoin d’evaluations manuelles, notamment au niveau des phrases

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Traduire depuis et vers differentes langues

• Construction de 110 systemes (11*10) pour les langues d’Europarl(Koehn, 2005) (entre 700K et 1M phrases par langue)

• Utilisation du decodeur base sur les segments P

• Evaluation avec BLEU sur 2000 phrases communes a toutes leslangues :

SourceLangue cible

da de el en es fr fi it nl pt sv

da - 18.4 21.1 28.5 26.4 28.7 14.2 22.2 21.4 24.3 28.3de 22.3 - 20.7 25.3 25.4 27.7 11.8 21.3 23.4 23.2 20.5el 22.7 17.4 - 27.2 31.2 32.1 11.4 26.8 20.0 27.6 21.2en 25.2 17.6 23.2 - 30.1 31.1 13.0 25.3 21.0 27.1 24.8es 24.1 18.2 28.3 30.5 - 40.2 12.5 32.3 21.4 35.9 23.9fr 23.7 18.5 26.1 30.0 38.4 - 12.6 32.4 21.1 35.3 22.6fi 20.0 14.5 18.2 21.8 21.1 22.4 - 18.3 17.0 19.1 18.8it 21.4 16.9 24.8 27.8 34.0 36.0 11.0 - 20.0 31.2 20.2nl 20.5 18.3 17.4 23.0 22.9 24.6 10.3 20.3 - 20.7 19.0pt 23.2 18.2 26.4 30.1 37.9 39.0 11.9 32.0 20.2 - 21.9sv 30.3 18.9 22.8 30.2 28.6 29.7 15.3 23.9 21.9 25.9 -

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Direction de traduction

• Score BLEU moyen pour chaque langue en fonction de la direction(langue source ou langue cible) (Koehn, 2005)

Langue Depuis Vers Diff.

allemand (de) 22.2 17.7 -4.5anglais (en) 23.8 27.4 +3.6danois (da) 23.4 23.3 -0.1

espagnol (es) 26.7 29.6 +2.9francais (fr) 26.1 31.1 +5.1

finlandais (fi) 19.1 12.4 -6.7grec (el) 23.8 22.9 -0.9italien (it) 24.3 25.4 +1.1

hollandais (nl) 19.7 20.7 +1.0portugais (pt) 26.1 27.0 +0.9suedois (sv) 24.8 22.1 -2.6

• Plus une langue a une morphologie riche (vocabulaire large), plus ilsemble difficile de traduire vers cette langue• ex : traduire depuis l’anglais et l’allemand est comparable, mais

traduire vers l’allemand est plus difficile que vers l’anglais

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Typologie des erreurs de traduction (Vilar et al., 2006)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Types d’erreurs (Vilar et al., 2006)

Type Sous-type ang→esp(%) esp→ang(%)

Mots absents 19.9 26.0mots pleins 7.9 7.2autres mots 12.0 18.8

Ordre des mots 15.4 20.4ordre des mots (local) 11.6 12.7ordre des fragments (local) 2.1 6.0ordre des mots (autres) 1.7 0.6ordre des fragments (autres) 0.0 1.1

Mots inconnus 0.3 2.8Mots inconnus 0.3 1.1Formes non vues 0.0 1.6

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Types d’erreurs (Vilar et al., 2006)

Type Sous-type Ang→Esp (%) Esp→Ang (%)

Mots incorrects 64.4 50.8sens incorrect 21.9 28.2temps verbal incorrect 15.1 7.7personne incorrecte 8.2 2.2genre incorrect 7.5 0.0nombre incorrect 3.1 0.0mot insere 0.0 1.1erreur de style 7.9 9.9erreur sur idiome 0.7 1.7

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

La traduction automatique : quelques conclusions

• Travail phrase a phrase :• difficulte de la prise en compte du contexte (ex : il parla a la femme de

menage)• impossible de resoudre les anaphores• traductions trop litterales

• Besoin de ressources de taille importante et de qualite• dictionnaires bilingues• modules d’analyse robustes et plus ou moins profonds• modules de transfert par couple de langue• modules de generation (les approches directes ou par transfert ne

garantissent pas toujours que la sortie est bien formee (cf. Systran))• corpus alignes ou alignables

• Besoin de robustesse (sortir des langues controlees !)• traduction de documents possiblement mal formes• necessite de prendre en compte les phenomenes linguistiques non

couverts (approches par regles) ou non representes (approches pardonnees)

• adaptation a d’autres domaines

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

La traduction automatique : quelques conclusions

• Complexite de mise en place :• developpement tres couteux (nouvelles paires de langues)• maintenance et evolution des systemes difficiles• plusieurs types d’evaluation requis• prise de conscience des utilisateurs des usages possibles

• Vers des approches hybrides ou multi-moteurs tirant partie desforces de chacune des approches impliquees, ex :• les systemes a base de regles pour l’analyse du texte source• les systemes a base d’exemples pour le transfert• les systemes statistiques pour la generation du texte cible

• Apprentissage et utilisation de ressources de plus en plusconsequentes

• Vision plus globale des textes :• representation de la semantique ou des buts communicatifs d’un texte• mais difficulte d’application aux domaines non contraints

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

TransType (Foster et al., 1997 ; Langlais et al., 2000)

Vers des aides performantes au traducteur (apprentissage supervisedepuis l’utilisation des memoires de traduction ou la revision de sortiesde TA)

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Supports du cours

Dechelotte, D. (2007) Traduction automatique de la parole par methodesstatistiques, These de doctorat, Universite Paris-Sud 11.Koehn, P. (2007) Empirical Methods in Natural Language Processing,Cours, University of Edinbugh.Langlais, P. (2006) IFT6010 - Intelligence Artificielle - TraitementStatistique des Langues Naturelles, Cours, Universite de Montreal.Way, A. (2006) Hybrid Data-driven Models of Machine Translation, Cours,IGK summer school, Edinburgh.Zweigenbaum (2007) Corpus paralleles et comparables : introduction,Cours, Universite Paris-Sud 11.

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Bibliographie du cours

Brown, P.F.,J. Cocke, S. Della Pietra, V. J. Della Pietra, F Jelinek, J.D. Lafferty, R.L. Mercer and P.S.Roossin (1990) A Statistical Approach to Machine Translation, Computational Linguistics, 16(2).Chiang, D. (2005) A hierarchical phrase-based model for statistical machine translation, In Proceedingsof ACL.Foster, G., P. Isabelle, and O. Plamondon (1997) Target-text Mediated Interactive Machine Translation,Machine Translation, 12 :175–194.Kay, M. (1980) The Proper Place of Men and Machines in Language Translation, Rapport de rechercheCSL-80-11, Xerox Palo Alto Research Centre.Kay, M., C. Boitet, C. Fluhr, A. Waibel, Y.K. Muthusamy et L. Spitz (1996) Multilinguality, in Survey of theState of the Art in Human Language Technology, Cambridge University Press.Klein, D. and C. D. Manning (2003) Accurate Unlexicalized Parsing, in Proceedings of ACL, Sapporo,Japan.Koehn, P. (2005) Europarl : A Parallel Corpus for Statistical Machine Translation, in Proceedings of MTSummitHutchins, J.W. et H.L. Somers (1992) An Introduction to Machine Translation, London Academic Press.Hutchins, J.W. (1991) Why Computers do not Translate better, Translating and the Computer, Londres.Hutchins, J.W. (2003) Has Machine Translation Improved? Some Historical Comparisons, MT Summot2003, Santiago de Compostelle, Espagne.Langlais, P. and F. Gotti (2006) Phrase-Based SMT with Shallow Tree-Phrases, in Proceedings ofHLTNAACL, New York, USA.

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay

Introduction Traduction automatique Approches basees sur des regles Approches basees sur des donnees Evaluation Conclusions

Bibliographie du cours

Langlais, P., S. Sauve, G. Foster, E. Macklovith, and G. Lapalme (2000) Evaluation of transtype, acomputer-aided translation typing system : A comparison of a theoretical- and a user- orientedevaluation procedures, in LREC, Athens, Greece.Lopez, A. (2008) Tera-Scale Translation Models via Pattern Matching, In Proceedings of COLING.Papineni K., S. Roukos, T. Ward and W.-J. Zhu(2002) Bleu : a Method for Automatic Evaluation ofMachine Translation, Actes de ACL-02, Philadelphie.Sag, I., T. Baldwin, F. Bond, A. Copestake and D. Flickinger (2002) Multiword Expressions : A Pain in theNeck for NLP, In Proceedings of CICLING 2002, Mexico City, Mexico.Senellard, J., P. Dienes and T. Varadi (2004) New Generation Systran Translation System, in Actes deMT Summit VIII, Santiago de Compostelle, Espagne.Somers, H.L. (1999) Review article : Example-based Machine Translation, Machine Translation, 14 :113-157.Somers, H.L. (2004) Machine Translation : Latest Developments, in The Oxford Handbook ofComputational Linguistics, edite par Ruslan Mitkov, Oxford University Press.Stroppa, N., A. van den Bosch and A. Way (2007) Exploiting Source Similarity for SMT usingContext-informed Features, in Proceedings of TMI, Skovde, Sweden.Vilar, D., J. Xu, L. F. D’Haro and H. Ney (2006) Error analysis of Statistical Machine Translation output, inProceedings of LREC, Genoa, Italy.

Traitement Automatique des Langues Universite Paris-Sud 11, Orsay