De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la...

38
De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système de traduction Philippe Langlais, Fabrizio Gotti et Alexandre Patry RALI Département d’informatique et de recherche opérationnelle Université de Montréal TALN – 10-13 Juin 2006 Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal D’une chambre à une autre TALN – 10-13 Juin 2006 1 / 26

Transcript of De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la...

Page 1: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

De la Chambre des communes à la chambred’isolement:

adaptabilité d’un système de traduction

Philippe Langlais, Fabrizio Gotti et Alexandre Patry

RALIDépartement d’informatique et de recherche opérationnelle

Université de Montréal

TALN – 10-13 Juin 2006

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 1 / 26

Page 2: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traducteur automatique = générateur de blagues

Src : tips : put your baby on his or her back to sleep .Ref : conseils : couchez votre bébé sur le dos .

HANSARD pratiques : mettez votre baby sur son retour à dormirCESTA tips : put votre bébé sur his ou s’ back à sleep .SANTÉ tips : couchez votre bébé sur le dos pour dormir .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 2 / 26

Page 3: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traducteur automatique = générateur de blagues

Src : autopsy revealed signs of intrauterine growth retardationand hypoxia but no malformations .Ref : l’ autopsie a révélé des signes de retard de croissance intra-utérine et d’ hypoxie , mais aucune malformation .

HANSARD autopsie révèle des signes de croissance intrauterinearriération et hypoxia , mais ce n’ malformations .

CESTA autopsy revealed symptômes de intra-utérine growthretardation et hypoxia mais aucun malformations .

SANTÉ l’ autopsie a révélé des signes de croissance intra-utérine et hypoxie ( mais non malformations .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 3 / 26

Page 4: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Plan

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 4 / 26

Page 5: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 5 / 26

Page 6: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Campagne EVALDA - CESTAÉvaluation des systèmes de traduction automatique

Campagne I – (fin 2004) :Rôder le protocole, tester les systèmes sans ajustement

Participants :

Systran - http://www.systran.frSoftissimo (système Reverso) -http://grammaire.reverso.netComprendium - http://www.comprendium.esRALI - http://rali.iro.umontreal.caSDL International - http://www.sdl.comCIMOS - http://www.cimos.com

Information :

lire (Surcin et al., 2005)www.technolangue.net/article199.html

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 6 / 26

Page 7: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Campagne EVALDA - CESTAÉvaluation des systèmes de traduction automatique

Campagne II – (sept. 2005) :Tester l’aptitude des systèmes à s’adapter à un domaine

Participants :

Systran - http://www.systran.frSoftissimo (système Reverso) -http://grammaire.reverso.netComprendium - http://www.comprendium.esRALI - http://rali.iro.umontreal.caRWTH - http://www-zhv.rwth-aachen.deUPC - http://www.upc.edu

Information : cette présentation !

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 7 / 26

Page 8: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Protocole de la seconde campagneÉvaluation des systèmes de traduction automatique

CalendrierJ-1 : réception d’un bitexte représentatif du domaine de test

(domaine médical)

J-14 : réception d’un corpus de 200 000 mots à traduire danslequel 20 000 "seulement" servent à l’évaluation

J-20 : remise d’une traduction

J-158 : résultats préliminaires (métriques automatiques)

Règle : “débrouillez-vous pour adapter votre système à la tâche”(ex : terminologie, enrichissement de lexiques, corpus, etc.)

Note : le RALI n’a participé qu’aux tests pour la direction :Anglais→ Français

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 8 / 26

Page 9: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 9 / 26

Page 10: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traduction statistiquePourquoi ?

Pro :“facile” à mettre en places’obtient automatiquement à partir d’un bitextedonne à l’occasion de très bons résultats (Langlais etal.,2005) :

TRAD : CET ORAGE SE DEPLACE VERS L EST A 30 KM / H ET GENERERAPROBABLEMENT DE LA GRELE POUVANT ATTEINDRE LA TAILLE D UNE BALLEDE GOLF ET DES RAFALES A 90 KM / H .

SRC : THIS THUNDERSTORM IS MOVING EASTWARD AT 30 KM / H AND WILLLIKELY GIVE HAIL UP TO THE SIZE OF GOLF BALLS AND WIND GUSTS TO 90KM / H .

Cons :s’obtient automatiquement à partir d’un bitexteoffre peu de souplesse pour les modifications

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 10 / 26

Page 11: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traduction statistiquePourquoi ?

Pro :“facile” à mettre en places’obtient automatiquement à partir d’un bitextedonne à l’occasion de très bons résultats (Langlais etal.,2005) :

TRAD : CET ORAGE SE DEPLACE VERS L EST A 30 KM / H ET GENERERAPROBABLEMENT DE LA GRELE POUVANT ATTEINDRE LA TAILLE D UNE BALLEDE GOLF ET DES RAFALES A 90 KM / H .

SRC : THIS THUNDERSTORM IS MOVING EASTWARD AT 30 KM / H AND WILLLIKELY GIVE HAIL UP TO THE SIZE OF GOLF BALLS AND WIND GUSTS TO 90KM / H .

Cons :s’obtient automatiquement à partir d’un bitexteoffre peu de souplesse pour les modifications

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 10 / 26

Page 12: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traduction statistiquePourquoi ?

Pro :“facile” à mettre en places’obtient automatiquement à partir d’un bitextedonne à l’occasion de très bons résultats (Langlais etal.,2005) :

TRAD : CET ORAGE SE DEPLACE VERS L EST A 30 KM / H ET GENERERAPROBABLEMENT DE LA GRELE POUVANT ATTEINDRE LA TAILLE D UNE BALLEDE GOLF ET DES RAFALES A 90 KM / H .

SRC : THIS THUNDERSTORM IS MOVING EASTWARD AT 30 KM / H AND WILLLIKELY GIVE HAIL UP TO THE SIZE OF GOLF BALLS AND WIND GUSTS TO 90KM / H .

Cons :s’obtient automatiquement à partir d’un bitexteoffre peu de souplesse pour les modifications

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 10 / 26

Page 13: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traduction statistiquedans une coquille de noix...

e = 15 years of statistical machine translation in 45 minutesf = Survol de la traduction statistique en 45 minutes

f̂ = argmaxf∈F p(f |e)

= argmaxf∈Fp(e|f )×p(f )

p(e)

=

décodage︷ ︸︸ ︷argmax

f∈Fp(e|f )︸ ︷︷ ︸

traduction

× p(f )︸︷︷︸langue

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 11 / 26

Page 14: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Modèle de langueModèle n-gramme

p(w = w1, . . . , wN) ≈N∏

i=1

p(wi |w i−1i−n+1)

Cas du modèle trigramme (n=2)p(15 années de traduction en 45 minutes) = p(15) × p(années | 15) ×p(de | 15 années) × p(traduction | années de) × p(en | de traduction)× p(45 | traduction en) × p(minutes | en 45)

Voir (Goodman, 2001)

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 12 / 26

Page 15: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Modèle de traductionModèle de segments contigus

NU

LLpe

rhap

sth

eco

mm

is.

or you

coul

dcl

arify

a poin

tfo

rm

e.

. . . . . . . . . . . . . ×erläutern . . . . . . . × . . . . .punkt . . . . . . . . . × . . .einen . . . . . . . . × . " . .mir . . . . . . . . . . . × .sie . . . . . × . . . . . . .oder . . . . × . . . . . . . .kommission . . . × . . . . . . . . .die . . × . . . . . . . . . .könnten . . . . . . × . . . . . .vielleicht . × . . . . . . . . . . .NULL . . . . . . . . . . . . .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 13 / 26

Page 16: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Modèle de traductionModèle de segments contigus

NU

LLpe

rhap

sth

eco

mm

is.

or you

coul

dcl

arify

a poin

tfo

rm

e.

. . . . . . . . . . . . . ×punkt . . . . . . . . . × . . .einen . . . . . . . . × . " . .mir . . . . . . . . . . . × .erläutern . . . . . . . × . . . . .könnten . . . . . . × . . . . . .sie . . . . . × . . . . . . .oder . . . . × . . . . . . . .kommission . . . × . . . . . . . . .die . . × . . . . . . . . . .vielleicht . × . . . . . . . . . . .NULL . . . . . . . . . . . . .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 13 / 26

Page 17: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Modèle de traductionModèle de segments contigus

mir einen punkt . ||| a point for me . ||| 1erläutern mir einen punkt ||| clarify a point for ||| 1könnten erläutern ||| could clarify ||| 1die kommissioner oder ||| the commissioner or ||| 1sie könnten erläutern mir einen punkt . ||| you could clarify a point for me . ||| 1sie ||| you ||| 1vielleicht die kommissioner oder sie könnten ||| perhaps the commissioner or you could||| 1oder sie könnten erläutern mir einen punkt ||| or you could clarify a point for ||| 1oder sie könnten erläutern mir einen punkt ||| or you could clarify a point for me ||| 1könnten erläutern mir einen punkt ||| could clarify a point for ||| 1erläutern mir einen punkt ||| clarify a point for me ||| 1kommissioner oder sie könnten erläutern ||| commissioner or you could clarify ||| 1die kommissioner ||| the commissioner ||| 1. ||| . ||| 1die ||| the ||| 1erläutern mir einen punkt . ||| clarify a point for me . ||| 1könnten erläutern mir einen punkt ||| could clarify a point for me ||| 1vielleicht die ||| perhaps the ||| 1vielleicht ||| perhaps ||| 1oder sie ||| or you ||| 1mir ||| me ||| 1kommissioner oder sie könnten erläutern mir einen punkt ||| commissioner or you couldclarify a point for ||| 1erläutern ||| clarify ||| 1kommissioner oder sie ||| commissioner or you ||| 1oder sie könnten ||| or you could ||| 1oder ||| or ||| 1vielleicht die kommissioner oder sie könnten erläutern ||| perhaps the commissioner oryou could clarify ||| 1vielleicht ||| perhaps ||| 1oder sie ||| or you ||| 1mir ||| me ||| 1kommissioner oder sie könnten erläutern mir einen punkt ||| commissioner or you couldclarify a point for ||| 1erläutern ||| clarify ||| 1kommissioner oder sie ||| commissioner or you ||| 1oder sie könnten ||| or you could ||| 1oder ||| or ||| 1vielleicht die kommissioner oder sie könnten erläutern ||| perhaps the commissioner oryou could clarify ||| 1vielleicht die kommissioner ||| perhaps the commissioner ||| 1kommissioner oder sie könnten ||| commissioner or you could ||| 1vielleicht die kommissioner oder ||| perhaps the commissioner or ||| 1kommissioner ||| commissioner ||| 1oder sie könnten erläutern ||| or you could clarify ||| 1mir einen punkt . ||| me . ||| 1kommissioner oder ||| commissioner or ||| 1vielleicht die kommissioner oder sie ||| perhaps the commissioner or you ||| 1sie könnten erläutern mir einen punkt ||| you could clarify a point for ||| 1sie könnten erläutern ||| you could clarify ||| 1sie könnten ||| you could ||| 1die kommissioner oder sie könnten erläutern ||| the commissioner or you could clarify||| 1die kommissioner oder sie ||| the commissioner or you ||| 1könnten erläutern mir einen punkt . ||| could clarify a point for me . ||| 1mir einen punkt ||| a point for me ||| 1könnten ||| could ||| 1die kommissioner oder sie könnten ||| the commissioner or you could ||| 1einen punkt ||| a point for ||| 1

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 14 / 26

Page 18: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 15 / 26

Page 19: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

La course aux corpusDonnées hors-domaine

HANSARD débats parlementaires canadiens(1.7 M de paires de phrases)

au début , la varicelle , la rougeole , la grippe et d’ autres maladieseuropéennes importées dans l’ arctique par les explorateurs ontpresque décimé notre population du nord .

EUROPARL débats parlementaires européens(0.9 M de paires de phrases)

bien que je soutienne pleinement l’ adhésion de la chine à l’ omc , jepense que nous devrions administrer à ce pays une dose de sa propremédecine .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 16 / 26

Page 20: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

La course aux corpusDonnées hors-domaine

HANSARD débats parlementaires canadiens(1.7 M de paires de phrases)

au début , la varicelle , la rougeole , la grippe et d’ autres maladieseuropéennes importées dans l’ arctique par les explorateurs ontpresque décimé notre population du nord .

EUROPARL débats parlementaires européens(0.9 M de paires de phrases)

bien que je soutienne pleinement l’ adhésion de la chine à l’ omc , jepense que nous devrions administrer à ce pays une dose de sa propremédecine .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 16 / 26

Page 21: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

La course aux corpusDonnées hors-domaine

HANSARD débats parlementaires canadiens(1.7 M de paires de phrases)

au début , la varicelle , la rougeole , la grippe et d’ autres maladieseuropéennes importées dans l’ arctique par les explorateurs ontpresque décimé notre population du nord .

EUROPARL débats parlementaires européens(0.9 M de paires de phrases)

bien que je soutienne pleinement l’ adhésion de la chine à l’ omc , jepense que nous devrions administrer à ce pays une dose de sa propremédecine .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 16 / 26

Page 22: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

La course aux corpusDonnées du domaine médical

CESTA 922 paires de phrases du domaine médicalMeSH version bilingue du thésaurus biomédical de la National

Library of Medicine disc.vjf.inserm.fr≈ 400 000 paires de termes

pansements hydrocolloïdes — hydrocolloid dressingslithotripsie — electrohydraulic shockwave lithotripsyniddamycin polyketide synthase synthase — sterigmatocystin polyketider-sk — skf 38393 a

SANTÉ aspiration du site de Santé Canada0.8 M de paires de phrases↪→ organisation exceptionnelle : ne “nécessite que” debons programmes d’alignement de phrases etd’identification de la langue.Voir PARADOCS (Patry et Langlais, 2005).

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 17 / 26

Page 23: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

La course aux corpusDonnées du domaine médical

CESTA 922 paires de phrases du domaine médicalMeSH version bilingue du thésaurus biomédical de la National

Library of Medicine disc.vjf.inserm.fr≈ 400 000 paires de termes

pansements hydrocolloïdes — hydrocolloid dressingslithotripsie — electrohydraulic shockwave lithotripsyniddamycin polyketide synthase synthase — sterigmatocystin polyketider-sk — skf 38393 a

SANTÉ aspiration du site de Santé Canada0.8 M de paires de phrases↪→ organisation exceptionnelle : ne “nécessite que” debons programmes d’alignement de phrases etd’identification de la langue.Voir PARADOCS (Patry et Langlais, 2005).

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 17 / 26

Page 24: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 18 / 26

Page 25: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traduction d’un domaine particulierpar un système générique

corpus WER SER NIST BLEU %unkp %unkf %unko

EUROPARL 67.4 100.0 4.72 13.94 63.5 16.6 7.8HANSARD 68.2 100.0 4.89 14.96 57 16.6 7.8

(Mesuré sur un corpus de test de 200 paires de phrases de CESTA)

WER distance d’édition normaliséeSER pourcentage de traductions 6= de la référenceBLEU etNIST mesures de précision n-gramme

Les 10 mots inconnus les plus fréquents :vivo, metabolic, whooping, renal, ocular, ars, substrates,postoperative, plasma et hepatic

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 19 / 26

Page 26: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Traduction d’un domaine particulierpar des systèmes spécifiques

corpus WER SER NIST BLEU

EUROPARL 67.4 100.0 4.72 13.94+ MESH 68.5 100.0 4.66 13.87

HANSARD 68.2 100.0 4.89 14.96+ MESH 67.1 100.0 4.83 14.88

CESTA 65.2 97.0 4.85 16.19+ MESH 62.5 97.0 5.03 16.89

SANTÉ 48.5 93.5 6.78 34.42+ MESH 50.3 95.5 6.53 32.59

MESH ne contribue pas à améliorer les performances(pas d’explication poussée)

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 20 / 26

Page 27: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Adaptation informée au domaineExemple

Src : it is estimated that every day in canada , at least one child is bornwith fetal alcohol syndrome ( fas ) which can lead to a variety of life longdisabilities .Ref : on estime que chaque jour , au canada , au moins un enfant naîtavec le syndrome d’ alcoolisme foetal ( saf ) qui peut mener à une variétéd’ incapacités permanentes .HANSARD on estime que tous les jours au canada , au moins un enfant

est né le syndrome d’ alcoolisme dd ) , qui peut conduire à unevariété de la vie des personnes handicapées . longtemps avecfetal cpsa

CESTA il est coût que chaque journée au canada , à least un enfant estborn avec syndrome d’ alcoolisme foetal ( saf ) peut mènera àun variety de life long lequel disabilities .

SANTÉ on estime que chaque jour au canada , au moins un enfantnaît avec le syndrome d’ alcoolisme foetal ( saf ) , ce quipeut mener à une variété de la vie à long apprentissage .

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 21 / 26

Page 28: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 22 / 26

Page 29: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Adaptation informée au domainePar des techniques de recherche d’information

Adaptation informée : spécifique au texte à traduireUn problème de recherche d’information (Hildebrand,2005) :Approche :

...

phrase 1

phrase 2

phrase m

......

phrase 1 traduction 1

phrase 2 traduction 2

phrase k traduction k

phrase n traduction n

...

phrase s traduction s

phrase t traduction t

phrase u traduction u

...

phrase s traduction s

phrase t traduction t

phrase u traduction u

...

phrase s traduction s

phrase t traduction t

phrase u traduction u

Entraînement

Modéle

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 23 / 26

Page 30: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Adaptation informée au domaineApproches testées

2 techniques testées :

Modèles de langue

pi(w) = λi |w |Ni

+ (1− λ)

∑Nj=1 j |w |∑N

j=1 Nj

v j1..n = argmax1..n

i∈[1,N]

pi(sj) = argmax1..n

i∈[1,N]

|sj |∏k=1

pi(sjk )

Modèle vectoriel : D=taille du vocabulaire, score= tf .idfNous avons utilisé le moteur d’indexation/recherche Lucenelucene.apache.org

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 24 / 26

Page 31: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Adaptation informée au domaineRésultats

modèle unigramme modèle vectorieln WER SER NIST BLEU WER SER NIST BLEU

1 68.8 95.5 4.48 16.55 64.9 96.0 4.84 17.713 58.7 98.0 5.32 20.46 63.4 95.5 5.38 21.825 60.7 96.0 5.74 23.13 60.3 96.5 5.81 24.92

10 55.9 95.5 6.05 26.48 53.8 96.5 6.17 27.5920 53.8 95.5 6.43 29.43 52.2 97.5 6.30 29.7550 51.2 96.0 6.56 31.48 51.8 96.5 6.57 31.70

100 50.5 96.5 6.68 32.61 51.1 96.5 6.73 32.24500 51.3 96.0 6.74 33.60 51.3 94.5 6.86 33.82

1000 48.8 95.5 6.74 34.41 50.4 95.5 6.78 34.215000 49.3 96.5 6.81 34.91 49.6 94.0 6.81 34.43

SANTÉ 48.5 93.5 6.78 34.42 48.5 93.5 6.78 34.42

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 25 / 26

Page 32: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 26 / 26

Page 33: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Le “hasard” fait bien les chosesOu : il est toujours plus facile de traduire lorsque les traductions sont disponibles ...

66.3% des phrases du jeu de test officiel sont verbatim retrouvéesdans le corpus SANTÉ

Après harmonisation de notre segmentation à celle desorganisateurs, ce taux monte à 88.2 %

↪→ mémoire de traduction !

Les traductions des phrases sources trouvées dans la mémoiresont proposées sans modification, le restant est soumis au moteurde traduction statistique entraîné sur SANTÉ

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 27 / 26

Page 34: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Campagne IIRésultats

Anormalement “meilleur” que les autres participants !

BLEU NIST WNM-f D-score X-score WER perS1 35.73 0.3778 1.4348 0.0141 0.3867 51.51 40.96RALI 89.14 0.8959 1.1495 0.0157 0.3520 11.70 9.33S3 36.59 0.3840 1.2547 0.0136 0.3771 53.71 42.22S4 38.02 0.3983 1.1984 0.0145 0.3491 51.59 40.60S5 33.02 0.3394 1.3457 0.0167 0.3600 57.79 43.76

Classé dans les moins bons par certaines métriques !

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 28 / 26

Page 35: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

1 Motivations

2 Contexte

3 Traduction statistique

4 La course aux corpus

5 Adaptation aveugle au domaine

6 Adaptation informée au domaine

7 Retour à la campagne CESTA

8 Discussion

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 29 / 26

Page 36: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Discussion

Résultats scientifiques :

Adaptation statique d’un moteur de traduction statistique

Une approche recherche d’information permet de réduire la tailledes modèles, pas vraiment d’améliorer les performances.

Et si nous n’avions pas joué de chance ?

Point de vue plus personnelMême si les buts de la campagne sont intéressants :

participation bénévole à EVALDA/CESTA peu productive

temps de latence importants, peu de retour constructif(J-200 et toujours aucune discussion)

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 30 / 26

Page 37: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Reference I

C. ALVAREZ P. LANGLAIS. & NIE J.-Y. (2004).

Word pairs in language modeling for information retrieval.In 7th Conference on RIAO, p. 686–705, Avignon, France.

J. GOODMAN (2001).

A Bit of Progress in Language ModelingIn Computer Speech and Language, p. 403–434

ECK M., VOGEL S. & WAIBEL A. (2005).

Low cost portability for statistical machine translation based on n-gram coverage.In Tenth Machine Translation Summit, p. 227–324, Phuket, Thailand.

HILDEBRAND A. S., ECK M., VOGEL S. & WAIBEL A. (2005).

Adaptation of the translation model for statistical machine translation based on information retrieval.In Proceedings of the EAMT Conference, p. 133–142, Budapest, Hugary.

LANGLAIS P., GANDRABUR S., LEPLUS T. & LAPALME G. (2005).

The long-term forecast for weather bulletin translation.Machine Translation, p. 30 p.to appear.

PATRY A. & LANGLAIS P. (2005).

Paradocs : un systËme d’identification automatique de documents parallËles.In 12e Conference sur le Traitement Automatique des Langues Naturelles (TALN), p. 223–232, Dourdan, France.

SURCIN S., HAMON O., HARTLEY A., RAJMAN M., POPESCU-BELIS A., HADI W. M. E., TIMIMI I., DABADDIE M. &

CHOUKRI K. (2005).Evaluation of machine translation with predictive metrics beyond bleu/nist : Cesta evaluation campaign #1.In Tenth Machine Translation Summit, p. 117–124, Phuket, Thailand.

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 31 / 26

Page 38: De la Chambre des communes à la chambre d'isolement ...felipe/Papers/slides-meditaln.pdf · De la Chambre des communes à la chambre d’isolement: adaptabilité d’un système

Reference II

Langlais, Gotti and Patry ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )D’une chambre à une autre TALN – 10-13 Juin 2006 32 / 26