Accents régionaux et questions corses Philippe Boula de Mareüil LIMSI-CNRS, Orsay, France.
Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement...
Transcript of Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement...
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitement automatique des langues
et instrumentation du multilinguisme
Pierre Zweigenbaum
LIMSI, CNRS, Orsayhttp://www.limsi.fr/~pz/
ERTIM, INALCO, Paris
Journée PIRSTEC Informatique multilingue
6 octobre 2009
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 1/58
Introduction
MultilinguismeBesoins en traduction, recherche translingue, etc.Besoins en ressources langagières diverses
lexiques, terminologies, corpus multilingues
Traitement automatique des languesOutils informatiques : instrumenter certaines de cestâches
aide à la production de ressources lexicales etterminologiques multilinguestraduction automatique
Besoin pour ce faire de ressources similaires
Panorama de méthodes d'aide à la constitution deressources multilingues
Constitution de corpus parallèles et comparablesProduction ou extension de lexiques ou terminologiesbilingues
Introduction
MultilinguismeBesoins en traduction, recherche translingue, etc.Besoins en ressources langagières diverses
lexiques, terminologies, corpus multilingues
Traitement automatique des languesOutils informatiques : instrumenter certaines de cestâches
aide à la production de ressources lexicales etterminologiques multilinguestraduction automatique
Besoin pour ce faire de ressources similaires
Panorama de méthodes d'aide à la constitution deressources multilingues
Constitution de corpus parallèles et comparablesProduction ou extension de lexiques ou terminologiesbilingues
Introduction
MultilinguismeBesoins en traduction, recherche translingue, etc.Besoins en ressources langagières diverses
lexiques, terminologies, corpus multilingues
Traitement automatique des languesOutils informatiques : instrumenter certaines de cestâches
aide à la production de ressources lexicales etterminologiques multilinguestraduction automatique
Besoin pour ce faire de ressources similaires
Panorama de méthodes d'aide à la constitution deressources multilingues
Constitution de corpus parallèles et comparablesProduction ou extension de lexiques ou terminologiesbilingues
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Traitements informatiques du multilinguisme
Détection de la langue d'un document (d'un segment detexte) (. . . )Traduction automatique (Google, Reverso)
Y compris traduction de parole (Quæro)
Recherche d'information translingue (Google, HON,CISMeF)
⊃ recherche translingue de réponses à des questions∼ catégorisation de textes translingue
Environnements d'aide à la traduction humaineAccès à des lexiques et thésaurus multilingues(Alexandria)Mémoires de traduction (Trados. . . )Suggestion de traductions (Sharo�)Traduction collaborative (Jibiki / Lydia)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 5/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Ressources langagières
Lexiques et terminologies multilingues
(Grand Dictionnaire Terminologique)
Bases de phrases et textes traduits
corpus multilingues parallèles (Europarl)
Bases de textes similaires dans une autre langue
corpus comparables
synchrones : journaux d'une période donnée (NYT /Le Monde aujourd'hui)documents sur un même thème, etc.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 6/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Constitution automatisée de ressourcesUn schéma productif
1 Entrée : Ressources disponibles
2 Traitement automatisé
3 Sortie : Ressources nouvelles
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Constitution automatisée de ressourcesUn schéma productif
1 Entrée : Ressources disponibles
Corpus parallèle
2 Traitement automatisé
Alignement automatique de phrases et de mots
3 Sortie : Ressources nouvelles
Lexique bilingue
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Constitution automatisée de ressourcesUn schéma productif
1 Entrée : Ressources disponibles
Corpus parallèle et analyseur syntaxique source
2 Traitement automatisé
Alignement automatique de phrases, mots et arbres
3 Sortie : Ressources nouvelles
Analyseur syntaxique cible
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Constitution automatisée de ressourcesUn schéma productif
1 Entrée : Ressources disponibles
Liste de mots source, lexique bilingue partiel
2 Traitement automatisé
Traducteur par apprentissage / par analogie
3 Sortie : Ressources nouvelles
Lexique bilingue plus complet
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Constitution automatisée de ressourcesUn schéma productif
1 Entrée : Ressources disponibles
. . .
2 Traitement automatisé
. . .
3 Sortie : Ressources nouvelles
. . .
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
Construction automatique de ressources
multilingues : Un exemple
Un exemple prototypique de tâche
Constitution de lexiques ou terminologies bilingues
Par alignement
À partir de corpus bilingues (parallèles, comparables)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 8/58
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus
Un ensemble de textes sélectionnés possédant descaractéristiques contrôlées :
Sinclair (1996)
A corpus is a collection of pieces of language that are selectedand ordered according to explicit linguistic criteria in order tobe used as a sample of the language
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 10/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus parallèles et comparables
Degrés de parallélisme
Corpus parallèles : fort parallélisme
Corpus comparables : faible parallélisme
D'autres caractéristiques sont également mises en jeu(voir plus bas)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 11/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus parallèle
Un corpus de textes en relation de traductionLangue A (EN) Langue B (FR)
D'après Deléger (2009)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 12/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus comparable
Un corpus de textes du même domaine, genre, etc.Langue A (EN) Langue B (FR)
D'après Deléger (2009)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 13/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus comparable
Un corpus de textes du même domaine, genre, etc.Langue A (EN) Langue B (FR)
D'après Deléger (2009)
MyocardialInfarction
Acute MyocardialInfarction: early
treatment
Acute MyocardialInfarction Management
Prévention secondaireaprès infarctus du
myocarde
Infarctus du myocarde
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 13/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus comparable
Ici, textes d'une même langue avec deux variétés de discoursDiscours spécialisé Discours grand public
D'après Deléger (2009)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 14/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus comparable
Ici, textes d'une même langue avec deux variétés de discoursDiscours spécialisé Discours grand public
D'après Deléger (2009)
Prise en charge dusevrage tabagique
Tabac etgrossesse
Donnéesépidémiologiques sur le
tabagisme
Les dangers dutabagisme passif
Médicaments pourarrêter de fumer
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 14/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus parallèles
Un corpus de textes et le corpus de leurs traductions
source cibletexte s1 ←→ texte c1texte s2 ←→ texte c2texte s3 ←→ texte c3· · · · · ·
texte sn ←→ texte cn
Dans deux langues di�érentes (ou la même langue)
Textes traduits
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 15/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus comparables
Deux corpus de textes de même domaine, genre, etc.
sourcetexte s1texte s2texte s3· · ·
texte sn
cibletexte catexte cb· · ·
texte cm
Dans deux langues di�érentes (ou la même langue)
Les textes des deux langues peuvent être originaux(non traduits)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 16/58
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Où trouver des corpus parallèles ?
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Corpus disponibles (exemples)
Ouvrages traduitsTextes religieux : La Bible, le Coran, etc.Déclaration des droits de l'hommeRomansDocumentation : manuels techniques
Débats, textes législatifs multilinguesParlement canadien (Hansard : français, anglais,inuktitut)Parlement européen (Europarl : français, italien,espagnol, portugais, anglais, allemand, néerlandais,danois, suédois, grec, �nnois)Parlement de Hong Kong (anglais, chinois)Nations UniesAcquis communautaire (JR Acquis)Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 19/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Constituer un corpus parallèle de documents web
Limitations des corpus parallèles disponibles
Taille
Domaine, genre
Langues représentées
Obtenir d'autres types de documents
Page web et sa traduction
Plus largement, un site web multilingue
Exemple : Santé Canada
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 20/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Pages web parallèles
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 21/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Méthode générale de collecte
Téléchargement du site entier
Repérage de couples de pages HTML par leurs liens
Véri�cations : langue, taille du texte(puis de la qualité de l'alignement des phrases)
Résultat : ∼ 10 000 couples de pages FR � EN
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 22/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Plus largement : indices de parallélisme
MétainformationsFaire partie du même site (!)Noms de �chiers (URL)Liens entre documents (hyperliens)
Être écrit dans deux langues di�érentesSimilarité du contenu
Longueur des �chiers (en caractères, mots, paragraphes)Similarité de la structure
Séquence des balises principalesSéquence des longueurs des phrases
Similarité des motsEn direct : cognatsÀ travers un lexique bilingue : % mots traduisibles
Qualité de l'alignement des phrases (a posteriori)Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 23/58
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Constitution de corpus comparables
Sélection de la langue
Détecteur de langue (Grefenstette & Nioche, 2000)
Sélection du thème
Catégorisation automatique (nombreux travaux)(Sebastiani, 2002)
Sélection du genre, du type de discours
Classi�cation et catégorisation automatique (travauxmoins nombreux)
(Karlgren, 1999; Santini et al., 2006; Goeuriot et al.,2009; Ke & Zweigenbaum, 2009)
Une large part du travail de constitution peut rester manuellePierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 25/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Exemples de corpus comparablesCorpus synchrones
Corpus de nouvelles synchrones
Wall Street Journal (en), Nikkei Financial News (ja),1993�1994 (Fung & McKeown, 1997)Frankfurter Allgemeine Zeitung (de, 1993�1996),Guardian (en, 1990�1994) (Rapp, 1999)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 26/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Constitution de corpus parallèlesConstitution de corpus comparables
Exemples de corpus comparablesAutres critères de comparabilité
Corpus Comparable CISMeF-CliniWeb (C4) (Chiao, 2004)Documents web indexés par le même ensemble dedescripteurs MeSH
Corpus du projet DECO (Goeuriot et al., 2008)Thème = Diabète ; Langue = fr, ja, ru ; scienti�que,populaire
Corpus du projet C-Mantic (http://www.c-mantic.org/)Thème = tabac ; Langue = fr, en, zh ; spécialisé, grandpublic, pro, anti...
Corpus médicaux (Deléger, 2009)Thème = tabac, diabète, cancer ; Langue = fr, en ;spécialisé, grand public
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 27/58
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Méthodes externes et méthodes internes
Contexte vs. constitutionMéthodes externes : contexte d'usage d'un mot
Usage dans des corpus parallèles ou comparables
Méthodes internes : forme d'un mot
Similarité de forme entre mots en relation de traduction
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 29/58
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Alignement dans des corpus parallèles
Enchaînement habituel de traitementsAlignement (appariement) de documents (voir plus haut)
Alignement de phrases
Alignement de mots ou expressions
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 31/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Alignement de phrases
Le cas idéal : alignement 1-1
anglais françaisThe higher turnover was largelydue to an increase in the sales vol-ume.
La progression des chi�resd'a�aires résulte en grande partiede l'accroissement du volume desventes.
Employment and investment levelsalso climbed.
L'emploi et les investissements ontégalement augmenté.
d'après Gale & Church (1993)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 32/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Le parallélisme n'est pas toujours strict : 2-1
Alignement 2-1
anglais françaisFollowing a two-year transitionalperiod, the new Foodstu�s Or-dinance for Mineral Water cameinto e�ect on April 1, 1988.Speci�cally, it contains more strin-gent requirements regarding qual-ity consistency and purity guaran-tees.
La nouvelle ordonnance fédéralesur les denrées alimentaires con-cernant entre autres les eauxminérales, entrée en vigueur le 1eravril 1988 après une période tran-sitoire de deux ans, exige surtoutune plus grande constance dans laqualité et une garantie de la pureté.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 33/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Le parallélisme n'est pas toujours strict : 2-2
Alignement 2-2
anglais françaisAccording to our survey, 1988 salesof mineral water and soft drinkswere much higher than in 1987, re-�ecting the growing popularity ofthese products. Cola drink man-ufacturers in particular achievedabove-average growth rates.
Quant aux eaux minérales et auxlimonades, elles rencontrent tou-jours plus d'adeptes. En e�et,notre sondage fait ressortir desventes nettement supérieures àcelles de 1987, pour les boissons àbase de cola notamment.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 34/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Principes d'alignement de phrases
Comment savoir quelles phrases se correspondent ?
Similarité de structure des textes
structure hiérarchique (paragraphes...)régularité de l'ordre des phrases
Similarité des phrases
forme : longueurcontenu lexical : ponctuations, nombres, cognats,mots en relation de traduction (à travers lexique bilingue)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 35/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Quelques systèmes d'alignement de phrases
Char_align (Gale & Church, 1993) : longueur des phrases
GMA/GSA (Melamed, 1999) : mixte, avec cognats, lexique
(Moore, 2002) : mixte, sans lexique externe
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 36/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Alignement de mots
d'après (Macklovitch & Langlais, 2004)Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 37/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Principes d'alignement de mots
Comment savoir quels mots se correspondent ?
Co-occurrence fréquente dans des phrases alignées
Probabilité de traduction d'un mot par un autre(hors contexte), apprise ou trouvée dans un dictionnaire
Position des mots
Possibilié de traduction n:n (fertilité)
Dépendance (syntaxique) entre mots
. . .
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 38/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Quelques systèmes d'alignement de mots
GIZA++ : modèle statistique (Och & Ney, 2003)http://www.fjoch.com/GIZA++.html
http://code.google.com/p/giza-pp/
Méthodes heuristiques (Melamed, 1999)
I-Tools : mixte statistique et linguistique (Ahrenberget al., 2003)
Inversion Transduction Grammar : linguistique+ (Wu,1995)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 39/58
1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources
2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables
3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Alignement dans des corpus comparables
Enchaînement habituel de traitementsAnalyse distributionnelle monolingue
Analyse distributionnelle translingue
Similarité distributionnelle translingue
Donnée : lexique bilingue partiel (amorçage)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 41/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Principe : analyse distributionnelle translingue
Hypothèse distributionnelle : le sens d'un mot estdéterminé par l'ensemble de ses usages (Firth, 1957;Harris, 1991)→ Deux mots d'emplois similaires ont des sens proches
Extension translingue :Deux mots de deux langues di�érentes qui ont desemplois similaires dans leur langue respective ont dessens prochesLes mots qui ont les emplois les plus similaires sontpotentiellement en relation de traduction
Comment comparer les emplois des mots d'une langue àl'autre ?
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 42/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Principe : analyse distributionnelle translingue
Hypothèse distributionnelle : le sens d'un mot estdéterminé par l'ensemble de ses usages (Firth, 1957;Harris, 1991)→ Deux mots d'emplois similaires ont des sens proches
Extension translingue :Deux mots de deux langues di�érentes qui ont desemplois similaires dans leur langue respective ont dessens prochesLes mots qui ont les emplois les plus similaires sontpotentiellement en relation de traduction
Comment comparer les emplois des mots d'une langue àl'autre ?
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 42/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Analyse distributionnelle monolingue
Un mot est caractérisé par sa force d'association avecchaque autre motReprésentation : vecteur, dimension = nombre de motsdu corpusEn pratique : réduit la dimension au nombre de mots dulexique d'amorçage
en français score converti en anglaisadénome (11.8) adenomacellule (8.9) cellexamen (5.9) testhyperplasie (14.2) hyperplasialésion (8.8) lesionnucléole (17.4) nucleolusphotographie (13.9) photographprolifération (11.9) proliferationprostate (9.1) prostate...
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 43/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Analyse distributionnelle monolingue
Un mot est caractérisé par sa force d'association avecchaque autre motReprésentation : vecteur, dimension = nombre de motsdu corpusEn pratique : réduit la dimension au nombre de mots dulexique d'amorçage
en français score converti en anglaisadénome (11.8) adenomacellule (8.9) cellexamen (5.9) testhyperplasie (14.2) hyperplasialésion (8.8) lesionnucléole (17.4) nucleolusphotographie (13.9) photographprolifération (11.9) proliferationprostate (9.1) prostate...
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 43/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Analyse distributionnelle translingue
On connaît la traduction de chaque mot du lexique d'amorçage
Un pro�l distributionnel construit dans une langue peut doncse lire dans l'autre langue
Les pro�ls distributionnels des mots des deux corpus peuventainsi être comparés
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 44/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Similarité distributionnelle translingue
Comparaison de vecteurs: mesures classiques
Cosinus : angle entre deux vecteurs
Jaccard : intersection / union
Manhattan : somme des distances sur chaque dimension
Les mots cibles dont lespro�ls distributionnels sontles plus proches d'un motsource sont candidats à satraductionMots anglais dont le pro�lest le plus similaire à foie
français anglais similaritéfoie lung .270294foie liver .231073foie pain .174125foie patient .162746foie tumor .137852foie disease .136998foie primary .119938foie treatment .119257foie brain .109586foie cancer .105038foie bone .104870
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 45/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Recherche symétrique
(Sadat et al., 2003; Chiao et al., 2004)
foie → ? ? ← liver
français anglais similaritéfoie lung .270294foie liver .231073foie pain .174125foie patient .162746foie tumor .137852foie disease .136998foie primary .119938foie treatment .119257foie brain .109586foie cancer .105038foie bone .104870
anglais français similaritéliver foie .365169liver rare .309686liver associée .292330liver alzheimer .284989liver transmissible .269096liver fréquente .263598liver pathologie .257709liver cardiovasculaire .250468liver cardio-vasculaire .248039liver creutzfeldt-jakob .243688liver hépatique .242475liver origine .240563
foie ↔
candidats rangFrEn rangEnFr MH nouveau ranglung 1 4 1.60 2liver 2 1 1.33 1pain 3 31 5.48 4
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 46/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Méthodes internes : génération de traductions
Méthode interne : utilise la forme d'un motDeux exemples de méthodes :
1 Génération de règles de transduction2 Traduction par analogie formelle
Entrée : lexique bilingue partiel
Sortie : lexique bilingue étendu
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 47/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Génération de règles de transduction
English Frenchzirconium zirconium
... ...
ophthalmotoxin ophtalmotoxine
ophthalmologist ophtalmologiste
... ...
oscheitis oschéite
... ...
Exemples : paires {mot source, motcible} du lexique bilingue partiel
Inférence d'un transducteur quireprésente les correspondancessource→cible c/C
/F/D
/E
b/Ba/A
Application du transducteur surd'autres mots source
(Claveau & Zweigenbaum, 2005)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 48/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Génération de règles de transduction
English Frenchzirconium zirconium
... ...
ophthalmotoxin ophtalmotoxine
ophthalmologist ophtalmologiste
... ...
oscheitis oschéite
... ...
Exemples : paires {mot source, motcible} du lexique bilingue partiel
Inférence d'un transducteur quireprésente les correspondancessource→cible c/C
/F/D
/E
b/Ba/A
Application du transducteur surd'autres mots source
(Claveau & Zweigenbaum, 2005)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 48/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Génération de règles de transduction
English Frenchzirconium zirconium
... ...
ophthalmotoxin ophtalmotoxine
ophthalmologist ophtalmologiste
... ...
oscheitis oschéite
... ...
Exemples : paires {mot source, motcible} du lexique bilingue partiel
Inférence d'un transducteur quireprésente les correspondancessource→cible c/C
/F/D
/E
b/Ba/A
Application du transducteur surd'autres mots source
(Claveau & Zweigenbaum, 2005)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 48/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Traduction par analogie formelle
Donnée : lexique bilingue partiel
Entrée : mot source
Transfert d'analogies formelles
Recensement d'analogies formelles qui produisent le motde départ en langue source
Transfert de ces analogies en langue cible
Résolution des analogies formelles en langue cible
(Langlais et al., 2009)
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 49/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible
on voit : [andrologie : androgène :: pathologie : pathogène]
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible
on voit : [andrologie : androgène :: pathologie : pathogène]résoudre : [andrology : androgen :: pathology : ?]
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible
on voit : [glycogénique : pathogénique :: glycogène : pathogène]
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58
Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues
Construction automatique de lexiques multilingues
Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions
Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible
on voit : [glycogénique : pathogénique :: glycogène : pathogène]résoudre : [glycogenic : pathogenic :: glycogen : ?]
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58
ConclusionReferences
Pour �nir
4 Conclusion
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 51/58
ConclusionReferences
Conclusion
Intérêt et limites des corpus parallèlesMeilleure précision, meilleur rendementVolume borné
Potentiel et di�cultés des corpus comparablesLangue plus naturelle, volume potentiel plus grandPrécision plus faible des propositions de traduction
Indications et limites des méthodes internesGénération de traductions non vuesRepose sur la similarité de construction des motsou sur la proximité des langues
Méthodes automatiques vs intervention humaineBesoin de pilotage des méthodes automatiquesBesoin de validation des ressources constituées
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 52/58
ConclusionReferences
Bibliographie I
Ahrenberg L., Merkel M. & Petterstedt M. (2003). Interactive wordalignment for language engineering. In A. Copestake & J. Hajic, Eds.,Proceedings EACL 2003, p. 49�52, Budapest.
Chiao Y.-C. (2004). Extraction lexicale bilingue à partir de textesmédicaux comparables : application à la recherche d'informationtranslangue. Thèse de doctorat, informatique médicale, UniversitéParis 6.
Chiao Y.-C., Sta J.-D. & Zweigenbaum P. (2004). A novel approach toimprove word translations extraction from non-parallel, comparablecorpora. In Proceedings International Joint Conference on NaturalLanguage Processing, Hainan, China: AFNLP.
Claveau V. & Zweigenbaum P. (2005). Traduction de termesbiomédicaux par inférence de transducteurs. In ProceedingsTraitement automatique des langues naturelles (Traitementautomatique des langues naturelles), Dourdan.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 53/58
ConclusionReferences
Bibliographie II
Deléger L. (2009). Exploitation de corpus parallèles et comparables pourla détection de correspondances lexicales : application au domainemédical. Thèse de doctorat, informatique médicale, Université Pierreet Marie Curie.
Firth J. R. (1957). Papers in Linguistics, 1934�1951. London: OxfordUniversity Press.
Fung P. & McKeown K. (1997). Finding terminology translations fromparallel corpora. In Proceedings Fifth Annual Workshop on Very LargeCorpora, p. 192�202: ACL.
Gale W. & Church K. W. (1993). A program for aligning sentences inbilingual corpora. Computational Linguistics, 19(3), 75�102.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 54/58
ConclusionReferences
Bibliographie III
Goeuriot L., Grabar N. & Daille B. (2008). Characterization of scienti�cand popular science discourse in French, Japanese and Russian. In N.Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odjik, S. Piperidis& D. Tapias, Eds., Proceedings of the Sixth International LanguageResources and Evaluation (LREC'08), Marrakech, Morocco: EuropeanLanguage Resources Association (ELRA).http://www.lrec-conf.org/proceedings/lrec2008/.
Goeuriot L., Morin E. & Daille B. (2009). Reconnaissance du type dediscours dans des corpus comparables spécialisés. In ProceedingsCORIA 2009: ARIA. Ce volume.
Grefenstette G. & Nioche J. (2000). Estimation of English andnon-English language use on the WWW. In Proceedings of RIAO2000: Content-Based Multimedia Information Access, p. 237�246,Paris, France: C.I.D.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 55/58
ConclusionReferences
Bibliographie IV
Harris Z. S. (1991). A theory of language and information. Amathematical approach. Oxford: Oxford University Press.
Karlgren J. (1999). Stylistic experiments in information retrieval. In T.Strzalkowski, Ed., Natural language information retrieval, volume 7 ofText, speech and language technology, chapter 6, p. 147�166.Dordrecht & Boston: Kluwer Academic Publishers.
Ke G. & Zweigenbaum P. (2009). Catégorisation automatique de pagesweb chinoises : documents spécialisés vs grand public sur letabagisme. In Proceedings CORIA 2009, p. 203�128: ARIA.
Langlais P., Yvon F. & Zweigenbaum P. (2009). Improvements inanalogical learning: Application to translating multi-terms of themedical domain. In Proceedings 12th Conference of the EuropeanChapter of the ACL (EACL 2009), p. 487�495, Athens, Greece:Association for Computational Linguistics.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 56/58
ConclusionReferences
Bibliographie V
Macklovitch E. & Langlais P. (2004). Le bi-texte et ses applications. InP. Blache, Ed., Proceedings of TALN 2004 (Traitement automatiquedes langues naturelles), Fès, Maroc: ATALA LPL. Tutoriel.
Melamed I. D. (1999). Bitext maps and alignments via patternrecognition. Computational Linguistics, 25(1), 107�130.
Moore R. C. (2002). Fast and accurate sentence alignment of bilingualcorpora. In Machine Translation: From Research to Real Users, p.135�244, Heidelberg, Germany: Springer-Verlag. Proceedings 5thConference of the Association for Machine Translation in the Americas.
Och F. J. & Ney H. (2003). A systematic comparison of variousstatistical alignment models. Computational Linguistics, 29(1), 19�51.
Rapp R. (1999). Automatic identi�cation of word translations fromunrelated English and German corpora. In Proceedings of the 37th
ACL, College Park, Maryland.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 57/58
ConclusionReferences
Bibliographie VI
Sadat F., Yoshikawa M. & Uemura S. (2003). Learning bilingualtranslations from comparable corpora to cross-language informationretrieval: Hybrid statistics-based and linguistics-based approach. In J.Adachi & K.-F. Wong, Eds., Proceedings Sixth InternationalWorkshop on Information Retrieval with Asian Languages, p. 57�64.
Santini M., Power R. & Evans E. (2006). Implementing acharacterization of genre for automatic genre identi�cation of Webpages. In Proceedings COLING/ACL 2006 Main Conference PosterSessions, p. 699�706, Sydney.
Sebastiani F. (2002). Machine learning in automated text categorization.ACM Computing Surveys, 34(1), 1�47.
Wu D. (1995). Grammarless extraction of phrasal translation examplesfrom parallel texts. In In Proceedings of the Sixth InternationalConference on Theoretical and Methodological Issues in MachineTranslation, p. 354�372.
Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 58/58