Un exemple: difficulté de gérer une page d'accueil multilingue

72
p. 2 INTRO I II III IV CONC Un exemple: difficulté de gérer une page d'accueil multilingue q langues correctement produites sur la page d’accu te Papillon grâce à une coopération académique

description

Un exemple: difficulté de gérer une page d'accueil multilingue. Cinq langues correctement produites sur la page d’accueil du site Papillon grâce à une coopération académique. Exemple (suite). Comment ajouter "hindi" à la liste des langues ? - PowerPoint PPT Presentation

Transcript of Un exemple: difficulté de gérer une page d'accueil multilingue

Page 1: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 2INTRO I II III IV CONC

Un exemple: difficulté de gérer une page d'accueil multilingue

Cinq langues correctement produites sur la page d’accueil du site Papillon grâce à une coopération académique

Page 2: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 3INTRO I II III IV CONC

Exemple (suite) Comment ajouter "hindi" à la liste des langues ? Comment ajouter le paragraphe de présentation en malais ? Comment corriger une erreur en français et la répercuter ?

Page 3: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 4INTRO I II III IV CONC

Original: 土豆有防止胆固醇增高的作用

Pivot (anglais) : The potato has prevented the cholesterol advances function

Fr: La pomme de terre a empêché la fonction à l'avance de cholestérol

Jp: ポテトはコレステロールの前進機能を防いだ

Ru: Картошка предотвращала функцию выдвижений холестерола

Es: La patata ha prevenido la función de los avances del colesterol

Ce qu'on arrive à faire en pratique On crée un document multilingue « patchwork » via Systran On utilise le texte anglais généré comme "pivot" :-(; Impossible de corriger sans connaître le chinois ET l’anglais

Page 4: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 5INTRO I II III IV CONC

Analyse

En utilisant une langue naturelle comme pivot, les erreurs s'accumulent

LS Languenaturelle“pivot”

LC1

LC2

LC3AnalyseTransfert

Génération

AnalyseTransfert

Génération

AnalyseTransfert

Génération

AnalyseTransfert

Génération

Erreur en LC3 2*(analyse+transfert+génération)

土豆有防止胆固醇增高的作用

**La pomme de terre a empêché la fonction à l'avance de cholestérol

*The potato has prevented the cholesterol advances function

Page 5: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 6INTRO I II III IV CONC

Améliorer (au moins un peu) la version anglaise Les résultats sont moins mauvais, mais pas bons

Désir : corriger à partir des versions lues et non de l'anglais

Original: 土豆有防止胆固醇增高的作用

Pivot (anglais) : The potato can prevent cholesterol buildup

Fr: La pomme de terre peut empêcher l'accroissement de cholestérol

Jp: ポテトはコレステロールの集結を防ぐことができる

Ru: Картошка может предотвратить нарастание холестерола

Es: La patata puede prevenir la acumulación del colesterol

Une possibilité d'amélioration

corriger

Page 6: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 7INTRO I II III IV CONC

Problème avec une LN pivot (1)

Il faut une bonne connaissance de cette langue naturelle pour faire la révision

LSLangue

naturelle "pivot"

LC1’

LC2’

LC3’AnalyseTransfert

Génération

AnalyseTransfert

Génération

AnalyseTransfert

Génération

AnalyseTransfert

Génération

révision

*The potato has prevented the cholesterol advances functionThe potato can prevent the cholesterol buildup

Page 7: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 8INTRO I II III IV CONC

Problèmes d'une LN pivot (2)

Même si le lecteur peut réviser en anglais et dans sa langue, il ne peut pas réviser dans toutes les langues !

LSLangue

naturelle"pivot"

LC1’

LC2’

LC3’

AnalyseTransfert

Génération

AnalyseTransfert

Génération

AnalyseTransfert

Génération

AnalyseTransfert

Génération

révision

révision

révision

*La pomme de terre peut empêcher l'habillage de cholestérol

Page 8: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 9INTRO I II III IV CONC

D'où l'idée de faire "monter" le pivot intermédiaire

Langue source (LS) Langue cible (LC)

générationanalyse transfert

Structure abstraite

Page 9: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 10INTRO I II III IV CONC

Unification de la base de correction

LN1

LN2

LN3

LN4

LN5

LN6

LN1

LN2

LN3

LN4

LN5

LN6

Page 10: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 11INTRO I II III IV CONC

1ère idée pour implémenter cette solution Remplacer la langue naturelle pivot par un langage

pivot abstrait : texte structure

Éditer cette structure (éventuellement "localisée") pour l'améliorer, par édition et manipulation directes

Inconvénient : cette structure intermédiaire sera sans doute difficile à comprendre pour le « grand public »

LS

Structurepivot

LC1

LC2

LC3

AnalyseGénération

Révision?

Page 11: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 12INTRO I II III IV CONC

2ième idée : éditer "indirectement" ce pivot

Réviser directement dans la langue de l’utilisateur Descendre l’interface d’édition de la structure pivot

vers le texte : coédition

LS

structurepivot

LC1

LC2

LC3’

Analyse Génération

Révision (O)

Révision (X)

Page 12: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 13INTRO I II III IV CONC

3ième idée : partager les modifications

Regénérer dans toutes les langues Voir que certaines corrections ont amélioré

d'autres langues… :-);

LS

structurepivot

LC1’

LC2’

LC3’

Analyse Génération

Révision

Édition

Page 13: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 14INTRO I II III IV CONC

3 idées essentielles dans notre approche

Mutualisation et collaboration Chacun peut réviser des fragments dans sa langue

maternelle, tous bénéficient des révisions Toutes les révisions sont gardées et identifiées :

fonctionnement monotone Révision/génération à la demande

À l'utilisateur (lecteur) de décider Inutile de perfectionner des passages jugés inessentiels

par les lecteurs Partage de la révision

Réviser un fragment dans une langue l'améliorera dans d'autres

Page 14: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 15INTRO I II III IV CONC

Plan de la présentation

Problèmes en création et amélioration de documents multilingues

I. Idée de coédition II. Pivot choisi (UNL) III. Construction de la correspondance IV. Scénarios d’un système de coédition Conclusion et perspectives

Page 15: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 16INTRO I II III IV CONC

Idée de base : coédition

Coédition : éditer un « pivot » (objet 01) indirectement,

en éditant un texte (objet 02) édition « multiple » « descendre » l’interface d’édition

Exemples de « coédition » réussie : Ambassador - logiciel d’édition de lettres

commerciales bilingues Multimétéo - génération automatique

multilingue de bulletins météo

Objet 1 Objet 2

Page 16: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 17INTRO I II III IV CONC

Défis de notre système de coédition - I

Établir la correspondance entre une structure abstraite et le texte concret, sans devoir créer de nouvelles ressources

coûteuses

En rouge ce qui est à construire, en souligné ce que nous avons

La pomme de terre peut empêcher l‘accroissement de cholestérol (objet 2)

Structure abstraite ?(objet 1)

correspondance

Page 17: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 18INTRO I II III IV CONC

Défis de notre système de coédition - II

Construire une interface utilisable Économiser du côté d’utilisateur - on doit donc

annoter le texte (partiellement), pas le corriger Ex: les grands chevaux [sing]

le grand cheval

à construire ce que nous avons

La pomme de terre peut empêcher l'accroissement de cholestérol (objet 2)

[pl] Les pommes de terre[indef] une pomme de terre

Page 18: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 19INTRO I II III IV CONC

Plan de la présentation

Problèmes en création et amélioration de documents multilingues

I. Idée de coédition II. Pivot choisi (UNL) III. Construction de la correspondance IV. Scénarios d’un système de coédition Conclusion et perspectives

Page 19: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 20INTRO I II III IV CONC

Graphe UNL (Universal Networking Language)

{unl} agt(regret(icl>do).@entry, he) obj(regret(icl>do).@entry, :01) agt:01(come(agt>human,gol>place).@entry.@future.@not, you) and(regret(icl>do).@entry, know(agt>human,icl>event)) agt(know(agt>human,icl>event), he) obj(know(agt>human,icl>event), :01) {/unl}{fr}il sait que tu ne viendras pas et il le regrette.{/fr}{el}he knows that you will not come and he regrets it.{/el}

regret(icl>do).@entry

he

know(agt>human,icl>event)

you

come(agt>human,gol>place) .@entry.@future.@not

agt :01

and

obj agt

agt obj

HeadwordrestrictionUniversal Wordattributrelation

scope

Page 20: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 21INTRO I II III IV CONC

UNL : un projet, un langage, un format UNL – Universal Networking Language Enconversion & déconversion Document multilingue

我昨天在公園裡跑步

Document chinois Serveur

UNL-cn

Encon-version

<HTML><HEAD><TITLE>Example 1 </TITLE></HEAD><BODY>[D:on=WJT, dt=04032002][P:1][S:1]<unl:org:cn> 我昨天在公園裡跑步</unl:org><unl:unl>agt(run(icl>do).@entry.@past,i)plc(run(icl>do).@entry.@past,park.@def)tim(run(icl>do).@entry.@past,yesterday)</unl:unl><unl:cn> 我昨天在公園裡跑步 </unl:cn>[/S][/P][/D]</BODY></HTML>

Serveur UNL-deUNL-elUNL-esUNL-fr……

Décon-version

<HTML><HEAD><TITLE>Example 1 </TITLE></HEAD><BODY>[D:on=WJT, dt=04032002][P:1][S:1]<unl:org:cn> 我昨天在公園裡跑步</unl:org><unl:unl>agt(run(icl>do).@entry.@past,i)plc(run(icl>do).@entry.@past,park.@def)tim(run(icl>do).@entry.@past,yesterday)</unl:unl><unl:cn> 我昨天在公園裡跑步 </unl:cn><unl:de>Ich lief in den Park gestern. </unl:de><unl:el>I ran in the pary yesterday.</unl:el><unl:es>Yo corri ayer en el parque.</unl:es><unl:fr>J’ai couru dans le parc hier. </unl:fr>[/S][/P][/D]</BODY></HTML>

Document UNL-html

Page 21: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 22INTRO I II III IV CONC

Utilisation d'un document multilingue UNL-html

Visualisation dans une des langues contenues

<HTML><HEAD><TITLE>Example 1 </TITLE></HEAD><BODY>[D:on=WJT, dt=04032002][P:1][S:1]<unl:org:cn> 我昨天在公園裡跑步</unl:org><unl:unl>agt(run(icl>do).@entry.@past,i)plc(run(icl>do).@entry.@past,park.@def)tim(run(icl>do).@entry.@past,yesterday)</unl:unl><unl:cn> 我昨天在公園裡跑步 </unl:cn><unl:de>Ich lief in den Park gestern. </unl:de><unl:el>I ran in the pary yesterday.</unl:el><unl:es>Yo corri ayer en el parque.</unl:es><unl:fr>J’ai couru dans le parc hier. </unl:fr>[/S][/P][/D]</BODY></HTML>

UNL-viewer

XSLT+Javascript

Page 22: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 23INTRO I II III IV CONC

Création distribuée de documents UNL

Page 23: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 24INTRO I II III IV CONC

Ressources UNL construites

Déconvertisseurs (13 langues) arabe, brésilien, chinois, anglais, français, hindi,

italien, indonésien, japonais, russe, espagnol, thaï, lithuanien

Enconvertisseurs arabe, russe, français

Dictionnaires autant que de déconvertisseurs

Graph editor / UNL Viewer / UNL proxy / UNL vérificateur

Page 24: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 25INTRO I II III IV CONC

Document UNL-xml (notre proposition)

<unl:D on=“WJT” dt=“04032002”><unl:P number=“1”><unl:S number=“1’><unl:org: lang=“cn”>我昨天在公園裡跑步</unl:org><unl:unl sn=“Ariane” pn=“WJT” dt=“04032002”>agt(run(icl>do).@entry.@past,i)plc(run(icl>do).@entry.@past,park.@def)tim(run(icl>do).@entry.@past,yesterday)</unl:unl>

<unl:GS lang=“cn”>我昨天在公園裡跑步 </unl:GS><unl:GS lang=“de”>Ich lief in den Park gestern. </unl:GS><unl:GS lang=“el”>I ran in the park yesterday.</unl:GS><unl:GS lang=“es”>Yo corri ayer en el parque.</unl:GS><unl:GS lang=“fr”>J’ai couru dans le parc hier. </unl:GS></unl:S></unl:P></unl:D>

Même simplicité que UNL-html

Ouverture à tous les outils liés à xml

création aisée de UNL-xml Viewer

Page 25: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 26INTRO I II III IV CONC

Erreurs corrigibles par coédition texte-UNL

Erreurs de déconversion/enconversion (non) Déconvertisseurs utilisés comme des « boîtes noires » Ordre des mots, mots manquants dans les dicos, etc. On peut toujours signaler les erreurs aux LC

Erreurs syntaxiques (non) Graphe ne respectant pas les spécifications Présence d'un scope non connexe, faute d’écriture

Erreurs sémantiques (oui) Sous-spécification

détermination, nombre, genre, temps, voix , aspect

Emploi erroné des relations ou des attributs

Page 26: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 27INTRO I II III IV CONC

Sous-spécification他昨天洗他的车 (chinois)

เขาล้�างรถของเขาเมื่��อวานน�� (thaï)彼は昨日彼の車を洗った (japonais)

{unl} agt(wash(icl>do).@entry.@past, he) obj(wash(icl>do).@entry.@past, car(icl>thing).@pl) pos(car(icl>thing).@pl, he) tim(wash(icl>do).@entry.@past, yesterday){/unl}

{unl} agt(wash(icl>do).@entry.@past, he) obj(wash(icl>do).@entry.@past, car(icl>thing)) pos(car(icl>thing), he) tim(wash(icl>do).@entry.@past, yesterday){/unl}

Il a lavé ses voitures hier.Он вымыл свои автомобили вчера.él aseó sus coches ayer.

Il a lavé sa voiture hier.Он вымыл свой автомобиль вчера.él aseó su coche ayer.

{unl} agt(wash(icl>do).@entry, he) obj(wash(icl>do).@entry, car(icl>thing)) pos(car(icl>thing), he) tim(wash(icl>do).@entry, yesterday){/unl}

Il lave sa voiture hier.Он моет свой автомобиль вчера.él asea su coche ayer.

Page 27: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 28INTRO I II III IV CONC

Plan de la présentation

Problèmes en création et amélioration de documents multilingues

I. Idée de coédition II. Pivot choisi (UNL) III. Construction de la correspondance IV. Scénarios d’un système de coédition Conclusion et perspectives

Page 28: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 29INTRO I II III IV CONC

Comment établir la correspondance ?

he(icl>human)

regret(icl>do).@entry

:01come.@entry.@not.@future

youknow(agt>human, obj>event)

obj

agt

agt

and

objagt

Il sait que tu ne viendras pas et il le regrette.

Correspondance?

On a choisi UNL comme le langage pivot

Page 29: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 30INTRO I II III IV CONC

Procédure d’établissement de la correspondance

enrichir la correspondance

s’il y a plusieurs trajectoires provisoires,

calculer la pénalité de croisement

dico UNL/Li, ang/Li

graphe UNL

arbre UNL

arbre UNL étendu

meilleure trajectoire

correspondance arbre - treillisenrichie

texte en Li

treillis LMS

treillis LMS étendu

AMS/segmenteurgraphe arbre

construire les liaisons lexicales

dico Li/UNL, Li/ang

trajectoire(s) provisoire(s)

Page 30: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 31INTRO I II III IV CONC

Côté graphe : graphe UNL arbre UNL étendu

he(icl>human)

regret(icl>do).@entry

:01

come.@entry.@not.@future

youknow(agt>human, obj>event)

obj

agt

agt

and

objagt

2 he(icl>human)agt (il, pper) inst=2

1 regret(icl>do).@entry(regretter, verb)

4 :S01 objinst=4

5 come.@entry.@not.@future(venir, verb)

6 you agt(tu, pper)

3 know(agt>human, obj>event) and(savoir, verb)/(connaître, verb)

7 he(icl>human)agt (il, pper) inst=2

8 :S01 objinst=4

• Copier les nœuds qui ont plus d’un arc entrant• Inverser le moins d'arcs possible• Créer un pseudo-nœud par scope• Le nœud porte la relationpseudo-nœud

nœud dupliqué

Page 31: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 32INTRO I II III IV CONC

Procédure d’établissement de la correspondance

enrichir la correspondance

s’il y a plusieurs trajectoires provisoires,

calculer la pénalité de croisement

dico UNL/Li, ang/Li

graphe UNL

arbre UNL

arbre UNLétendu

meilleure trajectoire

correspondance arbre - treillisenrichie

texte en Li

treillis LMS

treillis LMS étendu

AMS/segmenteurgraphe arbre

construire les liaisons lexicales

dico Li/UNL, Li/ang

trajectoire(s) provisoire(s)

Page 32: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 33INTRO I II III IV CONC

Côté texte : texte treillis LMS étendu

Il sait que tu ne viendras pas et il le regrette.

S1

1 ilpperhe

2 savoirverbknow

4 tupperyou

5 tuppasquiet

3 queprlcthat

6 nenenot

7venirverbcome

8 paspasnot

9 etcocoand

10 ilpperhe

11 ledetpit/he

12 regretterverb indregret

< >

13 regretterverb subregret

14 regretterverb impregret

S2

« LMS » = lexico-morpho-syntaxique« étendu » = portant les lemmes anglais correspondants

Sortie du lemmatiseur PILAF (serveur de Damien Genthial)

Page 33: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 34INTRO I II III IV CONC

Définitions

Une « liaison » est un lien créé entre deux éléments de deux structures de niveaux différents.

Une « correspondance » est un ensemble de liaisons vérifiant une certaine propriété.

Arbre UNL

Treillis LMS

départ arrivée

Page 34: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 35INTRO I II III IV CONC

Division en trois sous-correspondances

Graphe UNL arbre UNL Utiliser l'algorithme de G. Sérasset ou de E. Blanc

Arbre UNL treillis LMS Etablir la correspondance lexicale Ajuster (rotation) la structure de l’arbre pour qu’il y ait le

moins de croisements possible Appliquer les patrons de correspondances non lexicales

Treillis LMS texte Utiliser un segmenteur ou un lemmatiseur "libre"

Page 35: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 36INTRO I II III IV CONC

Procédure d’établissement de la correspondance

enrichir la correspondance

s’il y a plusieurs trajectoires provisoires,

calculer la pénalité de croisement

dico UNL/Li, ang/Li

graphe UNL

arbre UNL

arbre UNLétendu

meilleure trajectoire

correspondance arbre - treillisenrichie

texte en Li

treillis LMS

treillis LMS étendu

AMS/segmenteurgraphe arbre

construire les liaisons lexicales

dico Li/UNL, Li/ang

trajectoire(s) provisoire(s)

Page 36: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 37INTRO I II III IV CONC

Liaisons lexicales entre arbre UNL et treillis LMS

1 ilpperhe

2 savoirverbknow

4 tupperyou

5 tuppasquiet

3 queprlcthat

6 nenenot

7 venirverbcome

8 paspasnot

9 etcocoand

10 ilpperhe

11 ledetpit/he

12 regretterverb indregret

<

>

2 he(icl>human)agt (il, pper) inst=2

1 regret(icl>do).@entry(regretter, verb)

4 :S01 objinst=4

5 come.@entry.@not.@future(venir, verb)

6 you agt(tu, pper)

3 know(agt>human, obj>event) and(savoir, verb)/(connaître, verb)

7 he(icl>human)agt (il, pper) inst=2

8 :S01 objinst=4

13 regretterverb subregret

14 regretterverb impregret

S3

S2

l1

l2l3

l4 l5

l6 l7

Il sait que tu ne viendras pas et il le regrette

Page 37: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 38INTRO I II III IV CONC

Patrons de liaisons identifiés : UNL français

Poids d’une pénalité de croisement 10

Poids d’une liaison lexicale sûre 10

Poids d’une liaison lexicale secondaire 5 

PILAF UNL poids

catégories   (*/5)

adv Adverbe (icl>how) 5

subc substantif commun (icl>thing) 5

adjq Adjectif qualificatif (mod<thing)/(aoj>thing) 4

verb Verbe (icl>do)/(icl>occur)/(icl>state) 5

detp Déterminant-ponom @def 3,5

ide Indéfini @indef 3,5

locp Locution prépositionnelle plc, tim 3

vet Verbe être aoj 3

xet/xav & ppas

Auxiliaire être/Auxiliaire avoir & Participe passé

.@complete/.@past 4

ne pas Négation ne &2ème négation pas .@not 5

       

variables    

imp Impératif .@imperative 4

fut Futur .@future 4

pre Présent .@present 3

imi Imparfait de l’indicatif .@past 3

cdl Conditionnel .@request/.@unreal 2

sub Subjonctif  

plu Pluriel .@pl 5

Page 38: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 39INTRO I II III IV CONC

Correspondance enrichie

1ilpperhe

2savoirverb indknow

4 tupperyou

5 tuppasquiet

3 queprlcthat

6 nenenot

7venirverb futcome

8 paspasnot

9 etcocoand

10 ilpperhe

11 ledetpit/he

12 regretterverb indregret

<

>

2 he(icl>human)agt (il, pper) inst=2

1 regret(icl>do).@entry(regretter, verb)

4 :S01 objinst=4

5 come.@entry.@not.@future(venir, verb)

6 you agt(tu, pper)

3 know(agt>human, obj>event) and(savoir, verb)/(connaître, verb)

7 he(icl>human)agt (il, pper) inst=2

8 :S01 objinst=4

13 regretterverb subregret

14 regretterverb impregret

S3

S2

l1

l2l3

l4

l6

Il sait que tu ne viendras pas et il le regrette

Page 39: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 40INTRO I II III IV CONC

Ajouter une autre langue? Coéditer en chinois? Il suffit :

d’avoir le dictionnaire UNL-chinois/ anglais-chinois de connaître et comprendre les variables de l'AMS chinois

Catégories Standard Catégories du chinois moderne Explication

A A (非謂)形容詞 épithète

ADV D, Da, Dfa, Dfb, Dk 副詞 adverbe

ASP Di 時態標記 particule d’aspect

C Caa, Cbb 連接詞 conjonction

DET Nep, Neqa, Nes, Neu 定詞 déterminant

FW FW 外文標記 mot étranger

M Nf 量詞 spécificatif

N Na, Nb, Nc, Ncd, Nd, Nh 名詞 nom

P P 介詞 préposition

POST Cab, Cba, Neqb Ng 後置詞 postposition

T De, I, T 語助詞 particule

Vi VA, VB, VH, VI 不及物動詞 verbe intransitif

Vt SHI, VAC, VC, VCL, VD, VE, VF, VG, VHC, VJ, VK, VL, V_2

及物動詞 verbe transitif

NAV 名謂詞 prédicat nominal

utiliséparAUTOTAG

Page 40: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 41INTRO I II III IV CONC

Plan de la présentation

Problèmes en création et amélioration de documents multilingues

I. Idée de coédition II. Pivot choisi (UNL) III. Construction de la correspondance IV. Scénarios d’un système de coédition Conclusion et perspectives

Page 41: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 42INTRO I II III IV CONC

Scénario de coédition avec UNL

lecture en Li (sur le web) désir de corriger les erreurs en Li passage dans l’environnement de coédition corrections (modes expert et normal)

retardées sur le texte immédiates sur le graphe

déconversion en Li itération si résultat non satisfaisant,

déconversion vers L1… Ln si OK retour à la lecture

Page 42: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 43INTRO I II III IV CONC

Lecture en français d’un document UNL-xml

Page web fabriquée à la « UNL » origine = anglais, avec le graphe UNL derrière

Page 43: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 44INTRO I II III IV CONC

Sélection d’un fragment à coéditer

Page 44: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 45INTRO I II III IV CONC

État initial de la coédition

Page 45: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 46INTRO I II III IV CONC

Trois cadres dans l’environnement de coédition

Page 46: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 47INTRO I II III IV CONC

Choix de visualisation des autres langues

Page 47: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 48INTRO I II III IV CONC

On peut insérer manuellement les corrections

Page 48: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 49INTRO I II III IV CONC

Si on coédite (pour partager), les modifications possibles sont proposées par le système

Page 49: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 50INTRO I II III IV CONC

Modifications proposées par le système

Contraintes langue coéditée liaisons établies spécifications d’UNL sortie de l'AMS

Exemples Chinois – majuscule/minuscule (x),

détermination (?), bonne segmentation (o) Arabe – duel (pas possible pour l’instant)

Japonais – plusieurs niveaux de politesse (pas

possible pour l’instant)

Page 50: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 51INTRO I II III IV CONC

État après avoir fait une modification

Page 51: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 52INTRO I II III IV CONC

Obtention de la nouvelle déconversion

Page 52: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 53INTRO I II III IV CONC

Lecture du nouveau texte

Page 53: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 54INTRO I II III IV CONC

Déconversion vers l’espagnol

Page 54: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 55INTRO I II III IV CONC

Déconversion vers l’espagnol

El UNIFEM asegura la participación de mujeres

(avant : mujer)

Page 55: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 56INTRO I II III IV CONC

Plan de la présentation

Problèmes en création et amélioration de documents multilingues

I. Idée de coédition II. Pivot choisi (UNL) III. Construction de la correspondance IV. Scénarios d’un système de coédition Conclusion et perspectives

Page 56: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 57INTRO I II III IV CONC

Résultats avant et après coédition étape français italien espagnol chinois russe

0 Des enfants regardent un phénomène du monde véritable proche et sensible.

Bambini guardare fenomeno del vero il mondo percettibile.

Niño miran a el fenómeno del mundo real de cercano y perceptible

孩子们看真实靠近世界的一个现象

Дети наблюдают явление близкого и заметного настоящего мира.

1 (.@def)

Les enfants regardent un phénomène du monde véritable proche et sensible.

I bambini guardare fenomeno del vero il mondo percettibile.

Los niño miran a el fenómeno del mundo real de cercano y perceptible.

孩子们看真实靠近世界的一个现象

Дети наблюдают явление близкого и заметного настоящего мира.

2 (.@not)

Les enfants ne regardent pas un phénomène du monde véritable proche et sensible.

I bambini non guardare fenomeno del vero il mondo percettibile

Los niño no miran a el fenómeno del mundo real de cercano y perceptible

孩子们不看真实靠近世界的一个现象

Дети не наблюдают явление близкого и заметного настоящего мира

Page 57: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 58INTRO I II III IV CONC

Encore quelques mots sur la coédition

Certaines modifications ne s’expriment pas dans certaines langues

Il faut signaler systématiquement les modifications faites au propriétaire du document

L’utilisateur devrait pouvoir donner des retours aux développeurs des déconvertisseurs

Page 58: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 59INTRO I II III IV CONC

Apports de la thèse

Nouvelle approche de la TAO coédition permettant de partager la révision amélioration à la demande, partielle (coût moindre)

mutualisation démocratisation de la qualité

Modélisation des correspondances UNL LN Calcul d'une telle correspondance

sans ressources lourdes

Site web SWIIVRE-UNL pour l'information, l'initiation, la validation, la

recherche et l'expérimentation d'UNL

Page 59: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 60INTRO I II III IV CONC

Perspectives de recherche

Construire une maquette 100% opérationnelle Évaluer la « couverture » de la correspondance Compléter l'architecture, de façon à pouvoir :

traiter une nouvelle langue de coédition sans programmer à bas niveau (outil générique à inventer)

éditer les graphes UNL par manipulation directe avec "localisation" dans la langue de coédition

calculer et visualiser la correspondance entre deux versions (dans 2 LN) en passant par UNL

Créer un graphe UNL au moment de l’édition d’une phrase en langue naturelle en intégrant la désambiguïsation interactive

Page 60: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 61INTRO I II III IV CONC

Je vous remercie pour votre attention

我因为你的注意感谢你 Je vous remercie de votre attention Я влагодарю вас из-за вашего attention Ringraziare te per la tua attenzione Yo os agradezco por vuestras atención

thank(icl>do).@entry

Iyou.@pl

attention(icl>awareness)

agtobj

rsn

pos

Page 61: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 62INTRO I II III IV CONC

Expressivité du langage UNL (I) Comment désambiguïser une UW (sous-spécification)?

state state(icl>do(obj>thing)) – constater state(icl>nation) – l’Etat state(icl>situation) – la situation, le stade state(icl>government) – le gouvernement

answer answer(icl>do) – répondre answer(icl>thing) – réponse

marry marry(agt>male) – 娶 (chinois), женитья (russe) marry(agt>female) – 嫁 (chinois), выходить замуж(russe)

Comment ajouter un nouveau concept? samba(icl>dance) – un genre de danse ikebana(icl>art, obj>flower) – art floral japonais

Expressivité du langage UNL (II)

41 relations sémantiques insuffisantes? Décomposition la conjonction anglaise

On ne trouve pas la relation sémantique pour exprimer “malgré” man(come(icl>do) , although)obj(although, rain(icl>natural phenomenon))“il vient malgré la pluie”

Expériences – corpus codés assez variés Document de l’ONU FB2004, sport, mode d’emploi

Page 62: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 63INTRO I II III IV CONC

Expressivité du langage UNL (II) 41 relations sémantiques insuffisantes? non

Décomposition de conjonction anglaise (malgré) On ne trouve pas la relation sémantique pour exprimer

“malgré”, mais on peut écrire comme ça: man(come(icl>do) , although) obj(although, rain(icl>natural phenomenon)) “il vient malgré la pluie”

Corpus codés assez variés Document de l’ONU FB2004, sport, manuel d’utilisation

Page 63: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 64INTRO I II III IV CONC

Site web SWIIVRE-UNL – page d’accueil

Page 64: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 65INTRO I II III IV CONC

Site web SWIIVRE-UNL - expérimentation

Page 65: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 66INTRO I II III IV CONC

Effet de la coédition sur les autres langues Déconversion vers la langue originale est

déconseillée. Pour garder le sens original

On suppose que les utilisateurs n’abusent pas Sur-spécifications possibles

marry(agt>male) pour le français, l’anglais .@past, .@pl pour le chinois, le thaï

À déconvertisseur de juger

Plus de renseignements corrects, plus de chance de générer une phrase correcte

Page 66: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 67INTRO I II III IV CONC

Effet de la coédition sur les autres langues - II

étape français espagnol russe chinois0 Il lave sa

voiture hier.

él asea su coche ayer.

Он моет свой автомобиль вчера.

他昨天洗他的小汽车

1 .@past

Il a lavé sa voiture hier.

él aseó su coche ayer.

Он вымыл свой автомобиль вчера.

他昨天洗他的小汽车

2

.@pl

Il a lavé ses voitures hier.

él aseó sus coches ayer.

Он вымыл свои автомобили вчера.

他昨天洗他的小汽车

Sur-spécifications pour le chinois Versions générées par les déconvertisseurs

Page 67: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 68INTRO I II III IV CONC

Rotation de l’arbre UNL - I

La mer d’Aral était la quatrième plus grande mer dans le monde.

Page 68: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 69INTRO I II III IV CONC

Rotation de l’arbre UNL - II

La mer d’Aral était la quatrième plus grande mer dans le monde.

Page 69: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 70INTRO I II III IV CONC

Treillis LMS - I

┝┫

terre verbterrer

desdetdes pommes

verbpommer

mange verb manger De

dede

Je pper

je

terre subcterre

pommes subcpomme

pommes de terre subc

pomme de terre

desprepdes

Je mange des pommes de terre.

Page 70: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 71INTRO I II III IV CONC

Treillis LMS - II

美國會同意 . Les États-Unis vont donner leur accord. Le parlement américain a donné son accord.

┝┫

國會 guo2hui4parlement 同意 tong2yi4

donner son accord

美國 mei3guo2Les Etats-Unis

會 hui4particule de futur

美 mei3américain

美 mei3beau, beauté

Page 71: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 72INTRO I II III IV CONC

Le post-doc Activités

Spécifications des données linguistiques et syntaxiques Tests et validation des données et des traitements linguistiques Méthodologies de segmentation et d’analyse des textes chinois Contribution à des études sur le TAL du chinois Mise en place d’un environement d’éditioin des idéogrammes Contribution à l’identification des applications du TALN en Chine Participatioin à des projets collaboratifs internationaux Rôle d’interface avex une équipe basée à Pékin

Page 72: Un exemple: difficulté de gérer une page d'accueil  multilingue

p. 73INTRO I II III IV CONC

Le post-doc

Profils souhaités Linguistique et informatique Programmation C, C++ TALN du chinois Connaissances en représentation formelle des données linguistiaues Connaissances en édition de textes multilingues Sensibilité aux applications du TALN Esprit de la communication et du travail en équipe Esprit du travail multildisciplinaire Langues : chinois et anglais