Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et...

Post on 03-Apr-2015

115 views 0 download

Transcript of Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et...

Vers un système de traduction automatique du

langage texto

Centre de recherche en linguistique et traitement automatique des langues

Lucien TesnièreUniversité de Franche-Comté – Besançon -

FRANCE

http://tesniere.univ-fcomte.fr

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Ciprian MELIANciprian@melian.org

Séverine VIENNEYseverine.vienney@univ-fcomte.fr

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Apparition du langage texto avec le développement des nouvelles formes de communication écrite : – Sur internet : chat, forum de discussion, courrier électronique (e-mail)

– Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés [Que choisir, déc. 2003] )

Le langage texto

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● simplification de la langue : phénomène de troncations, absence des flexions, phonétisation, pictogrammes...

● une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse– objectifs :➔ retrouver une « cadence orale »➔ être concis et compris

Le langage texto : caractéristiques

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

Le langage texto : correction automatique / traduction automatique ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

● A priori, besoin d'un correcteur automatique

– Elle est allé au restaurant

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : correction automatique / traduction automatique ?

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

● A priori, besoin d'un correcteur automatique

– Elle est allé au restaurant

● En réalité, besoin d'un traducteur automatique

– L et alé au resto - L è alé o resto

– L E alé O resto

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : correction automatique / traduction automatique ?

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Utilité d'un tel système :

– Langage contrôlé mais contrôlé par qui ?

● Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] )

● Connaître les nouvelles tendances de troncation, de symboles utilisés.

● Si on ne connait pas la “norme” alors difficile de lire le texto :

➔ gain de temps à écrire➔ perte de temps à déchiffrer

Le langage texto : traduction automatique

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?– kestufé ? -->

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?– kestufé ? --> qu'est-ce que tu fais ?

● Publicité pour Nokia, 2002 :

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

● Bi-directionnel : français-texto / texto-français

● Architecture générale– Trois étapes :

● 1 : lecture du texte source● 2 : langage pivot● 3 : génération du texte cible

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Notre système

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 1 : Lecture du texte source

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● L'utilisateur entre son texte :

– Soit sous forme texto :

● HT du p1 E D poiro (acheter du pain et des poireaux)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 1 : Lecture du texte source

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● L'utilisateur entre son texte :

– Soit sous forme texto :

● HT du p1 E D poiro (acheter du pain et des poireaux)

– Soit en français :

● J'ai une bonne idée (G 1 bon ID)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 2 : Langage pivot

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Transcription à l'aide d'un système de règles

● Utilisation d'un langage pivot adéquat

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 3 : Génération du texte cible

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● A partir du langage pivot :

– Système de règles pour générer le texte

– Système de validation des formes produites

● Pour sms-français : désambiguïsation lexico-syntaxique et sémantique

● Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Phrase de départ : G 1 ID

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Phrase de départ : G 1 ID

● Langage pivot : – G –> Ze– 1 –> U~/ yn yn@– ID –> ide

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Génération du Français :– Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...

– U~/ –> un, ein, ain, in...– yn –> une, hune...– Yn@ –> une, hune...

– Ide –> idé, idée, idai...

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Validation lexicale :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Analyses morpho-syntaxiques et sémantiques :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Phrase de départ :

– G 1 ID

● Phrase après analyses :

- J'ai une idée

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Conclusions

Journées linguistiques vdu Centre L. Tesnière – 05 et 06 mars 2004

● Nouvelles formes de communication écrite

➔ nouvelles façons d'écrire➔ nouveaux outils TAL

● Premiers travaux dans ce domaine. Peu de chercheurs se sont penchés sur ce problème.

● Premiers résultats (après seulement quelques mois de recherches) sont encourageants

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Perspectives● Premier prototype à développer● Applicable à d'autres langues ● Au niveau industriel :

– téléphone mobile-traducteur– traducteur : e-mail, forum, chat...– modules en première étape de toute correction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Merci de votre attention...

des questions ?

Centre de recherche en linguistique et traitement automatique des

languesLucien TesnièreUniversité de Franche-Comté –

Besançon - FRANCE

http://tesniere.univ-fcomte.fr Journées linguistiques du

Centre L. Tesnière – 05 et 06 mars 2004

Ciprian MELIANciprian@melian.org

Séverine VIENNEYseverine.vienney@univ-fcomte.fr

Journée d’étude de l’ATALA – Paris - 5 juin 2004