Post on 03-Apr-2015
Vers un système de traduction automatique du
langage texto
Centre de recherche en linguistique et traitement automatique des langues
Lucien TesnièreUniversité de Franche-Comté – Besançon -
FRANCE
http://tesniere.univ-fcomte.fr
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Ciprian MELIANciprian@melian.org
Séverine VIENNEYseverine.vienney@univ-fcomte.fr
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● Apparition du langage texto avec le développement des nouvelles formes de communication écrite : – Sur internet : chat, forum de discussion, courrier électronique (e-mail)
– Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés [Que choisir, déc. 2003] )
Le langage texto
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● simplification de la langue : phénomène de troncations, absence des flexions, phonétisation, pictogrammes...
● une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse– objectifs :➔ retrouver une « cadence orale »➔ être concis et compris
Le langage texto : caractéristiques
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ être concis et compris
– Exemple : Elle est allée au restaurant
Le langage texto : correction automatique / traduction automatique ?
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ être concis et compris
– Exemple : Elle est allée au restaurant
● A priori, besoin d'un correcteur automatique
– Elle est allé au restaurant
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : correction automatique / traduction automatique ?
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ être concis et compris
– Exemple : Elle est allée au restaurant
● A priori, besoin d'un correcteur automatique
– Elle est allé au restaurant
● En réalité, besoin d'un traducteur automatique
– L et alé au resto - L è alé o resto
– L E alé O resto
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : correction automatique / traduction automatique ?
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● Utilité d'un tel système :
– Langage contrôlé mais contrôlé par qui ?
● Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] )
● Connaître les nouvelles tendances de troncation, de symboles utilisés.
● Si on ne connait pas la “norme” alors difficile de lire le texto :
➔ gain de temps à écrire➔ perte de temps à déchiffrer
Le langage texto : traduction automatique
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ?
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ? --> c'était qui ?
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ? --> c'était qui ?– kestufé ? -->
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ? --> c'était qui ?– kestufé ? --> qu'est-ce que tu fais ?
● Publicité pour Nokia, 2002 :
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
● Bi-directionnel : français-texto / texto-français
● Architecture générale– Trois étapes :
● 1 : lecture du texte source● 2 : langage pivot● 3 : génération du texte cible
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Notre système
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 1 : Lecture du texte source
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● L'utilisateur entre son texte :
– Soit sous forme texto :
● HT du p1 E D poiro (acheter du pain et des poireaux)
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 1 : Lecture du texte source
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● L'utilisateur entre son texte :
– Soit sous forme texto :
● HT du p1 E D poiro (acheter du pain et des poireaux)
– Soit en français :
● J'ai une bonne idée (G 1 bon ID)
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 2 : Langage pivot
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● Transcription à l'aide d'un système de règles
● Utilisation d'un langage pivot adéquat
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 3 : Génération du texte cible
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● A partir du langage pivot :
– Système de règles pour générer le texte
– Système de validation des formes produites
● Pour sms-français : désambiguïsation lexico-syntaxique et sémantique
● Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Phrase de départ : G 1 ID
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Phrase de départ : G 1 ID
● Langage pivot : – G –> Ze– 1 –> U~/ yn yn@– ID –> ide
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Génération du Français :– Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...
– U~/ –> un, ein, ain, in...– yn –> une, hune...– Yn@ –> une, hune...
– Ide –> idé, idée, idai...
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Validation lexicale :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Analyses morpho-syntaxiques et sémantiques :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Phrase de départ :
– G 1 ID
● Phrase après analyses :
- J'ai une idée
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Conclusions
Journées linguistiques vdu Centre L. Tesnière – 05 et 06 mars 2004
● Nouvelles formes de communication écrite
➔ nouvelles façons d'écrire➔ nouveaux outils TAL
● Premiers travaux dans ce domaine. Peu de chercheurs se sont penchés sur ce problème.
● Premiers résultats (après seulement quelques mois de recherches) sont encourageants
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Perspectives● Premier prototype à développer● Applicable à d'autres langues ● Au niveau industriel :
– téléphone mobile-traducteur– traducteur : e-mail, forum, chat...– modules en première étape de toute correction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Merci de votre attention...
des questions ?
Centre de recherche en linguistique et traitement automatique des
languesLucien TesnièreUniversité de Franche-Comté –
Besançon - FRANCE
http://tesniere.univ-fcomte.fr Journées linguistiques du
Centre L. Tesnière – 05 et 06 mars 2004
Ciprian MELIANciprian@melian.org
Séverine VIENNEYseverine.vienney@univ-fcomte.fr
Journée d’étude de l’ATALA – Paris - 5 juin 2004