TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

59
TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE Présentée et soutenue publiquement le 10/03/2017 par : Achraf Othman Dirigée par : Prof. Mohamed JEMNI Jury: Président: Prof. Faiez GARGOURI Rapporteur: Prof. Mounir ZRIGUI Rapporteur: Prof. Chiraz LATIRI Examinateur: Prof. Kais HADDAR THÈSE, POUR L’OBTENTION DU GRADE DE DOCTEUR EN INFORMATIQUE 10/03/2017

Transcript of TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

Page 1: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE

SUR UNE APPROCHE STATISTIQUE

Présentée et soutenue publiquement le 10/03/2017 par :

Achraf Othman

Dirigée par :

Prof. Mohamed JEMNI

Jury:

Président: Prof. Faiez GARGOURIRapporteur: Prof. Mounir ZRIGUIRapporteur: Prof. Chiraz LATIRIExaminateur: Prof. Kais HADDAR

THÈSE, POUR L’OBTENTION DU GRADE DE DOCTEUR EN INFORMATIQUE

10/03/2017

Page 2: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 2

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 3: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 3

• Projet WebSign du laboratoire de recherche LaTICE : mettre en œuvre un outil de communication pour les malentendants à travers le web, en utilisant un personnage virtuel 3D

• Langue des signes communauté des personnes sourdes

• Interprétation et accès à l’information

• Le Traitement automatique du langage naturel (TALN)

• Le traitement automatique des langues de signes (TALS)

• Traduction automatique vers et à partir des LS

Introduction

www.latice.rnu.tn/websign

Page 4: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 4

• Le travail effectué s’articule autour de 4 axes :

Introduction (suite…)

1. L’étude des spécificités de la traduction de la langue des signes transcrite manuellement ou bien automatiquement ;

2. Le développement d’un système de transcription ;

3. La génération d’un corpus parallèle artificiel en utilisant des approches linguistiques.

4. La traduction automatique en utilisant une approche statistique.

Page 5: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 5

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 6: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 6

• Langue des signes Langue naturelle

• Système de communication :

– Flexible

– Transmission

• Composition :

– Configuration

– Emplacement

– Orientation

– Mouvement

– Expression du visage

Etat de l’art

La langue des signes (LS)

Page 7: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 7

• L’universalité

• Les langues vocales

• L’iconicité

• Les standards d’écriture:

– Notation – Annotation

Etat de l’art

Les langues de signes (suite…)

Page 8: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 8

• Forme écrite des LS:

– Utilisation

– Accès à l’information et au contenu multimédia

• Spécificités :

– Mots et phrases ;

– Configuration des deux mains

– Gestes non-manuels

– Iconicité

– Possibilités descriptives

Etat de l’art

Systèmes de transcription des langues des signes

ASL Lexicon Video Dataset ASLLVD

Page 9: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 9

1. Système de notation de "Stokoe"

2. Système de notation "SignWriting"

3. Système de notation "HamNoSys"

4. Système de notation "SiGML"

5. Système de notation "SML"

6. Système de notation "Gloss"

Etat de l’art

Les systèmes de notation

Page 10: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 10

• Etiquettes en majuscules

• Une glose = Un signe en ASL

• Exemple :

Etat de l’art

Système de notation "Gloss"

"What is your name ?"

"NAME YOU WHATWH"

Page 11: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 11

• Nécessité

• Spécification à un domaine particulier

Traitement automatique des LS :

– Traduction

– Visualisation

• Gestes manuels

• Gestion non-manuels

Etat de l’art

Systèmes de transcription: Problématiques

Page 12: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 12

• Collection de données TALS

• Projets nationaux ou internationaux

• Caractéristiques

– Objectifs

– Taux des données

– Politique d'accessibilité

– Nombre des participants

– Système de transcription

– Outils d'annotation

– Les mouvements et les postules

– La qualité des vidéos enregistrées

Etat de l’art

Les ressources linguistiques

Page 13: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 13

• Ressources pour chaque LS

• Corpus vidéo Outil d’annotation

• Définir les structures lexicales, syntaxiques, morphologiques etc.

• Dictionnaires

• Les problématiques qu'on peut extraire :

– Absence d'une grande base de données textuelle pour le TALS

– Spécification à un domaine

– Coût

Etat de l’art

Les ressources linguistiques : Problématiques

Page 14: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 14

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 15: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 15

• Le TALS : la traduction automatique, la synthèse 3D, la modélisation, la génération de discours automatique etc…

• La synthèse des langues des signes :

– basée sur la vidéo

– l’animation de personnages de synthèse ou agent conversationnel

• Plusieurs travaux sur le TALS:

– WebSign du laboratoire LaTICE

– VisiCast

– eSIGN

– TESSA

– Vcom3D

Traitement automatique des LS : TALS

Page 16: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 16

Traitement automatique des langues des signes

Aperçu

• Plusieurs approches

• Absence d’une métrique de mesure de la qualité de traduction

• Efficacité des systèmes d’annotation

• Evaluation.

Page 17: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 17

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 18: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 18

• Le système de transcription : Les conventions de Liddell.

• Représentation en gloses.

• Gestes non-manuels.

Modélisation d’un système de transcription en XML pour l’ASL

La représentation en XML

"His aunt lived in Turkey. There had no contact with the aunt. She died and left something to him in her will”

Page 19: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 19

• Soit la phrase en anglais suivante "I don't like chocolate".

Modélisation d’un système de transcription en XML pour l’ASL

API de création de XML-Gloss : Exemple

Page 20: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 20

• Aspect sémantique entre les signes

• La mise en scène

• La géométrie spatiale.

Modélisation d’un système de transcription en XML pour l’ASL

Discussions

Page 21: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 21

• Taux de précision = 97%

• Les étapes d'évaluation :

– Préparation de la liste des phrases en Anglais avec leurs transcriptions correspondantes.

– Pour chaque phrase, on suit une liste d'instructions pour générer le XML-Gloss.

– Rendu final en utilisant les feuilles de style XSLT.

– Comparer la transcription avec la transcription générée. Si le rendu est identique, on valide la phrase et sa transcription

Modélisation d’un système de transcription en XML pour l’ASL

API de création de XML-Gloss : Evaluation

Page 22: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 22

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 23: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 23

• Approche

• 52 relations de dépendances grammaticales

• Taux de précision proche de 100% et un rappel (recall) proche de 90%

• Notre approche :

– Traitement automatique du texte donné en entrée et le représenter sous forme d'un graphe sémantique

– Génération automatique de la transcription XML-Gloss

Génération de discours en ASL à partir des règles de dépendances

Motivations et Contributions

Page 24: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 24

• Noyau verbal

• Classificateurs

• Le temps

• Types de phrases:

– les questions de type "yes/no"

– les questions de type "wh"

– les phrases négatives

– Coordinations et subordination

– Emotions

Génération de discours en ASL à partir des règles de dépendances

Motivations et Contributions (suite…)

"I ASK YOU ‘YOU ASK ME’.

BOOK:flat BOOK:thick

"John doesn't buy the house"

Page 25: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 25

• Les approches existantes :

– l’approche directe (approche de première génération)

– les approches de deuxième génération :

• la méthode de transfert

• la méthode interlingua

• La méthode de la traduction par transfert la traduction automatique de l‘Anglais vers l’ASL

Génération de discours en ASL à partir des règles de dépendances

Approche proposée

Page 26: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 26

Génération de discours en ASL à partir des règles de dépendances

Architecture du système proposé

Identification de langues

Analyse syntaxique Arbre syntaxique

Analyseur de dépendances

Matrice d’adjacence

Lemmatisation et mise en forme

Reconnaissance des entités nommées

Corpus textuel

Règles de segmentation

Modèle d’étiquetage

Grammaire de chunk

Grammaire de dépendances

Règles de transferts

Etiquetage des catégories grammaticales

Découpage en phrases et en mots

Résolution de coréférence

Génération d’une transcription XML-Gloss

Texte brut

Transcription en XML-Gloss

Page 27: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 27

• Prétraitement et analyse lexicale

• Analyse grammaticale (96,72% / 84%)

• Analyse de dépendances

Génération de discours en ASL à partir des règles de dépendances

Architecture du système proposé (exemple (suite…))

NNP("kate",NNP) → kateVBD("gave",VBD) → gaveNN("chocolate",NN)→ chocolateIN("for",IN) → forDT("each",DT) → eachNN("boy",NN) → boySYM(",",SYM) → ,NN("yesterday",NN)→ yesterdaySYM(".",SYM) → .

Kate gave chocolate for each boy .yesterday,

Page 28: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 28

• Matrice d’adjacence

Génération de discours en ASL à partir des règles de dépendances

Architecture du système proposé (exemple (suite…))

Graphe de dépendance de la phrase"Kate gave chocolate for each boy, yesterday"

28

19

40

50

49

18

Page 29: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 29

• Génération de l'énoncé en ASL :

temps → sujet → verbe → objet → complément d'objet

• Matrice d’adjacence :

tmod → nsubj → root → dobj → prep_for

• Sous-composantes :

tmod → nsubj → root → dobj → prep_for+det

Génération de discours en ASL à partir des règles de dépendances

Architecture du système proposé (exemple (suite…))

"yesterday kate{t} gave chocolate each-boy"

Page 30: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 30

• Lemmatisation et mise en forme

• Post-processing

– Reconnaissance des entités nommées

– Résolution des coréférences

– Génération de la transcription XML-Gloss

• Rendu final

Génération de discours en ASL à partir des règles de dépendances

Architecture du système proposé (exemple (suite…))

"YESTERDAY KATE{t} GIVE CHOCOLATE EACH-BOY"

Page 31: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 31

• Nombre de phrases !

• Evaluation des règles de transfert entre les deux langues (Anglais et ASL)

règle de transfert �(� ⇒ �) par :

"tmod + nsubj + root + dobj + prep_for-det" ⇒ "T + S + V + O + CO"

• 820 règles de transfert

• Taux de précision 82% pour 6720 phrases

Génération de discours en ASL à partir des règles de dépendances

Architecture du système proposé : Evaluation

� ������� =����(������� �������)

����(�������)× ���

Page 32: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 32

Génération de discours en ASL à partir des règles de dépendances

Génération d'un corpus parallèle Anglais-ASL

Statistiques des données extraites à partir du corpus Gutenberg

Nombre de mots Nombre de phrases

Corpus Anglais 1 595 579 658 79 611 533

Anglais A.S.L# Phrases # Jetons # Phrases # Jetons

Corpus pour apprentissageCorpus pour raffinementCorpus pour évaluation

799072663613317

669045223522111658

799072663613317

37003012381661773

Page 33: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 33

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 34: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 34

• Limites: – Non-Bijectivité

– Evaluation manuelle.

• Les modèles statistiques (les modèles IBM)

• Alignement des mots et phrases (PBMT)

Architecture du système de traduction automatique

Recherche d’une traduction possible

post-traitement

pré-traitement

Modèle lexical

Modèle d’alignement

Modèle de langage

Texte en anglais

Transcription en ASL

Texte en anglais

Transcription en ASL

Page 35: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 35

• Modèle probabiliste de Brown et al. : � �|�

• Une traduction possible de � = max de la probabilité � �|� :

• Deux composantes :

– un modèle de traduction p T|P

– un modèle de langage p(T)

• Mémoires de traduction

Architecture du système de traduction automatique

Principes de la traduction automatique statistique

�� = max�

�(�|�) = max�

�(�|�) � �(�)

Page 36: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 36

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Génération d’une mémoire de traduction lexicale

Traduction de 'REVIEW'

Nombre d'occurrences

Probabilité d'alignement

reviewed 1 1.0000000

reviews 3 0.6666667

review 9 0.4000000

for 7216 0.0001840

- 0.0001261

of 10854 0.0001064

the 32608 0.0000326

��: � → �� �

∑ �� �� = 1 et ∀�: 0 ≤ �� � ≤ 1

�� � =

1.00000000.66666670.40000000.00018400.00012610.00010640.0000326

si e=′reviewed′ si e=′reviews′ si e=′review′ si e=′for′ si e=∅ si e=′of′ si e=′the′

Page 37: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 37

• Modèle IBM-1

• La probabilité de traduction d’une phrase source :

• Exemple :

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Alignement : Modèle d’alignement IBM 1

� �, �|� =�

�� + ���

� � ��|�� �

��

���

Page 38: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 38

• T-tables :

• Exemple :

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Alignement

Diagramme d'alignement de la phrase 'YOU BLUE CAR' en ASL

Page 39: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 39

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Apprentissage des modèles de traductions lexicales

• Alignement à partir d’une grande quantité de données.

• Problème de données incomplètes !

• L’algorithme EM :

i. Initialiser le modèle avec une distribution probabiliste uniforme.

ii. Appliquer le modèle sur les données existantes (Espérance).

iii. Apprendre le modèle à partir des données (Maximisation).

iv. Itérer les étapes 2 et 3 jusqu’à la convergence (généralement vers 1).

• Les probabilités de traductions lexicales et de la Théorème de dérivation des fonctions :

Page 40: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 40

0 1 2 3 4 5 6 7 10 15 20

YOU car 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315

YOU name 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000

YOU my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

YOU your 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000

NAME your 0,2500 0,2500 0,1818 0,1208 0,0752 0,0444 0,0252 0,0139 0,0021 0,0001 0,0000

NAME car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

NAME my 0,2500 0,5000 0,4286 0,3466 0,2755 0,2183 0,1741 0,1408 0,0828 0,0460 0,0315

NAME name 0,2500 0,5000 0,6364 0,7479 0,8344 0,8961 0,9371 0,9630 0,9933 0,9997 1,0000

PRO-1st name 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000

PRO-1st car 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

PRO-1st your 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

PRO-1st my 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685

CAR my 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

CAR your 0,2500 0,2500 0,1818 0,1313 0,0904 0,0596 0,0378 0,0232 0,0046 0,0002 0,0000

CAR name 0,2500 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

CAR car 0,2500 0,5000 0,5714 0,6534 0,7245 0,7817 0,8259 0,8592 0,9172 0,9540 0,9685

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Application de l’algorithme EM sur le modèle IBM 1

Page 41: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 41

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Application de l’algorithme EM sur le modèle IBM 1

Page 42: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 42

• Similarité des chaînes de caractères.

• La distance de Jaro-Winkler :

• distribution probabiliste d'une traduction lexicale � � � :

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Optimisation à base des chaînes de caractères similaires

�� = �� + ℓ� 1 − ��

�� =1

3

��+

��+

� − �

� � � = � ⋅�

��+ � ⋅ �� �, �

Page 43: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 43

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Optimisation à base des chaînes de caractères similaires

Page 44: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 44

• Modèles IBM :

– Modèle IBM 2: il supporte la traduction lexicale du modèle IBM 1 et rajoute un nouveau paramètre dans l’équation de l’alignement a(i|j,l_f,l_e ).

– Modèle IBM 3: il supporte toute les caractéristiques du modèle IBM 2 et rajoute un modèle de richesse n(∅,f).

– Modèle IBM 4: En plus du modèle IBM 3, ce modèle supporte le modèle probabiliste de la distorsion lors de la traduction. Il formalise l’ajout d’un NULL.

– Modèle IBM 5: Ce modèle est le plus avancé, il permet de calculer la défaillance de la traduction lors de la phase de l’apprentissage.

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Modèles d’alignements

Page 45: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 45

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Modèles d’alignements

what is your

DESC-YOURTEACHER NAME

1 2 3

23 4

teacher

4

‘s name

5 6

?

7

‘HUH’ ?

5 6

NULL

HEY

1

your teacher name ??

your teacher name ??

HEY DESC-YOUR TEACHER NAME ?‘HUH’

Etape de Richesse

Insertion du jeton NULL

Traduction lexicale

Alignement

Page 46: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 46

• Alignement des phrases :

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

YOU SEE | you see the new clothing store | NEW CLOTHES STORE put in | PUT IN

Page 47: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 47

• Formulation :

• La formulation est identique à celle du modèle IBM (alignement mot-à-mot), pour l'alignement à segments, on décompose �(�|�) en :

– � est la phrase cible (la traduction).

– � est la langue source.

– ���(�) est le modèle du langage de la langue cible.

• Efficacité.

• Traduction proche de la traduction humaine.

• Aussi, la traduction à partir des segments nous permet de résoudre les problèmes d'ambigüités.

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Alignement à base de segments (suite…)

� ���� |���

� = � ∅ ���|��� � ������ − ���� − �

���

Page 48: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 48

• Le décodage : recherche des hypothèses t ayant les plus grandes probabilités suivant le modèle de traduction �(�|�).

• Le modèle �(�|�) est une combinaison log-linéaire de quatre composants :

– un ou plusieurs modèles trigramme de la langue cible,

– un ou plusieurs modèles de traduction basés sur les segments

– un modèle de distorsion

– et un modèle de longueur qui rend compte des différences de longueur entre les deux langues.

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Décodage

����� = ������� � ∅ ��� |��� � ������ − ���� − � ��� �

���

Page 49: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 49

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Décodage : Exemple

YOU WHATNAME

name .

‘s name .

‘s name

name

you

you .

your

you are

what

what is

what he says

what he

‘s names

named

name ?

you

are you

you ?

, you

what are you

what you say

you what you

tell you what

what i

what you

what is the

YOU WHATNAME

-0.563

-0.564

-0.566

-0.566

-0.229

-0.422

-0.433

-0.550

-0.387

-0.572

-0.653

-0.679

-0.766

-0.805

-0.931

-1.076

-0.588

-0.666

-0.669

-0.644

-0.650

-0.791

-0.898

-0.695

-0.695

-0.728

Page 50: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 50

• Taux d’Erreur de l’Alignement ‘Alignment Error Rate AER)’ :

• La mesure de précision :

• Le rappel :

Construction d'une mémoire de traductions lexicales "Anglais-ASL"

Evaluation

��� �, �; � =� ∩ � + � ∩ �

� + �

Page 51: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 51

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 52: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 52

• Implémentation du traducteur automatique statistique basé sur une approche sous-phrastique.

• Moses

• GIZA++ : implémente les algorithmes des modèles IBM 1-5.

• SRI-LM : implémente les algorithmes de génération des modèles de langage (n-gram).

Expérimentations et évaluation

www.statmt.org/moses

Page 53: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 53

• BLEU (BiLangual Evaluation Understudy en anglais) : algorithme pour l'évaluation de la qualité d'un texte traduit par un traducteur automatique. La qualité est déterminée à partir de la traduction générée automatiquement et sa référence traduite par un être humain.

• Corpus :

Expérimentations et évaluation (suite…)

Nombre de mots Nombre de phrases

Corpus Anglais

Page 54: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 54

Variation du score BLEU selon la taille du corpus d'évaluation

Expérimentations et évaluation (suite…)

Page 55: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 55

• Introduction

• Etat de l’art

• Traitement automatique des langues de signes

• Modélisation d’un système de transcription en XML pour l’ASL

• Génération de discours en ASL à partir des règles de dépendances

• Architecture du système de traduction automatique

• Expérimentations et évaluation

• Conclusion et perspectives

Page 56: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 56

• La traduction automatique vers l’ASL : Accessibilité aux contenus numériques

• Contributions :

– Systèmes de transcription

– Génération des corpus artificiels à partir des graphes de dépendances grammaticales.

– Apprentissage automatique.

– Modèles d’alignement IBM

– Décodage

Conclusion et perspectives

Page 57: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 57

• Optimisation et intégration d’autres algorithmes d’apprentissage

• Comparaison à d’autres approches de traduction

• Langues des signes Arabes , Langues des signes Françaises etc…

Conclusion et perspectives

Page 58: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

10/03/2017 58

1. Achraf Othman, Mohamed Jemni. “A Novel Approach for Translating English Statements to American Sign Language Gloss”. 14thICCHP 2014, Paris, France, July 9-11, 2014, Proceedings, Part II. LNCS 8548, Springer 2014, ISBN 978-3-319-08598-2, pp 431-438.

2. Mohamed Jemni, Sameer Semreen, Achraf Othman, Zouhour Tmar, Nadia Aouiti. “Toward the creation of an Arab Gloss for arabic Sign Language annotation”. 4th

ICTA13, October 21-23, 2013, Hammamet, Tunisia.

3. Achraf Othman, Raouia Hamdoun. “Toward a new transcription model in XML for Sign Language Processing based on gloss annotation system”. 4th ICTA13, October 21-23, 2013, Hammamet, Tunisia.

4. Zouhour Tmar, Achraf Othman, Mohamed Jemni. “A Rule-Based Approach for Building an Artificial English-ASL Corpus”. International Conference on Electrical Engineering and Software Applications ICEESA, March 21-23, 2013, Hammamet, Tunisia.

5. Achraf Othman, Mohamed Jemni. “A probabilistic model for Sign Language Translation Memory”. The 1st

International Symposium on Intelligent Informatics, ISI’12, August, Chennai, India, 4-5, 2012.

6. Achraf Othman, Zouhour Tmar, Mohamed Jemni. “Toward developing a very big Sign Language Parallel Corpus”. The 13th ICCHP, Lecture Note in Computer Science LNCS Springer, July 11-13, 2012, University of Linz, Austria.

7. Achraf Othman, Mohamed Jemni. “English-ASL Gloss Parallel Corpus 2012: ASLG-PC12”. LREC 2012, 5th

Workshop on the Representation and Processing of Sign Languages: Interactions between Corpus and Lexicon, May 51-27, 2012, Istanbul Turkey.

8. Achraf Othman, Mohamed Jemni, “La traduction automatique à base de statistiques au service de la langue des signes”. 4ème édition du colloque INFOL@NGUES 2012, April 5-7, 2012, Béjà, Tunisia.

9. Achraf Othman, Mohamed Jemni. “Statistical Sign Language Machine Translation: from English written text to American Sign Language Gloss”. International Journal of Computer Science Issues, Vol 8, Issue 5, September 30, 2011.

Publications

Page 59: TRADUCTION AUTOMATIQUE EN LANGUE DES SIGNES BASÉE SUR UNE APPROCHE STATISTIQUE

Merci pour votre attention

10/03/2017