Jep 2012 Swahili

Post on 22-Jul-2015

247 views 6 download

Transcript of Jep 2012 Swahili

Développement de ressources en

swahili pour un système de RAP

Hadrien Gelas1,2, Laurent Besacier2, François Pellegrino1

1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France

1 2 3

Introduction

du Swahili

Ressources

pour la RAP

Résultats

du système

Swahili ?

1

Parlée dans plus de 9  pays  

Grande partie d’Afrique de l’Est

Langue officielle de 5  nations  

Grande partie d’Afrique de l’Est

Langue

swahili

Grande partie d’Afrique de l’Est

entre 40M et 100M de locuteurs

2% seulement de locuteurs natifs

(entre 800k et 5M)

98% sont non-natifs

Services numériques en swahili

Services numériques en swahili

Services numériques en swahili

Services numériques en swahili

Services numériques en swahili

Services numériques

Services numériques

Services numériques

Services numériques

Services numériques

Services numériques

Mais pas encore

333

Famille Bantu

Ressources

Morphologie riche Classes nominales système d’accord verbes complexes

Swahili et RAP

Non tonale

Orthographe

Ressources en RAP

"r l

r l

Dictionnaire

prononciation

J  Sorties texte

2

Modèles

acoustiques

Modèles

de langage

J  

"r l

r l

Nécessite un corpus

de texte

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Corpus texte (M mots)

2

5

12

28

Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus

Corpus texte (M mots)

2

5

12

28

Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus

Collecté depuis 16

sites de news

Morphologie Riche en swahili

Morphologie Riche en swahili

English They will not tell you

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Segm. ha-wa-ta-ku-ambi-e-ni

Gloss NEG-SM2-FUT-OM2-tell-FIN-PL

Morphologie Riche et RAP [Creutz et al., 2007]

19.17

12.46

10.28

Word-65k Word-200k Word-400k

OOV % élevé  

Morphologie riche en RAP (Type OOV %)

19.17

12.46

10.28

Word-65k Word-200k Word-400k

Afin d’obtenir une couverture lexicale

plus large, nous avons utilisé une approche non-supervisée (Morfessor) pour segmenter les mots en unités

sub-lexicales  

Morphologie riche en RAP (Type OOV %)

19.17

12.46

10.28 11.36

1.61

Word-65k Word-200k Word-400k Morf-65k Morf-200k

Morphologie riche en RAP (Type OOV %)

J  

"r l

r l

Nécessite la prononciation

des unités

Ressources en RAP

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Dictionnaire de prononciation

65k unités les plus fréquentes

+ Un script Grapheme-to-phoneme tirant

bénéfice de la regularité de l’orthographe swahili

MAIS…

Problèmes avec tout les mots anglais, noms

propres et acronymes !

Dictionnaire de prononciation

65k unités les plus fréquentes

+ Un script Grapheme-to-phoneme tirant

bénéfice de la regularité de l’orthographe swahili

Près de 9% des unités dans le

lexique de 65k mots apparaissent

dans le dictionnaire anglais du CMU

Dictionnaire de prononciation

… games g a m e s …

… games G EY M Z …

Mots dans dict. 65k   Mots dans dict. CMU  

Dictionnaire de prononciation

… games g a m e s …

… games G EY M Z …

Mot identique 1 Mots dans dict. 65k   Mots dans dict. CMU

 

Dictionnaire de prononciation

… games g a m e s …

… games G EY M Z …

Mot identique 1

2 Conversion vers les phones

du swahili

Mots dans dict. 65k   Mots dans dict. CMU  

Dictionnaire de prononciation

… games g a m e s games(2) g e y m z …

… games G EY M Z …

Mot identique 1

2 Conversion vers les phones

du swahili

3 Ajout

comme

variante

Mots dans dict. 65k   Mots dans dict. CMU  

Dictionnaire de prononciation

J  

"r l

r l

Nécessite des données audio

ainsi que les transcriptions

correspondantes

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Corpus Audio

Contrainte principale pour nous !

Une tâche longue et coûteuse.

Corpus de parole lue (1ère solution)

Transcriptions directement disponibles et

tâche simple à préparer

Corpus de parole lue (1ère solution)

Transcriptions directement disponibles et

tâche simple à préparer

MAIS…

Données peu naturelles et nécessite tout de

même de trouver des locuteurs

Corpus de parole lue (1ère solution)

Transcriptions directement disponibles et

tâche simple à préparer

MAIS…

Données peu naturelles et nécessite tout de

même de trouver des locuteurs

3h30 collectées

Transcriptions via Crowdsourcing(2èmesolution)

Amazon’s Mechanical Turk:

Plateforme de travail en ligne. Tâches disponibles

aux utilisateurs contre paiement.

Transcriptions via Crowdsourcing(2èmesolution)

Amazon’s Mechanical Turk:

Plateforme de travail en ligne. Tâches disponibles

aux utilisateurs contre paiement.

Qualité assez bonne pour des modèles acoustiques Possibilité de trouver des transcripteurs

Durée bien plus longue que pour l’anglais

Problèmes éthiques

Transcriptions via Crowdsourcing(2èmesolution)

Amazon’s Mechanical Turk:

Plateforme de travail en ligne. Tâches disponibles

aux utilisateurs contre paiement.

Seulement un test,

1h30 de parole lue transcrite

Qualité assez bonne pour des modèles acoustiques Possibilité de trouver des transcripteurs

Durée bien plus longue que pour l’anglais

Problèmes éthiques

Transcription collaborative (3ème solution)

Corpus à transcrire : web broadcast news (disponible en ligne avec une qualité suffisante)

Collaboration avec un institut kenyan :  

Un 1er model acoustique

(MA) est appris à partir

du corpus de parole lue

MA 1er set

Transcription collaborative (3ème solution)

Préparation

Set de 2h

Un set de 2h est

segmenté et filtré

automatiquement

Transcription collaborative (3ème solution)

MA 1er set

Set de 2h

transcrit

Le set de 2h est transcrit

avec notre 1er MA

Transcription collaborative (3ème solution)

MA 1er set

Préparation

Set de 2h

Set de 2h

corrigé

Le set de 2h est envoyé

au Taji Institute pour

correction

Transcription collaborative (3ème solution)

MA 1er set

Préparation

Set de 2h

Set de 2h

transcrit

MA 2ème set

Après correction, les

données sont

a joutées au corpus

d’entrainement et un

nouveau MA est

appris

Transcription collaborative (3ème solution)

Préparation

Set de 2h

Set de 2h

transcrit

Set de 2h

corrigé

MA 6ème set 12h sont ainsi

transcrites

Transcription collaborative (3ème solution)

Préparation

Set de 2h

Set de 2h

transcrit

Set de 2h

corrigé

60 65 70 75 80 85

1520

2530

3540

Character Accuracy Rate (%)

Tim

e S

pent

(hou

rs)

Caractères corrects (%)

Transcription collaborative 1er set

2ème set

3ème set

4ème set

5ème set

6ème set

40

25

15

60 70 85

Temps

(heures)

Résultats (WER)

"r l

r l

Sorties texte J  3

Dictionnaire

prononciation Modèles

acoustiques

Modèles

de langage

Asante! (Merci!)

hadrien.gelas@univ-lyon2.fr laurent.besacier@imag.fr francois.pellegrino@univ-lyon2.fr

13.5

26.2

32.7 35.6

39.5

61.3

67.5

78.6

Africa Asia World

Average

Middle East Latin

America /

Caribbean

Europe Oceania /

Australia

North

America

Taux de pénétration d’Internet (%)

2988.4

789.6

528.1

2244.8

1205.1

376.4 214 152.6

Africa Asia World

Average

Middle East Latin

America /

Caribbean

Europe Oceania /

Australia

North

America

Internet – croissance de la population (%)

2000-2011

Ressources en ligne