Jep 2012 Swahili

62
Développement de ressources en swahili pour un système de RAP Hadrien Gelas 1,2 , Laurent Besacier 2 , François Pellegrino 1 1 Laboratoire DDL, CNRS - Université de Lyon, France 2 LIG, CNRS - Université Joseph Fourier Grenoble, France

Transcript of Jep 2012 Swahili

Page 1: Jep 2012 Swahili

Développement de ressources en

swahili pour un système de RAP

Hadrien Gelas1,2, Laurent Besacier2, François Pellegrino1

1Laboratoire DDL, CNRS - Université de Lyon, France 2LIG, CNRS - Université Joseph Fourier Grenoble, France

Page 2: Jep 2012 Swahili

1 2 3

Introduction

du Swahili

Ressources

pour la RAP

Résultats

du système

Page 3: Jep 2012 Swahili

Swahili ?

1

Page 4: Jep 2012 Swahili

Parlée dans plus de 9  pays  

Grande partie d’Afrique de l’Est

Page 5: Jep 2012 Swahili

Langue officielle de 5  nations  

Grande partie d’Afrique de l’Est

Page 6: Jep 2012 Swahili

Langue

swahili

Grande partie d’Afrique de l’Est

Page 7: Jep 2012 Swahili

entre 40M et 100M de locuteurs

2% seulement de locuteurs natifs

(entre 800k et 5M)

98% sont non-natifs

Page 8: Jep 2012 Swahili

Services numériques en swahili

Page 9: Jep 2012 Swahili

Services numériques en swahili

Page 10: Jep 2012 Swahili

Services numériques en swahili

Page 11: Jep 2012 Swahili

Services numériques en swahili

Page 12: Jep 2012 Swahili

Services numériques en swahili

Page 13: Jep 2012 Swahili

Services numériques

Page 14: Jep 2012 Swahili

Services numériques

Page 15: Jep 2012 Swahili

Services numériques

Page 16: Jep 2012 Swahili

Services numériques

Page 17: Jep 2012 Swahili

Services numériques

Page 18: Jep 2012 Swahili

Services numériques

Mais pas encore

Page 19: Jep 2012 Swahili

333

Famille Bantu

Page 20: Jep 2012 Swahili

Ressources

Morphologie riche Classes nominales système d’accord verbes complexes

Swahili et RAP

Non tonale

Orthographe

Page 21: Jep 2012 Swahili

Ressources en RAP

"r l

r l

Dictionnaire

prononciation

J  Sorties texte

2

Modèles

acoustiques

Modèles

de langage

Page 22: Jep 2012 Swahili

J  

"r l

r l

Nécessite un corpus

de texte

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Page 23: Jep 2012 Swahili

Corpus texte (M mots)

2

5

12

28

Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus

Page 24: Jep 2012 Swahili

Corpus texte (M mots)

2

5

12

28

Sawa corpus [Getao and Miriti] Helsinki corpus Our corpus

Collecté depuis 16

sites de news

Page 25: Jep 2012 Swahili

Morphologie Riche en swahili

Page 26: Jep 2012 Swahili

Morphologie Riche en swahili

English They will not tell you

Page 27: Jep 2012 Swahili

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Page 28: Jep 2012 Swahili

Morphologie Riche en swahili

English They will not tell you

Swahili hawatakuambieni

Segm. ha-wa-ta-ku-ambi-e-ni

Gloss NEG-SM2-FUT-OM2-tell-FIN-PL

Page 29: Jep 2012 Swahili

Morphologie Riche et RAP [Creutz et al., 2007]

Page 30: Jep 2012 Swahili

19.17

12.46

10.28

Word-65k Word-200k Word-400k

OOV % élevé  

Morphologie riche en RAP (Type OOV %)

Page 31: Jep 2012 Swahili

19.17

12.46

10.28

Word-65k Word-200k Word-400k

Afin d’obtenir une couverture lexicale

plus large, nous avons utilisé une approche non-supervisée (Morfessor) pour segmenter les mots en unités

sub-lexicales  

Morphologie riche en RAP (Type OOV %)

Page 32: Jep 2012 Swahili

19.17

12.46

10.28 11.36

1.61

Word-65k Word-200k Word-400k Morf-65k Morf-200k

Morphologie riche en RAP (Type OOV %)

Page 33: Jep 2012 Swahili

J  

"r l

r l

Nécessite la prononciation

des unités

Ressources en RAP

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Page 34: Jep 2012 Swahili

Dictionnaire de prononciation

65k unités les plus fréquentes

+ Un script Grapheme-to-phoneme tirant

bénéfice de la regularité de l’orthographe swahili

Page 35: Jep 2012 Swahili

MAIS…

Problèmes avec tout les mots anglais, noms

propres et acronymes !

Dictionnaire de prononciation

65k unités les plus fréquentes

+ Un script Grapheme-to-phoneme tirant

bénéfice de la regularité de l’orthographe swahili

Page 36: Jep 2012 Swahili

Près de 9% des unités dans le

lexique de 65k mots apparaissent

dans le dictionnaire anglais du CMU

Dictionnaire de prononciation

Page 37: Jep 2012 Swahili

… games g a m e s …

… games G EY M Z …

Mots dans dict. 65k   Mots dans dict. CMU  

Dictionnaire de prononciation

Page 38: Jep 2012 Swahili

… games g a m e s …

… games G EY M Z …

Mot identique 1 Mots dans dict. 65k   Mots dans dict. CMU

 

Dictionnaire de prononciation

Page 39: Jep 2012 Swahili

… games g a m e s …

… games G EY M Z …

Mot identique 1

2 Conversion vers les phones

du swahili

Mots dans dict. 65k   Mots dans dict. CMU  

Dictionnaire de prononciation

Page 40: Jep 2012 Swahili

… games g a m e s games(2) g e y m z …

… games G EY M Z …

Mot identique 1

2 Conversion vers les phones

du swahili

3 Ajout

comme

variante

Mots dans dict. 65k   Mots dans dict. CMU  

Dictionnaire de prononciation

Page 41: Jep 2012 Swahili

J  

"r l

r l

Nécessite des données audio

ainsi que les transcriptions

correspondantes

Dictionnaire

prononciation

Sorties texte

Modèles

acoustiques

Modèles

de langage

Ressources en RAP

Page 42: Jep 2012 Swahili

Corpus Audio

Contrainte principale pour nous !

Une tâche longue et coûteuse.

Page 43: Jep 2012 Swahili

Corpus de parole lue (1ère solution)

Transcriptions directement disponibles et

tâche simple à préparer

Page 44: Jep 2012 Swahili

Corpus de parole lue (1ère solution)

Transcriptions directement disponibles et

tâche simple à préparer

MAIS…

Données peu naturelles et nécessite tout de

même de trouver des locuteurs

Page 45: Jep 2012 Swahili

Corpus de parole lue (1ère solution)

Transcriptions directement disponibles et

tâche simple à préparer

MAIS…

Données peu naturelles et nécessite tout de

même de trouver des locuteurs

3h30 collectées

Page 46: Jep 2012 Swahili

Transcriptions via Crowdsourcing(2èmesolution)

Amazon’s Mechanical Turk:

Plateforme de travail en ligne. Tâches disponibles

aux utilisateurs contre paiement.

Page 47: Jep 2012 Swahili

Transcriptions via Crowdsourcing(2èmesolution)

Amazon’s Mechanical Turk:

Plateforme de travail en ligne. Tâches disponibles

aux utilisateurs contre paiement.

Qualité assez bonne pour des modèles acoustiques Possibilité de trouver des transcripteurs

Durée bien plus longue que pour l’anglais

Problèmes éthiques

Page 48: Jep 2012 Swahili

Transcriptions via Crowdsourcing(2èmesolution)

Amazon’s Mechanical Turk:

Plateforme de travail en ligne. Tâches disponibles

aux utilisateurs contre paiement.

Seulement un test,

1h30 de parole lue transcrite

Qualité assez bonne pour des modèles acoustiques Possibilité de trouver des transcripteurs

Durée bien plus longue que pour l’anglais

Problèmes éthiques

Page 49: Jep 2012 Swahili

Transcription collaborative (3ème solution)

Corpus à transcrire : web broadcast news (disponible en ligne avec une qualité suffisante)

Collaboration avec un institut kenyan :  

Page 50: Jep 2012 Swahili

Un 1er model acoustique

(MA) est appris à partir

du corpus de parole lue

MA 1er set

Transcription collaborative (3ème solution)

Page 51: Jep 2012 Swahili

Préparation

Set de 2h

Un set de 2h est

segmenté et filtré

automatiquement

Transcription collaborative (3ème solution)

MA 1er set

Page 52: Jep 2012 Swahili

Set de 2h

transcrit

Le set de 2h est transcrit

avec notre 1er MA

Transcription collaborative (3ème solution)

MA 1er set

Préparation

Set de 2h

Page 53: Jep 2012 Swahili

Set de 2h

corrigé

Le set de 2h est envoyé

au Taji Institute pour

correction

Transcription collaborative (3ème solution)

MA 1er set

Préparation

Set de 2h

Set de 2h

transcrit

Page 54: Jep 2012 Swahili

MA 2ème set

Après correction, les

données sont

a joutées au corpus

d’entrainement et un

nouveau MA est

appris

Transcription collaborative (3ème solution)

Préparation

Set de 2h

Set de 2h

transcrit

Set de 2h

corrigé

Page 55: Jep 2012 Swahili

MA 6ème set 12h sont ainsi

transcrites

Transcription collaborative (3ème solution)

Préparation

Set de 2h

Set de 2h

transcrit

Set de 2h

corrigé

Page 56: Jep 2012 Swahili

60 65 70 75 80 85

1520

2530

3540

Character Accuracy Rate (%)

Tim

e S

pent

(hou

rs)

Caractères corrects (%)

Transcription collaborative 1er set

2ème set

3ème set

4ème set

5ème set

6ème set

40

25

15

60 70 85

Temps

(heures)

Page 57: Jep 2012 Swahili

Résultats (WER)

"r l

r l

Sorties texte J  3

Dictionnaire

prononciation Modèles

acoustiques

Modèles

de langage

Page 58: Jep 2012 Swahili
Page 60: Jep 2012 Swahili

13.5

26.2

32.7 35.6

39.5

61.3

67.5

78.6

Africa Asia World

Average

Middle East Latin

America /

Caribbean

Europe Oceania /

Australia

North

America

Taux de pénétration d’Internet (%)

Page 61: Jep 2012 Swahili

2988.4

789.6

528.1

2244.8

1205.1

376.4 214 152.6

Africa Asia World

Average

Middle East Latin

America /

Caribbean

Europe Oceania /

Australia

North

America

Internet – croissance de la population (%)

2000-2011

Page 62: Jep 2012 Swahili

Ressources en ligne