Sylvain Daudé DEA ATIAM

Post on 07-Jan-2016

47 views 7 download

description

Modèle statistique de la voix à structure optimisée pour la caractérisation des phénomènes dynamiques. Sylvain Daudé DEA ATIAM. Stage réalisé au LIA sous la direction de MM. Bonastre et Linarès. Contexte. Traitement automatique de la parole Modélisation statistique de la parole - PowerPoint PPT Presentation

Transcript of Sylvain Daudé DEA ATIAM

Sylvain Daudé

DEA ATIAM

Modèle statistique de la voixà structure optimisée

pour la caractérisationdes phénomènes dynamiques

Stage réalisé au LIA sous la directionde MM. Bonastre et Linarès

Contexte

• Traitement automatique de la parole

• Modélisation statistique de la parole– MMG en R.A.L.– MMC en R.A.P

• Dynamique de la parole– durée, séquentialité, synchronie– variations spectrales– importance dans le signal de parole

Problématique• Apprentissage du modèle

– MMG : peu d'information dynamique– MMC : de l'information dynamique dans les

transitions, mais…• peu prise en compte lors de l'apprentissage

• modèles de durée infructueux

Objectif : prendre en compte les infos dynamiques dans le modèle

Méthode : des données au modèle

Caractères statistiques+ infos dynamiques

Analyse

Modèle

Correspondance

Données

+ d’infosInterprétation ?

Construction du modèle

MMG MMC

...

Diminution du nombre d’états

Info dynamique dans les MMC ?

• transitions :séquentialité, durée

• regroupement d’états :synchronie : « vraie » distribution d’un caractère acoustique

Vrais. Vrais.

tEtat 1

tEtat 2

Etat 1+2 « vraie » distribution

Stratégies de regroupement

• Similarité des entrées-sorties :séquentialité, synchronie des chemins parallèles

• Eloignement des entrées-sorties :bifurcations, asynchronie des chemins parallèles

• Information mutuelle : synchronie

• Transitions mutuelles : linéaire, séquentialité

Les résultats

128 127 117 107 97 87 77 67 57 47 37 27 17 7 1Nombre d'états du modèle

-0,5

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

Ec

art

p/r

au

ha

sa

rd (

log

V)

Transitions mutuelles

Proximité de profilsEloignement de profilsInformation mutuelle

Conclusion

• Meilleurs modèles :

– séquentialité ou synchronie portées par le modèle

– réestimation des transitions

• Gain en complexité

• Meilleure modélisation de l’information dynamique

Perspectives

• Améliorations

– Concilier synchronie et séquentialité

– Modèles de durée

• Estimation de la qualité

• Application musicale

Des questions ? (1)

D E A

Meilleurchemin

Trame 1 Trame 2 Trames 3, 4, 5

Trames 6, 7Trame 8Trame 9

Vraisemblancestrame / état

Vraisemblancedu MMC

Information mutuelle :

),( )()(

),(log),(),(

ba ji

ijij

bpap

bapbapjiI

Des questions ? (2)

t

Vrais.

Etat 1t

Vrais.

Etat 2

Etat 1+2 « vraie » distribution