Traitement de La Parole 2006-06-23

Post on 12-Jan-2016

217 views 0 download

description

Traitement de La Parole

Transcript of Traitement de La Parole 2006-06-23

TRAITEMENT DE LA PAROLEhttp://scgwww.epfl.ch/courses

Dr. Andrzej Drygajlo, ELE 233andrzej.drygajlo@epfl.ch

Speech Processing and Biometrics Group (GTPB)Laboratoire de l’IDIAP (LIDIAP)

Signal Processing Institute (ITS)Swiss Federal Institute of Technology Lausanne (EPFL)

National Center of Competence in Research (NCCR)“Interactive Multimodal Information Management (IM)2”

IDIAP Research Institute, Martigny

Examen

• Question 1– Production et perception de la parole– Analyse et modélisation de la parole

• Question 2– Reconnaissance de la parole et du locuteur– Synthèse de la parole– Compression et codage de la parole

• Question 3– Calcul

20 minutes de préparatifs et 20 minutes de réponses

Question 1

• Production et perception de la parole

1. Acoustique de la phonation2. Caractères des sensations auditives (sonie,

tonie)3. Effet de masque simultané (fréquentiel)4. Bandes critiques (échelles Bark et mel)

Question 1

• Analyse et modélisation de la parole5. Analyse temporelle à court terme (énergie, puissance,

amplitude moyenne et passages par zéro)6. Autocorrélation à court terme, AMDF et estimation de la

periode du fondamental7. Analyse de Fourier à court terme et spectrogramme8. Analyse homomorphique: cepstre complexe, cepstre

réel et estimation des formants9. Modèle autorégressif de production du signal vocal et

prédiction linéaire, méthode de corrélation10. Algorithme de Levinson-Durbin, filtres d’analyse et de

synthèse en treillis11. Prédiction linéaire: spectre du modèle et estimation des

formants

Question 2

• Reconnaissance de la parole et du locuteur

1. Reconnaissance de mots isolés. Comparaison dynamique de formes acoustiques

2. Reconnaissance de mots isolés. Méthode statistique: chaînes de Markov cachées, fonctions de densité de probabilité discrètes et continues

3. Algorithme de Baum-Welch et algorithme de Viterbi4. Réestimation des paramètres5. Reconnaissance du locuteur: méthodes déterministes6. Reconnaissance du locuteur: méthodes statistiques

Question 2

• Synthèse de la parole

7. Synthétiseur à formants8. Synthétiseur à prédiction lineaire9. Synthèse de messages et synthèse à partir du

texte– Synthèse par diphones– Synthèse par règles

Question 2

• Compression et codage de la parole

10. Modulation par impulsions codées (MIC-PCM) et quantification non uniforme

11. Codage MIC différentiel (MICD-DPCM)12. Codage MIC différentiel adaptatif (MICDA-

ADPCM) et quantification adaptative13. Codage en sous bandes14. Vocodeur et codeur prédictif excité par codes

(CELP)

Question 3

Calcul1. Spectrogramme2. Coefficients cepstraux3. Coefficients de prédiction linéaire et d’énergie

résiduelle de prédiction4. Fréquence centrale du formant5. Coefficients de corrélation partielle6. Distance accumulée7. Probabilité totale et maximale d’émission8. Réestimation de paramètres du modèle9. "Segment list generation“10. Allocation de bits

Spectrogramme (1)

Spectrogramme (2)

Coefficients cepstraux

Coefficients de prédiction linéaire et d’énergie résiduelle de prédiction

On cherche à approcher le signal suivant:

, 0, , 1avec 0.5,

)4,

(1

nx n NN

npα

α = −= =

==

Ce signal est produit par un système autorégressif d’ordre 1:

1

( ) 1( )( ) 1 (1)

( ) (1) ( 1) ( )

ou ( ) ( ) (1) 0.5

X zT zU z a z

x n a x n u n

u n n et aδ α

−= =+ ⋅

= − ⋅ − +

= = − = −

Fréquence centrale du formant

Soit

La fréquence d’échantillonnage de ce signal vaut .

La fonction de transfert du filtre inverse est calculée àl’aide de la méthode de corrélation de prédiction linéaire et pour l’ordre de prédiction et elle vaut:

Déterminer la fréquence de la sinusoïde .

2( ) sin( ) sinkx n n k nNπω ⎛ ⎞= ⋅ = ⋅ ⋅⎜ ⎟

⎝ ⎠

8 kHzef =

( )A z

2p = 8N =

1 2 2.3571 2.3571 2( ) 1 (1) (2) ( 0.9574 )( 0.9574 )j jA z a z a z z e z e z− − ⋅ − ⋅ −= + ⋅ + ⋅ = − ⋅ − ⋅ ⋅

kf ( )x n

Coefficients de corrélation partielle

3

2

3

2

3(0) (1) (2) (3)(1) (0) (1) (2) 0(2) (1) (0) (1) 0(3) (2) (1) (0) 0

r r r rr r r r

kr r r r

E E

Er r r

k

r

⎧ ⎫ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⋅ + ⋅ = + ⋅ =⎨ ⎬

⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦⎩ ⎭

Soit

La représentation matricielle d’un système de prédiction d’ordre 3.

Calculer:1) Le coefficient de corrélation partielle k3 en fonction des coefficients deprédiction a2(i) et de l’énergie résiduelle E2 d’un système d’ordre 2, ainsi que de coefficients r(i).

2) L’énergie résiduelle E3 en fonction de E2 et k3.

Distance accumulée

• Déterminez un chemin w qui donne une distance accumulée minimale entre un mot de test T(I=5) et un mot de référence R(J=3), si le contraintes locales sont de type C:

( , )D I J

( 1, )( , ) ( , ) min ( 1, 1) ( , )

( , 1)

D i jD i j d i j D i j d i j

D i j

⎧ −⎪= + − − +⎨⎪ −⎩

(1,1) 2 (1,1)D d= ⋅

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

La probabilité en avant

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.0

0.1

2.0

48.0

76.0

23.0 03.0

0.163.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅

5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅

8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅

⎪⎩

⎪⎨⎧

>⋅⋅−=∧=

= ∑i

ijijij ttXBat

Ijtt 0))(()1(

01)( αα

)()()( WXPXPL TOTF ==α

)(tjα

La probabilité totale

Probabilité totale

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.0

0.1

2.0

48.0

09.0

23.0 03.0

0.063.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅

5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅

8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅

[ ] ))(()1(max)( txbatptp ijijiij ⋅⋅−=

[ ])log())1(log(min))((log())(log( ijiiijj atptxbtp +−−−=−

Probabilité maximale

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.1 24.08.06.0 ⋅

0.1

0.0

708.016.0

236.08.06.00.1)1(11 =⋅⋅⋅

11a

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.1 48.08.06.0 ⋅

0.1

0.0

288.016.0

2.08.06.048.0)2(11 =⋅⋅⋅

2.0

11a

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.1 48.02.06.0 ⋅

0.0

016.0

0.02.06.023.0)2(11 =⋅⋅⋅

23.0

51.097.0996.0

996.0

)()(

)(

11211

111

11 =+

=+

=

=

=L

t

L

t

tt

ta

γγ

γ

11a

Segment list generation (exercice)

• After some language processing, the command“_ #120 s #70 I #150 _ #100” is presented at the input of the synthesizer.

• In the segment list generator the following units are available:

Segment names Duration of sub-segments

_s #100 #50

sI #30 #90

I_ #90 #200

Segment list generation (exercice)

• Durations have to be adapted.

• A constant shortening (or lengthening) ratio can be applied throughout a given phoneme

• The final synthesis command:“_s #120 #44 sI #26 #75 I_ #75 #100” where #nnn

denotes the desired duration of subsegments_____________________________________• s(_s) + s(sI) = 70 and s(_s):s(sI)=50:30• Hence: s(_s) = 44 and s(sI) = 26

Allocation de bits

2222

222

171

1716b)

21a)

10

10

xxxx

xxx

and σσσσ

σσσ

==

==

Décomposition en deux sous-bandes

Pour 623 =⋅=⋅Nb trouvez 0b et 1b où Nbbb ⋅=+ 10

( )( )[ ] 322

2log213a) 2122

2

20 =+=xx

xbσσ

σ

( )( )[ ] 4171716

1716log213b) 2122

2

20 =⋅

⋅+=

xx

xbσσ

σ

dB01log10log10a) SB ≅⋅=⋅ G

dB38

17log10log10b) SB ≅⋅=⋅ G

Contenu

• Production et perception de la parole• Analyse et modélisation de la parole• Reconnaissance de la parole• Reconnaissance du locuteur• Synthèse de la parole• Compression et codage de la parole• Communication vocale homme-machine