Traitement de La Parole 2006-06-23

24
TRAITEMENT DE LA PAROLE http://scgwww.epfl.ch/courses Dr. Andrzej Drygajlo, ELE 233 [email protected] Speech Processing and Biometrics Group (GTPB) Laboratoire de l’IDIAP (LIDIAP) Signal Processing Institute (ITS) Swiss Federal Institute of Technology Lausanne (EPFL) National Center of Competence in Research (NCCR) “Interactive Multimodal Information Management (IM)2” IDIAP Research Institute, Martigny

description

Traitement de La Parole

Transcript of Traitement de La Parole 2006-06-23

Page 1: Traitement de La Parole 2006-06-23

TRAITEMENT DE LA PAROLEhttp://scgwww.epfl.ch/courses

Dr. Andrzej Drygajlo, ELE [email protected]

Speech Processing and Biometrics Group (GTPB)Laboratoire de l’IDIAP (LIDIAP)

Signal Processing Institute (ITS)Swiss Federal Institute of Technology Lausanne (EPFL)

National Center of Competence in Research (NCCR)“Interactive Multimodal Information Management (IM)2”

IDIAP Research Institute, Martigny

Page 2: Traitement de La Parole 2006-06-23

Examen

• Question 1– Production et perception de la parole– Analyse et modélisation de la parole

• Question 2– Reconnaissance de la parole et du locuteur– Synthèse de la parole– Compression et codage de la parole

• Question 3– Calcul

20 minutes de préparatifs et 20 minutes de réponses

Page 3: Traitement de La Parole 2006-06-23

Question 1

• Production et perception de la parole

1. Acoustique de la phonation2. Caractères des sensations auditives (sonie,

tonie)3. Effet de masque simultané (fréquentiel)4. Bandes critiques (échelles Bark et mel)

Page 4: Traitement de La Parole 2006-06-23

Question 1

• Analyse et modélisation de la parole5. Analyse temporelle à court terme (énergie, puissance,

amplitude moyenne et passages par zéro)6. Autocorrélation à court terme, AMDF et estimation de la

periode du fondamental7. Analyse de Fourier à court terme et spectrogramme8. Analyse homomorphique: cepstre complexe, cepstre

réel et estimation des formants9. Modèle autorégressif de production du signal vocal et

prédiction linéaire, méthode de corrélation10. Algorithme de Levinson-Durbin, filtres d’analyse et de

synthèse en treillis11. Prédiction linéaire: spectre du modèle et estimation des

formants

Page 5: Traitement de La Parole 2006-06-23

Question 2

• Reconnaissance de la parole et du locuteur

1. Reconnaissance de mots isolés. Comparaison dynamique de formes acoustiques

2. Reconnaissance de mots isolés. Méthode statistique: chaînes de Markov cachées, fonctions de densité de probabilité discrètes et continues

3. Algorithme de Baum-Welch et algorithme de Viterbi4. Réestimation des paramètres5. Reconnaissance du locuteur: méthodes déterministes6. Reconnaissance du locuteur: méthodes statistiques

Page 6: Traitement de La Parole 2006-06-23

Question 2

• Synthèse de la parole

7. Synthétiseur à formants8. Synthétiseur à prédiction lineaire9. Synthèse de messages et synthèse à partir du

texte– Synthèse par diphones– Synthèse par règles

Page 7: Traitement de La Parole 2006-06-23

Question 2

• Compression et codage de la parole

10. Modulation par impulsions codées (MIC-PCM) et quantification non uniforme

11. Codage MIC différentiel (MICD-DPCM)12. Codage MIC différentiel adaptatif (MICDA-

ADPCM) et quantification adaptative13. Codage en sous bandes14. Vocodeur et codeur prédictif excité par codes

(CELP)

Page 8: Traitement de La Parole 2006-06-23

Question 3

Calcul1. Spectrogramme2. Coefficients cepstraux3. Coefficients de prédiction linéaire et d’énergie

résiduelle de prédiction4. Fréquence centrale du formant5. Coefficients de corrélation partielle6. Distance accumulée7. Probabilité totale et maximale d’émission8. Réestimation de paramètres du modèle9. "Segment list generation“10. Allocation de bits

Page 9: Traitement de La Parole 2006-06-23

Spectrogramme (1)

Page 10: Traitement de La Parole 2006-06-23

Spectrogramme (2)

Page 11: Traitement de La Parole 2006-06-23

Coefficients cepstraux

Page 12: Traitement de La Parole 2006-06-23

Coefficients de prédiction linéaire et d’énergie résiduelle de prédiction

On cherche à approcher le signal suivant:

, 0, , 1avec 0.5,

)4,

(1

nx n NN

npα

α = −= =

==

Ce signal est produit par un système autorégressif d’ordre 1:

1

( ) 1( )( ) 1 (1)

( ) (1) ( 1) ( )

ou ( ) ( ) (1) 0.5

X zT zU z a z

x n a x n u n

u n n et aδ α

−= =+ ⋅

= − ⋅ − +

= = − = −

Page 13: Traitement de La Parole 2006-06-23

Fréquence centrale du formant

Soit

La fréquence d’échantillonnage de ce signal vaut .

La fonction de transfert du filtre inverse est calculée àl’aide de la méthode de corrélation de prédiction linéaire et pour l’ordre de prédiction et elle vaut:

Déterminer la fréquence de la sinusoïde .

2( ) sin( ) sinkx n n k nNπω ⎛ ⎞= ⋅ = ⋅ ⋅⎜ ⎟

⎝ ⎠

8 kHzef =

( )A z

2p = 8N =

1 2 2.3571 2.3571 2( ) 1 (1) (2) ( 0.9574 )( 0.9574 )j jA z a z a z z e z e z− − ⋅ − ⋅ −= + ⋅ + ⋅ = − ⋅ − ⋅ ⋅

kf ( )x n

Page 14: Traitement de La Parole 2006-06-23

Coefficients de corrélation partielle

3

2

3

2

3(0) (1) (2) (3)(1) (0) (1) (2) 0(2) (1) (0) (1) 0(3) (2) (1) (0) 0

r r r rr r r r

kr r r r

E E

Er r r

k

r

⎧ ⎫ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⋅ + ⋅ = + ⋅ =⎨ ⎬

⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦⎩ ⎭

Soit

La représentation matricielle d’un système de prédiction d’ordre 3.

Calculer:1) Le coefficient de corrélation partielle k3 en fonction des coefficients deprédiction a2(i) et de l’énergie résiduelle E2 d’un système d’ordre 2, ainsi que de coefficients r(i).

2) L’énergie résiduelle E3 en fonction de E2 et k3.

Page 15: Traitement de La Parole 2006-06-23

Distance accumulée

• Déterminez un chemin w qui donne une distance accumulée minimale entre un mot de test T(I=5) et un mot de référence R(J=3), si le contraintes locales sont de type C:

( , )D I J

( 1, )( , ) ( , ) min ( 1, 1) ( , )

( , 1)

D i jD i j d i j D i j d i j

D i j

⎧ −⎪= + − − +⎨⎪ −⎩

(1,1) 2 (1,1)D d= ⋅

Page 16: Traitement de La Parole 2006-06-23

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

La probabilité en avant

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.0

0.1

2.0

48.0

76.0

23.0 03.0

0.163.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅

5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅

8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅

⎪⎩

⎪⎨⎧

>⋅⋅−=∧=

= ∑i

ijijij ttXBat

Ijtt 0))(()1(

01)( αα

)()()( WXPXPL TOTF ==α

)(tjα

La probabilité totale

Probabilité totale

Page 17: Traitement de La Parole 2006-06-23

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.0

0.1

2.0

48.0

09.0

23.0 03.0

0.063.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅

5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅

8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅

[ ] ))(()1(max)( txbatptp ijijiij ⋅⋅−=

[ ])log())1(log(min))((log())(log( ijiiijj atptxbtp +−−−=−

Probabilité maximale

Page 18: Traitement de La Parole 2006-06-23

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.1 24.08.06.0 ⋅

0.1

0.0

708.016.0

236.08.06.00.1)1(11 =⋅⋅⋅

11a

Page 19: Traitement de La Parole 2006-06-23

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.1 48.08.06.0 ⋅

0.1

0.0

288.016.0

2.08.06.048.0)2(11 =⋅⋅⋅

2.0

11a

Page 20: Traitement de La Parole 2006-06-23

12

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

⎡==

2.0)2(8.0)1(

11

11

bb

⎥⎦

⎤⎢⎣

⎡==

5.0)2(5.0)1(

12

12

bb

⎥⎦

⎤⎢⎣

⎡==

7.0)2(3.0)1(

22

22

bb

0.1 48.02.06.0 ⋅

0.0

016.0

0.02.06.023.0)2(11 =⋅⋅⋅

23.0

51.097.0996.0

996.0

)()(

)(

11211

111

11 =+

=+

=

=

=L

t

L

t

tt

ta

γγ

γ

11a

Page 21: Traitement de La Parole 2006-06-23

Segment list generation (exercice)

• After some language processing, the command“_ #120 s #70 I #150 _ #100” is presented at the input of the synthesizer.

• In the segment list generator the following units are available:

Segment names Duration of sub-segments

_s #100 #50

sI #30 #90

I_ #90 #200

Page 22: Traitement de La Parole 2006-06-23

Segment list generation (exercice)

• Durations have to be adapted.

• A constant shortening (or lengthening) ratio can be applied throughout a given phoneme

• The final synthesis command:“_s #120 #44 sI #26 #75 I_ #75 #100” where #nnn

denotes the desired duration of subsegments_____________________________________• s(_s) + s(sI) = 70 and s(_s):s(sI)=50:30• Hence: s(_s) = 44 and s(sI) = 26

Page 23: Traitement de La Parole 2006-06-23

Allocation de bits

2222

222

171

1716b)

21a)

10

10

xxxx

xxx

and σσσσ

σσσ

==

==

Décomposition en deux sous-bandes

Pour 623 =⋅=⋅Nb trouvez 0b et 1b où Nbbb ⋅=+ 10

( )( )[ ] 322

2log213a) 2122

2

20 =+=xx

xbσσ

σ

( )( )[ ] 4171716

1716log213b) 2122

2

20 =⋅

⋅+=

xx

xbσσ

σ

dB01log10log10a) SB ≅⋅=⋅ G

dB38

17log10log10b) SB ≅⋅=⋅ G

Page 24: Traitement de La Parole 2006-06-23

Contenu

• Production et perception de la parole• Analyse et modélisation de la parole• Reconnaissance de la parole• Reconnaissance du locuteur• Synthèse de la parole• Compression et codage de la parole• Communication vocale homme-machine