Traitement de La Parole 2006-06-23

TRAITEMENT DE LA PAROLEhttp://scgwww.epfl.ch/courses

Dr. Andrzej Drygajlo, ELE 233andrzej.drygajlo@epfl.ch

Speech Processing and Biometrics Group (GTPB)Laboratoire de l’IDIAP (LIDIAP)

Signal Processing Institute (ITS)Swiss Federal Institute of Technology Lausanne (EPFL)

National Center of Competence in Research (NCCR)“Interactive Multimodal Information Management (IM)2”

IDIAP Research Institute, Martigny

Examen

• Question 1– Production et perception de la parole– Analyse et modélisation de la parole

• Question 2– Reconnaissance de la parole et du locuteur– Synthèse de la parole– Compression et codage de la parole

• Question 3– Calcul

20 minutes de préparatifs et 20 minutes de réponses

Question 1

• Production et perception de la parole

1. Acoustique de la phonation2. Caractères des sensations auditives (sonie,

tonie)3. Effet de masque simultané (fréquentiel)4. Bandes critiques (échelles Bark et mel)

Question 1

• Analyse et modélisation de la parole5. Analyse temporelle à court terme (énergie, puissance,

amplitude moyenne et passages par zéro)6. Autocorrélation à court terme, AMDF et estimation de la

periode du fondamental7. Analyse de Fourier à court terme et spectrogramme8. Analyse homomorphique: cepstre complexe, cepstre

réel et estimation des formants9. Modèle autorégressif de production du signal vocal et

prédiction linéaire, méthode de corrélation10. Algorithme de Levinson-Durbin, filtres d’analyse et de

synthèse en treillis11. Prédiction linéaire: spectre du modèle et estimation des

formants

Question 2

• Reconnaissance de la parole et du locuteur

1. Reconnaissance de mots isolés. Comparaison dynamique de formes acoustiques

2. Reconnaissance de mots isolés. Méthode statistique: chaînes de Markov cachées, fonctions de densité de probabilité discrètes et continues

3. Algorithme de Baum-Welch et algorithme de Viterbi4. Réestimation des paramètres5. Reconnaissance du locuteur: méthodes déterministes6. Reconnaissance du locuteur: méthodes statistiques

Question 2

• Synthèse de la parole

7. Synthétiseur à formants8. Synthétiseur à prédiction lineaire9. Synthèse de messages et synthèse à partir du

texte– Synthèse par diphones– Synthèse par règles

Question 2

• Compression et codage de la parole

10. Modulation par impulsions codées (MIC-PCM) et quantification non uniforme

11. Codage MIC différentiel (MICD-DPCM)12. Codage MIC différentiel adaptatif (MICDA-

ADPCM) et quantification adaptative13. Codage en sous bandes14. Vocodeur et codeur prédictif excité par codes

(CELP)

Question 3

Calcul1. Spectrogramme2. Coefficients cepstraux3. Coefficients de prédiction linéaire et d’énergie

résiduelle de prédiction4. Fréquence centrale du formant5. Coefficients de corrélation partielle6. Distance accumulée7. Probabilité totale et maximale d’émission8. Réestimation de paramètres du modèle9. "Segment list generation“10. Allocation de bits

Spectrogramme (1)

Spectrogramme (2)

Coefficients cepstraux

Coefficients de prédiction linéaire et d’énergie résiduelle de prédiction

On cherche à approcher le signal suivant:

, 0, , 1avec 0.5,

nx n NN

α = −= =

Ce signal est produit par un système autorégressif d’ordre 1:

( ) 1( )( ) 1 (1)

( ) (1) ( 1) ( )

ou ( ) ( ) (1) 0.5

X zT zU z a z

x n a x n u n

u n n et aδ α

−= =+ ⋅

= − ⋅ − +

= = − = −

Fréquence centrale du formant

La fréquence d’échantillonnage de ce signal vaut .

La fonction de transfert du filtre inverse est calculée àl’aide de la méthode de corrélation de prédiction linéaire et pour l’ordre de prédiction et elle vaut:

Déterminer la fréquence de la sinusoïde .

2( ) sin( ) sinkx n n k nNπω ⎛ ⎞= ⋅ = ⋅ ⋅⎜ ⎟

⎝ ⎠

8 kHzef =

( )A z

2p = 8N =

1 2 2.3571 2.3571 2( ) 1 (1) (2) ( 0.9574 )( 0.9574 )j jA z a z a z z e z e z− − ⋅ − ⋅ −= + ⋅ + ⋅ = − ⋅ − ⋅ ⋅

kf ( )x n

Coefficients de corrélation partielle

3(0) (1) (2) (3)(1) (0) (1) (2) 0(2) (1) (0) (1) 0(3) (2) (1) (0) 0

r r r rr r r r

kr r r r

Er r r

⎧ ⎫ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⋅ + ⋅ = + ⋅ =⎨ ⎬

⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦⎩ ⎭

La représentation matricielle d’un système de prédiction d’ordre 3.

Calculer:1) Le coefficient de corrélation partielle k3 en fonction des coefficients deprédiction a2(i) et de l’énergie résiduelle E2 d’un système d’ordre 2, ainsi que de coefficients r(i).

2) L’énergie résiduelle E3 en fonction de E2 et k3.

Distance accumulée

• Déterminez un chemin w qui donne une distance accumulée minimale entre un mot de test T(I=5) et un mot de référence R(J=3), si le contraintes locales sont de type C:

( , )D I J

( 1, )( , ) ( , ) min ( 1, 1) ( , )

( , 1)

D i jD i j d i j D i j d i j

⎧ −⎪= + − − +⎨⎪ −⎩

(1,1) 2 (1,1)D d= ⋅

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

La probabilité en avant

⎥⎦

⎤⎢⎣

2.0)2(8.0)1(

⎥⎦

⎤⎢⎣

5.0)2(5.0)1(

⎥⎦

⎤⎢⎣

7.0)2(3.0)1(

23.0 03.0

0.163.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅

5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅

8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅

⎪⎩

⎪⎨⎧

>⋅⋅−=∧=

= ∑i

ijijij ttXBat

Ijtt 0))(()1(

01)( αα

)()()( WXPXPL TOTF ==α

)(tjα

La probabilité totale

Probabilité totale

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x⎥⎦

⎤⎢⎣

2.0)2(8.0)1(

⎥⎦

⎤⎢⎣

5.0)2(5.0)1(

⎥⎦

⎤⎢⎣

7.0)2(3.0)1(

23.0 03.0

0.063.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅

5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅

8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅

[ ] ))(()1(max)( txbatptp ijijiij ⋅⋅−=

[ ])log())1(log(min))((log())(log( ijiiijj atptxbtp +−−−=−

Probabilité maximale

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

2.0)2(8.0)1(

⎥⎦

⎤⎢⎣

5.0)2(5.0)1(

⎥⎦

⎤⎢⎣

7.0)2(3.0)1(

0.1 24.08.06.0 ⋅

708.016.0

236.08.06.00.1)1(11 =⋅⋅⋅

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

2.0)2(8.0)1(

⎥⎦

⎤⎢⎣

5.0)2(5.0)1(

⎥⎦

⎤⎢⎣

7.0)2(3.0)1(

0.1 48.08.06.0 ⋅

288.016.0

2.08.06.048.0)2(11 =⋅⋅⋅

6.011 =a

0.122 =a

4.012 =a

0=t 1=t 2=t 3=t

1x 1x 2x

Réestimation de

⎥⎦

⎤⎢⎣

2.0)2(8.0)1(

⎥⎦

⎤⎢⎣

5.0)2(5.0)1(

⎥⎦

⎤⎢⎣

7.0)2(3.0)1(

0.1 48.02.06.0 ⋅

0.02.06.023.0)2(11 =⋅⋅⋅

51.097.0996.0

Segment list generation (exercice)

• After some language processing, the command“_ #120 s #70 I #150 _ #100” is presented at the input of the synthesizer.

• In the segment list generator the following units are available:

Segment names Duration of sub-segments

_s #100 #50

sI #30 #90

I_ #90 #200

Segment list generation (exercice)

• Durations have to be adapted.

• A constant shortening (or lengthening) ratio can be applied throughout a given phoneme

• The final synthesis command:“_s #120 #44 sI #26 #75 I_ #75 #100” where #nnn

denotes the desired duration of subsegments_____________________________________• s(_s) + s(sI) = 70 and s(_s):s(sI)=50:30• Hence: s(_s) = 44 and s(sI) = 26

Allocation de bits

1716b)

and σσσσ

σσσ

Décomposition en deux sous-bandes

Pour 623 =⋅=⋅Nb trouvez 0b et 1b où Nbbb ⋅=+ 10

( )( )[ ] 322

2log213a) 2122

20 =+=xx

xbσσ

( )( )[ ] 4171716

1716log213b) 2122

20 =⋅

xbσσ

dB01log10log10a) SB ≅⋅=⋅ G

17log10log10b) SB ≅⋅=⋅ G

Contenu

• Production et perception de la parole• Analyse et modélisation de la parole• Reconnaissance de la parole• Reconnaissance du locuteur• Synthèse de la parole• Compression et codage de la parole• Communication vocale homme-machine

Traitement de La Parole 2006-06-23

Documents

Transcript of Traitement de La Parole 2006-06-23

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Codage de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org.

COMPREHENSION DE LA PAROLE DANS LA PAROLE - Les thèses …

Programmes d’évaluation pour le traitement de la langue écrite et de la parole

DEA de Sciences Cognitives 1 Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau,

Perception visuelle et traitement sémantique M1 – UE15 cognition spatiale L.Sparrow 2006/2007 .

Initiation au Traitement de texte ©Yves Roger Cornil - Microcam06, Fréjus Vous Accueille 4 octobre 2006.

Traitement d’images numériques en microscopiemembres-timc.imag.fr/Yves.Usson/COURS/Cours-TNT-YU-1.pdfTutoriaux TNT La Grande Motte 2006 Traitement d’images cours 1 - 1 Yves Usson

Vieillissement et ressources de traitement Licence L3 29 Novembre 2006.

TSIJean-Marie Gorce Télécommunications, services & usages Traitement de la parole -Introduction-

Parole de Vie Parole de Vie Février 2012 Février 2012.

Traitement Analogique du Signal - ELE103 (CNAM Saclay)sylvain.larribe.free.fr/CNAM/2005-2006/EXAM_TAS_29... · CNAM Saclay Traitement Analogique du Signal – ELE103 Examen partiel

Le traitement du cancer chez l’enfant : de la parole … TRAITEMENT DU CANCER...le Pr Roland Gori. J’adresse tous mes remerciements à toute l’équipe des chercheurs du laboratoire

1-Traitement de La Parole 2007-03-16

Traitement de la Parole à la FPMs (1983-2000)

Nouvelles recommandations concernant le Traitement … · Prise en charge médicale des personnes infectées par le VIH – Rapport 2006 Accident exposant au VIH/Traitement post-exposition

Les acouphènes Traitement par l’ · PDF fileLes acouphènes Traitement par l’hypnose EVELYNE JOSSE 2006 evelynejosse@yahoo.fr 14 avenue Fond du Diable, 1310 La Hulpe, Belgique

1 - Traitement de l’Information...2 rapport d’activités 2006-2007 de l’équipe Traitement de l’Information du LISTIC une connaissance experte du domaine, avec une volonté

LE TRAITEMENT AUTOMATIQUE DE LA PAROLE 1 Reconnaissance de la parole Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage ivan@ieee.org.

Traitement des péricardites aiguës récidivantes · CONSENSUS CARDIOpour le praticien- N° 22 • Octobre 2006 6 Attitudes Traitement des péricardites aiguës récidivantes Jacques

Guide pédagogique reconnu et approuvé par La parole ...foutapedia.net/documents/eip-2006-parole-enseignante-guinee.pdf · PRÉSENTATION. La parole enseignante : Tradition orale