Contexte

1
Effets de la compression temporelle d’indices acoustiques sur la perception de la parole C. Jacquier & F. Meunier Laboratoire Dynamique Du Langage. CNRS UMR 5596, Institut des Sciences de l’Homme 14, avenue Berthelot. 69363 LYON CEDEX 07 – FRANCE. Contexte Notre étude explore les mécanismes cognitifs impliqués dans la reconstruction de la parole dégradée. Nous nous intéressons aux caractéristiques temporelles d’indices acoustiques spécifiques utilisés par les auditeurs pour distinguer les sons de parole. Pour distinguer deux phonèmes, un intervalle de temps minimum entre deux stimuli est nécessaire afin de pouvoir traiter séparément les deux signaux sans les confondre. De nombreuses études ont établi que le déficit de traitement phonologique chez des dyslexiques serait le reflet d’un déficit de traitement et d’intégration du signal de parole lors de changements rapides de l’information. Selon cette hypothèse, cette incapacité à analyser des transitions brèves du signal empêche de discriminer les indices acoustiques nécessaires à la distinction des phonèmes (Paula Tallal, 1980). Dans notre étude nous avons manipulé ces contraintes temporelles entre différents indices acoustiques afin de tester leur pertinence dans l’identification de pseudomots et d’identifier les mécanismes de reconstruction du signal de parole à différents niveaux (phonétique et acoustique). Dans notre étude, nous avons compressé sur l’axe temporel à la fois le Voice Onset Time (VOT) et la transition formantique. Le VOT est définit comme l’intervalle de temps entre le début du burst de la consonne et le début du voisement de la voyelle. Le VOT est un bon indice temporel pour discriminer sur le plan acoustique des consonnes voisées et non voisées. La transition formantique, entre le F2 de la voyelle et le locus de la consonne, permet de distinguer deux plosives par rapport à leur lieu d’articulation. Matériel et Méthode Participants 32 volontaires : 10 M et 22 F (âge moyen = 24.44 ans) / langue maternelle : Français sans trouble du langage, ni trouble auditif Contacts: [email protected][email protected] 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Taux Identification C orrec Série1 0,704 0,989 0,770 0,991 0,554 Consonne 1 Voyelle 1 Consonne 2 Voyelle 2 Non M otentier Variabilité Inter-Individuelle en C 1 etC 2 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 100% 50% 25% 0% Taux Identification C orrect S1 S2 S3 S4 S5 S6 S7 S8 S9 S 10 S 11 S 12 S 13 S 14 S 15 S 16 S 17 S 18 S 19 S20 S21 S22 S23 S24 S25 S26 S27 S28 S29 S30 S31 S32 0,0 0,2 0,4 0,6 0,8 1,0 100% 50% 25% 0% Taux Identification C 1 b d p t 0,0 0,2 0,4 0,6 0,8 1,0 100% 50% 25% 0% Taux identification C 2 b d p t Nature des Erreurs en C2 0 20 40 60 80 10 0 12 0 b d p t l r v A ucune Consonne de Rem placement Nom bre d'erreurs b d p t N ature des Erreurs en C 1 0 19 38 57 76 95 114 133 152 171 190 b d g p t k m n z l Aucune Consonne de Rem placem ent N om bre d'erreurs b d p t Conclusion L’ensemble de ces résultats met en évidence: Une hétérogénéité des performances inter-individuelles. Une hétérogénéité d’identification des consonnes occlusives selon leur position dans le pseudomot, selon leur contexte vocalique et selon le taux de compression des indices acoustiques. Maintenant, il reste à tester la compression des indices acoustiques séparément afin de déterminer l’implication de chacun dans les effets observés. Oscillogramme et Spectrogramme du pseudomot [bipa] avec la segmentation des VOT et des transitions formantiques (TF) dans la condition initiale 100% (en haut) et dans la condition 0% pour les deux syllabes (en bas). Partie I : Effets de la compression sur les mécanismes cognitifs de reconstruction des phonèmes Partie II : Effets de la compression sur l’identification des traits acoustiques spécifiques des phonèmes Stimuli Occlusives Voisées /b/ et /d/ Occlusives Non Voisées /p/ et /t/ Voyelles /a/ et /i/ 64 pseudomots bisyllabiques de forme C1V1C2V2 16 fillers de forme V1C1V2 Enregistrement dans chambre sourde par locuteur masculin Méthode • Segmentation des VOT et des transitions formantiques • 4 conditions d’accélération : 100% = 100% de la durée initiale VOT et transition 50% = reste 50% de la durée initiale VOT et transition 25% = reste 25% de la durée initiale VOT et transition 0% = délétion complète VOT et transition Tâche : Identification auditive des pseudomots avec transcription au clavier. En position 1 : Les consonnes voisées (/b/, /d/) sont mieux identifiées que les non voisées (/p/, /t/). La perte d’identification des voisés n’apparaît qu’à partir de la condition 25% alors que la perte pour les non voisées apparaît immédiatement à 50%. De plus, les labiales (/b/, /p/) semblent toujours mieux identifiées que les dentales (/d/, /t/). En position 2 : Globalement, les non voisées sont mieux identifiés que les voisées. • Les deux labiales /p/ et /b/ montrent une très forte différence d’identification, au profit du /p/ qui est quasiment à 100% d’identification. Labiale Dentale Labiale Dentale 25% 0% Labiale Dentale Labiale Dentale 25% 0% V1 et V2 sont identifiées quasiment à 100% validation du paradigme expérimental • C2 est mieux identifié que C1 allongement de consonne intervocalique • Identification Totale de plus de 55% des non mots • La perte d’identification de C2 intervient à partir de la condition 25% alors que la perte de C1 apparaît dès 50%. •La voyelle /i/ est mieux identifiée que la voyelle /a/. • Il existe une grande variabilité inter-individuelle en C1 et C2 : l’écart type le plus important est pour la condition 25%. 0,0 0,2 0,4 0,6 0,8 1,0 1,2 T au x Id en tificatio n C onsonn C1 C2 C1 0,97 0,87 0,69 0,28 C2 1,00 0,98 0,80 0,30 100% 50% 25% 0% NS * * * En position 1 : les non voisées /p/ et /t/ sont majoritairement perdues dès 50% de compression alors que le peu d’erreurs sur les voisées sont des erreurs de lieu d’articulation ou de voisement. Perspectives Perspectives : batterie de tests de lecture et de tests audiométriques pour tenter de corréler les performances des sujets à des contraintes linguistiques ou auditives. Explication de cette grande variabilité observée à partir d’un seuil spécifique de dégradation acoustique chez des sujets sains. Perspectives Perspectives : descriptions acoustiques des items (durée du VOT, trajectoire et pente des transitions) afin de corréler la qualité d’identification des sujets à des caractéristiques acoustiques et phonétiques. Démonstration de l’importance des indices acoustiques testés dans l’identification de signaux de parole naturelle. Kewley-Port, D. (1982). Measurement of formant transitions in naturally produced stop consonant-vowel syllables. The Journal of the Acoustical Society of America,72(2), 379-389. Bradlow, A. R., Kraus, N., Nicol, T. G., McGee, T. J., Cunningham, J., Zecker, S. G., & Carell, T. D. (1999). Effects of lengthened formant transition duration on discrimination and neural representation of synthetic CV syllables by normal and learning-disabled children. The Journal of the Acoustical Society of America,106(4), 2086-2096. Tallal, P. (1980). Auditory temporal perception, phonics, and reading disabilities in children. Brain and Language, 9, 182-198. Nittrouer, S. (1999). Do temporal processing deficits cause phonological processing problems? Journal of Speech, Language, and Hearing Research, 42, 925-942. Janse, E. (2004). Word perception in fast speech: artificially time-compressed vs. naturally produced fast speech. Speech Communication, 42, 155-173. En position 2 : les voisées /b/ et /d/ dès 50% de compression sont soit perdues soit confondues avec des consonnes liquides /l/ et /r/, la majorité des confusion sont observées avec un contexte vocalique /i/ (V2).

description

Contexte - PowerPoint PPT Presentation

Transcript of Contexte

Page 1: Contexte

Effets de la compression temporelle d’indices acoustiques sur la perception de la parole

C. Jacquier & F. Meunier Laboratoire Dynamique Du Langage. CNRS UMR 5596, Institut des Sciences de l’Homme

14, avenue Berthelot. 69363 LYON CEDEX 07 – FRANCE.

ContexteNotre étude explore les mécanismes cognitifs impliqués dans la reconstruction de la parole

dégradée. Nous nous intéressons aux caractéristiques temporelles d’indices acoustiques spécifiques utilisés par les auditeurs pour distinguer les sons de parole. Pour distinguer deux phonèmes, un intervalle de temps minimum entre deux stimuli est nécessaire afin de pouvoir traiter séparément les deux signaux sans les confondre. De nombreuses études ont établi que le déficit de traitement phonologique chez des dyslexiques serait le reflet d’un déficit de traitement et d’intégration du signal de parole lors de changements rapides de l’information. Selon cette hypothèse, cette incapacité à analyser des transitions brèves du signal empêche de discriminer les indices acoustiques nécessaires à la distinction des phonèmes (Paula Tallal, 1980). Dans notre étude nous avons manipulé ces contraintes temporelles entre différents indices acoustiques afin de tester leur pertinence dans l’identification de pseudomots et d’identifier les mécanismes de reconstruction du signal de parole à différents niveaux (phonétique et acoustique).

Dans notre étude, nous avons compressé sur l’axe temporel à la fois le Voice Onset Time (VOT) et la transition formantique. Le VOT est définit comme l’intervalle de temps entre le début du burst de la consonne et le début du voisement de la voyelle. Le VOT est un bon indice temporel pour discriminer sur le plan acoustique des consonnes voisées et non voisées. La transition formantique, entre le F2 de la voyelle et le locus de la consonne, permet de distinguer deux plosives par rapport à leur lieu d’articulation.

Matériel et MéthodeParticipants• 32 volontaires : 10 M et 22 F (âge moyen = 24.44 ans) / langue maternelle : Français

sans trouble du langage, ni trouble auditif

Contacts: [email protected][email protected]

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Ta

ux

Id

en

tifi

ca

tio

n C

orr

ec

te

Série1 0,704 0,989 0,770 0,991 0,554

Consonne 1 Voyelle 1 Consonne 2 Voyelle 2 Non Mot entier

Variabilité Inter-Individuelle en C1 et C2

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

100% 50% 25% 0%

Ta

ux

Ide

nti

fic

ati

on

Co

rre

ct

S1

S2

S3

S4

S5

S6

S7

S8

S9

S10

S11

S12

S13

S14

S15

S16

S17

S18

S19

S20

S21

S22

S23

S24

S25

S26

S27

S28

S29

S30

S31

S32

0,0

0,2

0,4

0,6

0,8

1,0

100% 50% 25% 0%

Ta

ux

Ide

nti

fic

ati

on

C1

b d p t

0,0

0,2

0,4

0,6

0,8

1,0

100% 50% 25% 0%

Ta

ux

ide

nti

fic

ati

on

C2

b d p t

Nature des Erreurs en C2

0

20

40

60

80

100

120

b d p t l r v Aucune

Consonne de Remplacement

No

mb

re d

'err

eurs b

d

p

t

Nature des Erreurs en C1

0

19

38

57

76

95

114

133

152

171

190

b d g p t k m n z l Aucune

Consonne de Remplacement

No

mb

re d

'err

eurs

b

d

p

t

ConclusionL’ensemble de ces résultats met en évidence:

• Une hétérogénéité des performances inter-individuelles.

• Une hétérogénéité d’identification des consonnes occlusives selon leur position dans le pseudomot,

selon leur contexte vocalique et selon le taux de compression des indices acoustiques.

Maintenant, il reste à tester la compression des indices acoustiques séparément afin de déterminer l’implication de chacun dans les effets observés.

Oscillogramme et Spectrogramme du pseudomot [bipa] avec la segmentation des VOT et des transitions formantiques (TF) dans la condition initiale 100% (en haut) et dans la condition 0% pour les deux syllabes (en bas).

Partie I :Effets de la compression sur les mécanismes cognitifs

de reconstruction des phonèmes

Partie II :Effets de la compression sur l’identification des traits

acoustiques spécifiques des phonèmes

Stimuli• Occlusives Voisées /b/ et /d/• Occlusives Non Voisées /p/ et /t/• Voyelles /a/ et /i/ 64 pseudomots bisyllabiques de forme C1V1C2V2 16 fillers de forme V1C1V2• Enregistrement dans chambre sourde par locuteur masculin

Méthode• Segmentation des VOT et des transitions formantiques• 4 conditions d’accélération :

100% = 100% de la durée initiale VOT et transition50% = reste 50% de la durée initiale VOT et transition25% = reste 25% de la durée initiale VOT et transition0% = délétion complète VOT et transition

Tâche : Identification auditive des pseudomots avec transcription au clavier.

En position 1 :• Les consonnes voisées (/b/, /d/) sont mieux identifiées que les non voisées (/p/, /t/).

• La perte d’identification des voisés n’apparaît qu’à partir de la condition 25% alors que la perte pour les non voisées apparaît immédiatement à 50%.

• De plus, les labiales (/b/, /p/) semblent toujours mieux identifiées que les dentales (/d/, /t/).

En position 2 : • Globalement, les non voisées sont mieux identifiés que les voisées.

• Les deux labiales /p/ et /b/ montrent une très forte différence d’identification, au profit du /p/ qui est quasiment à 100% d’identification. Labiale Dentale Labiale Dentale

25% 0%

Labiale Dentale Labiale Dentale 25% 0%

• V1 et V2 sont identifiées quasiment à 100%

validation du paradigme expérimental

• C2 est mieux identifié que C1

allongement de consonne intervocalique

• Identification Totale de plus de 55% des non mots

• La perte d’identification de C2 intervient à partir de la condition 25% alors que la perte de C1 apparaît dès 50%.

•La voyelle /i/ est mieux identifiée que la voyelle /a/.

• Il existe une grande variabilité inter-individuelle en C1 et C2 : l’écart type le plus important est pour la condition 25%.

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Ta

ux

Id

en

tifi

ca

tio

n C

on

so

nn

e

C1

C2

C1 0,97 0,87 0,69 0,28

C2 1,00 0,98 0,80 0,30

100% 50% 25% 0%

NS

* *

*

En position 1 : les non voisées /p/ et /t/ sont majoritairement perdues dès 50% de compression alors que le peu d’erreurs sur les voisées sont des erreurs de lieu d’articulation ou de voisement.

PerspectivesPerspectives : batterie de tests de lecture et de tests audiométriques pour tenter de corréler les performances des sujets à des contraintes linguistiques ou auditives.

Explication de cette grande variabilité observée à partir d’un seuil spécifique de dégradation acoustique chez des sujets sains.

PerspectivesPerspectives : descriptions acoustiques des items (durée du VOT, trajectoire et pente des transitions) afin de corréler la qualité d’identification des sujets à des caractéristiques acoustiques et phonétiques.

Démonstration de l’importance des indices acoustiques testés dans l’identification de signaux de parole naturelle.

Kewley-Port, D. (1982). Measurement of formant transitions in naturally produced stop consonant-vowel syllables. The Journal of the Acoustical Society of America,72(2), 379-389.

Bradlow, A. R., Kraus, N., Nicol, T. G., McGee, T. J., Cunningham, J., Zecker, S. G., & Carell, T. D. (1999). Effects of lengthened formant transition duration on discrimination and neural representation of synthetic CV syllables by normal and learning-disabled children. The Journal of the Acoustical Society of America,106(4), 2086-2096.

Tallal, P. (1980). Auditory temporal perception, phonics, and reading disabilities in children. Brain and Language, 9, 182-198.Nittrouer, S. (1999). Do temporal processing deficits cause phonological processing problems? Journal of Speech, Language, and Hearing

Research, 42, 925-942.Janse, E. (2004). Word perception in fast speech: artificially time-compressed vs. naturally produced fast speech. Speech Communication, 42,

155-173.

En position 2 : les voisées /b/ et /d/ dès 50% de compression sont soit perdues soit confondues avec des consonnes liquides /l/ et /r/, la majorité des confusion sont observées avec un contexte vocalique /i/ (V2).