Chapitre 4 -------- Théories et modèles perceptifs
description
Transcript of Chapitre 4 -------- Théories et modèles perceptifs
Chapitre 4Chapitre 4----------------
Théories et modèles perceptifsThéories et modèles perceptifs
Jean-Sylvain Liénard
LIMSI-CNRSORSAY
M2 Recherche Informatique
Filière Sciences Cognitives
Module PNPA
Déc 04 – Fév 05
Le point de vue: information verbale seulement
Niveaux acoustico-phonétiquesDes indices aux phonèmesVoyellesconsonnes
Accès lexicalDes phonèmes aux motsModèles
Modèles multi-niveauxTrace
niveau 6 500msunités cognitives
niveau 2 15msindices acoustiques
niveau 1 1msunités cochléaires
niveau 0 0.1msSignal
niveau 3 30mstraits phonétiques
niveau 4 60msunités phonetiques
niveau 5 200msunités lexicales
branche verbale branche prosodique
La perception acoustico-La perception acoustico-phonétiquephonétique
Evidence et limites du niveau phonémique (niveau 4)
- Les traits distinctifs (niveau 3)
- Indices acoustiques (niveau 2)- formants, F'2, enveloppe spectrale
grossière
- Voyelles- Systèmes vocaliques- Typicalité des voyelles
- Consonnes- Transitions de formants- VOT vs invariants acoustiques- Théorie motrice
Niveaux acoustico-phonétiques : 2 Niveaux acoustico-phonétiques : 2 à 4à 4
- Double articulation : dizaines de phonèmes ---> millions de mots
- Système phonémique = ensemble de symboles représentant les sons de la parole
- Sons arbitraires, mais tous formés par l'organe vocal humain
- N'importe quelle structure à 3 formants ne peut pas être perçue comme un son de parole
- La perception détermine les meilleurs sons ?
- Ensemble de 30 à 40 phonèmes dans toutes les langues, incluant 3 à 20 voyelles
- Pas de système universel
Evidence du niveau phonémiqueEvidence du niveau phonémique
Phonème = concept abstraitFormé à partir de distinctions minimales entre mots d'une
langueDonc à partir de ressemblances acoustiques et linguistiques
La reconnaissance comme la synthèse montrent qu'un La reconnaissance comme la synthèse montrent qu'un phonème n'est pas un état acoustique du signalphonème n'est pas un état acoustique du signal
Nécessité de représentations intermédiairesDébit d'information phonémique au niveau 4 : 50 à 100 bits par
secondeDébit d'information cochléaire : peut atteindre 25000x100 bps !
La réduction d'information ne peut se faire en 1 étape
Limitations du niveau phonémiqueLimitations du niveau phonémique
Jakobson, Fant et Halle 1952
Les traits distinctifsLes traits distinctifs
Intérêt de la notion
Intègre divers points de vue : acoustique, production, perception ? "constituants ultimes" de la langueBinarismerègles phonologiques et phonotactiques: assimilation, régression,
nasalisation…
Limites
En 50 ans, personne n'a pu extraire les traits distinctifs du signal de manière fiable et robuste…
Binarisme contesté---> voir dans le détail la structure des signaux, à partir du niveau
2
Les traits distinctifsLes traits distinctifs
spectrogrammes des voyelles
Les Les voyellesvoyelles
F1 et F2 prépondérants: démo Snack Formants
Pour :
- travaux de Delgutte sur le chat
- pertinence de F1 et F2 en production
- équivalence avec point d'articulation (un peu simpliste)F1 <---> ouvert/fermé F2 <---> avant/arrière
Question : la perception utilise-t-elle les Question : la perception utilise-t-elle les formants ?formants ?
Contre - difficulté de repérer les formants- difficulté d'identifier les formants
?
???
? ? ?
Contre : - même voyelle perçue avec divers jeux de formants
Fant : 2e formant équivalent F'2 [i] [e]Chistovitch : intégration large bande 3,5 Bark
Contre : - le vocodeur à formants n'a jamais fonctionné- les systèmes de reconnaissance ont consacré
l'utilisation du banc de filtres mfcc, qui n'implique pas d'identification des formants
Indices acoustiques pour les consonnesIndices acoustiques pour les consonnes
Consonnes: plusieurs types acoustiques
- phase statique: fricatives
- transition de formants: plosives, liquides, nasales
- cas général: succession d'indices acoustiques (niveau 2)VCV : - fermeture (transition de
formants)- occlusion totale ou partielle- explosion (burst)- aspiration- ouverture (transition de
formants)
Fricatives (constrictives)Fricatives (constrictives)
Plosives Plosives (occlusives)(occlusives)
Rôle perceptif des transitions Rôle perceptif des transitions formantiquesformantiques
Liberman, Delattre, Cooper 1955
Expériences avec le Pattern Playback
La théorie du locusLa théorie du locus
Proposition: de même que toute voyelle est définie par F1 et F2, le point d'articulation de toute consonne est défini par les loci de F1 et F2
Concerne en fait F2
Problèmes- à l'analyse, la détermination du locus est difficile:
- suppose que les formants soient identifiés- et qu'on sache à quelle abscisse faire la mesure
- /k/ et /g/ ont 2 loci, selon la voyelle qui suit
---> relatif abandon de la notion, inutilisable en reconnaissance. Résurgence récente (équations du locus, Sussman 1991)
Voice Onset Time VOTVoice Onset Time VOT
Lisker et Abramson 1967
Voice Onset Time Voice Onset Time VOTVOT
Le VOT, indice perceptif des plosives à l'initiale ?
OUI mais- dépend de la langue,- de la vitesse
d'articulation,- de la force de voix…
Théorie motrice (A.Liberman, 1967)Théorie motrice (A.Liberman, 1967)
Constat de base- la parole est produite par
des commandes motrices, qui constituent le "vrai code" de la parole
- les mouvements des articulateurs sont lents, ce qui entraîne la coarticulation
- la perception interprète le signal en termes de commandes motrices, qui ont un caractère universel
- "speech is special"
Limitations de la théorie Limitations de la théorie motricemotrice
- l'existence d'un module cérébral traitant uniquement la parole n'est pas prouvée sur le plan neurobiologique
- on ne sait pas inverser le processus articulatoire --> acoustique
- la variabilité articulatoire est au moins aussi grande que la variabilité acoustique (plusieurs configurations pour un même son perçu)
- on peut comprendre sans savoir articuler
- le mainate
Stevens et Blumstein 1978Gabarit spectral de l'explosion, indépendant de la
voyelle
Le retour des invariants Le retour des invariants acoustiquesacoustiques
niveau 6 500msunités cognitives
niveau 2 15msindices acoustiques
niveau 1 1msunités cochléaires
niveau 0 0.1msSignal
niveau 3 30mstraits phonétiques
niveau 4 60msunités phonetiques
niveau 5 200msunités lexicales
branche verbale branche prosodique
L'accès lexicalL'accès lexical
Théorie des logogènes (Morton 1969)
- A chaque mot du lexique mental sont associés tous ses aspects: significations, rôles syntaxiques, fréquence dans le lexique, chaîne phonétique, chaîne orthographique etc.
- Chacun de ces aspects contribue à une fonction d'activation du logogène.
- A un instant donné un logogène devient actif si sa fonction d'activation dépasse un seuil.
---> modèle mot, passif, mettant sur le même plan toutes les sources de connaissances- ne dit pas comment ces connaissances sont apprises et exploitées, ni comment les logogènes interagissent
Modèles de reconnaissance de mots et d'accès Modèles de reconnaissance de mots et d'accès lexicallexical
Théorie de l'accès lexical par les spectres LAFS (Klatt 1979)
- les mots du répertoire mental sont reconstruits en mémoire à partir de spectres constituant des diphones
- le mot à reconnaître est aussi représenté par une suite de spectres
- la comparaison est faite sur une base acoustique
---> vision influencée par la reconnaissance automatiquepas de représentation en traits ou en phonèmes
processus d'analyse par synthèse
Modèles de reconnaissance de mots et d'accès Modèles de reconnaissance de mots et d'accès lexicallexical
Marslen-Wilson (1975)
- strictement gauche-droite
- incorporation possible de connaissance de plus haut niveau
- difficulté avec les effets de fréquence de mots
- sensible aux erreurs phonémiques --> incompatible avec la variabilité de la parole réelle
Le Modèle CohorteLe Modèle Cohorte
niveau 6 500msunités cognitives
niveau 2 15msindices acoustiques
niveau 1 1msunités cochléaires
niveau 0 0.1msSignal
niveau 3 30mstraits phonétiques
niveau 4 60msunités phonetiques
niveau 5 200msunités lexicales
branche verbale branche prosodique
Le Modèle Le Modèle TraceTrace
Elmann et MacClelland 1986
Equilibre entre 3 niveaux
- 3 niveaux: traits distinctifs, phonèmes, mots
- connexions inhibitrices intra-niveau (en bleu), excitatrices d'un niveau à l'autre (en rouge et en vert)
- unités à seuil- Réglages manuels- modèle actif, bottom-up et
top-down- tolère certaines distorsions
et erreurs- problème: duplication
massive des unités à chaque pas de temps
Le Modèle Le Modèle TraceTrace
Fig2 – Un sous-ensemble des unités dans TRACE II. Chaque rectangle représente une unité différente. Les étiquettes indiquent l'élément représenté et la largeur du rectangle indique son empan temporel. Les spécifications d'entrée pour la trace "tea cup" précédée et suivie par un silence sont indiquées par le noicissement des unités traits correspondantes