Chapitre 4 -------- Théories et modèles perceptifs

30
Chapitre 4 Chapitre 4 -------- -------- Théories et modèles Théories et modèles perceptifs perceptifs Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

description

Chapitre 4 -------- Théories et modèles perceptifs. Jean-Sylvain Liénard LIMSI-CNRS ORSAY. M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05. Le point de vue: information verbale seulement Niveaux acoustico-phonétiques Des indices aux phonèmes Voyelles - PowerPoint PPT Presentation

Transcript of Chapitre 4 -------- Théories et modèles perceptifs

Page 1: Chapitre 4 -------- Théories et modèles perceptifs

Chapitre 4Chapitre 4----------------

Théories et modèles perceptifsThéories et modèles perceptifs

Jean-Sylvain Liénard

LIMSI-CNRSORSAY

M2 Recherche Informatique

Filière Sciences Cognitives

Module PNPA

Déc 04 – Fév 05

Page 2: Chapitre 4 -------- Théories et modèles perceptifs

Le point de vue: information verbale seulement

Niveaux acoustico-phonétiquesDes indices aux phonèmesVoyellesconsonnes

 

Accès lexicalDes phonèmes aux motsModèles

 

Modèles multi-niveauxTrace

 

Page 3: Chapitre 4 -------- Théories et modèles perceptifs

niveau 6 500msunités cognitives

niveau 2 15msindices acoustiques

niveau 1 1msunités cochléaires

niveau 0 0.1msSignal

niveau 3 30mstraits phonétiques

niveau 4 60msunités phonetiques

niveau 5 200msunités lexicales

branche verbale branche prosodique

La perception acoustico-La perception acoustico-phonétiquephonétique

Page 4: Chapitre 4 -------- Théories et modèles perceptifs

Evidence et limites du niveau phonémique (niveau 4)

- Les traits distinctifs (niveau 3)

- Indices acoustiques (niveau 2)- formants, F'2, enveloppe spectrale

grossière

- Voyelles- Systèmes vocaliques- Typicalité des voyelles

- Consonnes- Transitions de formants- VOT vs invariants acoustiques- Théorie motrice

Niveaux acoustico-phonétiques : 2 Niveaux acoustico-phonétiques : 2 à 4à 4

Page 5: Chapitre 4 -------- Théories et modèles perceptifs

- Double articulation : dizaines de phonèmes ---> millions de mots

- Système phonémique = ensemble de symboles représentant les sons de la parole

- Sons arbitraires, mais tous formés par l'organe vocal humain

- N'importe quelle structure à 3 formants ne peut pas être perçue comme un son de parole

- La perception détermine les meilleurs sons ?

- Ensemble de 30 à 40 phonèmes dans toutes les langues, incluant 3 à 20 voyelles

- Pas de système universel

Evidence du niveau phonémiqueEvidence du niveau phonémique

Page 6: Chapitre 4 -------- Théories et modèles perceptifs

Phonème = concept abstraitFormé à partir de distinctions minimales entre mots d'une

langueDonc à partir de ressemblances acoustiques et linguistiques

La reconnaissance comme la synthèse montrent qu'un La reconnaissance comme la synthèse montrent qu'un phonème n'est pas un état acoustique du signalphonème n'est pas un état acoustique du signal

Nécessité de représentations intermédiairesDébit d'information phonémique au niveau 4 : 50 à 100 bits par

secondeDébit d'information cochléaire : peut atteindre 25000x100 bps !

La réduction d'information ne peut se faire en 1 étape

Limitations du niveau phonémiqueLimitations du niveau phonémique

Page 7: Chapitre 4 -------- Théories et modèles perceptifs

Jakobson, Fant et Halle 1952

Les traits distinctifsLes traits distinctifs

Page 8: Chapitre 4 -------- Théories et modèles perceptifs

Intérêt de la notion

Intègre divers points de vue : acoustique, production, perception ? "constituants ultimes" de la langueBinarismerègles phonologiques et phonotactiques: assimilation, régression,

nasalisation…

Limites

En 50 ans, personne n'a pu extraire les traits distinctifs du signal de manière fiable et robuste…

Binarisme contesté---> voir dans le détail la structure des signaux, à partir du niveau

2

Les traits distinctifsLes traits distinctifs

Page 9: Chapitre 4 -------- Théories et modèles perceptifs

spectrogrammes des voyelles

Les Les voyellesvoyelles

F1 et F2 prépondérants: démo Snack Formants

Page 10: Chapitre 4 -------- Théories et modèles perceptifs

Pour :

- travaux de Delgutte sur le chat

- pertinence de F1 et F2 en production

- équivalence avec point d'articulation (un peu simpliste)F1 <---> ouvert/fermé F2 <---> avant/arrière

Question : la perception utilise-t-elle les Question : la perception utilise-t-elle les formants ?formants ?

Page 11: Chapitre 4 -------- Théories et modèles perceptifs

Contre - difficulté de repérer les formants- difficulté d'identifier les formants

?

???

? ? ?

Page 12: Chapitre 4 -------- Théories et modèles perceptifs

Contre : - même voyelle perçue avec divers jeux de formants

Fant : 2e formant équivalent F'2 [i] [e]Chistovitch : intégration large bande 3,5 Bark

Contre : - le vocodeur à formants n'a jamais fonctionné- les systèmes de reconnaissance ont consacré

l'utilisation du banc de filtres mfcc, qui n'implique pas d'identification des formants

Page 13: Chapitre 4 -------- Théories et modèles perceptifs

Indices acoustiques pour les consonnesIndices acoustiques pour les consonnes

Consonnes: plusieurs types acoustiques

- phase statique: fricatives

- transition de formants: plosives, liquides, nasales

- cas général: succession d'indices acoustiques (niveau 2)VCV : - fermeture (transition de

formants)- occlusion totale ou partielle- explosion (burst)- aspiration- ouverture (transition de

formants)

Page 14: Chapitre 4 -------- Théories et modèles perceptifs

Fricatives (constrictives)Fricatives (constrictives)

Page 15: Chapitre 4 -------- Théories et modèles perceptifs

Plosives Plosives (occlusives)(occlusives)

Page 16: Chapitre 4 -------- Théories et modèles perceptifs

Rôle perceptif des transitions Rôle perceptif des transitions formantiquesformantiques

Liberman, Delattre, Cooper 1955

Expériences avec le Pattern Playback

Page 17: Chapitre 4 -------- Théories et modèles perceptifs

La théorie du locusLa théorie du locus

Proposition: de même que toute voyelle est définie par F1 et F2, le point d'articulation de toute consonne est défini par les loci de F1 et F2

Concerne en fait F2

Problèmes- à l'analyse, la détermination du locus est difficile:

- suppose que les formants soient identifiés- et qu'on sache à quelle abscisse faire la mesure

- /k/ et /g/ ont 2 loci, selon la voyelle qui suit

---> relatif abandon de la notion, inutilisable en reconnaissance. Résurgence récente (équations du locus, Sussman 1991)

Page 18: Chapitre 4 -------- Théories et modèles perceptifs

Voice Onset Time VOTVoice Onset Time VOT

Lisker et Abramson 1967

Page 19: Chapitre 4 -------- Théories et modèles perceptifs

Voice Onset Time Voice Onset Time VOTVOT

Le VOT, indice perceptif des plosives à l'initiale ?

OUI mais- dépend de la langue,- de la vitesse

d'articulation,- de la force de voix…

Page 20: Chapitre 4 -------- Théories et modèles perceptifs

Théorie motrice (A.Liberman, 1967)Théorie motrice (A.Liberman, 1967)

Constat de base- la parole est produite par

des commandes motrices, qui constituent le "vrai code" de la parole

- les mouvements des articulateurs sont lents, ce qui entraîne la coarticulation

- la perception interprète le signal en termes de commandes motrices, qui ont un caractère universel

- "speech is special"

Page 21: Chapitre 4 -------- Théories et modèles perceptifs
Page 22: Chapitre 4 -------- Théories et modèles perceptifs

Limitations de la théorie Limitations de la théorie motricemotrice

- l'existence d'un module cérébral traitant uniquement la parole n'est pas prouvée sur le plan neurobiologique

- on ne sait pas inverser le processus articulatoire --> acoustique

- la variabilité articulatoire est au moins aussi grande que la variabilité acoustique (plusieurs configurations pour un même son perçu)

- on peut comprendre sans savoir articuler

- le mainate

Page 23: Chapitre 4 -------- Théories et modèles perceptifs

Stevens et Blumstein 1978Gabarit spectral de l'explosion, indépendant de la

voyelle

Le retour des invariants Le retour des invariants acoustiquesacoustiques

Page 24: Chapitre 4 -------- Théories et modèles perceptifs

niveau 6 500msunités cognitives

niveau 2 15msindices acoustiques

niveau 1 1msunités cochléaires

niveau 0 0.1msSignal

niveau 3 30mstraits phonétiques

niveau 4 60msunités phonetiques

niveau 5 200msunités lexicales

branche verbale branche prosodique

L'accès lexicalL'accès lexical

Page 25: Chapitre 4 -------- Théories et modèles perceptifs

Théorie des logogènes (Morton 1969)

- A chaque mot du lexique mental sont associés tous ses aspects: significations, rôles syntaxiques, fréquence dans le lexique, chaîne phonétique, chaîne orthographique etc.

- Chacun de ces aspects contribue à une fonction d'activation du logogène.

- A un instant donné un logogène devient actif si sa fonction d'activation dépasse un seuil.

---> modèle mot, passif, mettant sur le même plan toutes les sources de connaissances- ne dit pas comment ces connaissances sont apprises et exploitées, ni comment les logogènes interagissent

Modèles de reconnaissance de mots et d'accès Modèles de reconnaissance de mots et d'accès lexicallexical

Page 26: Chapitre 4 -------- Théories et modèles perceptifs

Théorie de l'accès lexical par les spectres LAFS (Klatt 1979)

- les mots du répertoire mental sont reconstruits en mémoire à partir de spectres constituant des diphones

- le mot à reconnaître est aussi représenté par une suite de spectres

- la comparaison est faite sur une base acoustique

---> vision influencée par la reconnaissance automatiquepas de représentation en traits ou en phonèmes

processus d'analyse par synthèse

Modèles de reconnaissance de mots et d'accès Modèles de reconnaissance de mots et d'accès lexicallexical

Page 27: Chapitre 4 -------- Théories et modèles perceptifs

Marslen-Wilson (1975)

- strictement gauche-droite

- incorporation possible de connaissance de plus haut niveau

- difficulté avec les effets de fréquence de mots

- sensible aux erreurs phonémiques --> incompatible avec la variabilité de la parole réelle

Le Modèle CohorteLe Modèle Cohorte

Page 28: Chapitre 4 -------- Théories et modèles perceptifs

niveau 6 500msunités cognitives

niveau 2 15msindices acoustiques

niveau 1 1msunités cochléaires

niveau 0 0.1msSignal

niveau 3 30mstraits phonétiques

niveau 4 60msunités phonetiques

niveau 5 200msunités lexicales

branche verbale branche prosodique

Le Modèle Le Modèle TraceTrace

Elmann et MacClelland 1986

Equilibre entre 3 niveaux

Page 29: Chapitre 4 -------- Théories et modèles perceptifs

- 3 niveaux: traits distinctifs, phonèmes, mots

- connexions inhibitrices intra-niveau (en bleu), excitatrices d'un niveau à l'autre (en rouge et en vert)

- unités à seuil- Réglages manuels- modèle actif, bottom-up et

top-down- tolère certaines distorsions

et erreurs- problème: duplication

massive des unités à chaque pas de temps

Le Modèle Le Modèle TraceTrace

Fig2 – Un sous-ensemble des unités dans TRACE II. Chaque rectangle représente une unité différente. Les étiquettes indiquent l'élément représenté et la largeur du rectangle indique son empan temporel. Les spécifications d'entrée pour la trace "tea cup" précédée et suivie par un silence sont indiquées par le noicissement des unités traits correspondantes

Page 30: Chapitre 4 -------- Théories et modèles perceptifs