Id alisme et r alisme - gipsa-lab.grenoble-inp.frjean-luc.schwartz/fichiers_public_JLS/... · vs....

21
Perception auditive et perception de la parole Jean-Luc Schwartz, GIPSA-Lab Grenoble-Image-Parole-Signal-Automatique ICP-Département Parole & Cognition 1. La communication parlée Communiquer – Les niveaux de la communication parlée – les objets sonores de la parole et leur production - la nature des sons (signal, représentation temps-fréquence), entre cause physique et expérience perceptive 2. Traitements auditifs et centraux, représentations perceptives Les représentations du signal acoustique dans les neurones du nerf auditif et des premiers centres nerveux - Traitement de l’information dans le cerveau, représentations et cartes corticales 3. Voyelles et consonnes, théories de l’invariance Perception des voyelles, normalisation, réduction vocalique – perception des plosives, coarticulation - Invariance et variabilité / Les théories « phare » : théories auditives vs. motrice, théorie quantique, théorie H&H, PACT 4. Perception-Action, phylogenèse Des questions philosophiques sur idéalisme et réalisme vers les théories de la cognition motrice et de la simulation, jusqu’aux neurones miroir – neurones miroir, système miroir – éléments de phylogenèse du langage 5. La parole multisensorielle La perception multisensorielle, des architectures cognitives aux interfaces multimodales 4. Perception-Action, phylogenèse Des questions philosophiques sur idéalisme et réalisme vers les théories de la cognition motrice et de la simulation, jusqu’aux neurones miroir – neurones miroir, système miroir – éléments de phylogenèse du langage Idéalisme et réalisme

Transcript of Id alisme et r alisme - gipsa-lab.grenoble-inp.frjean-luc.schwartz/fichiers_public_JLS/... · vs....

Perception auditiveet perception de la parole

Jean-Luc Schwartz, GIPSA-LabGrenoble-Image-Parole-Signal-Automatique

ICP-Département Parole & Cognition

1. La communication parléeCommuniquer – Les niveaux de la communication parlée – les objets sonores de la parole et leur production - la

nature des sons (signal, représentation temps-fréquence), entre cause physique et expérience perceptive

2. Traitements auditifs et centraux, représentations perceptivesLes représentations du signal acoustique dans les neurones du nerf auditif et des premiers centres nerveux -

Traitement de l’information dans le cerveau, représentations et cartes corticales

3. Voyelles et consonnes, théories de l’invariancePerception des voyelles, normalisation, réduction vocalique – perception des plosives, coarticulation - Invariance

et variabilité / Les théories «!phare!» : théories auditives vs. motrice, théorie quantique, théorie H&H, PACT

4. Perception-Action, phylogenèseDes questions philosophiques sur idéalisme et réalisme vers les théories de la cognition motrice et de la

simulation, jusqu’aux neurones miroir – neurones miroir, système miroir – éléments de phylogenèse du langage

5. La parole multisensorielleLa perception multisensorielle, des architectures cognitives aux interfaces multimodales

4. Perception-Action,phylogenèse

Des questions philosophiques sur idéalisme

et réalisme vers les théories de la cognition

motrice et de la simulation, jusqu’aux neurones

miroir – neurones miroir, système miroir –

éléments de phylogenèse du langage

Idéalisme et réalisme

Les mécanismes perceptifs,entre le monde et le cerveau

Idéalisme et réalisme

[i][a]

Kuhl & Meltzoff, 1982, 1984

Hübel & Wiesel, cortex strié, singe macaque

La perception, une

inversion du monde

physique, sous contrainte

Phénoménologies mentales,phénoménologie réelles

La perception des couleurs

La perception visuelle des états de l’eau

Un monde sensible fait d’objets physiqueset de gestes construits

4. Les mécanismes perceptifs,entre le monde et le cerveau

III. Les deux problèmes de l’invariance

Les deux problèmes de l'invarianceLes deux problèmes de l'invariance

1. Retrouver les objets

Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus

Les deux problèmes de l'invariance

1. Retrouver les objets

Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus

2. Nommer les objets

Invariance de la catégorie, acceptée comme telle,malgré la variabilité de ses instantiations

Peut-on entendre la forme d’un tambour ?

Peut-on voir la forme 3D d’un objet ?

Pour Tomaso Poggio (Vision, MIT), laperception bas niveau est une inversion

Monde physique Monde sensible

Lois de la physique

Perception bas niveau

Objets 3D Images 2D

Lois de l’optique

Vision bas niveau

Le cas de la vision

Du 2D au 3D, un déficit d’information comblé par deshypothèses (statistiques) sur les régularités des objets

Exemple : la vision stéréoscopique

Rétine gauche Rétine droite

appariement

Régularisation

Unicité et continuité

Unicité : Rd = f(Rg)

Continuité : f doit minimiser un critère d(f(Rg), Rg))

Fonction f

RdRg

Hypothèses acceptables dans un monde sans trou !

Johansson

"Le système est 'contraint' de choisir l'interprétation la plus crédible en fonction des

règles et des régularités. La règle d'inférence du système visuel serait donc fondée

sur une loi (la projection) et une régularité (la nature rigide des objets)."

(Donald Hoffman, 1984)

" One of the best definitions of low-level vision is that it is inverse optics. Most

of the goals of low-level vision can be seen as the solution to inverse problems.

Consider, for instance, the problem of recovering the three dimensional

structure of a scene from the images of it. While in classical optics the problem

is to determine the images given certain physical objects, we are confronted

here with the inverse problem of finding their three-dimensional shape (and

perhaps their physical properties) from the light intensity distribution in the

image." (Poggio, 1984)

Objets 3D Sons

Lois de l’acoustique

Audition bas niveau

Le cas de l’audition

Peut-on entendre la forme d’un tambour ?Marc Kac, 1966

!/2 = LF0 = v / 2L

On peut entendre la longueur d’une corde

F0 2F0 3F0 4F0

Pour un tambour,

on peut entendre l’aire, le périmètre,

et même le nombre de trous !

Mais pas la forme !

Mais l’oreille sait quand même récupérer pourpartie la physique des objets sonores

6 baguettes de dureté croissante :

Feutre —> bois —> métal

Donc on peut (plus ou moins) récupérer la cause (l’objet physique) à partir de la conséquence (la stimulation sensorielle)

Or un objet physique a en général plusieurs conséquences :Multimodalité des objets perceptifs

4. Les mécanismes perceptifs,entre le monde et le cerveau

IV. Les illusions, entre idéalisme et réalisme

Percevoir ce qui est

vs.

percevoir ce qu’on est

Interprétation néo-idéaliste des illusions visuelles

Assimilation

Contraste

Interprétation néo-idéaliste des illusions visuelles

Assimilation cf Lipps,Delboeuf

Contraste cf Zöllner,Titchener

x x x x x!

x x x x x

Interprétation néo-réalistedes illusions visuelles

Théories motrices et

théories auditives

Théories perceptives vs. motrices

Théories auditives(idéalistes)

Théories motrices(réalistes)

Les principaux argumentsdes théories motrices (Galantucci, Fowler, Turvey 2006)

1. Prise en compte de la variabilité du signal• Coarticulation CV

• Exemple de la réduction vocalique

d

/i/ /i//a/

Slow and focus

Slow

Rapid and focus

Les principaux argumentsdes théories motrices (Galantucci, Fowler, Turvey 2006)

2. Intégration multisensorielle• Une représentation précoce (pré catégorisation phonologique) pour intégrer et

comparer les modalités, représentation non apprise (effet Tadoma)

3. Contact entre motricité et parole• Close shadowing (Porter)

•Adaptation perceptuo-motrice (Cooper)

Les neurones miroir, unargument expérimentalnouveau et inattendu ?

Un lien perception-action : les neurones miroir

Un système cortical mettant encorrespondance observation et

exécution des actions

Neurones miroir orofaciaux

Kohler et al. 2002

Neurones miroir audio-visuels

Fadiga et al., 2002 : Speech listening specifically modulates the excitability of tongue muscles: a TMS studyLes expériences de Paulo Viviani sur l’utilisation de«!procedural motor knowledge!» dans la perception

Une “régularité biologique” en production du mouvement : la loi v = r 1/3 ?

L’exploitation de cette régularité dans les mécanismes perceptifs :

pour percevoir un mouvement constant, un sujet choisira cette loi

L’exploitation de cette régularité dans les mécanismes perceptifs :

pour percevoir un mouvement constant, un sujet choisira cette loi

la rupture de cette loi modifie même la perception d’un objet (cercle perçu comme une ellipse)

Les principaux argumentsdes théories auditives (Diehl, Lotto, Holt, 2004)

1. Equivalence motrice (au sens large)• Equivalence motrice (stricte)

• Cibles acoustiques

Gay, Lindblom; Lubker, 1981

Bunched /r/ vs. retroflex /r/

Delattre & Freeman 1968

Les principaux argumentsdes théories auditives (Diehl, Lotto, Holt, 2004)

2. Perception/catégorisation sans compétence motrice (animaux, bébés)

3. Le problème de l’inversion

Coarticulation et équivalence motrice :deux problèmes duaux … et peu décisifs

Coarticulation (en faveur des théories motrices)

Equivalence motrice(en faveur des théories auditives)Bunched /r/ vs. retroflex /r/

Delattre & Freeman 1968

d

Acoustic dimension 1

Aco

usti

c d

imen

sio

n 2

[bu]

[ba]

[bi]

[du]

[da]

[di]

Articulatory dimension 1A

rtic

ula

tory

dim

en

sio

n 2

Bunched [r]

Retroflex [r]

L’argument crucial est fonctionnel …Et élimine les théories motrices d’une

manière peut-être décisive ?

Considérons (écoutons) ce qu’est un geste d’arrondissement vocalique …

Lip area (articulatory rounding)

Perc

ep

tual fo

rman

t F

’2

(aco

usti

c r

ou

nd

ing

)

1. Geste

2. Son (et catégorisation?)

3. Geste inféré (et catégorisation?)

(suite). Pas de geste sans valeurfonctionnelle (perceptive)

• Systèmes vocaliques

• Geste d’ouverture-fermeture de la

mâchoire dans la Théorie Frame-Content

Les gestes de parole ne sont pas des unités motrices, mais perceptuo-motrices : leur

contenu perceptif fait partie intégrante de leur représentation mentale dans le cerveau

[o]

[i] [y]

[u]

[a]

[e] [ø]

[m] [m]

Jaw cycle Acoustico-Auditory

shaping

Consona

nt(turbulent flow)

Vowel(laminar flow)

Stevens’ Quantal Theory

Vers une théorie perceptuo-motrice de laperception de la parole

Il faut pouvoir intégrer dans un cadre théorique deux ingrédients majeurs

de la perception de la parole :

•L’existence de « contraintes » ou « connaissances implicites » venant

de la motricité orofaciale

•L’existence de processus de traitement/mise en forme acoustico-

auditive des gestes orofaciaux

Motricité Audition

Sons

Perception

La théorie de la Perception

pour le Contrôle de l’Action

(PACT)

PACT (Perception-for-Action-Control Theory)une théorie perceptuo-motrice de la perception de la parole

(Schwartz et al., Journal of NeuroLinguistics, 2010)

Les unités de la communication parlée ne sont ni des sons ni des gestes,

Mais des gestes mis en forme par la perception

Ou des percepts structurés par l’action

vs. Théorie motrice : Les objets de la perception sont les gestes moteurs (intentionnels)OK si les gestes sont « mis en forme », donc intrinsèquement perceptuo-moteurs

vs. Théories auditives : La compréhension de la parole n’est ni équivalente à ni

médiatisée par la perception des gestesPas nécessairement médiatisée en ligne mais médiatisée développementalement par la co-

structuration des représentations perceptives et motrices (cartes sensori-motrices)

Motricité Audition

Sons

Perception

Le rôle du lien sensori-moteur dans la PACT

1. Co-construction (offline / développementale) des prototypescatégoriels entre la perception et l’action

1. Intervention en ligne de la motricité dans la perception

Il ne s’agit plus de prouver ou d’infirmer l’hypothèse motrice,mais d’évaluer le rôle fonctionnel de la motricité dans la perception

PACT et la neuro-anatomie actuelle

Les deux routes

Hickok & Poeppel, 2004, 2007

- STG bilatéral (éventuellement

avec des spécificités gauche-

droite)

- Voie dorsale vs. voie ventrale

- Une voie dorsale

multisensorielle temporo-pariéto-

frontale gauche liant perception et

action

-Une voie ventrale temporale pour

la compréhension de la parole

-Un bouclage ventral-dorsal peu

clair (Décodage ? Syntaxe ?

Sémantique ?

PACT et la neuroanatomie actuelle(suite)

CAVEAT : la neurophysiologie ne renseigne pas directement sur les formats de

représentation - on peut avoir un format « moteur » dans des aires temporales ...

1. La co-structuration des représentations

perceptives (temporales) et motrices (frontales)

dans le développement ou les apprentissages

adultes devrait impliquer la voie dorsale (cartes

sensori-motrices)

2. Une fois structurées (en partie par les

connaissances motrices) les représentations

auditives (temporales) fournissent la base de la

compréhension via la voie ventrale

3. La voie dorsale pourrait jouer un rôle dans la

perception en ligne, en conditions perturbées

(binding ?)

1. Théories auditives vs. motrices de la perception

de la parole : La réponse de la « PACT »,

théorie perceptuo-motrice

1. Co-construction des catégories phonologiques

en perception et en production : le cas des

voyelles

(avec Lucie Ménard, UQAM, 2007-2010)

3. Relation perceptuo-motrice en ligne :

Liage audiovisuel en perception de parole

1. Production des voyelles du français: typologies

d’idiosyncrasies

2. Perception des voyelles du français: une idiosyncrasie en

miroir

F1 voyelle produite

F1

vo

ye

lle p

erç

ue

D’où viennent ces “idiosyncrasies perceptives” ?

Pas de la perception (même espace d’apprentissage pour chacun / à part

“dialectes” familiaux ?)

L’interprétation PACT : co-construction des représentations

perceptive et motrice au cours du développement

rela

tive

po

sitio

n in

F1

(pe

rce

ive

d)

relative position in F1

(produced)

[i][e]

[E]

[a]

[i]

[e][E]

[a]

[i]

[e]

[E][a]

[i][e]

[E]

[a]

[i]

[e][E]

[a]

[i]

[e]

[E][a]

[i][e]

[E]

[a]

[i]

[e][E]

[a]

[i]

[e]

[E]

[a]

Subject Type 1

Subject Type 2

Subject Type 3

(a) Production (b) Perception (c) Perception / smaller vocal tract

Son Caractérisation

Auditive

Param. Perceptifs Catégorisation

Auditive

Percept

Schémas

Moteurs

Un premier schéma fonctionnel pour la PACT

Co-structuration des systèmes de

perception et d’action en relation

avec la phonologie

Rôle fonctionnel du système moteur

dans la perception (liage ?)

1. Théories auditives vs. motrices de la perception de la

parole : La réponse de la « PACT », théorie

perceptuo-motrice

1. Co-construction des catégories phonologiques en

perception et en production : le cas des voyelles

3. Relation perceptuo-motrice en ligne :

Liage audiovisuel en perception de parole

(avec Marc Sato et Anahita Basirat)

PACT et le problème du liage en parole

L’Analyse de Scènes Auditives (Bregman) : primitives et schémas Is speech perceptual coherence special?Remez et al., Psychological Review, 1994: On the perceptual organization of speech

L’analyse de scènes de parole,

un processus perceptuo-moteurLe “destin commun” est perceptuo-moteur (PACT)

La PACT et le problème du liage en parole

71

Le destin commun est articulatoire …et ses apparences acoustiques sont complexes !

son

geste

Multistabilité

• Un paradigme pour étudier l’organisation perceptive(décision, attention, conscience, …)

! De la multistabilité en vision à l’audition et à la parole

(http://www.optical-illusion-pictures.com/)

Répétition rapide de

“life” “fly”

(Transformations Verbales,

Warren et Gregory, 1958)

! La multistabilité en parole (TransformationsVerbales)

comme un processus perceptuo-moteur

Les propriétés du système moteur de la parole

influent sur les Transformations Verbales (liage perceptuo-

moteur : Sato, et al., P&P, 2006)

• Expérience I: la cohésion articulatoire mène à la stabilité perceptive

(“fly” plus stable que “life”?)

– Stimuli:

• “pse” vs. “sep” prononcés par le sujet

– Hypothèses:

• “pse” est articulatoirement “en phase” et devrait être plus stable

– Résultats:

• “pse” est plus stable et plus attractif que “sep”

• Vrai aussi en parole intérieure (“covert”)

[s] [s] [s] [s] [s] [s]

Geste Coronal

[p] [p] [p] [p] [p]

Geste Labial

[pse] [pse] [pse]

Les propriétés du système moteur de la parole

influent sur les TV (perceptuo-motor binding: Sato et al., JSLHR, 2007)

• Expérience II: L’effet Labial Coronal

– Stimuli:

• Stimuli acoustiques “pata” vs. “tapa”

– Hypothèse:

• Les cycles de mâchoire devraient rendre cohérentes “chunk”) les

séquences pata

" Résultats:

! “pata” perçu plus souvent que “tapa”

! “bada” perçu plus souvent que “daba”

p a t a p a t a p a t a p a t a Son

Cycle de mâchoire

Les Transformations Verbales sont

multisensorielles(liage audiovisuel : Sato, Basirat & Schwartz, P & P, 2007)

• Expérience III: TVs visuelles et audiovisuelles VTs

– Stimuli:

• “pse” et “sep” en audio-seul, vidéo-seul, AV congruent, AVincongruent

– Résultats:

• On observe des TVs en mode visuel

• AV Incongruent comparé à AV congruent :

Congruent V: stabilité de l’input auditive

Incongruent V: stabilité de l’input auditive

Les Transformations Verbales sont

multisensorielles(audiovisual binding: Sato, Basirat & Schwartz, P & P, 2007)

• Expérience IV

– Audiovisuel “pse” et “sep”

Audio stable + alternance vidéo entre stimuli congruent et incongruent

p s e p s e p s e p s e p s e p s e Son

Lèvres

77

" Résultats:

! AV incongruent : forte influence visuelle

! Transformations synchrones et congruentes avec lesbascules de la piste vidéo

p s e p s e p s e p s e p s e p s e Son

Lèvres

78

Les Transformations Verbales sont multisensorielles(liage audiovisuel : Sato, Basirat & Schwartz, P & P, 2007)

• Expérience V

– Stimuli: /pata/ et /tapa/ en modes A, AV, AVpa, AVta

Hypothèse: l’ouverture labiale en

“bootstrap”

Résultats:- Percept /pata/ plus stable dans AVpa que dans Avta

- Percept /tapa/ plus stable dans AVta que dans Avpa

L’effet semble speech specific (Basirat et al., inpreparation)

p a t a p a t a p a t a p a t a p a t a Son

Lèvres / Barre

80

Les Transformations Verbales dans la voie dorsale(dorsal cortical binding: Sato et al., NeuroImage 2005)

• Expérience VI

– fMRI, contrastant répétition simple et répétition + recherche de

transformations

81

Les Transformations Verbales dans la voie dorsale(dorsal cortical binding: Basirat et al., NeuroImage 2008)

• Expérience VII

– iEEG, contrastant multistabilité (changement “subjectif” endogène) et

changement acoustique (“objectif” exogène)

Expériences III-V:

La modalité visuelle peut influencer et contrôler lestransformations

Liage audiovisuel

Le geste d’ouverture labiale, un “onset” perceptif

Expériences I-II:

Les processus moteurs pénètrent dans le processus (de liage)des TV

L’analyse de scènes de parole,

un processus perceptuo-moteur et multisensoriel

Expériences VI-VII:

Les transformations verbales dans la voie dorsale temporo-pariéto-frontale (boucle articulatoire? Mémoire de travail verbale ?Liage?)

Un nouveau schéma pour la PACT

Son A

Image V

Liage

Audio-

visuel

Param.

Perceptifs

Catégorisation

Audio-visuelle

Percept

Schémas

Moteurs

Cartes Sensori-motrices

de la parole

Objet

(A*, V*)

Caractérisation

Audio-visuelle

Onset mâchoire (CV, LVCV)Un rôle pour l’accès AV au lexique ?

=> Modélisation dans TRACE-VT, par un « biais

articulatoire » au niveau lexical, intégrant

mécanisme de sonorité et effet labial coronal) /

Thèse Basirat

En conclusion : des objets

co-construits entre

perception et action

(dans la PACT)