Perception auditive et perception de la …jean-luc.schwartz/fichiers...la cognition motrice et de...
Transcript of Perception auditive et perception de la …jean-luc.schwartz/fichiers...la cognition motrice et de...
Perception auditiveet perception de la parole
Jean-Luc Schwartz, GIPSA-LabGrenoble-Image-Parole-Signal-Automatique
ICP-Département Parole & Cognition
1. Les objets sonoresLa nature des sons (signal, représentation temps-fréquence), entre
cause physique et expérience perceptive
2. Traitements auditifs et représentations perceptivesLes représentations du signal acoustique dans les neurones du nerf
auditif et des premiers centres nerveux
3. Traitements centraux, constitution des objets dans le cerveauTraitement de l’information dans le cerveau, liage, décision, conscience
4. Les mécanismes perceptifs, entre le monde et le cerveauDes questions philosophiques sur idéalisme et réalisme vers les théories de
la cognition motrice et de la simulation, jusqu’aux neurones miroir
5. Les théories de la variabilité et de l’invariance en perception deparoleInvariance et variabilité / Les théories «!phare!» : théories auditives vs.
motrice, théorie quantique, théorie H&H, PACT / Phylogenèse
6. La parole multisensorielleLa perception multisensorielle, des architectures cognitives aux
interfaces multimodales
Perception et réalité : Prémisses philosophiques et principes computationnels
Est-ce que ce que nous percevons est «!réel!» ?
Comment la réalité du monde physique contraint-elle nos perceptions ?
Phénoménologies mentales,phénoménologie réelles
La perception des couleurs
La perception visuelle des états de l’eau
Une arbitrarité des catégories, linguistiquement déterminée
Ou des universaux neurobiologiquement déterminés ?
En tout cas, pas de catégorie physique apparente …
La perception des couleurs La perception visuelle des états de l’eau
Une morphologie physique qui s’impose à notre perception
Un contour est la résultante à la fois d’une propriétéphysique majeure, et d’une mise en forme neurocognitive
(il en est de même du «!destin commun!» auditif
Un monde sensible fait d’objets physiqueset de gestes construits
Les deux problèmes de l'invarianceLes deux problèmes de l'invariance
1. Retrouver les objets
Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus
Les deux problèmes de l'invariance
1. Retrouver les objets
Invariance de l'objet physique, quel qu'il soit,malgré la variabilité du stimulus
2. Nommer les objets
Invariance de la catégorie, acceptée comme telle,malgré la variabilité de ses instantiations
Peut-on entendre la forme d’un tambour ?
Peut-on voir la forme 3D d’un objet ?
Pour Tomaso Poggio (Vision, MIT), laperception bas niveau est une inversion
Monde physique Monde sensible
Lois de la physique
Perception bas niveau
Objets 3D Images 2D
Lois de l’optique
Vision bas niveau
Le cas de la vision
Du 2D au 3D, un déficit d’information comblé par deshypothèses (statistiques) sur les régularités des objets
Exemple : la vision stéréoscopique
Rétine gauche Rétine droite
appariement
Régularisation
Unicité et continuité
Unicité : Rd = f(Rg)
Continuité : f doit minimiser un critère d(f(Rg), Rg))
Fonction f
RdRg
Hypothèses acceptables dans un monde sans trou !
"Le système est 'contraint' de choisir l'interprétation la plus crédible en
fonction des règles et des régularités. La règle d'inférence du système
visuel serait donc fondée sur une loi (la projection) et une régularité (la
nature rigide des objets)."
(Donald Hoffman, 1984)
" One of the best definitions of low-level vision is that it is inverse
optics. Most of the goals of low-level vision can be seen as the
solution to inverse problems. Consider, for instance, the problem of
recovering the three dimensional structure of a scene from the
images of it. While in classical optics the problem is to determine
the images given certain physical objects, we are confronted here
with the inverse problem of finding their three-dimensional shape
(and perhaps their physical properties) from the light intensity
distribution in the image." (Poggio, 1984)
Objets 3D Sons
Lois de l’acoustique
Audition bas niveau
Le cas de l’audition
Un flux d'information qui circule sur le réseau n'est pas simplement un ensemble de bits ou de pixels à traiter, coder, compresser ;
c'est en général une scènescène complexe
constituée d'objetsobjets physiquesphysiques multisensorielsmultisensorielsanimés ou non, parfois dotés danimés ou non, parfois dotés d’’intentionsintentions ;
Ce sont ces objets et ces agents qu’il faut localiser, indexer, identifier,
pour interagir efficacement.
La parole multisensorielle
La perception multisensorielle, desarchitectures cognitives auxinterfaces multimodales
La parole multisensorielle
I. Les compétences audiovisuelles
du sujet humain
0 1000 2000 3000 4000 5000-50
0
50
Audition
La parole produit des objets multisensoriels
Vision
Toucher
[i] [y]
[u]
[a]
[e] [ø][o]
Lèvres étirées/arrondies
Langue avant/arrière
Mâch -Langue haut/bas
F1
F2
[i][y]
[u]
[e][ø]
[o]
[a]
Les principaux gestess’entendent
[i] [y]
[a]
[e] [ø]
Les lèvres et la mâchoire sevoient, mais pas la langue
On peut voir le conduit vocal
Lecture labiale : 40-60% des phonèmes
10-20% des mots ... jusqu'à plus de 60%
grande variabilité individuelle,pour les sourds comme les bien entendants
les meilleurs sont des sourds
+18
+12
+6
0
-6
-12
-18
t k p f th s sh m n d g b v dh z zh
Pour les consonnes,
on entend bien le mode
1
15
2
3
4
5
6
7
8
9
10
11
12
13
14
f lv th dh s z sh zh p b m w r g k n t d y
On voit bien le lieu
(du moins à l’avant)
On peut toucher le conduit vocal
Méthode Tadoma
On place le pouce sur les lèvres du locuteur, l’index sur la
joue et les autres doigts sur le cou en-dessous de la mandibule
On peut ajouter de l'information visible sur les gestes non visibles
Langage Parlé Complété
On lit sur les lèvres dans le bruit …
Sumby et Pollack (1954)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
Erber (1969)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
Binnie et al. (1974)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
Benoît et al. (1994)
0
10
20
30
40
50
60
70
80
90
100
- 3 6 - 3 0 - 2 4 - 1 8 - 1 2 - 6 0 6
S/N (dB)
Po
urc
enta
ge
de
rép
on
ses
corr
ecte
s
audio + visage du locuteur
audio seul
Et même sans bruit !
Le téléphone et la radio en langue étrangère …
Parler, c’est produire des actions orofaciales pour
être entendu … et pour être vu
Zouc et Mme Von Allmen
Et Denis Beautemps !
Parler, c’est produire des actions orofaciales pour
être entendu … et pour être vu (suite)
Pourquoi « maman » ? Parce qu’on a des yeux !
préférence marquée pour les bilabiales au début du babillagerenforcée chez les enfants malentendants,diminue chez les enfants aveugles
la distinction entre [m] et [n], peu audible mais bien visible, existe danspresque toutes les langues du monde.
Les bébés se servent de la vision
La parole multisensorielle
II. Questions d’architecture cognitive
Fusion : architecture et contrôle
Traitements, formats de représentation
Opérations, contexte
Identification Directe Identification Séparée
Fusion après classificationmonosensorielle
Recodage dans la modalité Dominante
Recodage dans la modalité Motrice
Fusion après recodagespectro-temporel
Fusion après interactionperception-action
Représentationcommune du sonet de l’image ?
Représentationcommune précèdela catégorisation ?
Représentationcommune liée à
modalité A ou V ?
oui
nonIdentification
Directe
oui
non
oui
non
IdentificationSéparée
Recodage Mod.Dominante
Recodage Mod.Motrice
Trois questions expérimentales pour une taxonomie des modèles
Une découverte récente sur l’architecture de fusion :
des interactions dès la prise d’information
A + Bruit …… A + Bruit ……AV + Bruit
Lire sur les lèvres permet d’abord de mieux entendre
(avant de mieux comprendre)
Une astuce expérimentale
Etudier l’intelligibilité dans le bruit
de séquences indistingables en lecture labiale (visemes)
[y u ty tu ky ku dy du gy gu]
50
55
60
65
70
75
80
85
AV A V
Correct
(%)
Frequency
prevoicing
burstA
time
Vowel nucleus
Lip area
V
target
onset
time
~ 100 ms
~ 240 ms
On comprend mieux, sans lecture labiale !
On entend mieux quand on voit
AV > A V =0
50
55
60
65
70
75
80
85
AV A
AV = A
Un effet « speech specific » ?
Démo Olha Nahorna
Contexte cohérent vs incohérent
Fusion : architecture et contrôle
+, x, etc
« biais » de contexte
Facteurs contextuels :
1. Attention (Tiippana et al.)
Facteurs contextuels :
2. Variation interindividuelle (Cathiard)
Visuels Auditifs
2 ms
6 ms
10 ms
Fusion : architecture et contrôle
Traitements, formats de représentation
Opérations, contexte
La parole multisensorielle
III. Eléments d’architecture corticale Un système cortical mettant encorrespondance observation et
exécution des actions
Les neurones miroir
Observation-Execution Matching SystemObservation-Execution Matching SystemRizzolatti, Fogassi, Gallese, Iacoboni, BuccinoRizzolatti, Fogassi, Gallese, Iacoboni, Buccino
Kohler et al. 2002
Audio-visual mirror neurons
La voie dorsale de la perception AV de la parole
Skipper et al. 2005
Callan et al. 2003
Le modèle de Skipper
La parole multisensorielle
IV. Télécommunications et CHM multimodales
Visages parlants virtuels
Synthèse
audiovisuelle
à partir du
texte
Estimation
FAP
Synthèse
2D/3D
.....T
ran
smis
sion
+ C
om
pre
ssio
n....
• Objet visage MPEG4– identification/extraction des déplacements/mouvements
des visages d'une scène audiovisuelle
– immersion de clones dans des environnements virtuels: téléprésence
• Challenges– Stratégies de communication
– Communication augmentée et adaptativeVisiophonie "classique"
Animation d’un visage
à partir de la voix
Synthèse audiovisuelle
à partir du texte
Code
A
V
A
?
Reconnaissance audiovisuelle de la parole :Mieux reconnaître dans le bruit
! Associateurs obtenus par apprentissage :
régression linéaire / réseaux de neurones
! Deux types de filtres : LPC et Wiener
Débruitage AV : un problème de filtrageet de fusion de capteurs
!=
"+
==p
i
i
i
LPC
za
G(z)SH(z)
1
1
22
2
vLPC
LPC
N(z)S
(z)SH(z)
#+=
Audio débruitéFusion
H($)Audiobruité
Vidéo
A
B S
Débruitage audiovisuel de la parole :Voir pour mieux entendre
A :mélange
B :séparation
st
xtyt
ytSignaux parasites:
s2 … sN
A :mélange
B :séparation
st
xtSignal audio : s1
Signal de
Parole
Signal vidéo
Séparation de sources AV : résultats préliminaires
Codage AV
Analyse paramétrique (contour labial, FDP, MPEG 4)
! Principe : Analyse AV - Compression conjointe - Synthèse AV
Animation de modèles
! Adaptation à la qualité de service du réseau de transmission
Pistescodage conjoint prédiction A / Vvisiophone / labiophone
Objectifsréduction débitréduction complexitérobustessescalabilité
Q-1Q ?
ContraintesBande passanteCPUPertes / erreursLatence ! Algorithme de QV : Splitting + LBG
! Définition d’une distance audiovisuelle :
Un vocodeur LPC AV basé sur
la Quantification Vectorielle
dAV= ! dV + (1"!) dA
! Résultats : QV AV 12 bits > QV A 10 bits + QV V 5 bits
(Corpus : 107 phrases, 8 locuteurs)
Vocodeur LPC QVAV : résultats
Erreur Vidéo(mm)
1
1,2
1,4
1,6
1,8
0,05 0,07 0,08 0,09 0,1 0,11 0,15 0,2
0,046
0,048
0,05
0,052
0,054
0,05 0,07 0,08 0,09 0,1 0,11 0,15 0,2
Erreur Audio(rad/Hz)
! !
QV AV 12 bits
QV V 5 bitsQV A 10 bits
QV AV 12 bits
Une nouvelle structure : QV en étage
! Résultats : même qualité que référence + réduction de
complexité
(facteur # 10 pour recherche dans dictionnaire)
Conclusion :
L’analyse de scènes auditives et visuelles,un maillon essentiel des
applications télécoms à venir
MPEG4 : objets et réalités virtuellesMPEG7 : indexation
… qui doit s’appuyer sur les connaissancessur les traitements perceptifs
des scènes multimodales