Université de Montréal L’information visuelle efficace ...

126
Université de Montréal L’information visuelle efficace pour la reconnaissance de visages dans l’espace-temps Par Céline Vinette Département de psychologie Faculté des arts et des sciences Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de maîtrise (M.Sc.) en psychologie août 2003

Transcript of Université de Montréal L’information visuelle efficace ...

Université de Montréal
L’information visuelle efficace pour la reconnaissance de visages dans l’espace-temps
Par Céline Vinette
Département de psychologie Faculté des arts et des sciences
Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de maîtrise (M.Sc.)
en psychologie
août 2003
Ce mémoire intitulé :
L’information visuelle efficace pour la reconnaissance de visages dans l’espace-temps
présenté par :
Céline Vinette
a été évalué par un jury composé des personnes suivantes :
Martin Arguin Président-rapporteur
4
5
RÉSUMÉ
Reconnaître un visage exige le traitement rapide (en moins de 300 ms) d’un stimulus
complexe, sous la restriction de ressources attentionnelles limitées. Quelle stratégie
le système visuel humain emploie-t-il pour maximiser l'utilisation de l’information
disponible? En se servant de la "méthode des bulles" (Bubbles, Gosselin & Schyns,
2001), la présente recherche examine les dynamiques spatio-temporelles de
l’extraction d’information efficace durant une tâche de reconnaissance de visages.
Les 51 000 réponses de dix participants à l’identification de visages échantillonnés
dans l’espace et dans le temps permettent de dégager une routine attentionnelle
générale : l’observateur humain extrait d’abord l’information de l’œil à gauche de
l’image de 47 ms à 94 ms suivant le début du stimulus, puis celle des deux yeux de
94 ms à la fin du temps de présentation (282 ms). Ce biais en faveur du côté gauche
du stimulus concorde avec une spécialisation de l’aire de traitement des visages dans
l’hémisphère droit. La place de cette routine dans le traitement hiérarchique de
l’information est discutée.
hémisphérique
6
ABSTRACT
The recognition of a face requires the fast processing (in less than 300 ms) of a
complex stimulus, albeit the limited capacities of attentional resources. What is the
strategy followed by the human visual system to maximize the effective use of
information? Using Bubbles, (Gosselin & Schyns, 2001), the current research
examines the spatio-temporal dynamics of information extraction during a face
recognition task. The 51,000 responses of ten participants on the identification of
faces sampled through space and time allowed the extraction of a general attentional
routine: the human observer first extracts the information from the eye located on the
left side of the image during the 47 ms to 94 ms following the onset of the stimulus,
then extracts the information from both eyes from 94 ms to the end of the
presentation time (282 ms). This bias towards the left side of the stimulus is
consistent with the specialization of the face processing area in the right hemisphere.
The place of this routine in the hierarchical processing of information is discussed.
Keywords : Vision, Face recognition, Attention, Bubbles, Spatio-temporal dynamics,
Hemispheric Asymmetry
INTRODUCTION GÉNÉRALE ....................................................................... 1 1.1 Des visages comme stimuli ........................................................... 2 1.2 La configuration du visage ............................................................ 3 1.3 L’effet d’inversion des visages...................................................... 5 1.4 Le développement du traitement configural et l’expertise.............. 7 1.5 Les bases neurologiques d’une spécialisation ................................ 9 1.6 Le traitement cognitif des visages ............................................... 14
2. Le rôle de l’attention en perception......................................................... 17 2.1 La nature de l’attention ............................................................... 20 2.2 Les routines attentionnelles ......................................................... 21 2.3 Une routine attentionnelle pour les visages.................................. 23
3. Le traitement fréquentiel ........................................................................ 24 3.1 Traitement de l’information grossière vers l’information fine...... 26
4. La méthode des bulles ............................................................................ 30 4.1 La méthode des bulles appliquée au domaine temporel................ 32 4.2 La stabilité des résultats attendus................................................. 33
5. Problématique ........................................................................................ 34 6. Contributions à l’article .......................................................................... 36
ARTICLE Spatio-Temporal Dynamics of Face Recognition in a Flash: It’s in the Eyes ..... 38 ABSTRACT ...................................................................................................... 40 INTRODUCTION ............................................................................................. 41 Why use Bubbles?......................................................................................... 42 METHODS........................................................................................................ 45 Participants ................................................................................................... 45 Stimuli .......................................................................................................... 45 Procedure...................................................................................................... 46 Results .......................................................................................................... 46 GENERAL DISCUSSION................................................................................. 50 CONCLUDING REMARKS ............................................................................. 53 ACKNOWLEDGEMENTS ............................................................................... 55 REFERENCES .................................................................................................. 56 FIGURE CAPTIONS......................................................................................... 59
9
DISCUSSION GÉNÉRALE ............................................................................ 74 1.1 Généralisabilité de la routine attentionnelle ................................. 75 1.2 Origine de la routine ................................................................... 82
2. Biais perceptuel gauche et latéralisation hémisphérique droite................ 85 2.1 Spécialisation du FFA dans les deux hémisphères ....................... 88 2.2 Alternatives à la latéralisation du FFA......................................... 89
3. Place de la routine attentionnelle dans le traitement hiérarchique de l’information .......................................................................................... 91 3.1 La séquence de traitement selon les théories cognitives............... 93 3.2 La séquence de traitement selon les PEC..................................... 94 3.3 Développements futurs................................................................ 96
CONCLUSIONS GÉNÉRALES........................................................................ 98 RÉFÉRENCES .................................................................................................. 99
10
LISTE DES TABLEAUX
Tableau I Corrélations entre la RAV et chacune des routines attentionnelles individuelles ............................................................................... 79 .......................................................................................................
11
LISTE DES FIGURES
Figure 1 Illustration de l’effet Thatcher (Thompson, 1980) ................................. 6 Figure 2 Exemples de Greebles, des stimuli utilisés pour étudier la sensibilité au traitement configural qu’on retrouve chez les experts, et de même, dans le traitement des visages (tiré de Gauthier, Williams, Tarr & Tanaka, 1998) ............................................................ 9 Figure 3 Modèle fonctionnel de la reconnaissance de l’identité d’un visage (tiré de Bruce & Young, 1986) ............................................................ 15 Figure 4 Exemple d’un stimulus démontrant le phénomène de cécité au changement (tiré de Rensink, O’Regan & Clark, 1997)....................... 18 Figure 5 Position de l'information diagnostique pour la reconnaissance d'un visage dans le plan de l'image à l'intérieur de chaque bande de fréquences spatiales, lors d’une tâche d’identification. (tiré de Gosselin & Schyns, 2002) ................................................................... 29 Figure 6 Battement attentionnel (variation de la somme des indices d’utilisation
de l’information pour chaque plan, en scores Z) évoqué par les visages pour la RAV et pour chaque routine individuelle, avec leur analyse fréquentielle……………………………………………………………80
Dans la section ARTICLE
Figure 1 The twelve frames of a sample space-time stimulus ............................. 60 Figure 2 Z-scored regression coefficients indexing the usefulness of each region of the face through time in face identification ............................ 61 Figure 3. Pictures of Figure 1 and 2 in a format that allows a dynamic viewing.. 62
12
LISTE DES ABRÉVIATIONS
BFS Basses fréquences spatiales EIV Effet d’inversion des visages FFA Fusiform Face Area HFS Hautes fréquences spatiales IRMf Imagerie par résonance magnétique fonctionnelle PEC Potentiels évoqués cognitifs RAV Routine attentionnelle des visages TEP Tomographie par émission de positrons
13
REMERCIEMENTS
Je tiens tout d’abord à exprimer ma sincère et profonde gratitude à l’égard de mon
directeur de thèse, Frédéric Gosselin, qui s’est montré d’une générosité sans borne, et
ce sur tous les plans, durant ces deux dernières années : merci pour tout, pour les
merveilleuses opportunités qui m’ont été offertes – y compris l’Écosse, pour le
constant support matériel et intellectuel, pour l’excellente formation reçue en
multiples domaines et, finalement, pour le maintien du caractère amical de cette
relation directeur-étudiante. Ce fut un grand honneur et une expérience inoubliable
que d’être votre première étudiante. Cette gratitude s’étend à mon deuxième mentor
par-delà l’océan, Philippe Schyns, dont l’encadrement conjoint m’a doté d’un second
puissant point de vue sur la science et de précieuses connaissances en recherche.
Un merci tout spécial à ma famille : à vous quatre – bientôt vous cinq – qui m’aurez
apporté la stabilité, le support, les encouragements nécessaires pour persévérer dans
cette entreprise. C’est grâce à votre affection et votre amour que je suis encore
debout.
Un gros gros merci à mon collègue de longue date, Nicolas Dupuis-Roy, ma bouée,
mon complice, mon psychologue, qui a su m’épauler durant ce séjour académique au
point de le transformer en cheminement. Un merci conjoint à sa compagne France
Landry, à la petite Julie (Julie Senécal) et à Julie la Rousse (Julie Hudon), pour votre
aide et votre amitié, à Nathalie Gosselin, pour les balles et les conseils échangés, to
Julian Wallace, overseas. Un joyeux merci à la « gang » des labos Gosselin, Belin et
Arguin - c’est tellement agréable de travailler avec des amis! Et finalement, un salut
tout spécial au petit monde de psychologie, que j’ai croisé soit comme sujets ou
comme étudiants; vous avez enrichi mon séjour ici de façon spéciale.
14
A tous et à toutes, ce mémoire est le fruit de mes interactions avec vous; je vous en
remercie.
Ces deux années d’études ont été subventionnées par une bourse ÉS-A du Conseil de
recherche en sciences naturelles et génie du Canada (CRSNG).
15
1.1 Des visages comme stimuli
Par la fréquence à laquelle on le rencontre dans l’environnement et par son
contenu riche en information sociale de premier ordre, le visage humain constitue un
stimulus visuel de classe à part. En effet, il suffit d’un clin d’œil porté sur le visage
d’un individu pour en distinguer le sexe, l’état émotionnel ou l’identité. Non
seulement le traitement d’une telle information s’avère fort efficace, mais aussi très
rapide – une exposition de 20 ms suffit (p. ex. Rizzolatti & Buchtel, 1977). Cette
performance est d’autant plus surprenante que chaque visage est composé des mêmes
attributs (yeux, nez, bouche) disposés selon une organisation similaire, créant ainsi un
groupe de stimuli d’une homogénéité supérieure à celle retrouvée dans la majorité des
catégories d’objets. Pourtant, tout observateur humain se montre capable d’identifier
un nombre apparemment infini de visages, alors que seules de fines discriminations
visuelles permettent de les identifier.
Cette grande capacité à identifier les visages suggère que le cerveau humain
traite ces stimuli de façon spécialisée, en faisant appel à des mécanismes de
traitement visuel de haut niveau différents de ceux mis en œuvre de façon plus
générale en reconnaissance d’objets (p. ex. Bruce & Young, 1986; Damasio, Damasio
& Van Hoesen, 1982; Farah, 1996; McCarthy, Puce, Gore & Allison, 1997).
Plusieurs recherches fournissent des indications quant aux processus intervenant dans
le traitement des visages; mais le mécanisme dynamique de la prise d’information
sous-tendant ce traitement, lui, reste encore obscur. C’est sur cette question que se
penche la présente recherche.
Dans un premier temps, il sera fait état des connaissances actuelles en
17
reconnaissance de visages. Le rôle de l’attention, responsable de la capture
d’information, sera ensuite exposé, suivi par la description des modulations
attentionnelles déjà connues en reconnaissance de visages, qui suggèrent une
hypothèse de stratégie attentionnelle. Ensemble, ces données récapituleront les
indices sur lesquels repose l’ébauche de la présente expérience. Puis dans le cadre de
l’article central à cette thèse, la démarche suivie afin de cibler la dynamique de prise
d’information en reconnaissance de visage ainsi que les résultats obtenus seront
présentés. Finalement, l’impact d’une telle découverte -- la routine attentionnelle
propre aux visages -- sera discuté, pour mieux en extrapoler les indices sur le
traitement cognitif sous-jacent.
1.2 La configuration du visage
À la base, la constitution du visage vient du regroupement des attributs
faciaux, c’est-à-dire des parties distinctes et indépendantes d’un visage, pouvant être
nommées et reconnues (yeux, nez, bouche, etc.). Bien que les mêmes attributs se
retrouvent dans chaque visage, les caractéristiques de ces parties constituantes
peuvent parfois à elles seules suffire à la reconnaissance du visage : par exemple la
forme du nez, la couleur des yeux, le style de coiffure. On parle alors de
reconnaissance par attributs, effectuée par traitement analytique du visage.
Cependant, les études en reconnaissance de visages ont rapidement démontré que le
traitement analytique semble accompagné d’un autre type de traitement,
potentiellement plus efficace : ce deuxième type de traitement reposerait sur
l’information sous-jacente aux simples attributs faciaux, soit l’information
18
configurale ou de deuxième ordre, dont l’importance relative varie selon les auteurs
(p. ex. Farah, 1990; Sergent, 1988; Rhodes, Brennan & Carey, 1987; Diamond &
Carey, 1986; voir Farah, Wilson, Drain & Tanaka, 1998, et, plus récemment,
Peterson & Rhodes, 2003, pour une recension de la littérature).
De prime abord, la définition de ce qui constitue l’information configurale
n’est pas nette et, mis à part le fait qu’elle repose sur les relations spatiales entre les
différents attributs, plusieurs définitions peuvent être utilisées. L’information
configurale peut comprendre une très petite étendue du visage (p. ex., entre deux
attributs adjacents) ou s’étendre sur une étendue beaucoup plus grande, englobant des
attributs séparés par de larges distances (Bartlett, Searcy & Abdi, 2003). Selon
certains, l’information configurale repose sur la position et les relations spatiales
entre les attributs au sein du visage (Rhodes, 1988; Sergent, 1984), sur l’utilisation
conjonctive des attributs (Schyns & Gosselin, 2003) ou encore sur les relations
spatiales des attributs en comparaison avec un arrangement prototypique (Carey &
Diamond, 1994; Diamond & Carey, 1986, Rhodes et al., 1987). Dans ce dernier cas,
deux types de relations spatiales seraient à dissocier, soit les relations spatiales de
premier ordre, entre les différents attributs faciaux, et les relations spatiales de
deuxième ordre, soit la grandeur relative de ces relations spatiales par rapport à un
prototype sous-jacent (Leder & Bruce, 2000; Diamond & Carey, 1986). Les relations
de premier ordre définiraient les stimuli comme appartenant à la classe « visages »,
alors que les relations de deuxième ordre caractériseraient les différents individus,
permettant ainsi la reconnaissance d’un visage spécifique. Finalement, selon d’autres
auteurs, l’information configurale vient du traitement holistique du visage, où, tel un
gabarit, celui-ci est représenté en tant que tout indivisible, et non pas en terme de la
19
somme des attributs (e.g., Tanaka & Farah, 1993; Tanaka & Farah, 2003). Les études
menées par ces auteurs démontrent une difficulté accrue à reconnaître les attributs
faciaux à l’extérieur du contexte du visage, ce qui n’est pas le cas pour les
composantes d’autres objets.
Cependant, peu importe la définition qu’on lui donne, il semble que
l’information configurale ne tienne que pour les visages en position de visualisation
« canonique » : toute dérogation à la norme, telle l’inversion du visage, compromet
l’extraction de ce type d’information.
1.3 L’effet d’inversion des visages
Pour tout stimulus à orientation unique verticale (i.e. ayant un haut et un bas),
une inversion du stimulus, c’est-à-dire un pivotement de 180 degrés, rend la tâche
d’identification plus difficile. Cette constatation a été obtenue pour un ensemble de
stimuli, tels des maisons, des avions, etc., en plus des visages. Or, comparativement
aux autres stimuli, la reconnaissance des visages démontre spécifiquement une
difficulté accrue dans la condition inversée, accompagnée d’une facilitation
supérieure dans la condition à l’endroit: ce coût disproportionné de l’inversion pour
les visages est maintenant connu sous le nom d’«effet d’inversion des visages » (EIV)
(Yin, 1969; Valentine, 1988 pour une revue de littérature). Par exemple, si on inverse
les yeux et la bouche d’un visage à l’endroit, on perçoit sans problème que l’image
résultante prend une allure grotesque; cependant, si on tourne ce visage modifié à
l’envers, son apparence anormale n’est plus évidente (Figure 1). Il s’agit de « l’effet
Tatcher ».
20
Qu’est-ce qui crée cette diminution des capacités perceptuelles chez
l’observateur? Dans les deux images de la Figure 1, les attributs locaux demeurent
les mêmes; seules les relations entre ces attributs sont dérangées, puisque dans
l’image de droite, les yeux sont sous le nez, le nez sous la bouche, etc. De même, il a
été démontré que, lors de l’inversion, la perception des attributs faciaux locaux n’est
pas dérangée (Searcy & Bartlett, 1996; Leder & Bruce, 1998), ce qui suggère que ce
sont les relations entre ces attributs qui deviennent plus difficiles à encoder. Par
conséquent, les chercheurs s’entendent pour attribuer l’EIV à la destruction du
traitement configural (e.g., Leder & Bruce, 2000). De même, plusieurs proposent
qu’un système de reconnaissance spécialisé pour les visages analyse spécifiquement
l’information configurale des visages à l’endroit (e. g. Farah et al.,1998; Moscovitch,
Winocur & Behrmann, 1997). Ce système rendrait compte de l’EIV puisqu’alors les
visages à l’endroit relèveraient d’un traitement que les visages inversés n’activent
21
pas, d’où le coût exceptionnel de l’inversion pour ce type de stimuli. Ces auteurs
suggèrent ainsi que la distinction entre le traitement des visages et tout autre stimulus
se situerait au niveau du mode de traitement configural.
1.4 Le développement du traitement configural et l’expertise
Le traitement configural propre aux visages à l’endroit ne serait pas inné. En
effet, les enfants de moins de six ans ne démontrent pas d’effet facilitateur propre aux
visages à l’endroit, bien que leur performance ressemble à celle des adultes en
reconnaissance de visages inversés (Carey & Diamond, 1977). Ces auteurs suggèrent
que les jeunes enfants encodent les visages par traitement analytique et que le
changement vers une stratégie par mode configural s’opère vers l’âge de dix ans. Ce
développement du traitement configural pour la reconnaissance des visages a donné
lieu à l’hypothèse qu’une structure de référence se formerait chez un observateur
suite à l’expertise acquise par la perception répétée des visages, naturellement
présentés à l’endroit (Goldstein & Chance, 1980). Une telle structure normative des
visages, tel un prototype (Rhodes et al., 1987; Valentine, 1991) ou un schéma
(Goldstein & Chance, 1980), synthétiserait les connaissances acquises sur la façon
dont les visages varient habituellement entre eux. L’exploitation de l’information
configurale permettrait à l’observateur expert, qui s’est préalablement formé une
conception de la configuration de base, de différencier les individus parmi un groupe
de stimuli présentant pourtant les mêmes attributs, en exploitant les déviations de
cette configuration de base qui se retrouvent de façon unique chez chacun des
individus (Diamond & Carey, 1986).
22
On a vu ci-haut que l’effet d’inversion reposait sur la perte du traitement
configural. D’après Diamond et Carey (1986), un effet d’inversion s’observe sous
trois conditions : a) tous les membres de la classe de stimuli en cause partagent une
configuration commune, b) l’individuation des membres repose sur l’information
configurale, c) l’observateur possède l’expertise pour exploiter ces indices
configuraux. Tout observateur humain percevant un visage remplirait ces conditions,
et l’utilisation efficace des indices configuraux deviendrait ainsi le résultat d’un
mécanisme général perfectionné par l’expertise pour répondre à un ensemble de
stimuli homogènes, plutôt qu’un traitement « spécial » des visages (Diamond et
Carey, 1986; Gauthier et Tarr, 1997). Une telle argumentation implique que l’effet
d’inversion peut s’observer pour d’autres stimuli dont l’observateur est expert, et non
seulement pour les visages. Appuyant cette hypothèse, ces auteurs notent un effet
d’inversion chez des experts en identification canine, en utilisant comme stimuli des
chiens de même race. De même, Gauthier et Tarr (1997) démontrent une sensibilité à
la configuration similaire à celle observée pour les visages chez des experts en
« Greebles », des stimuli complexes dont la différentiation repose sur l’information
configurale acquise par expertise (Figure 2). Ce résultat suggère donc que le
traitement configural est le propre de l’expertise et n’est pas spécifique aux visages
(Gauthier & Tarr, 1997).
Les études comportementales revues jusqu’à présent mettent en lumière les
propriétés « spéciales » mais non spécifiques du traitement des visages, amenées par
l’intervention d’un mode de traitement configural réservé aux observateurs experts.
Voyons maintenant les constatations du domaine neurologique appuyant ces
observations comportementales.
23
Figure 2. Exemples de Greebles, des stimuli utilisés pour étudier la sensibilité au traitement configural qu’on retrouve chez les experts, et de même, dans le traitement des visages (tiré de Gauthier, Williams, Tarr & Tanaka, 1998).
1.5 Les bases neurologiques d’une spécialisation
1.5.1 Chez les patients cérébro-lésés
L'altération des facultés en reconnaissance des visages (prosopagnosie) peut
survenir chez un individu indépendamment d’une détérioration des facultés en
reconnaissance d’objets (Sergent & Signoret, 1992; McNeil & Warrington, 1993;
Farah, 1994; Newcombe, Mehta & De Haan, 1994). À l’opposé, certains patients
incapables de reconnaître différents types d’objets (agnosie des objets visuels)
n’éprouvent aucune difficulté à reconnaître les visages (Moscovitch et al., 1997) :
cette double dissociation suggère qu’une aire spécifique du cerveau est strictement
dédiée à la perception des visages (Farah, 1990; Farah, Klein & Levinson, 1995). On
24
sait depuis quelques décennies déjà qu’une lésion cérébrale postérieure droite peut
entraîner la prosopagnosie (e.g. Bodamer, 1947; Yin, 1970; Meadows, 1974), malgré
une certaine controverse entourant la condition unilatérale des lésions provoquant ce
trouble (e.g., Tranel & Damasio, 1985). La prosopagnosie entraîne un désavantage
pour la reconnaissance des visages à l’endroit – sans cependant affecter la
reconnaissance des visages inversés, ce qui est en accord avec la rhétorique déjà
avancée sur le rôle de l’information configurale dans le traitement spécialisé des
visages (e.g. Yin, 1970). Conformément, la prosopagnosie est souvent associée à une
incapacité plus générale à reconnaître les membres de classes d’objets partageant une
similarité dans la forme visuelle (e.g., en plus des visages, des automobiles, des
symboles, certains animaux, des immeubles célèbres) (Damasio, Damasio & Van
Hoesen, 1982; Damasio, 1989).
1.5.2 En enregistrement unicellulaire
La première preuve neurophysiologique d’une spécialisation dans le
traitement des visages chez les primates vient de l’enregistrement de cellules qui
répondent spécifiquement aux visages dans le cortex temporal des macaques (Gross,
Roche-Miranda & Bender, 1972). Des cellules répondant spécifiquement à l’identité,
à l’expression, au point de vue ou à des parties de visage ont aussi été répertoriées,
entre autres dans le gyrus temporal inférieur et sur les côtés et la base du sulcus
temporal supérieur (Yamane, Kaji & Kawano, 1988; Hasselmo, Rolls & Baylis,
1989; Perrett, Hietanen, Oram & Benson, 1992; Gross, 1992; Perrett, Oram, Harries,
Bevan, Hietanen, Benson & Thomas, 1991; Perrett, Rolls & Caan, 1982; Wang,
25
Tanaka & Tanifuji, 1996). Chez l’humain, des enregistrements intracraniens
préchirurgicaux ont permis de trouver, dans l’hippocampe et les lobes temporaux, des
neurones individuels répondant sélectivement aux visages, à certaines expressions
faciales ou au sexe (Fried, MacDonald & Wilson, 1997; Heit, Smith & Halgren,
1988; Ojemann, Ojemann & Lettich, 1992). Finalement, des électrodes implantées
de façon chronique chez des patients humains démontrent des régions discrètes du
cortex occipito-temporal inférieur répondant aux visages mais non aux visages
brouillés, aux séries de lettres, aux animaux ou aux voitures (Allison, Ginter,
McCarthy, Nobre, Puce, Luby & Spencer, 1994; Allison, McCarthy, Nobre, Puce &
Belger, 1994; Nobre, Allison & McCarthy, 1994).
1.5.3 En IRMf
L’utilisation des techniques d’imagerie cérébrale, tel l’imagerie par résonance
magnétique fonctionnelle (IRMf), a permis d’observer une activation accrue dans une
région particulière du gyrus fusiforme lors de la présentation de visages,
comparativement à la présentation d’objets tel des fleurs ou des maisons (McCarthy,
Puce, Gore & Allison, 1997; Kanwisher, McDermott & Chun, 1997). Ces derniers
auteurs ont donné à cette région le nom de Fusiform Face Area (FFA), après
vérification faite que cette augmentation d’activation n’est pas imputable à des
attributs de bas niveau ou à la nature « humaine » des images (une réponse moindre
est obtenue avec des images de mains) (Kanwisher et al., 1997). Le FFA répond
plus fortement aux visages avec ou sans yeux, de front ou de côté (Tong, Nakayama,
Moscovitch, Weinrib & Kanwisher, 2000). Une plus grande activation est notée dans
26
l’hémisphère droit que gauche (p. ex. Kanwisher & al., 1997; Puce, Allison, Asgari,
Gore & McCarthy, 1996). Et on note une réduction du niveau d’activation de la FFA
lors de la présentation de visages inversés (Gauthier, Tarr, Anderson, Skudlarski &
Gore, 1999; Haxby, Ungerleider, Clark, Shouten, Hoffman & Martin, 1999;
Kanwisher, Tong & Nakayama, 1998). De même, certains suggèrent que la FFA
correspond de façon plus générale au substrat neurologique pour la discrimination de
tout stimulus dont l’observateur est expert, en lien avec l’exploitation de
l’information configurale (Gauthier et al., 1996; Gauthier et al., 1999).
1.5.4 En PEC
Dans le domaine des potentiels évoqués cognitifs (PEC), on retrouve une
signature dont la topographie correspond à l’emplacement de la FFA tel que révélé
par l’IRMf. Cette autre signature spécifique aux visages consiste en une réponse
électrophysiologique négative aux électrodes latérales postérieures (aux régions
occipito-temporales) survenant 170 ms après la présentation d’un visage. Cette
composante, la N170, reflèterait encore une fois le traitement configural propre aux
visages et ne serait pas induite par la présentation de voitures, de mains, de meubles
ou par des visages mélangés (Bentin, Allison, Puce, Perez & McCarthy, 1996;
George, Evans, Fiori, Davidoff & Renault, 1996; Eimer, 1998, 2000), quoique
certaines études notent une réponse claire mais moins ample pour des chaises,
voitures, lunettes, maisons, chiens, oiseaux, fleurs, papillons et mains (Rossion,
Gauthier, Tarr, Despland, Bruyer, Linotte & Crommelinck, 2000; Tanaka & Curran,
2001).
27
De façon générale, la N170 est amplifiée et retardée d’environ 8 ms par la
présentation de visages inversés, principalement aux électrodes de l’hémisphère droit
(p. ex. Bentin et al., 1996; Rossion, Delvenne, Debatisse, Goffaux, Bruyer,
Crommelinck & Guerit, 1999; Rossion et al., 2000). On suppose qu’une telle
observation, faite lorsque le traitement configural est endommagé, reflète une
difficulté accrue à traiter le stimulus (Rossion et al., 1999) : cette amplification de la
N170 lors de la présentation de stimuli inversés semble cependant un peu paradoxale
si on la met en relation avec la diminution d’activation observée en IRMf pour le
même type de stimuli. Alors que la rotation d’autres stimuli impliquant aussi un
traitement configural, tels des maisons, n’entraîne qu’une amplitude accrue sans
différence de latence, cette latence retardée semble vraiment spécifique aux visages
où seule l’information analytique est intacte (Eimer, 2000). En effet, une
augmentation dans la latence a été observée pour les visages présentant des attributs
aux relations modifiées (Eimer & McCarthy, 1999; George et al., 1996), pour les
visages avec un ou plusieurs attributs ôtés (Eimer, 1998; Jemel, George, Chaby, Fiori
& Renault, 1999; Bentin et al., 1996), pour les yeux présentés isolément (Bentin et
al., 1996) ou pour les visages inversés (Jeffreys, 1993; Rossion et al., 1999; Bentin et
al., 1996). À noter aussi que dans l’étude de Bentin et al. (1996), les yeux présentés
en isolation maximisaient la N170, d’où l’hypothèse émise par ces chercheurs que
cette onde répondrait à la détection spécifique des yeux dans un visage. Cette
hypothèse se trouve corroborée par une étude récente de Schyns, Jentzsch, Johnson,
Schweinberger & Gosselin (2003), dans laquelle la méthode des bulles, décrite plus
loin, démontre que la N170 est modulée par la présentation des yeux.
Bien que certaines de ces découvertes neurologiques, comme l’enregistrement
28
unicellulaire, appuient l’idée d’un traitement qui répond à des aspects spécifiques du
visage, d’autres, comme l’étude des cérébro-lésés, l’IRMf et les PEC, se montrent
davantage affectés par le traitement configural propre au visage. La prochaine
section tente de dégager les processus cognitifs sous-jacents à toutes ces observations.
1.6 Le traitement cognitif des visages
Un modèle de traitement des visages tenant compte des observations
comportementales et neurologiques répertoriées a été proposé par Bruce et Young
(1986). Ce système décrit le traitement cognitif menant à la reconnaissance de
l’identité du visage (Figure 3) (à noter que ce schéma omet le traitement de
l’expression et des mouvements associés à la parole, peu pertinent au problème
actuel). Ce système modulaire débute par l’encodage structural du visage, qui
comprend des descriptions sensibles au point de vue, ainsi que des descriptions plus
abstraites des attributs et de la configuration globale. Ces dernières descriptions,
indépendantes de l’expression, fournissent l’information nécessaire aux unités de
reconnaissance du visage. Chaque unité contient les codes structuraux déjà
emmagasinés décrivant un visage connu par l’observateur. Quand un visage est
perçu, la force du signal que chaque unité de reconnaissance envoie au système
cognitif reflète la ressemblance entre l’encodage structural du visage perçu et les
codes structuraux emmagasinés par l’unité de reconnaissance. Les unités de
reconnaissance des visages accèdent aux noyaux d’identité de l’individu, qui
correspond aux codes sémantiques spécifiques à l’identité dans la mémoire
associative. Il existe un noyau d’identité pour chaque individu connu; à ce stade, la
29
reconnaissance du visage devient reconnaissance de l’individu avec tous ses attributs.
Finalement, la reconnaissance de l’individu active le nom de l’individu. Tout le
traitement est sous l’influence du système cognitif, qui doit juger si l’appariement
entre le visage perçu et l’identité activée constitue une vraie reconnaissance ou une
simple ressemblance.
Figure 3. Modèle fonctionnel de la reconnaissance de l’identité d’un visage (tiré de Bruce & Young, 1986).
Haxby, Hoffman et Gobbini (2000) proposent un second modèle du traitement
cognitif, basé sur des études de neuro-imagerie fonctionnelle plus récentes. D’après
ce système neural distribué, l’analyse visuelle d’un visage débute par la perception
des attributs faciaux qui s’opère au sein des gyri occipitaux inférieurs. Ensuite, les
aspects changeants du visage (regard, mouvement des lèvres, expression) sont
analysés par le sulcus temporal supérieur, alors que les aspects invariants qui
supportent l’identité unique du visage sont analysés par le gyrus fusiforme latéral
ENCODAGE STRUCTURAL DU VISAGE Descriptions indépendantes de l’expression Descriptions sensibles au point de vue
UNITÉS DE RECONNAISSANCE DES VISAGES
NOYAUX D’IDENTITÉ DE L’INDIVIDU
GÉNÉRATION DU NOM
30
(FFA). Finalement, l’identité de l’individu, le nom et les informations
bibliographiques sont attribués au visage par un système neural du lobe temporal
antérieur.
Quant à savoir comment les informations véhiculant l’identité sont traitées
dans le FFA, ce qui n’est pas rapporté dans ces modèles généraux, il semble que les
traits du visage soient encodés selon une référence à un prototype, tel que mentionné
dans l’élaboration du concept d’utilisation de l’information configurale décrit ci-haut.
De fait, une étude comportementale utilisant l’adaptation aux visages a mis en
évidence des effets consécutifs configuraux de haut niveau en perception de visages,
indiquant ainsi l’existence de mécanismes neuronaux de contraste faisant référence à
une tendance centrale retrouvée à l’intérieur de cette catégorie de stimuli (Leopold,
O’Toole, Vetter & Blanz, 2001). De plus, une seconde étude suggérant un modèle
computationnel démontre que la représentation de l’information comprise dans un
visage est influencée par l’expertise que l’observateur acquiert auprès des visages.
Cette étude a évalué la reconnaissance des visages de même race que l’observateur
versus des visages d’autres races; l’algorithme rendant le mieux compte des données
ainsi recueillies dépend de l’expérience acquise par le système avec les visages.
C’est que l’effet de race observé chez les humains n’est reproduit que par un modèle
où la structure de l’espace des visages représentés se modifie pour faciliter
l’encodage des distinctions entre les stimuli des visages les plus souvent observés.
(Furl, Phillips & O'Toole, 2002).
La revue de ces modèles de traitement cognitif opérés sur les visages fournit
des pistes sur ce qu’il advient de l’information traitée par le système visuel après la
31
perception d’un visage. Quant à l’étape qui mène au traitement cognitif, soit le
mécanisme dynamique de prise d’information alimentant ce traitement, il dépend du
processus qui gouverne la perception : l’attention. Comme on le verra dans les
sections suivantes, l’attention joue un rôle primordial dans la sélection de
l’information en entrée du système visuel. Le défi consiste à suivre son parcours sur
un visage, afin de déterminer quels éléments contenus dans ce dernier sont
sélectionnés de préférence pour faire l’objet d’un traitement ultérieur efficace. Il sera
donc fait état de la nature de l’attention et de sa capacité à moduler la capture
d’information au niveau de multiples dimensions. Certains chercheurs suggèrent
qu’un déploiement identique et pré-programmé de l’attention, qu’on appelle routine
attentionnelle, survient au cours d’une tâche spécialisée afin de maximiser le
traitement de l’information; convient-il de proposer l’existence d’une telle routine
attentionnelle pour les visages? Pour trancher, un regard plus approfondi sera jeté
aux modulations présentement connues en perception des visages. De fait, des
modulations sont déjà identifiées dans le traitement des fréquences spatiales au cours
du temps, ainsi que dans le plan de l’image au sein des fréquences spatiales. À partir
de ces deux modulations, il est possible de tirer une hypothèse quant au traitement se
manifestant dans le plan de l’image au fil du temps, qui appuierait l’existence d’une
routine attentionnelle spécifique aux visages.
2. Le rôle de l’attention en perception
On ne peut tout percevoir instantanément. La totalité de l’information
disponible dans une scène visuelle ne peut être encodée intégralement pour fins
32
d’analyses ultérieures. Le système visuel humain n’acquiert donc pas une
représentation interne complète du monde extérieur; seules quelques parties en sont
échantillonnées et analysées de façon plus poussée (e.g, O’Regan, 1992). On réfère
au mécanisme perceptuel par lequel ces fragments sont sélectionnés par le nom
d’attention visuelle. Cette attention se déploie sur la scène visuelle, sélectionne les
aspects importants de la scène et améliore le traitement ultérieur des régions
sélectionnées (e.g. Kastner & Ungerleider, 2000; Corbetta & Shulman, 2002). Ce qui
tombe à côté de ce faisceau n’est pas ou peu traité.
Un exemple illustrant ces limites perceptuelles consiste à trouver une
différence entre deux images similaires, placées l’une à côté de l’autre comme à la
Figure 4. Repérer de telles différences peut s’avérer difficile, d’où l’intérêt du jeu
Figure 4. Exemple d’un stimulus démontrant le phénomène de cécité au changement (tiré de Rensink, O’Regan & Clark, 1997).
«trouvez les N différences entre les images A et B», qu’on voit souvent dans les
journaux. Si l’observateur pouvait intérioriser une représentation complète des deux
33
images et ainsi les comparer, il n’aurait aucune difficulté à accomplir cette tâche.
Mais tout observateur se voit plutôt contraint de comparer un à un chacun des
éléments de l’image qu’il aura cibler selon le déploiement de son attention.
Expérimentalement, cette contrainte apportée par le système perceptuel et le
rôle que l’attention y joue ont été mis en évidence par une série d’expériences traitant
de cécité au changement (Simons & Levin, 1997; Rensink, O’Regan & Clark, 1997;
O’Regan, Rensink & Clark, 1999). Durant une expérience de cécité au changement,
deux images similaires mais affichant un changement, comme à la Figure 4, sont
présentées successivement à un observateur avec un léger intervalle (50 à 250 ms)
durant lequel un écran blanc s’affiche. Or, en condition normale d’observation, cet
observateur demeurera pratiquement aveugle au changement, et ce, pour des
modifications aussi importantes que le remplacement d’un personnage dans une scène
ou la disparition complète d’un mur de fond. Pourtant, après avoir reçu des
indications quant à où diriger son attention, ce même observateur deviendra
parfaitement capable de relever ces changements. Cet effet s’explique ainsi :
l’intervalle entre l’image originale et l’image modifiée empêche l’utilisation des
indices de mouvement pour amener l’attention vers le site du changement, et
l’attention ne demeure donc guidée que par l’intérêt relatif de chaque élément
présenté dans la scène. Ainsi, la différence entre les deux images de la Figure 4, soit
le changement de localisation de l’hélicoptère, apparaîtra de façon très évidente si ces
images sont présentées en succession rapide, mais s’avèrera fort difficile à distinguer
si la présentation des images est séparée par un intervalle de plus de 50 ms. Pour le
lecteur qui souhaite tenter l’expérience lui-même, cet exemple animé ainsi que
d’autres exemples sont disponibles aux sites internet :
34
2.1 La nature de l’attention
L’attention se déploie sur la scène visuelle, soit tel un faisceau (« beam »,
e.g., Posner, Snyder & Davidson, 1980), une lentille grossissante (« zoom lens »,
Eriksen & Yeh, 1985) ou un gradient (e.g., LaBerge & Brown, 1989; Mangun &
Hillyard, 1988). Le déplacement de l’attention peut s’effectuer par de rapides
mouvements saccadiques de l’œil (déplacement exogène) ou par des déplacements
endogènes qui impliquent seulement un déplacement du foyer de traitement de
l’information, sans mouvement oculaire (e.g. Eriksen & Hoffman, 1972; Posner et al.,
1980). D’un point de vue théorique, il a été stipulé que l’attention exerce un contrôle
volontaire sur les systèmes davantage automatisés du cerveau, afin de remplir trois
fonctions principales : l’orientation vers les événements sensoriels, la détection des
signaux lors du traitement conscient et le maintien de l’état d’alerte (Posner &
Peterson, 1990). De façon plus pratique, les effets de l’attention s’observent par un
temps de réaction plus court, une activité électrique crânienne accrue et un seuil de
détection moindre au site d’attention (ibid). Lu & Dosher (1998) proposent trois
mécanismes pour rendre compte de ces effets, soit 1) l’amplification du signal, où
l’attention amplifie la force du signal, 2) l’exclusion des distracteurs, où l’attention
resserre le filtre qui traite le stimulus de façon à exclure les distracteurs par mode
différentiel et 3) la réduction du bruit interne, où l’attention diminue le bruit interne
associé au traitement cognitif. L’effet de l’attention est très précoce sur le
35
fonctionnement cognitif. De nombreuses études ont mis en évidence un effet de
l’attention visuo-spatiale sur l’activité sensorielle enregistrée sur des composantes en
PEC aussi tôt que 70 à 90 ms après la présentation du stimulus (e.g. Eason, Harter &
White, 1969; Hillyard & Munte, 1984; Mangun, Hansen & Hillyard, 1987).
Finalement, l’attention est flexible, elle se module le long des dimensions définissant
le stimulus. Cette flexibilité s’étudie en laboratoire en utilisant des indices qui
prédisent où et quand un stimulus apparaîtra. Des modulations de l’attention sont
notées pour les indices d’ordre spatial, correspondant à l’emplacement de la cible
dans le plan de l’image (e.g Posner et al., 1980) et pour les indices d’ordre temporel,
correspondant au temps d’apparition de la cible à partir du début de la présentation du
stimulus (e.g. Coull & Nobre, 1998; Ghose & Maunsell, 2002). Typiquement,
l’utilisation d’indices entraîne une augmentation de l’exactitude des réponses et une
diminution du temps de réponse, conséquence du déplacement prévu de la fenêtre
attentionnelle vers la cible prédite, qui en facilite le traitement.
2.2 Les routines attentionnelles
Un paradoxe survient lors de la mise en application de l’attention, telle qu’on
vient de la définir. En effet, on a mentionné déjà qu’une représentation interne
complète du monde extérieur est impossible; si l’attention, dans son rôle de premier
intervenant, cible l’information pertinente dans la scène, par quel procédé la
pertinence de chaque élément dans cette scène est-elle préalablement évaluée? La
seule issue demeure que ce mécanisme d’attention soit guidé par des connaissances
autres que celles strictement contenues dans le stimulus. Dans cet ordre d’idée,
36
Ullman (1984) suggère que l’on perçoit les stimuli visuels par l’entremise de routines
visuelles, séquences d’opérations prédéfinies servant à maximiser le traitement de
l’information disponible. D’après ce dernier, la mise en œuvre de ces routines se fait
en deux étapes : d’abord, des représentations primaires de l’environnement visuel
sont créées, puis les routines correspondantes sont appliquées à ces représentations.
Ces routines visuelles se composent de séquences d’opérations de base, tel le
déplacement du point d’attention, l’indexation, le traçage de frontières, etc.
L’attention se déplace alors selon une structure spatiale définie par la routine,
incluant plusieurs emplacements spécifiques, afin d’abstraire des propriétés et des
relations non explicitement définies dans les représentations initiales. De cette façon,
le déploiement de l’attention ne requiert que l’information visuelle suffisante pour
déterminer quelle routine appliquer et ne relève donc pas de la voie ascendante
(perceptuelle), puisque indépendant de l’information du stimulus, ni uniquement de la
voie descendante (cognitive), puisque indépendant des connaissances spécifique à
l’objet. Chaque routine vise un but particulier, pour lequel elle a été spécifiquement
créée : certaines routines universelles permettent l’accès à des catégories générales,
alors que d’autres plus spécifiques servent à l’identification d’objets particuliers.
L’identification d’un visage pourrait relever d’une telle routine, d’autant plus que le
déploiement de l’attention en plusieurs points permet d’extraire les relations entre les
informations, ce qui offre un support au traitement configural.
Dans la même veine qu’Ullman (1984), Cavanagh, Labianca & Thornton
(2001) proposent l’utilisation de routines attentionnelles, mais à un niveau de
traitement plus élevé. Cette fois-ci, les routines suggérées modulent l’attention afin de
détecter et d’animer les mouvements typiques qui caractérisent des objets familiers
37
durant une action stéréotypée, comme le vol d’un papillon ou le rebond d’un objet
tombé sur le sol. Chaque mouvement familier est perçu plus efficacement grâce à un
regroupement spécifique de routines attentionnelles, appelé « sprite ». Une fois
créées, ces « sprites » facilitent la reconnaissance en réduisant le nombre de percepts
possibles, en prédisant l’information d’intérêt à venir et en facilitant ainsi la poursuite
du mouvement par l’attention. Ces routines attentionnelles se construisent suite à
l’exposition répétée au mouvement, ce qui renvoie à la notion d’expertise déjà
présente en reconnaissance des visages, où l’exploitation de l’information configurale
nécessite l’exposition répétée aux visages.
2.3 Une routine attentionnelle pour les visages
Les routines attentionnelles augmentent l’efficacité du système visuel par le
biais d’un contrôle cognitif descendant du déplacement de l’attention. Est-ce qu’une
telle routine intervient chez l’humain pour faciliter la reconnaissance d’un stimulus
fréquent et important à détecter comme un visage? Bien entendu, la perception d’un
visage implique nécessairement une modulation quelconque de l’attention, pour que
soient sélectionnées les régions particulières de l’information présentée qui seront
soumises à un traitement plus poussé; la question est de savoir si cette modulation est
aléatoire à chaque visualisation, ou bien constante et optimale à travers les
expositions. Tel que mentionné à la section 1, tout visage présente les mêmes
attributs, placés selon une configuration standard. Il apparaît plausible, dans ce cas,
que le système perceptuel humain ait mobilisé un ensemble d’opérations de base, tels
des déplacements préprogrammés d’attention aux positions optimales, pour
38
maximiser la prise d’information diagnostique à la tâche et optimiser la réponse
comportementale. De plus, il a été fait mention que les routines attentionnelles se
développent avec l’expertise et peuvent impliquer un traitement configural. Ces
arguments appuient donc la possibilité qu’une routine attentionnelle entre en jeu dans
la reconnaissance des visages. Il reste maintenant à déterminer la nature des
modulations que comporte une telle routine, soit les positions de l’image d’un visage
visitées par l’attention à travers le temps. Des indices quant aux informations
sélectionnées peuvent être tirées d’un bassin de connaissances déjà amassées sur les
modulations qui apparaissent, d’une part, dans le traitement des fréquences spatiales
au cours du temps, et d’autre part, dans le plan de l’image au sein des fréquences
spatiales. Ces indices sont révisés dans la section suivante.
3. Le traitement fréquentiel
La notion de routine, soit une « séquence » d’opérations, implique une
modulation de l’information traitée dans l’image à travers le temps. Instinctivement,
on place cette modulation dans le plan de l’image – ce domaine étant d’ailleurs
fréquemment utilisé dans les études en reconnaissance des visages. Mais l’indication
d’une importante modulation temporelle se retrouve dans un autre type de
coordonnées, soit dans le domaine spectral, où sont définies les fréquences spatiales
composant l’image.
En effet, en plus de la position de l’information en tant que coordonnées dans
le plan de l’image, le système perceptuel tire un autre type d’information des images
bidimensionnelles. Les recherches en psychophysique ont démontré que tout stimulus
39
visuel est encodé sous forme de fréquences spatiales, et ce, relativement tôt dans le
processus analytique. Dès la rétine, les variations de luminance perçues sont
encodées selon un gradient de haute à basse résolution qui parviennent par voie
neuronale jusqu’au cortex visuel primaire (voir Marr, 1982). S’effectue alors
l’équivalent d’une analyse par ondelettes sur le signal transmis, où, par sections
échantillonnées, l’information de l’image est transformée en somme d’ondelettes (p.
ex. des fonctions de Gabor bidimensionnelles)] qui varient selon l'amplitude, la
fréquence, l'angle et la position (voir de Valois & de Valois, 1990, pour une recension
de la littérature). Mais ce traitement varie de l’analyse typique, puisque le résultat
passe par un ensemble de filtres, chaque filtre transmettant seulement les ondes
comprises à l’intérieur d’une bande précise de fréquences spatiales (de Valois & de
Valois, 1990). Ces bandes, au nombre de quatre, cinq ou six, (Ginsburg, 1986;
Wilson & Bergen, 1979) diffèrent quant à leur résolution, de la plus grossière
(correspondant aux basses fréquences spatiales (BFS)) à la plus fine (les hautes
fréquences spatiales (HFS)), ce qui fait varier le type d'information transmise par
chacune d'elles. Par exemple, dans une image, les larges régions de même intensité
lumineuse seront encodées par les basses fréquences spatiales (BSF) sous forme de
taches floues, alors que les limites nettes et les détails précis de l’image seront
encodés par les hautes fréquences spatiales (HSF).
Les travaux actuels en reconnaissance d’objet situent la reconnaissance
visuelle à l’intérieur du cadre formé par l'information encodée à ces différentes
échelles spatiales (e.g, Bachmann, 1991; Parker, Lishman & Hughes, 1992, 1996;
Costen, Parker & Craw, 1994, 1996; Schyns & Oliva, 1994; Oliva & Schyns, 1997;
Hughes, Nosawa & Kitterle, 1996; Gosselin & Schyns, 2001; Schyns, Bonnar &
40
Gosselin, 2002). Ceci dit, comme les basses fréquences dans un visage
correspondent à la silhouette et la pigmentation du visage, alors que les hautes
fréquences correspondent aux contours précis du nez, de la bouche, aux cils, rides,
etc. (e.g. Schyns & Gosselin, 2003), les basses fréquences dessineraient le squelette
général du visage, raffiné par les fins détails contenus par les hautes fréquences. Ou
autre hypothèse similaire: les frontières de l'image communes à toutes les résolutions
formeraient un squelette grossier du visage, que viendraient ensuite étoffer les
structures fines définies à plus haute résolution (e.g., Canny, 1986; Mallet, 1991;
Marr, 1982; Watt, 1987). Harmon (1973) et Tieger et Ganz (1979) ont démontré que
l’information contenue en basses fréquences serait suffisante pour la tâche de
reconnaissance des visages, tandis que les hautes fréquences spatiales ne viendraient
qu’ajouter une information additionnelle marginale. Cette information a été appuyée
par des études plus récentes (Schyns et al., 2002; Morrison & Schyns, 2001; Jenkins,
Craven, Bruce, & Akamatsu, 1997; Bayer, Schwartz & Pelli, 1998), malgré qu’une
reconnaissance des visages soit possible à partir des HFS de 8 cycles par visage et
plus (Fiorentini, Maffei & Sandini, 1983). L’importance de l’information en basse
fréquence dans la reconnaissance de visages pourrait s’expliquer par le fait que les
BFS encodent les structures à grande échelle qui supportent les propriétés holistiques
du visage, alors que la reconnaissance par attributs se fait surtout par les HFS
(Sergent, 1986).
3.1 Traitement de l’information grossière vers l’information fine
Ces informations viennent d’études sur le traitement statique de l’image; mais
41
le traitement des fréquences spatiales se fait de façon dynamique. Le contrôle
attentionnel module le traitement relatif de chaque bande de fréquences spatiales dans
le temps. Un consensus général sur le sujet stipule que l'extraction d’information suit
un patron constant dans le temps, soit des bandes de basses fréquences vers celles de
hautes fréquences. Plusieurs recherches appuient cette affirmation, pour le traitement
des visages (Breitmeyer, 1984; Sergent, 1982, 1986; Morrison & Schyns, 2001),
comme pour celui d’autres stimuli, tels les scènes visuelles (e.g., Parker et al., 1992;
Schyns & Oliva, 1994). Ce consensus repose sur la constatation faite dans ces études
qu’une présentation rapide de visages filtrés engendre une meilleure reconnaissance
si ces visages sont constitués de basses fréquences spatiales, le traitement des hautes
fréquences entrant en jeu lors d’une plus longue exposition. Par contre, les travaux de
Oliva et Schyns (1997; Schyns & Oliva, 1999) s’opposent à ce point de vue, en
démontrant que le processus perceptuel du traitement des visages peut s’effectuer
selon un ordre flexible à travers les différentes bandes de fréquences spatiales, et
qu’on peut biaiser la bande traitée à l’aide d’un simple processus d’adaptation. Les
mêmes chercheurs ont aussi mis en évidence une modulation variable pour
différentes tâches, la bande la plus diagnostique variant pour les tâches de
reconnaissance de l’identité, du sexe ou de l’expression du visage. En démontrant
une modulation d’aussi haut niveau (c’est-à-dire affectée par la tâche) au sein du
domaine spectral, les résultats d’Oliva et Schyns remettent en question la possibilité
qu’un biais des BFS aux HFS ait ses origines dans les mécanismes perceptuels de bas
niveau. Alors, s’il a été montré dans un premier temps que le traitement fréquentiel
puisse être différemment biaisé dans le temps et guidé par l’information diagnostique,
et que, d’autre part, on retrouve un biais constant des basses aux hautes fréquences
42
pour la tâche de reconnaissance de visages, c’est que cet ordre correspond à l’ordre
spécifique imposé par l’attention pour cette tâche.
3.1.1 L’analyse du plan de l’image par bandes de fréquences spatiales
Tout comme pour l’ordre de traitement des bandes de fréquences spatiales à
travers le temps, il est possible d’étudier la modulation du traitement de l’information
à l’intérieur du plan de l’image au sein de chaque bande de fréquences spatiales.
Grâce à la méthode des bulles qui sera bientôt décrite, Gosselin & Schyns (2001a,
Schyns et al., 2002; Schyns et Gosselin, 2003) ont exploré cette interaction entre les
dimensions du plan de l'image et la dimension de l'échelle spatiale. Pour se faire, la
position de l'information utile à la reconnaissance d'un visage dans le plan de l'image
a été ciblée à l'intérieur de chaque bande de fréquences spatiales, lors d’une tâche
d’identification. Les résultats obtenus se présentent ainsi: à la bande de fréquences la
plus fine, les yeux et un coin de la bouche sont utilisés; à la bande suivante, ce sont
les yeux, le nez et la bouche; le menton s’ajoute à la bande suivante; et finalement,
aux bandes les plus grossières, un large pas du visage est utilisé, comprenant les
attributs déjà mentionnés (Figure 5) (Gosselin & Schyns, 2002; Schyns et al., 2002).
L'utilisation des différentes informations dans le plan de l’image est moins
différenciée lorsqu'on s'approche des basses fréquences, puisque l'ensemble du visage
est impliqué; c’est pourquoi aucune zone n’apparaît comme plus significative que les
autres à la cinquième bande de fréquences. À noter que l’intervention possible d’un
traitement analytique versus holistique diffère à différentes bandes, ce dernier étant
plus probable en BFS, tel que suggéré par Sergent (1986) (voir aussi Farah et al.,
43
1998; Gauthier & Tarr, 1997; Tanaka & Sengco, 1997). Autre point à souligner:
certaines informations transcendent l’échelle spectrale puisqu’elles apparaissent
diagnostiques à toutes les bandes - les yeux en particulier.
Figure 5. Position de l'information diagnostique pour la reconnaissance d'un visage dans le plan de l'image à l'intérieur de chaque bande de fréquences spatiales, lors d’une tâche d’identification.
(tiré de Gosselin & Schyns, 2002).
3.1.2 L’analyse du plan de l’image dans le temps
Les études revues jusqu’à présent au sujet du traitement de l’information
provenant d’un visage suggèrent la possibilité d’une modulation temporelle dans
l’analyse de l’information spectrale, qui pourrait se jumeler au balayage des
coordonnées du plan de l’image. Si on fait abstraction du domaine fréquentiel, la
combinaison de ces deux observations pointe vers une stratégie attentionnelle guidant
l’exploitation du plan de l'image dans le temps. Ainsi, on a vu que le traitement des
échelles spatiales se faisait du plus grossier au plus fin dans la perception d’un visage;
et que, dans les BFS, de larges régions du visage étaient utilisées, alors qu’une
concentration vers des attributs précis s’effectuait dans les HFS. Par suite, on peut
spéculer qu’au début du traitement visuel d’un visage, l'information utile sera plutôt
44
diffuse dans le plan de l'image (analyse des BFS), mais qu'elle se fixera auprès des
yeux et de la bouche (analyse des HFS) avec le temps, en passant par les attributs
utilisés dans les bandes intermédiaires. Cette modulation spatio-temporelle de
l’attention correspondrait au déploiement d’une routine attentionnelle. C'est
l’existence d’une telle routine que cherche à mettre à jour la présente étude.
4. La méthode des bulles
La réalisation de cette expérience s'effectuera grâce à la méthode des bulles,
méthode conçue pour explorer l'utilisation de l'information efficace à l’intérieur des
dimensions psychophysiques lors d'une tâche de catégorisation (Gosselin & Schyns,
2001a; Gosselin & Schyns, 2002; Schyns & Gosselin, 2003). Cette méthode
s’illustre par le fait qu’elle révèle quelles informations efficaces sont utilisées par
l’observateur – dans ce cas-ci, au cours d’une routine attentionnelle – et non pas la
représentation, parfois biaisée, que se fait l’observateur de cette information. Cette
distinction devient importante dans le cadre d’une récente recrudescence de nouvelles
méthodes psychophysiques permettant de cibler les informations utilisées dans
différents contextes (p. ex. voir le numéro spécial de Cognitive Science, Rendering
the information used in visual processing, Gosselin & Schyns, (Eds.), sous presse, a).
Par exemple, on peut situer la méthode des bulles par rapport à une autre méthode un
peu plus connue, la corrélation renversée. Les deux méthodes sont similaires en ce
qu’elles utilisent les réponses d’un observateur à une tâche de catégorisation pour
tenter de définir comment l’information disponible est utilisée. Dans le cas de la
méthode des bulles, on explore le signal pur, alors qu’avec la corrélation renversée,
45
on ajoute du bruit au signal. Autre différence, la corrélation renversée classe les
essais effectués selon la décision de l’observateur lors de la catégorisation, alors que
la méthode des bulles classe ces essais selon les catégorisations correctes et
incorrectes indépendamment de l’observateur. Le résultat de ces deux méthodes
affiche cependant un lien important. Lors d’une tâche de catégorisation, le signal
perçu (A) par un observateur est comparé à une représentation en mémoire (R), de
sorte que l’information diagnostique (P), située à l’intersection de ces deux concepts,
mène à une catégorisation; bref, R * A = P (Gosselin & Schyns, 2002). La
corrélation renversée permet de dériver une image de classification, soit la
représentation utilisée par un observateur lors d’une telle tâche. La méthode des
bulles, elle, révèle quelle est l’information efficace utilisée par l’observateur parmi
l’information disponible au sein du stimulus (Gosselin & Schyns, 2002). Ainsi, la
corrélation renversée révèle la représentation en mémoire (R) alors que la méthode
des bulles révèle l’information diagnostique utilisée (P) (Gosselin & Schyns, 2002;
Murray & Gold (sous presse); Gosselin & Schyns (sous presse, b)).
Jusqu’à maintenant, la méthode des bulles a été appliquée à trois dimensions,
soit les coordonnées spatiales (x et y) de l’information dans le plan de l’image ainsi
que les bandes de fréquences spatiales du domaine spectral. Dans le contexte présent,
on propose une innovation méthodologique en ajoutant pour la première fois la
dimension du temps aux dimensions explorées. Cette innovation est d’autant plus
utile que la reconnaissance d’objet est intrinsèquement dynamique, dû au mouvement
des objets, aux saccades oculaires et à la modulation de l’attention dans le temps
(Cavanagh et al., 2001; Kristjansson, Mackeben & Nakayama, 2001). On explorera
donc simultanément l’utilisation de l’information sur trois dimensions, soit les deux
46
dimensions du plan de l’image et la dimension du temps.
L’exploration des différentes dimensions repose sur le principe central de la
méthode des bulles, soit l’échantillonnage de l’information présentée par le stimulus.
A chaque essai, un masque est placé par-dessus le signal original dans les dimensions
échantillonnées et seules quelques bribes d’information sont présentées à travers les
ouvertures du masque. Ces ouvertures, dont la forme gaussienne leur valent le nom
de « bulles », sont placées aléatoirement le long de la dimension échantillonnée. Un
observateur effectue une tâche de catégorisation à partir de l’information présentée.
Si cette information est suffisante pour effectuer la tâche, la probabilité d’une bonne
réponse augmente. En répétant l’exercice un grand nombre de fois, on obtient une
exploration complète de l’information disponible. On effectue ensuite une régression
multiple sur les réponses du participant et la position des bulles, ce qui donne un
coefficient de diagnosticité pour chaque coordonnée de la dimension à l’étude, c’est-
à-dire un indice d’utilisation de l’information à cette position par le participant lors de
la tâche en cours.
4.1 La méthode des bulles appliquée au domaine temporel
Dans la présente étude, on explore le plan de l’image dans le temps à l’aide
d’un masque percé de bulles tridimensionnelles. Ce masque est constitué d’une
séquence de plages présentées successivement (tel un film de 282 ms) devant le
visage échantillonné (voir un exemple de stimulus aux Figures 1 et 3 de l’article ou
un exemple dynamique à www.mapageweb.umontreal.ca/gosselif/space-time.html).
Les bulles qui sont placées aléatoirement sur le masque s’étendent de façon
47
gaussienne dans le plan de l’image (selon un écart-type de 0.22 degrés d’angle visuel)
et dans le domaine temporel (selon un écart-type de 39 ms, ou 1.65 plages); cette
disposition produit l’effet de bulles apparaissant et disparaissant dans le temps.
À noter que si le masque prend une forme dynamique, le visage présenté derrière, lui,
demeure statique.
Les stimuli ainsi générés sont présentés au participant, qui a pour tâche de les
identifier correctement. A chaque essai, l’échantillonnage effectué présente un sous-
ensemble d’information du visage dans l’espace-temps. Si la modulation
attentionnelle du participant correspond en partie à l’information du visage révélée
par le masque, cette information sera traitée et mènera potentiellement à une bonne
réponse pour la tâche en cours. En faisant la régression multiple des réponses
correctes et incorrectes données par le participant avec l’information présentée, on
obtiendra la modulation attentionnelle à travers les trois dimensions explorées.
4.2 La stabilité des résultats attendus
Peu de protocoles récoltent, durant une étude comportementale, autant de
données pour chaque point mesuré que le nombre qui sera accumulé ici avec la
méthode des bulles. Afin d’estimer la modulation attentionnelle de façon précise,
6.32 milliards de données1 seront recueillies, soit 14 353 valeurs2 pour chaque point
spatio-temporel de la routine attentionnelle attendue. Se faisant, on évite un manque
1 10 sujets * 5100 essais par sujet * 142 bulles par essai * 872 pixels par bulle = 6.32*10^9 pixels affichés 2 6.32*10^9 données / (36 665 points par plage *12 plages par routine) = 14 353 données par point de la routine
48
de précision dans les résultats due à une cueillette de données insuffisante, quoique la
nature de la méthode protège d’elle-même les résultats des variations occasionnelles.
En effet, pour que des régions significatives soient désignées par la méthode des
bulles, il doit y avoir une constance dans l’utilisation des régions du stimulus qui
mènent à des bonnes réponses; sinon l’ensemble des coordonnées explorées prend
une valeur identique, celle du taux moyen de bonnes réponses entraîné par un patron
de réponses aléatoire. La variation des valeurs obtenues dans les présents résultats
représentera donc des modulations constantes de haute diagnosticité.
5. Problématique
Comme le montrent les faits présentés jusqu’à présent, le traitement des
visages est spécial, dû à une similarité entre les stimuli de cette catégorie qui exige un
recours au mode de traitement configural, développé par l’expertise, afin de permettre
une différenciation des membres individuels reposant sur les variations d’une
configuration de base. Les informations obtenues grâce aux patients
prosopagnosiques et par les techniques d’enregistrement unicellulaire, de fMRI et de
PEC soulignent une spécificité du traitement évidente par des marqueurs
neurologiques, soit un foyer d’activation dans le gyrus fusiforme droit (le FFA) et, en
PEC, une onde négative dans la région occipito-temporale droite (la N170). Des
modèles cognitifs et des mécanismes computationnels ont été proposés pour rendre
compte du traitement souligné. A quoi ce traitement correspond-t-il? Le débat
persiste quant à une spécificité d’un processus propre aux visages ou à un processus
plus général en lien avec l’expertise; cependant, il ne fait pas de doute que l’expertise
49
joue un rôle dans la perception des visages chez tout observateur humain. Donc il
pourrait ainsi y avoir, chez tout observateur, développement d’une stratégie
d’expert mobilisant l’attention de façon optimale à la prise d’information pour cette
tâche: cette stratégie demeure encore inconnue.
La présente recherche tente de mettre en évidence la stratégie utilisée par le
système visuel lors de la reconnaissance d’un visage. On émet l’hypothèse que cette
tâche fait appel à une routine attentionnelle guidant le déploiement de l’attention dans
le plan de l’image au fil du temps. Pour vérifier cette dernière affirmation, la
modulation des informations traitées de façon diagnostique durant les 282 premières
millisecondes d’une tâche de reconnaissance de visages sera révélée grâce à la
méthode des bulles. Pour la première fois, ces bulles seront utilisées dans
l’exploration du domaine temporel. Comme l’échantillonnage qui prend place
s’effectuera sur des visages statiques, une éventuelle modulation dynamique du
traitement de l’information ne pourra être que d’origine attentionnelle – reliée à la
séquence de traitement de l’information – puisque la possibilité d’utiliser les
informations présentées dans le visage demeurera la même. Suite aux modulations
déjà révélées par les études en attention et en analyse spectrale des visages, on peut
s’attendre à identifier une modulation de l’information diagnostique dans un visage
de façon constante à travers les essais et les participants. Une modulation dynamique
de l’attention durant les premiers instants d’une tâche de reconnaissance sur les
images bidimensionnelles de visages est donc attendue.
50
6. Contributions à l’article
L’article qui suit met en œuvre la technique des bulles élabor