Cours 2012: Le cerveau statisticien: La réltiévolution ... · Chaire de Psychologie Cognitive...

35
Cours 2012: Le cerveau statisticien: L é l ti B éi i iti Larévolution Bayésienne en sciences cognitives Stanislas Dehaene Stanislas Dehaene Chaire de Psychologie Cognitive Expérimentale Cours n°7 Le cerveau vu comme un système prédictif

Transcript of Cours 2012: Le cerveau statisticien: La réltiévolution ... · Chaire de Psychologie Cognitive...

Cours 2012:

Le cerveau statisticien:L é l ti B é i i itiLa révolution Bayésienne en sciences cognitives

Stanislas DehaeneStanislas DehaeneChaire de Psychologie Cognitive Expérimentale

Cours n°7

Le cerveau vu comme un système prédictif

La notion de « codage prédictif » (predictive coding)Mumford, 1992; Rao & Ballard, 1999; Friston, 2005

L’hypothèse du « cerveau Bayésien » suggère que notre cerveau infère, à partir des entrées sensorielles, unpartir des entrées sensorielles, un modèle interne du monde extérieur.

A son tour, ce modèle interne peut être utilisé pour créer des anticipations surutilisé pour créer des anticipations sur les entrées sensorielles… 

et un effet de surprise liée à l’erreur de prédiction quand celles‐ci sont violéesprédiction quand celles‐ci sont violées.

La notion de « codage prédictif » (predictive coding)

L’idée que le cerveau n’est pas un dispositif passifd’entrée‐sortie, mais un système actif capable degénérer des prédictions et d’en vérifier la validité,g p ,a une longue histoire dans les domaines de l’éthologie, de la psychologie, et des neurosciences.

voir par exemple les concepts de copie o pa e e p e es co cepts de cop eefférente (von Helmholtz, von Holst), de critiqueinterne (Sutton & Barto) ou de prédiction de la récompense (Schultz)p ( )

Les avantages en sont nombreux:

‐ gagner du temps: anticiper, c’est avoir l’information à l’avance, parfois avant même qu’elle atteigne nos récepteurs sensorielsqu elle atteigne nos récepteurs sensoriels

‐ filtrer les entrées: utiliser le passé pour prédire le présent, c’est bénéficier d’un filtre optimal qui peut aider à interpréter une entrée bruitée, voire remplacer totalement un stimulus masqué manqué ou absentstimulus masqué, manqué ou absent.

‐ simplifier l’architecture et le traitement des données: il n’est pas la peine de représenter ou de transmettre ce que l’on peut prédire.

i d i fé i l i i l i bl (h| ) d’ dèl d‐ tirer des inférences optimales: maximiser la vraisemblance p(h|e) d’un modèle des entrées sensorielles implique de minimiser l’erreur de prédiction sur ces entrées e. (Mumford, 1992; Rao & Ballard, 1999; Friston, 2005).

Le cerveau, l’algorithme E‐M et le principe de l’énergie libreFriston K (2010) The free-energy principle: a unified brain theory? Nat Rev Neurosci 11(2) 127 138

Pour Karl Friston, l’hypothèse du codage prédictif s’inscrit dans un cadre théorique beaucoup plus large, le principe de minimisation de l’énergie libre:

Friston, K. (2010). The free-energy principle: a unified brain theory? Nat Rev Neurosci, 11(2), 127-138.

‐ « tout système auto‐organisé en équilibre avec son environnement doit minimiser son énergie libre »‐ Le principe de l’énergie libre est une « formulation mathématique de la manière dont les agents biologiques résistent à la tendance naturelle au désordre » : ils « maintiennent leur état dans un environnement changeant ».‐ Les états de l’organisme doivent donc être de basse entropie : « les agents biologiques d i t i i i l à l t d l idoivent minimiser la moyenne à long terme de la surprise ».‐ L’énergie libre est une équation mathématique qui donne une borne supérieure sur la surprise: « si les agents minimisent l’énergie libre, ils minimisent implicitement la surprise ». Dans le domaine de la perception le principe conduit à optimiser les inférences‐ Dans le domaine de la perception, le principe conduit à optimiser les inférences 

perceptives. « L’agent infère ou représente, de façon implicite, les causes de ses entrées sensorielles selon les principes de l’inférence Bayésienne optimale »L’énergie libre peut être maximisée par l'algorithme EM (Expectation‐Maximisation) proposéLénergie libre peut être maximisée par l algorithme EM (Expectation‐Maximisation), proposé par Dempster et al. (1977):  une procédure itérative qui, en alternant deux étapes (E et M) de façon répétée, permet de trouver le maximum de vraisemblance ou le maximum a posteriori des paramètres d’un modèle probabiliste.des paramètres d un modèle probabiliste.Friston propose  que le cerveau utilise un algorithme EM, ce qui, si le modèle générateur est Gaussien, revient à propager des erreurs de prédiction.

Vers une théorie générale de l’organisation du cortex?Friston, K. (2005). A theory of cortical responses. Philos Trans R Soc Lond B Biol Sci, 360(1456), 815-836.( ) y p ( )

Nos sensations sont générées par un réseau complexe et hiérarchique de causes.Notre cortex cherche à inverser ce modèle (au sens de Bayes): inférer les causes cachées de nos sensations à tous les niveaux.nos sensations à tous les niveaux.La formalisation de ce problème invite à (1) assigner à chaque niveau d’inférence causale une aire spécifique (2) utiliser un algorithme bidirectionnel de passation de messages.

L d h•Les neurones des couches inférieures implémentent la représentation des causes.•Les connections•Les connections descendantes implémentent le modèle prédictif (forwardmodel): la prédiction dumodel): la prédiction du niveau n, sur la base des connaissances au niveau n+1.•Les connections ascendantes,Les connections ascendantes, issues des couches supérieures du cortex, transmettent l’erreur de prédiction: la différence entre l’entrée reçue et sa prédiction.

Quelques phénomènes empiriques qui peuvent être capturés par le modèle du « codage prédictif »

‐ La «Mismatch negativity »: après plusieurs répétitions, la présentation d’un son déviant, inattendu, évoque une réponse cérébrale à la nouveauté.

Garrido, M. I., Kilner, J. M., Kiebel, S. J., & Friston, K. J. (2009). Dynamic causal modeling of the response to frequency deviants. J Neurophysiol, 101(5), 2620‐2631.

Quelques phénomènes empiriques qui peuvent être capturés par le modèle du « codage prédictif »

‐ La «Mismatch negativity »: après plusieurs répétitions, la présentation d’un son déviant, inattendu, évoque une réponse cérébrale à la nouveauté.

D b t é é éb l t é é d ti li‐ De nombreuses autres réponses cérébrales sont évoquées par des stimulisinattendus ou qui violent une règle (MMN auditives à différents niveaux, visuelles, somatosensorielles, ELAN, N400, P3a et P3b). 

R titi i l’ ti ti é éb l di i l ’ i t‐ « Repetition suppression »: l’activation cérébrale diminue lorsqu’une image est répétée (Miller & Desimone, 1991; Grill‐Spector et al, 2001; Naccache & Dehaene, 2001)

Débat: S’agit‐il d’une simple habituation, ou d’une authentique erreur de prédiction?

De nombreuses données récentes militent en faveur de l’hypothèse du codage prédictif:

1. Une réponse auditive est évoquée par l’absence d’un son attendu.

2. La MMN peut être évoquée par la répétition d’un stimulus dans un paradigme2. La MMN peut être évoquée par la répétition d un stimulus dans un paradigme ABABA… où c’est l’alternance qui est attendue.

Horvath, J., & Winkler, I. (2004). How the human auditory system treats repetition amongst change. Neurosci Lett, 368(2), 157‐161.

3. De même, Chris Summerfield montre que la repetition suppression est modulée par les attentes du sujet. Elle est fortement réduite lorsque les stimuli alternent et que c’est la répétition qui constitue un événement surprenant. 

Summerfield, C., Trittschuh, E. H., Monti, J. M., Mesulam, M. M., & Egner, T. (2008). Neural repetition suppression reflects fulfilled perceptual expectations. Nat Neurosci, 11(9), 1004‐1006.

Sensibilité à l’anticipation de la répétition dans le cortex auditif Todorovic A van Ede F Maris E & de Lange F P (2011) Prior expectation mediates neural adaptation toTodorovic, A., van Ede, F., Maris, E., & de Lange, F. P. (2011). Prior expectation mediates neural adaptation to repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123.

Présentation d’un ou deux sons successifs (1000 Hz, 5 ms), séparés de 500 ms

Deux types de blocs distincts: 75% deDeux types de blocs distincts: 75% de paires, 25% de sons uniques; ou l’inverse

Enregistrement MEG chez l’hommeEnregistrement MEG chez l homme attentif (détection de rares déviants à 1200 Hz)

Sensibilité à l’anticipation de la répétition dans le cortex auditif Todorovic A van Ede F Maris E & de Lange F P (2011) Prior expectation mediates neural adaptation toTodorovic, A., van Ede, F., Maris, E., & de Lange, F. P. (2011). Prior expectation mediates neural adaptation to repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123.

Dans l’espace temps‐fréquence, les réponses à un second stimulus sont fortement réduites l l ti l t ti i élorsque le stimulus est anticipé.

Sensibilité à l’anticipation de la répétition dans le cortex auditif Todorovic A van Ede F Maris E & de Lange F P (2011) Prior expectation mediates neural adaptation toTodorovic, A., van Ede, F., Maris, E., & de Lange, F. P. (2011). Prior expectation mediates neural adaptation to repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123.

Inversement, l’omission d’un stimulus attendu se traduit par une vigoureuse décharge prolongée, particulièrement dans la bande gamma (>40 Hz).

Serait‐ce la trace de la prédiction elle‐même? Ou de la surprise évoquée par l’omission?

Sensibilité à la probabilité de transition dans le cortex inféro‐temporal du singe macaquedans le cortex inféro temporal du singe macaque

Meyer, T., & Olson, C. R. (2011). Statistical learning of visual transitions in monkey inferotemporal cortex. Proc Natl Acad Sci U S A, 108(48), 19401-19406.

Les décharges des neurones du cortex inféro‐temporal sont‐cortex inféro temporal sontelles affectées par la prédictabilité des images?

•Fixation passive chez le singe éveillé•Présentation de paires d’images avec une forte probabilité de transition•Présence de rares paires dans laquelle cette transition probable est violée.

Sensibilité à la probabilité de transition dans le cortex inféro‐temporal du singe macaquedans le cortex inféro temporal du singe macaque

Décharge moyenne de la population de neurones:• La réponse à l’image prévisible est atténuée pratiquement dès le début• En proportion directe de la réponse à l’image non‐prédite.p p p g p• La décharge neuronale contient plus d’information décodable sur l’image lorsqu’elle est imprévisible que lorsqu’elle est prédite.

Sensibilité à la probabilité de transition dans le cortex inféro‐temporal du singe macaquedans le cortex inféro temporal du singe macaque

• La réponse à l’image 2 est toujours plus lente que pour l’image 1 (probablement parce qu’une image remplace l’autre)qu une image remplace l autre)• La réponse à l’image prédite est légèrement accélérée• L’effet de surprise survient exactement en même temps que la réponse à l’image non‐prédite – la génération de l’ « effet de surprise » semble instantanée!prédite  la génération de l  « effet de surprise » semble instantanée!• Cette observation n’est pas compatible avec un traitement sériel (identification de l’image, puis de sa nouveauté), mais semble nécessiter un codage prédictif.

Sensibilité à la probabilité de transition dans le cortex inféro‐temporal du singe macaquedans le cortex inféro temporal du singe macaque

• L’habituation (ou adaptation) neuronale peut‐elle expliquer l’effet?• Non, elle semble ne pas jouer un rôle important dans l’effet observé:  La réponse à la deuxième image ne dépend absolument pas de l’amplitude la réponse à la premièredeuxième image ne dépend absolument pas de l amplitude la réponse à la première image.

Sensibilité à la probabilité de transition dans le cortex inféro‐temporal du singe macaquedans le cortex inféro temporal du singe macaque

AB (ordre appris) BA (ordre inverse)

• L’effet est directionnel: l’image An prédit l’image Bn, mais pas l’inverse.

Conclusion: • la réponse du cortex inféro‐temporal traduit une anticipation du stimulus à venir•les décharges neuronales reflètent l’erreur de prédiction•les décharges neuronales reflètent l erreur de prédiction.

W C Ch J P &

Une implémentation neuronale du codage prédictif

Memory trace ( fi h i )

Neuron index

Wacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive coding accounting for the mismatch

(synfire chain)

Learning : modification time

gnegativity. J Neurosci, in press.

P(B)P(A)PredictivePopulation

of synaptic weights

P(B)P(A)PopulationLayer 2/3

Error signal

(A) (B)

PredictionErrrorlayer4

Error signalNMDA dependent Spike‐Timing Dependent Plasticity( ) ( )layer4

Thalamic 

Dependent Plasticity

BAInput

Une implémentationneuronale du codage

Wacongne C Changeux J

gprédictif

Wacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive

coding accounting for the g gmismatch negativity. J

Neurosci, in press.

Résultats de la simulationOddballOddball

StandardAnticipation de A : 

é l dPredictiverésultat de l’apprentissagePredictivePopulationLayer 2/3

Erreur de prédictionrésiduelle

PredictionErrrorlayer4layer4

Thalamic Input

Résultats de la simulationOddballOddball

DeviantAnticipation de A : 

é l dPredictiverésultat de l’apprentissagePredictivePopulationLayer 2/3

Erreur de prédictionrésiduelle

PredictionErrrorlayer4layer4

Thalamic Input

L’effet de Mismatch NegativityOddballOddball

Difference

PredictivePopulationLayer 2/3Layer 2/3

PredictionErrrorlayer4

L’effet de Mismatch NegativityOddballOddball

Effet 1 : existence

PredictivePopulationLayer 2/3Layer 2/3

PredictionErrrorlayer4

Effet 1 Existence of a difference between the responses to standard and deviant sounds

Origine corticale de la MMN, et rôle du récepteur NMDAOddballOddball

Effet 1 : existence

Experimental data (CSD)

PredictivePopulationLayer 2/3

Effet 2 : localisation

Layer 2/3

Javitt et al. (1996)

PredictionErrrorlayer4

Effet 2 Maximal difference in supragranular layer (Javitt 1996)

Effet de la fréquence des déviantsOddballOddball

Effet 1 : existence

PredictivePopulationLayer 2/3

Effet 2 : localisation

Layer 2/3

Experimental Data (ERP)

Effet 3 : frequency

10%20%30%

PredictionErrror

%

layer4Sato et al. (2000)

Effet 3Increase in MMN amplitude if the deviant is less frequent(Sato 2000) 

La probabilité de transition entre les stimuli est directementinternalisée dans les poids synaptiques

La réponse à une répétition inattendue: le paradigme ABAB…ABABAABABABAAB..

Effet 1 : existence

Effet 2 : localisation

Effet 3 : frequency

Effet 4: MMNEffet 4: MMNto repetition

Effet 5 MMN to repetition in an alternate sequence

La réponse à une omission inattendueAB AB AAB     AB A_

Effet 1 : existence

Effet 2 : localisation

Effet 3 : frequency

Effet 4: MMNEffet 4: MMNto repetition

Effet 5: MMNto omission

Effet 5 MMN to omission

Codage prédictif ou habituation? Un nouveau test en MEGWacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive coding accounting for

h i h i i J N i ithe mismatch negativity. J Neurosci, in press.

‐ Idée: exposer l’organisme à des paires AB, puis tester la surprise évoquée par AA, BA, BB.‐ Pour réfuter une éventuelle habituation de neurones sensibles à la paire AB, espacer ces paires de 10 à 20 secondes.

Prédictions:

Une hiérarchie de prédictions dans le cortexBekinschtein, T. A., Dehaene, S., Rohaut, B., Tadel, F., Cohen, L., & Naccache, L. (2009). Neural signature of the

20%règle xxxxx Erreur 

, , , , , , , , , , , ( ) gconscious processing of auditory regularities. Proc Natl Acad Sci U S A, 106(5), 1672-1677.

La présentation d’une note rare au sein d’une séquence répétée évoque une MMN80%

La présentation d une note rare, au sein d une séquence répétée, évoque une MMN.

80%règle xxxxY Erreur « locale »

20%

« locale »

Erreur « globale »

Que se passerait‐il si la séquence toute entière devenait prévisible?

La MMN persiste – elle reflète un système de prédiction local et aveugle.

M i d é à l té l P3b di ît ’ t à é t l ti lMais une seconde réponse à la nouveauté, la P3b, disparaît – c’est à présent le stimulus monotone qui évoque la P3b.

Il existe une hiérarchie de prédictions dans le cortex.

La P3b pourrait refléter le niveau de la prédiction consciente.

Une hiérarchie de prédictions dans le cortexBekinschtein, T. A., Dehaene, S., Rohaut, B., Tadel, F., Cohen, L., & Naccache, L. (2009). Neural signature of the , , , , , , , , , , , ( ) gconscious processing of auditory regularities. Proc Natl Acad Sci U S A, 106(5), 1672-1677.

80%règle xxxxY Erreur « locale »

20%

« locale »

Erreur « globale »

L’omission démontre l’existence d’une hiérarchie de prédictionsWacongne, C., Labyt, E., van Wassenhove, V., Bekinschtein, T., Naccache, L., & Dehaene, S. (2011). Evidence for a g , , y , , , , , , , , , ( )hierarchy of predictions and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759.

80%règle xxxxY Erreur « locale »

20%

locale

Erreur « globale »

Reconsidérons le cas de la règle xxxxY.

Au niveau supérieur, ce n’est pas une surprise qu’il y ait une surprise! La surprise, c’est qu’il n’y en ait pasqu il n y en ait pas.

Le modèle hiérarchique implique que l’erreur locale (de niveau 1) est elle‐même prédite et « effacée » par une prédiction de plus haut niveau (de niveau 2).

idé i l l d i i l i i lUne idée simple: en omettant le dernier stimulus, nous pouvons enregistrer ce pur signal de prédiction.

Stimulus

Prédiction

Différence

L’omission démontre l’existence d’une hiérarchie de prédictionsWacongne, C., Labyt, E., van Wassenhove, V., Bekinschtein, T., Naccache, L., & Dehaene, S. (2011). Evidence for a g , , y , , , , , , , , , ( )hierarchy of predictions and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759.

80%règle xxxxY Erreur « locale »

20%

locale

Erreur « globale »

Reconsidérons le cas de la règle xxxxY.

Au niveau supérieur, ce n’est pas une surprise qu’il y ait une surprise! La surprise, c’est qu’il n’y en ait pasqu il n y en ait pas.

Le modèle hiérarchique implique que l’erreur locale (de niveau 1) est elle‐même prédite et « effacée » par une prédiction de plus haut niveau (de niveau 2).

idé i l l d i i l i i l

Prédiction: l’effet d’omission est deux fois plus important pour la règle xxxxY que pour la règle xxxxx, 

Une idée simple: en omettant le dernier stimulus, nous pouvons enregistrer ce pur signal de prédiction.

Stimulus

Prédiction

Différence

Une hiérarchie de prédictions dans le cortex auditifdans le cortex auditif

Wacongne, C., Labyt, E., van Wassenhove, V., Bekinschtein, T., Naccache, L., & Dehaene, S. ( ) id f hi h f di i(2011). Evidence for a hierarchy of predictionsand prediction errors in human cortex. Proc NatlAcad Sci U S A, 108(51), 20754-20759.

L’effet d’omission en MEG

Différence entre les omissions:La réponse à l’omission du cinquième son est effectivement plus grande dans laest effectivement plus grande dans la règle xxxxY que dans la règle xxxxx.

Reconstruction des sources corticales des activations observéessource temporale supérieure source précentrale

Remarquer àRemarquer à nouveau l’ordre des réponses:‐d’abord l’effetd abord l effet d’omission‐ ensuite l’effet de nouveauté locale‐ enfin l’activation aux sons prédits

Conclusion du cours 2012

Le comportement humain suggère que lesLe comportement humain suggère que les adultes et les enfants possèdent une vaste capacité d’inférence statistique à de multiples niveaux (perception actionmultiples niveaux (perception, action, lexique, causalité…)

L’architecture du cortex pourrait s’expliquer par la réplication d’un circuit neuronalpar la réplication d un circuit neuronal Bayésien (avec des variantes locales).

L’hypothèse du cerveau Bayésien commence à rendre compte de quelques‐unes des  questions les plus pressantes en sciences cognitives:sciences cognitives:

‐ Le problème de l’induction des règles abstraites

‐ La détection des erreurs

L é i d i‐ La réaction de surprise

‐ Les compétences des enfants et l’apprentissage précoce