Post on 03-Apr-2015
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Introduction à la modélisation bayésienne
Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS
UE18S3 Psychophysique et analyse des signaux22/11/2011
http://diard.wordpress.com Julien.Diard@upmf-grenoble.fr
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Pour aller plus loin…• Reviews, introductions, …
– Numéro spécial Trends in Cognitive Sciences 2006, 10(7)– l’édito : N. Chater, J. B. Tenenbaum, and A. Yuille. Probabilistic models of cognition:
Conceptual foundations. Trends in Cognitive Sciences, 10(7):287–291, 2006.
– F. Colas, J. Diard, and P. Bessière. Common bayesian models for common cognitive issues. Acta Biotheoretica, 58(2-3):191–216, 2010.
• ambiguities, fusion, multimodality, conflicts, modularity, hierarchies and loops
– N. Chater, M. Oaksford, U. Hahn, and E. Heit. Bayesian models of cognition. WIREs Cognitive Science, 1(6), 2010.
• plus « cognitif » : categorization, learning and causality, language processing, inductive and deductive reasoning, argumentation
– R.A. Jacobs and J.K. Kruschke. Bayesian learning theory applied to human cognition. WIREs Cognitive Science, 2010.
– M. Jones and B. Love. Bayesian fundamentalism or enlightenment? on the explanatory status and theoretical contributions of bayesian models of cognition. Behavioral and Brain Sciences, 34:169–231, 2011.
• Article cible BBS, suivi de commentaires
2
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Pour aller plus loin…
• Modèles sensori-moteurs en robotique– O. Lebeltel, P. Bessière, J. Diard, and E. Mazer. Bayesian robot programming.
Autonomous Robots, 16(1):49–79, 2004.
• Modèles sensoriels et moteurs en sciences du vivant– D. Kersten, P. Mamassian, and A. Yuille. Object perception as bayesian
inference. annu Rev Psychol, 55:271–304, 2004.– D. M. Wolpert. Probabilistic models in human sensorimotor control. Human
Movement Science, 26:511–524, 2007.– & cf. cours 2
• Statistiques bayésiennes– J. K. Kruschke. Bayesian data analysis. WIREs Cognitive Science, 1:658–676,
2010.– J. K. Kruschke. What to believe: Bayesian methods for data analysis. Trends in
Cognitive Science, 14:293–300, 2010.
3
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
4
Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of
knowledge.• I’m a bayesian if I think that probabilities represent states of
knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors and I use priors on priors (hierarchical models).
• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.
• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.
Pierre Dangauthier
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Quelques définitions du mot « bayésien »
– En Intelligence Artificielle
– En robotique
– En sciences (physiques), en statistiques
– En sciences cognitives
5
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques), en statistiques• Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
6
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
7
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Intelligence Artificielle• Construire des systèmes qui
– pensent / agissent – comme des humains / rationnellement
• IA vs. Psychologie– IA ≅ psychologie où on construit le sujet– Psychologie ≅ IA où on tente de deviner
comment fonctionne un robot ou un programme construit par quelqu’un d’autre
8
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Intelligence Artificielle• Construire des systèmes qui
– pensent / agissent – comme des humains / rationnellement
• IA vs. Psychologie– Distinctions similaires en psychologie
• Cognition symbolique / cognition située• Implementation / algorithmique / computationel
(hiérarchie de David Marr)
9
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
10
IntelligenceArtificielle
• 50s-70s– IA Symbolique – Systèmes experts– Blocks World
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Prolog : programmation logique
• Exemple : système expert en généalogie
• Programme =– Base de faits– Base de règles
• Requêtes– Inférence logique : principe de Robinson
11
etre_mere(X) -> mere(X,Y);parent(X,Y) -> mere(X,Y);parent(X,Y) -> pere(X,Y);etre_fils(X) -> parent(Y,X); frere_ou_soeur(X,Y) -> pere(P,X) pere(P,Y);soeur_de(X,Y) -> frere_ou_soeur(X,Y) femme(X);grand_pere_de(X,Y) -> pere(X,Z) parent(Z,Y);cousin(X,Y) -> grand_pere_de(Z,X) grand_pere_de(Z,Y);tante(X,Y) -> parent(Z,Y) soeur_de(X,Z);ancetre(X,Y) -> parent(X,Y);
/* cas de base, ancetre direct */ancetre(X,Y) -> parent(Z,Y) ancetre(X,Z);
/* ancetre indirect: X est un ancetre du pere de Y */descendant(X,Y) -> ancetre(Y,X);
louis therese gedeon aglae |__________| |_________________| | | | isabelle pierre xavier claire |___________________| |________________| | | | | | gaelle axel catherine johan gwenael
mere(aglae, xavier) ->;pere(gedeon, xavier) ->;mere(aglae, pierre) ->;pere(gedeon, pierre) ->;mere(therese, isabelle) ->;pere(louis, isabelle) ->;...
ancetre(louis, johan);
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
12
Problème
• 1966– Marvin Minsky (MIT) donne un projet
d’été de maîtrise à Gerald Sussman. – Sujet : « la vision par ordinateur »
• Le monde réel n’est pas le « blocks world »– Modèle nécessairement incomplet– Ex : partie d’échecs (Deep Blue) vs.
partie de football
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
13
Intelligence Artificielle et monde réel
• 80s-00s : L’IA symbolique devient la GOFAI– Good old fashioned AI
• Méthodes numériques– Réseaux de neurones artificiels– Algorithmes génétiques– Logique floue– Modélisation Bayésienne (probabiliste)
• Transforme l’incomplétude du modèle en incertitude, manipulable mathématiquement
• Extension de la logique
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
14
Modèles de raisonnement humain
• Raisonnement déductif (logique)– modus ponens
• A implique B, A est vrai : B est vrai
– modus tollens• A implique B, B est faux : A est faux
• Raisonnement plausible– S’il pleut, alors Jean a son parapluie– Jean a son parapluie– Il pleut, vraisemblablement
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
15
Représentation et règles de calcul
• Desiderata– Représentation de degrés de plausibilité par
des nombres réels– Correspondance qualitative avec le sens
commun– Consistance
• Si une conclusion peut être atteinte par plusieurs chemins d’inférence, le résultat doit être indépendant du chemin
• Toutes les évidences sont utilisées pour une inférence• Des états de connaissances équivalents amènent à
des plausibilités équivalentes
Probabilités Règle du produit et règle de la somme
th. de Cox
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
16
• Soient A, B, C, des propositions logiques
• Règle du produit
• Règle de la somme (de normalisation)
Règles de calcul
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Règles de calcul• Règle du produit
Théorème de Bayes
• Règle de la somme
Règle de marginalisation
17
Reverend Thomas Bayes(~1702-1761)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Probability Theory As Extended Logic
• Probabilités « subjectives »– Référence à un état de
connaissance d’un sujet• P(« il pleut » | Jean),
P(« il pleut » | Pierre)• Pas de référence à la
limite d’occurrence d’un événement (fréquence)
• Probabilités conditionnelles
– P(A | π) et jamais P(A)
– Statistiques bayésiennes
• Probabilités « fréquentistes »– Une probabilité est une
propriété physique d’un objet
– Axiomatique de Kolmogorov, théorie des ensembles
– – Statistiques classiques
• Population parente, etc.
18
E.T. Jaynes (1922-1998)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Inférence probabiliste
• Théorème– Si on connaît la distribution conjointe
P(X1 X2 … Xn | π)
– Alors on peut calculer n’importe quelle « question »
P(X1 | [Xn = xn] π)
P(X2 X4 | [X3 = x3] π)
19
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
20
Preuve
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Exemple
• Raisonnement plausible– S’il pleut, alors Jean a son parapluie– Jean a son parapluie– Il pleut, vraisemblablement
• Peut-on capturer ce raisonnement en probabilités ?
21
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Exemple• A = {il pleut, il ne pleut pas}• B = {Jean a son parapluie, Jean n’a pas
son parapluie}• P(B A) = P(A) P(B | A)• P(A)
– P(A=il pleut) = 0,4– P(A=il ne pleut pas) = 1 - 0,4 = 0,6
• P(A | B)– Quizz : quel objet mathématique ?
22
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Exemple• P(B A) = P(A) P(B | A)• P(B | A)
23
P(B | A) A=il pleut A=il ne pleut pas
B=Jean n’a pas son parapluie
0,05 0,9
B=Jean a son parapluie
0,95 0,1
1 1
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Exemple• Probabilité qu’il pleuve ?
– P(A = il pleut) = 0,4
• Probabilité qu’il pleuve, sachant que Jean a son parapluie ?– P(A | B = Jean a son parapluie)
= P(B | A) P(A) / P(B)= P(B | A) P(A) / (ΣA P(B A))
– P(A = il pleut | B = Jean a son parapluie)= 0,95*0,4 / (0,95*0,4 + 0,1*0,6)= 0,86
24
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
25
Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of
knowledge.• I’m a bayesian if I think that probabilities represent states of
knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors and I use priors on priors (hierarchical models).
• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.
• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.
Blog de Pierre Dangauthier
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
26
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
27
Logical Paradigm in robotics
AvoidObstacle
Environment
O1begin......end
AvoidObs(01)
P
A
=?
O1
Incompleteness
(Bessière, 03)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
28
Bayesian Paradigm in robotics
Avoid Obstacle
ConnaissancesPréalables
R ( S , M)
M
SDonnées Expérimentales
Environment
=P(M | SDC)
P(MS | DC)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
29
Probability as LogicIncompleteness
Uncertainty
Preliminary Knowledge+
Experimental Data=
Probabilistic Representation
Maximum EntropyPrinciple
− Pi log Pi( )∑
Decision
Bayesian InferenceP(AB|C)=P(A|C)P(B|AC)=P(B|C)P(A|BC)
P(A|C)+P(¬A|C) = 1
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
30
Programme
Description
P(X1 … Xn | C)
Questions : P(Xi … Xj | Xk … Xl C)
Spécification
Identification
VariablesDécompositionFormes paramétriques
Programmation Bayésienne des Robots
(PBR)
(Lebeltel, 99)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Sensor Fusion
• Objective• Find the position of a light
source
• Difficulty – No sensor
to directly measure the position of a light source.
• Solution– Model of each sensor
– Fusion of the 8 models
31
Source lumineuse
ThetaL
DistL
Lmi
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
32
Model of a Light Sensor
– A priori specification
Utilization
Des
crip
tion
Des
crip
tion
Que
stio
nQ
uest
ion
Pro
gram
Pro
gram
SpecificationSpecification
IdentificationIdentification
– Variables
Preliminary Knowledge sensor
– Decomposition
€
P ThetaL∧DistL∧Lmi |δ i ∧π Sensor( )
= P ThetaL∧DistL | π Sensor( ) × P Lmi | ThetaL∧DistL∧δi ∧π Sensor( )
€
P ThetaL | Lmi = li[ ]∧δ i ∧π Sensor( ),P DistL | Lmi = li[ ]∧δi ∧π Sensor( )
– Parametrical Forms
€
P ThetaL∧DistL | π Sensor( ) ← Uniform
P Lmi | ThetaL∧DistL∧δ i ∧π Sensor( ) ← Gaussians
ThetaL, DistL, Lmi
0
100
200
300
400
500
0
-90
90
-180
180
ThetaL
0
10
20
30
DistL
Lmi
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
33
Model of a Light Sensor (2)Bayesian Inference: Inverse Problem
Description:
Question 1:
Question 2:
€
P ThetaL∧DistL∧Lmi |δ i ∧π Sensor( )
= P ThetaL∧DistL | π Sensor( ) × P Lmi | ThetaL∧DistL∧δi ∧π Sensor( )
€
P ThetaL | lmi∧δi ∧π Sensor( )
=1
Z× P lmi | ThetaL∧DistL∧δi ∧π Sensor( )
Distl
∑
€
P DistL | lmi∧δ i ∧π Sensor( )
=1
Z× P lmi | ThetaL∧DistL∧δi ∧π Sensor( )
ThetaL
∑
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
34
Model of a Light Sensor (3)P(ThetaL | Lmi )
(Lmi = 15)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 45)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 100)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 200)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 300)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 450)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 475)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
(Lmi = 500)
P(ThetaL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
-180-135 -90 -45 0 45 90 135 170
P(DistL | Lmi Cp_li)
0. 00
0. 12
0. 25
0. 37
0. 50
0 5 10 15 20 25
P(DistL | Lmi )
Notion of ambiguity
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
35
Sensor Fusion Model
– No free parameters
Utilization
Des
crip
tion
Des
crip
tion
Que
stio
nQ
uest
ion
Pro
gram
Pro
gram
SpecificationSpecification
IdentificationIdentification
– Variables
– Decomposition (Conditional Independance Hypothesis)
€
P ThetaL∧DistL∧Lm0∧...∧Lm7 | π Fusion( )
= P ThetaL∧DistL | π Fusion( ) × P Lmi | ThetaL∧DistL∧π Fusion( )i= 0
7
∏
€
P ThetaL | lm0∧...∧lm7∧π Fusion( ),P Lm3 | lm2∧lm4∧ThetaL∧π Fusion( )
– Parametrical Forms
€
P ThetaL∧DistL | π Fusion( ) ← Uniform
P Lmi | ThetaL∧DistL∧π Fusion( ) ← P Lmi | ThetaL∧DistL∧δ i ∧π Sensor( )
ThetaL, DistL, Lm0, …, Lm7
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
36
L m 2 = 3 9 1 ( c a p t e u r l u m - 1 0 ° )
P ( T h e t a L | L m 2 C p _ l 2 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 3 = 3 7 9 ( c a p t e u r l u m 1 0 ° )
P ( T h e t a L | L m 3 C p _ l 3 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 1 = 4 8 0 ( c a p t e u r l u m - 5 0 ° )
P ( T h e t a L | L m 1 C p _ l 1 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 4 = 4 3 0 ( c a p t e u r l u m 5 0 ° )
P ( T h e t a L | L m 4 C p _ l 4 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 0 = 5 0 9 ( c a p t e u r l u m - 9 0 ° )
P ( T h e t a L | L m 0 C p _ l 0 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 5 = 5 0 3 ( c a p t e u r l u m 9 0 ° )
P ( T h e t a L | L m 5 C p _ l 5 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 7 = 5 1 1 ( c a p t e u r l u m - 1 7 0 ° )
P ( T h e t a L | L m 7 C p _ l 7 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
L m 6 = 5 1 1 ( c a p t e u r l u m 1 7 0 ° )
P ( T h e t a L | L m 6 C p _ l 6 )
0 . 0 0
0 . 1 2
0 . 2 5
0 . 3 7
0 . 5 0
- 1 8 0 - 9 0 - 4 5 0 4 5 9 0 1 7 0
T e t h a = 1 0 , D i s t = 2 0
P ( T h e t a L | L m 0 . . L m 7 C p _ S o u r c e L )
0 . 0 0
0 . 2 5
0 . 5 0
0 . 7 5
1 . 0 0
- 1 8 0 - 9 0 - 5 0 - 1 01 0 5 0 9 0 1 7 0
€
P ThetaL Lm0...Lm7 Cp_SL( ) =1
ZP Lmi ThetaL DistL Cp_li( )
i= 0
7
∏DistL
∑ .
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Classes de modèles probabilistes
• Réseaux bayésiens• Réseaux bayésiens
dynamiques• Filtres bayésiens• Modèles de
Markov Cachés• Filtres de Kalman• Processus de
décision markovien (partiellement observable)
• …
37
(Diard, 2003)
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
38
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Notation probabiliste• Soient
– Θ = {θ1, θ2, …} paramètres des modèles
– Δ = {δ1, δ2, …, δn} données expérimentales
– δi = {x, y} une donnée• x var indépendante contrôlée• y var dépendante
• Un modèle– P(δi) = P(y | x) P(x)
– P(δi | θ1) = P(y | x θ1) P(x | θ1)
39
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Notation probabiliste• Soient
– Θ = {θ1, θ2, …} paramètres des modèles
– Δ = {δ1, δ2, …, δn} données expérimentales
– δi = {x, y} une donnée
• Méta-modèle
40
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Sélection de modèle
• Quel est le modèle le plus probable, au vu des données ?– Question ubiquitaire en sciences !– Trouver θ qui maximise
41
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
42
• Si P() = uniforme–
• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)
• Si P() uniforme– Modèle = prior vraisemblance
• Modèle de maximum a posteriori (MAP)• Méthode bayésienne
Posterior Prior Vraisemblance
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
43
data set
set of models set of parameters
Sélection de modèleMachine learningIdentification de paramètres
Active learningDesign optimizationDistinguabilité des modèles
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
44
Êtes-vous « Bayésien » ?• I’m a bayesian if I use the word “probability”.• I’m a bayesian if I use the word “conditional probability”.• I’m a bayesian if I use Bayes’ rule.• I’m a bayesian if I use Bayes’ rule in order to make inference.• I’m a bayesian if I think that probabilities represent states of
knowledge.• I’m a bayesian if I think that probabilities represent states of
knowledge and I also consider my parameters as random variables.• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors (no MaxLikelihood).• I’m a bayesian if I think that probabilities represent states of
knowledge and I use priors and I use priors on priors (hierarchical models).
• I’m a bayesian if I think that probabilities represent states of knowledge and I use subjective priors.
• I’m a bayesian if I think that probabilities represent states of knowledge and I use priors and I never use MAP.
Blog de Pierre Dangauthier
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »
– En sciences cognitives • Modélisation de la perception et de l’action
45
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
46
Tel monsieur Jourdain…• Un phénomène génère des y pour un x fixé
par l’expérimentateur• Un modèle
– prédit y = F(x), F linéaire : F = ax + b– autorise du « bruit » dans les mesures
• On observe D = {dx1, …, dxn}• Question
– Quels sont les paramètres a, b les plus probables ?€
p(di Θ) =1
2πσexp −
(di − F(Θ))2
2σ 2
⎛
⎝ ⎜
⎞
⎠ ⎟
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
47
Tel monsieur Jourdain…
€
P Θ | D( )∝ P Θ( ) P di | Θ( )i=1
n
∏
€
p(di Θ) =1
2πσexp −
(di − F(Θ))2
2σ 2
⎛
⎝ ⎜
⎞
⎠ ⎟
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
48
Tel monsieur Jourdain…
€
* = argmaxP Θ | D( )
= argmaxP Θ( )P D | Θ( )
= argmax P di | Θ( )i=1
n
∏
= argmax log P di | Θ( )( )i=1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= argmin(di − F(Θ))2
2σ i2
i=1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= argmin (di − F(Θ))2
i=1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
€
P Θ | D( )∝ P Θ( ) P di | Θ( )i=1
n
∏
€
p(di Θ) =1
2π σexp −
(di − F(Θ))2
2σ 2
⎛
⎝ ⎜
⎞
⎠ ⎟
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
49
Least square fitting sur Mathworldhttp://mathworld.wolfram.com
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
50
Pour aller plus loin…
• Inférence dans les cas non-linéaires
• Moindres carrés Bayésien
• Espace de modèles = {3x+2, 4x3-
2x2+4}
• Priors hiérarchiques– P( | )
• Rasoir d’Occam automatique…
€
P Θ( ) =1
2π σ Θ
exp −(Θ − μ Θ )2
2σ Θ2
⎛
⎝ ⎜
⎞
⎠ ⎟
€
* = arg max P Θ | D( )
= arg max P Θ( )P D | Θ( )
= arg max P Θ( ) P di | Θ( )i =1
n
∏
= arg max log P Θ( )( ) + log P di | Θ( )( )i =1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= arg min(Θ − μ Θ )2
2σ Θ2 +
(di − F(Θ))2
2σ i2
i =1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
= arg min(Θ − μ Θ )2
σ Θ2 +
(di − F(Θ))2
σ i2
i =1
n
∑ ⎡
⎣ ⎢
⎤
⎦ ⎥
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
• Modélisation bayésienne et mesures d’erreurs
51
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Plan
• Introduction à la modélisation bayésienne– En Intelligence Artificielle
• Historique
– En robotique• Exemple de Programme Bayésien
– En sciences (physiques) • Méthodologie de sélection de modèles• Exemples de « bayésien caché »• Bonus : importance des variables cachées
52
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Importance des variables cachées
53
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Modélisation d’une série temporelle
t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
54
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
-1 7,00 0,290 6,00 0,251 11,00 0,46
t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
P(y)
55
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Variable cachée V1 = {Bleu, Rouge}
V1=R V1=B
56
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
-1 2,00 0,140 4,00 0,291 8,00 0,57
P(y | [V1=R])
-1 5,00 0,500 2,00 0,201 3,00 0,30
P(y | [V1=B])
57
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
V2 = {Bleu, Rouge}t y delta_y dy seuillé
81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
[V1
=R
][V
1=
B]
P(y | [V1=R] [V2=R])
P(y | [V1=R] [V2=B])
P(y | [V1=B] [V2=R])
P(y | [V1=B] [V2=B])
58
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Digression : entropie
• Déf :
• Exemple :
[Shannon, 1948]
59
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
• Exemple 2 : P(X), X = {-1, 0, 1}
60
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Variables cachées, connaissance et entropie
• Théorème :Les variables cachées apportent de l’information
P(y | [V1=B] [V2=B])P(y)
61
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Prédiction de la prochaine valeur ?
P(y)
P(y | [V1=B] [V2=B])t y delta_y dy seuillé
81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0
62
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Pour 2005-2010, [V1=B] et [V2=B]
63
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Merci de votre attention !
Questions ?
Julien Diard — LPNC-CNRSCours M2R Psychologie Cognitive — UE18S3 — 2011
Timing
• Préambule 15 min– En Intelligence Artificielle 45 min
• Historique
– En robotique 30 min• Exemple de Programme Bayésien
• Pause 15 min– En sciences (physiques)
• Méthodologie de sélection de modèles 30 min• Exemples de « bayésien caché » 45 min• Bonus : importance des variables cachées, mesures
d’erreurs 15 min (ou intro cours 2)
65