Mesures gaussiennes pour l'inférence...

Exposé groupe APSSE / 22-juin-2018 1/46

Mesures gaussiennes pour l'inférence bayésienne sur quelques exemples...

Résumé (1/2)

Rôle central des processus aléatoires gaussiens (ou champs gaussiens) dans la

modélisation probabiliste de phénomènes aléatoires : prévision avec les modèles ARMA

gaussiens dans l'étude de séries chronologiques, prédiction avec les champs gaussiens

stationnaires en géostatistique ou imagerie, filtrage en traitement du signal…

Raison essentielle : le calcul de loi conditionnelle dans le cas gaussien (pour faire de la

prévision, prédiction ou filtrage) se ramène à un calcul d'ordre 2 (calcul de projection

orthogonale dans des espaces hilbertiens), donc à de l'algèbre linéaire (inversion de

systèmes linéaires).

De même, les processus ou champs gaussiens jouent un rôle privilégié dans l'analyse

statistique bayésienne où l'inférence à partir de la loi a posteriori (qui intègre à la fois les

incertitudes a priori et des observations) nécessite en général le plus souvent l'utilisation

de techniques lourdes (cf. méthodes Monte-Carlo par simulation de chaînes de Markov ou

Markov chain Monte-Carlo methods).


Résumé (2/2)

1. Inférence bayésienne : montrer sur quelques exemples en quoi les processus ou

champs gaussiens peuvent être utilisés dans un cadre bayésien en exploitant les

deux visions « fonctions aléatoires » et « mesures gaussiennes ». Exemple du

mouvement brownien vu comme la "fameuse" mesure de Wiener sur un espace de

fonctions continues.

2. Un problème classique d’inversion bayésienne : montrer comment l'inférence

bayésienne avec loi a priori gaussienne peut être réalisée sur le problème

classique de "défloutage" d'un signal (problème de déconvolution) qui est un

exemple type de problème mal posé. Lien avec la régularisation classique de

Tychonov (résultat analogue à celui du dernier exposé). Exploitation de ce

lien pour voir comment estimer de manière "naturelle" le paramètre de

régularisation si critique dans l'approche "déterministe" classique...

[1.1 FORMULE DE BAYES ET ANALYSE BAYESIENNE]


(, , P) espace probabilisé (cadre axiomatique classique, Foundations of the

Theory of Probability, A. Kolmogorov, 1933)

Probabilité conditionnelle : soit B tel que P(B) > 0.

B « réalisé » la mesure P doit être mise à jour et remplacée par la

nouvelle mesure de probabilité PB définie par

A → PB(A) := P(AB)

P(B) = : P(A | B)

Petit exemple : jeu de pile ou face deux fois

Formule de Bayes : P(B | A) = P(A | B)×P(B)

P(A) (pour P(A) > 0)

Résulte de l’importante formule (de commutativité!) :

P(A | B)×P(B) = P(AB) = P(BA) = P(B | A)×P(A)



Aspect “révolutionnaire” de la formule :

P(H | O) = P(O | H) × P(H)

P(O)

Thomas BAYES, 1702-1761, pasteur et mathématicien

Membre de la Royal Society en 1742

Formule de Bayes : Essai sur la manière de résoudre un

problème dans la doctrine des risques (Essay Towards

Solving a Problem in the Doctrine of Chances - 1763)

Formule déjà connue et redécouverte par Pierre-Simon de

LAPLACE, 1749-1827 : loi de Bayes-Laplace

H = hypothèse (ou cause) O = observation

Vraisemblance

Probabilité a priori

« constante » de

normalisation

Probabilité a posteriori



Illustration : cas d’un test de dépistage d’une maladie

Test de dépistage T+ = " test positif " ou (exclusif) T = T+ = " test négatif "

Une personne nommée Julian fait le test et le résultat est « positif » : ici O =

T+ et H = M où M = " Julian est atteint de la maladie "

Table d’analyse bayésienne

Loi

a priori

Vraisemblance Loi a posteriori

non normalisée

Loi a posteriori

M p P(T+

| M) P(T+

| 𝐌)×P(M) P(T+

| M)×P(M)

P(T+)

M

1 – p P(T+

| M

) P(T+

|M

)×P(M

) P(T+

| M

)×P(M

)

P(T+)

Petite application numérique : P(T+ | M) = 90% = P(T | M

) et p = 1%

P(M | T+) = 1/12 (donc moins de 1 chance sur 10 !)

[1.2 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE PARAMETRIQUE]


Considérons une grandeur physique « déterministe » inconnue

(par exemple masse d’un objet)

Observations (mesures) : xi = i ; 1 i n avec les i i.i.d. N(0, 2), connu

Inférence classique : estimation ponctuelle par maximum de vraisemblance et

intervalle de confiance à 95% donné par

IC95% = [x 1.96 ×

n ; x + 1.96 ×

n ]

P( IC95%) = 95%

Interprétation « fréquentiste » : P( [X

1.96×

n ; X

+ 1.96×

n ]) = 95%

où X

= estimateur usuel de la moyenne (et non pas l’estimation x calculée sur

la série de mesures).



Inférence bayésienne : on dispose d’informations a priori sur que l’on

traduit sous la forme d’une loi de probabilité, par exemple une loi gaussienne :

P( [a, b] ) =

a

b

(m)dm avec (m) densité de la loi N(m0, 02)

(m0 et 0 explicites)

Loi a priori = loi normale N(m0, 02)

Vraisemblance :

L(m) = fX | = m(x) densité jointe des Xi = + i si = m

Densité de la loi a posteriori (« petite » extension de la formule de Bayes) :

f | X = x(m) fX | = m(x) × (m)

Densité a posteriori

(m | x) Vraisemblance (x | m) Densité a priori ou prior



Résultat :

Loi a posteriori = loi normale N(

2/n +

x +

/n

2/n +

m0 , (

/n) ×

2/n +

)

Deux moyens d’établir ce résultat (correspondant à deux visions différentes)

Méthode n°1 (par la formule de Bayes précédente)

f | X = x(m) exp(

q(m) )

avec q(m) forme quadratique qu’il suffit de réduire…

Méthode n°2 (par conditionnement de variables aléatoires dans le cas

gaussien)

= 0 + 1X1 + … + nXn + Z avec Z 1, X1, …, Xn



Commentaires.

+ Loi a posteriori = N(x ,

n ) associée à un prior uniforme

On peut enfin écrire (en toute liberté d’esprit !)

P( IC95%) = 95% où IC95% = [x 1.96 ×

n ; x + 1.96 ×

n ]

n grand Loi a posteriori ≈ N(x ,

n )

le choix plus ou moins arbitraire (personnel/subjectif) du prior s’efface

devant le volume de données !

n + Loi a posteriori →n

le point essentiel ici est que (« le vrai ») est dans le support de la loi a

priori



Illustrations. = 1 ; données : n = 10 et = 1

Prior : m0 = 3 et 0 = 0.5 Prior : m0 = 3 et 0 = 1



Prior : m0 = 1.2 et 0 = 0.2



Prior : m0 = 3, 0 = 0.5 mais n = 40



Remarque (statistique paramétrique)

( ( ×

Weighted Likelihood !

[1.3 EXEMPLE D’ANALYSE BAYESIENNE EN STATISTIQUE NON PARAMETRIQUE]


Soit f : [0,1] → IR fonction définie sur [0, 1] « déterministe » inconnue

Observations (données) : f(xi) = yi pour 1 i n avec 0 < x1 < x2 < … < xn 1

Information a priori : f continue et nulle en x = 0

Inférence bayésienne : loi a priori = mesure de probabilité sur l’espace

de fonctions C0[0, 1] (de dimension infinie!) telle que ({f : f(0) = 0}) = 1

qui soit « la plus uniforme possible ». On demande que les

« accroissements de f soient indépendants et stationnaires », alors :

= mesure de Wiener = loi du Mouvement Brownien (Wt)t

Si 0 < t1 < t2 < … < tm 1, alors aj < bj (1 j m) :

( { f : f(tj) [aj, bj], 1 j m }) = P( Wt j [ aj, bj], 1 j m )



Loi a posteriori = loi d’un mouvement brownien passant par les points (xi,

yi) pour 1 i n (données).



Prior gaussien et « données linéaires »

Loi a posteriori = mesure gaussienne

Pour la déterminer, il suffit de projeter :

Wx = 1Wx1 + … + nWxn + Zx avec Zx Wx1, …, Wxn

et :

Loi a posteriori = loi de (Wx)x [0, 1] sachant Wx1 = y1 , … , Wxn = yn :

= loi de x → 1y1 + … + n yn + Zx



Lien avec l’approche par régularisation dans un RKHS :

Moyenne a posteriori = fonction de norme minimale dans le RKHS

associé à la mesure de Wiener et qui interpole les données

[2. UN PROBLEME CLASSIQUE D’INVERSION BAYESIENNE]


On considère un opérateur de « floutage » (blurring) A de la forme

g = Af où g(s) =

0

1 a(s, t)f(t)dt

et où f est un signal d’entrée de [0, 1] → IR « convenable ».

On supposera que le noyau a(s, t) est connu de type gaussien suivant

a(s, t) = 1

2 exp(

1

2 (t – s)

2 )

Illustration (source : A Gentle Introduction on Statistical Inversion using the Bayesian

Paradigm, Tan Bui-Thanh, University of Texas at Austin) :

f(t) = 10(t – 0.5)×exp( 50(t 0.5)2 ) – 0.8 + 1.6t

= 0.1

présence d’un bruit blanc avec « ratio signal sur bruit » = 5



Le problème:

reconstruire f à partir des observations « bruitées » de la fonction g = Af :

gobs

(si) = g(si) + i

où si = i/n, 0 i n et où les i sont i.i.d. N(0, 2).

Ce problème est très mal posé…

[2. 1 INFERENCE BAYESIENNE POUR LE PROBLEME DISCRETISE]


Dans un premier temps, on considère le problème discrétisé suivant :

f = (f(s0), …, f(sn))T IR n+1 → g = Af = (g(s0), …, g(sn))

T IR n+1

avec A matrice de la forme

A = ( 1

n a(si, sj) )0 i, j n de taille (n+1)×(n+1)

On cherche à reconstruire f sachant que l’on dispose des observations bruitées

suivantes :

gobs(si) = g(si) + i

où si = i/n, 0 i n et où les i sont i.i.d. N(0, 2).

[2.1 CHOIX DU PRIOR]


La première étape du paradigme bayésien est de choisir la loi a priori sur f. Si

l’on suppose que le signal a une certaine régularité (de classe au moins C1), il

est naturel d’écrire

f(si) = 1

2 (f(si1) + f(si+1)) + Zi pour 1 i n1

avec les Zi i.i.d. de même loi N(0, 2). Avec l’information supplémentaire que

la fonction est proche de 0 au bord, on est conduit à

LDf = Z

avec LD = 1

2

[

2 −1 0 … 0−1 2 −1 0 0 −1 ⋱ ⋱ 0 ⋱ ⋱ 2 −10 … 0 −1 2 ]

et Z N(0, n+1).

De là, on en déduit que f N(0, prioravec prior(LD

TLD)

1

.



Illustration.



Bien sûr, dans le cas où f n’a aucune raison d’être nulle au bord (a priori), il

faut adapter le prior. Par exemple, on peut écrire

LRf = Z

avec LR = 1

2

[ 2 0 0 … 0−1 2 −1 0 0 −1 ⋱ ⋱ 0 ⋱ ⋱ 2 −10 … 0 0 2 ]

et Z N(0, n+1).

En pratique, on peut par exemple calculer de sorte que la variance au bord

soit du même ordre de grandeur que la variance au centre de l’intervalle.

De là, on en déduit que f N(0, prioravec prior(LR

TLR) 1

.



Illustration.

[2.1 DETERMINATION DU POSTERIOR]


La formule de Bayes conduit à

(f | gobs) (gobs | f)×(f) exp( 1

22 || gobs – Af ||2)×exp(

1

2 < prior

1

f, f >n+1)

avec prior

1

1

LD

TLD ou (mieux a priori!) prior

1

1

LR

TLR.

De manière plus explicite,

(f | gobs

) exp( 1

2 T(f) )

avec T(f) = 1

2 || gobs – Af ||2 +

1

|| Lf ||2 avec L = LD ou LR.

fappelée fonctionnelle (« régularisante ») de Tikhonov

[2.1 DETERMINATION DU POSTERIOR]


Un calcul analogue à celui déjà vu au §1.2 conduit à expliciter entièrement la

loi de f sachant gobs :

f | gobs N(fMAP, posterior)

où

fMAP = 1

2 H 1AT gobs

avec

H = 1

2 ATA +

1

LTL matrice hessienne de T(f)

posterior 1 = H

[2.1 QUANTIFICATION D’INCERTITUDE]


fMAP est le mode de la loi conditionnelle de f sachant gobs, c’est aussi la

moyenne de cette loi (par symétrie) : on parle de Mode A Posteriori ou de

Moyenne A Posteriori. C’est la reconstruction bayésienne optimale de f qui

intègre à la fois l’information a priori (f régulière) et les observations

« indirectes » et bruitées de f. On voit que l’on a encore

fMAP = f

argmin ( T(f) = 1

2 || gobs – Af ||2 +

1

|| Lf ||2 )

la matrice de covariance a posteriori posterior permet de quantifier les

incertitudes autour de fMAP de manière probabiliste

petit problème : la loi a priori (f) dépend d’un paramètre d’échelle qu’il

faudra bien estimer (on parle d’hyper-paramètre). On a supposé et connus

par contre…



Illustration de l’inversion bayésienne (n = 100 ; n ; = 0.1 et = 10%

du max de |f|) : influence du prior



Inversion bayésienne avec quantification d’incertitude :



Cas 0

[2.1 ESTIMATION DE L’HYPER-PARAMETRE ]


En pratique, il faut bien estimer le paramètre associé à la loi a priori. Dans

notre cas, il est facile d’écrire la vraisemblance des observations et de s’en

servir pour l’estimer :

gobs = Af +

où f N(0, prior) et N(0, 2In+1) sont indépendantes ! De là :

gobs N(0, obs)

où obs = AobsAT + 2In+1. Sachant queobs = (LR

TLR) 1

, on a finalement

obs = A(LRTLR)

1 AT + 2In+1

Reste à maximiser la vraisemblance des observations pour estimer :

=

argmin ( 2×LogL(

[2.1 ESTIMATION DE L’HYPER-PARAMETRE ]


[2.2 LE PROBLEME NON DISCRETISE]


Rappelons le problème initial (non discrétisé) : reconstruire f à partir des

observations bruitées de g = Af où

g(s) =

0

1 a(s, t)f(t)dt

On notera encore gobs(si) = g(si) + i (1 i m) les observations avec les i

i.i.d. N(0, 2) mais où les si ne correspondent plus à des points de discrétisation

de l’opérateur mais aux seuls points d’observation.

La première question non triviale pour appliquer la démarche bayésienne dans

cette situation est de savoir comment traduire les informations que l’on a sur f

sous la forme d’une loi de probabilité, laquelle est maintenant une distribution

sur un espace de fonctions (de dimension infinie !).

Pour cela, nous allons reprendre le cas discret en essayant de voir ce qui se

passe si le pas de discrétisation h = 1/n tend vers 0 ou (de manière équivalente)

lorsque n tend vers + (f IR n+1 →n « f dans un espace de dim infinie »).

[2.2 LOI A PRIORI]


Rappelons le modèle discret

f(ti) = 1

2 (f(ti1) + f(ti+1)) + Zi pour 1 i n1 et ti = i/n

avec les Zi i.i.d. N(0, 2).

Si f est supposée de classe au moins C2, on sait que

1

2 ( f(ti1) + f(ti+1) ) – f(ti) =

1

2 h2f ʺ(ti) + h2(h)

avec (h) → 0 lorsque h = 1/n → 0.

On est donc amené à écrire à la limite que

– 1

2 f ʺ(t) = Wt

où W est la « dérivée » du mouvement brownien standard !

[2.2 LOI A PRIORI]


Par intégrations successives, on obtient

f(t) =

( (1 – t)U0 + tU1 ) + 2

0

t

(

0

1 Wu du - Ws) ds

comme limite du prior discret de matrice de covariance

prior(LR

TLR) 1

Dans cette écriture, les v.a. U0, U1 sont supposées indépendantes N(0, 1) et

indépendantes du MB W, elles traduisent une condition de Dirichlet dans la

résolution de l’eds précédente puisque

f(0) =

U0 N(0,

) et f(1) =

U1 N(0,

)

Un calcul analytique conduit à choisir = 6 (ou 12 = 2 3 ). Le paramètre

est à nouveau un paramètre d’échelle (écart-type).

[2.2 LOI A PRIORI]


On note X le processus aléatoire gaussien :

Xt = 2

0

t

(

0

1 Wu du - Ws) ds

solution de l’eds – 1

2 Xtʺ = Wt avec les conditions au bord X0 = X1 = 0.

Par diagonalisation de l’opérateur – 1

2 , on obtient la représentation suivante

du processus X (dite de Karhunen-Loève) :

Xt = n ≥ 1

2

n22 n 2 sin(nt)

où les n sont i.i.d. N(0, 1). On remarquera que les fonctions ( 2 sin(nt))n ≥ 1

forment une base orthonormée de l’espace de Hilbert L2[0, 1].

[2.2 LOI A PRIORI]


De là, on en déduit le noyau de covariance du processus X sous la forme

KX(t, s) = n ≥ 1

4

n44 2 sin(nt)× 2 sin(ns)

En notant n = 4

n44 pour n ≥ 1, on obtient une représentation du RKHS HX

associé :

HX = { f L2[0, 1] : f(t) = n ≥ 1

cn 2 sin(nt) avec n ≥ 1

cn2

n < +}

et de produit scalaire

< f | g >HX =

n ≥ 1

cn(f) cn(g)

n

[2.2 LOI A PRIORI]


De manière plus familière, il est immédiat de constater que HX est l’espace de

Sobolev H02(0, 1) :

HX = { f : [0, 1] → IR de classe C1: f(0) = f(1) = 0 et fʺ L2[0, 1] }

de norme vérifiant : || f ||HX2 = < f | f >HX =

1

4

0

1 fʺ(t)2dt .

Le calcul fournit de manière explicite le noyau reproduisant :

KX(t, s) = { 2ts

3(2 – 3s + s2) +

2t3

3(s – 1) si t s

2ts

3(2 – 3t + t2) +

2s3

3(t – 1) si s t

(pour t fixé, Kt(.) = KX(t, .) vérifie Ktʹʹʹʹ(s) = 0 si s t → spline cubique )

[2.2 LOI A PRIORI]


Revenons maintenant au prior qui s’écrit en fonction du processus X

f(t) =

( (1 – t)U0 + tU1 ) + Xt

Le noyau de covariance associé est donc

K(t, s) =

( (1 – t)(1 – s) + ts ) + X(t, s)

de RKHS H = H2(0, 1) avec

|| h ||H2 =

( h(0)2 + h(1)2 ) +

4

0

1 hʺ2

L’opérateur de covariance est de la forme

prior : f L2[0, 1] →

(

0

1

(1 s)f(s) ds )×(1 – t) +

(

0

1 sf(s) ds )×t + 2

(

4 2

) 1

(f)

[2.2 LOI A POSTERIORI]


On a encore que la loi du vecteur des observations est une loi multi-gaussienne

N(Af, 2Im) de densité sur IR m vérifiant

(gobs | f) exp( 1

22 || gobs – Af ||2)

où Af = ( s →

0

1 a(s, t)f(t)dt ).

Mais, cette fois la loi a priori, notée (df), n’admet pas de densité car il n’est

pas correct d’écrire

(df) = (f) df

Par contre, la loi a posteriori admet une densité par rapport à la loi a priori, ce

que l’on écrit (formule de Bayes !)

(df | gobs

) exp( 1

22 || gobs – Af ||2) × (df)



On peut montrer que la moyenne de cette loi a posteriori notée fMAP est aussi la

solution du programme d’optimisation sur H = H2(0, 1) :

fMAP = h H

argmin ( T(h) = 1

22 || gobs – Ah ||2 +

1

2 || h ||H

2 )

où (rappel) || h ||H2 =

( h(0)2 + h(1)2 ) +

4

0

1 hʺ2

Attention donc au fait que ce n’est pas le mode de la densité de la loi a

posteriori par rapport à la loi a priori, c’est-à-dire de

f → exp( 1

22 || gobs – Af ||2 )



Pour prouver le résultat précédent, le plus simple est de calculer explicitement

fMAP. Pour cela, on va spécifier entièrement la loi a posteriori comme loi du

processus gaussien f(t) conditionnellement aux observations

gobs(si) = Af(si) + i, 1 i m.

Ecrivons donc les équations de krigeage correspondantes, à savoir :

f(t) = t)×(Af(s1) + i) + … + mt)×(Af(sm) +m) + Zt

et déterminons les poids t), …, mt) qui permettent d’expliquer au mieux

f(t) à partir des observations

gobs(si) = Af(si) + i.



On obtient (t) = (t), …, t))T solution du système linéaire m×m

Km (t) = cov(f(t), Af(s))

où

Km(i, j) = 2i, j + cov(Af(si), Af(sj)) pour 1 i, j m

cov(f(t), Af(s)) = (cov(f(t), Af(s1)), …, cov(f(t), Af(sm))T

D’où la décomposition L2 de f(t) :

f(t) = cov(f(t), Af(s)) Km 1gobs(s) + Zt

En particulier,

fMAP(t) = cov(f(t), Af(s))T Km 1gobs(s)

et

Var(f(t) | gobs) = Var(Zt) = Var(f(t)) – cov(f(t), Af(s))T Km 1 cov(f(t), Af(s))

Mesures gaussiennes pour l'inférence...

Documents

Transcript of Mesures gaussiennes pour l'inférence...