Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours...

54
Troisième année 2009 – 2010 Statistique Bayésienne Notes de cours Judith Rousseau 1 [email protected] 1. Ce support de cours a été rédigé par Mathias André et Alexis Eidelman, élèves en 2008 – 2009 puis relu et corrigé par Julyan Arbel, correspondant de statistiques. Il s’appuie notamment sur l’ouvrage de référence de la statistique bayésienne, disponible dans toute bonne bibliothèque : Le Choix Bayésien - Principes et pratique de Christian P. Robert [2].

Transcript of Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours...

Page 1: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Troisième année2009 – 2010

Statistique BayésienneNotes de cours

Judith Rousseau 1

[email protected]. Ce support de cours a été rédigé par Mathias André et Alexis Eidelman, élèves en 2008 –

2009 puis relu et corrigé par Julyan Arbel, correspondant de statistiques. Il s’appuie notammentsur l’ouvrage de référence de la statistique bayésienne, disponible dans toute bonne bibliothèque :Le Choix Bayésien - Principes et pratique de Christian P. Robert [2].

Page 2: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune
Page 3: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Table des matières

1 Introduction : Les principes bayésiens 11.1 L’inférence bayésienne . . . . . . . . . . . . . . . . . . . . . . 11.2 Extension aux lois impropres . . . . . . . . . . . . . . . . . . 21.3 Extension aux modèles non dominés . . . . . . . . . . . . . . 4

2 Une introduction à la théorie de la décision 52.1 Fonction de perte et risque . . . . . . . . . . . . . . . . . . . . 52.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Fonction de perte intrinsèque . . . . . . . . . . . . . . . . . . 82.4 Admissibilité et minimaxité . . . . . . . . . . . . . . . . . . . 11

2.4.1 Admissibilité . . . . . . . . . . . . . . . . . . . . . . . 112.4.2 Minimaxité . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Estimation ponctuelle 153.1 Estimateur du maximum a posteriori . . . . . . . . . . . . . . 153.2 Importance de la statistique exhaustive . . . . . . . . . . . . . 163.3 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.4 Modèle Gaussien . . . . . . . . . . . . . . . . . . . . . . . . . 173.5 Mesure d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Tests et régions de confiance 214.1 Région de confiance . . . . . . . . . . . . . . . . . . . . . . . . 21

4.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . 214.1.2 Calcul de région hpd . . . . . . . . . . . . . . . . . . 24

4.2 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.1 Approche par la fonction de perte de type 0–1 . . . . 264.2.2 Facteur de Bayes . . . . . . . . . . . . . . . . . . . . . 284.2.3 Variations autour du facteur de Bayes . . . . . . . . . 304.2.4 Propriétés asymptotiques des facteurs de Bayes . . . . 314.2.5 Calcul du facteur de Bayes . . . . . . . . . . . . . . . 34

5 Propriétés asymptotiques des approches bayésiennes 355.1 Théorie générale . . . . . . . . . . . . . . . . . . . . . . . . . 355.2 Normalité asymptotique de la loi a posteriori . . . . . . . . . 37

Page 4: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

ii TABLE DES MATIÈRES

6 Détermination de lois a priori 396.1 Lois subjectives . . . . . . . . . . . . . . . . . . . . . . . . . . 396.2 Approche partiellement informative . . . . . . . . . . . . . . . 40

6.2.1 Maximum d’entropie . . . . . . . . . . . . . . . . . . . 406.2.2 Familles conjuguées . . . . . . . . . . . . . . . . . . . . 41

6.3 Approche non informative . . . . . . . . . . . . . . . . . . . . 436.3.1 Lois de Jeffreys et Bernardo . . . . . . . . . . . . . . . 446.3.2 Loi a priori de concordance – (matching priors) . . . . 45

7 Méthodes numériques 477.1 Approches indépendantes . . . . . . . . . . . . . . . . . . . . 477.2 Méthodes mcmc . . . . . . . . . . . . . . . . . . . . . . . . . 48

7.2.1 Algorithme Hasting-Metropolis . . . . . . . . . . . . . 487.2.2 Algorithme de type Gibbs . . . . . . . . . . . . . . . . 49

Conclusion 50

Bibliographie 50

Page 5: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 1

Introduction : Les principesbayésiens

1.1 L’inférence bayésienne

Définition 1.1.1 Modèle classiqueOn se place dans un espace probabilisé paramétrique classique :

X ∈ (X ,B, {Pθ, θ ∈ Θ})

X désigne l’espace des données, Θ celui des paramètres θ. Le but de l’analysestatistique est de faire de l’inférence sur θ, c’est-à-dire décrire un phénomènepassé ou à venir dans un cadre probabiliste.

L’idée centrale de l’analyse bayésienne est de considérer le paramètreinconnu θ comme aléatoire : l’espace des paramètres Θ est muni d’une pro-babilité π tel que (Θ,A, π) est un espace probabilisé. Nous noterons θ ∼ π.π est appelée loi a priori. Intuitivement et en termes informationnels, elledétermine ce qu’on sait et ce qu’on ne sait pas avant d’observer X.

Définition 1.1.2 Modèle dominéLe modèle est dit dominé s’il existe une mesure commune dominante µ, c’est-à-dire pour tout θ, Pθ admet une densité par rapport à µ : 1

f(X|θ) =dPθdµ

Cette fonction `(θ) = f(X|θ), vue comme une fonction de θ une foisqu’on a observé un tirage de X, est appelée vraisemblance du modèle. C’estla loi de X conditionnellement à θ.

1. Pour des mesures σ-finies et en vertu du théorème de Radon-Nikodym, ceci estéquivalent à être absolument continue par rapport à µ.

Page 6: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

2 Introduction : Les principes bayésiens

Définition 1.1.3 Loi jointe et loi a posterioriDans le cas d’un modèle dominé, la loi jointe de (X, θ) s’écrit λπ(X, θ) =f(X|θ)dπ(θ) = f(X|θ)π(θ)dν(θ), la dernière égalité étant valable dans lecas absolument continu par rapport à ν, la mesure de Lebesgue 2. La loi aposteriori est définie par sa densité :

dπ(θ|X) =f(X|θ)dπ(θ)∫Θ f(X|θ)dπ(θ)

(1.1)

La quantitémπ(X) =∫

Θ f(X|θ)dπ(θ) est la loi marginale deX et est uneconstante de normalisation de la loi a posteriori, indépendante de θ. Noustravaillerons donc très régulièrement à une constante multiplicative près :π(X|θ) ∝ f(X|θ)π(θ). Nous ajoutons que par construction la loi a posterioriest absolument continue par rapport à la loi a priori π.

Exemple 1.1 Dans le cas gaussien, à variance connue : X ∼ N(µ, σ2) etθ = µ (σ2 connnu) :

π(µ) =e−

(µ−µ0)2

2τ2

τ√

π(µ|X) ∝ e−(X−µ)2

2σ2 e−(µ−µ0)2

2τ2

π(µ|X) ∝ exp(−1

2(

1σ2

+1τ2

)(µ− (

X

σ2+µ0

τ2)(

1σ2

+1τ2

)−1))

Ainsi

π(µ|X) ∼ N(Xτ2

σ2 + τ2+ µ0

σ2

σ2 + τ2,σ2τ2

σ2 + τ2)

On remarque sur cet exemple que la loi a posteriori est plus resserrée (poin-tée) que la loi a priori. Cela s’avère être intuitif : la loi a posteriori estla loi de θ en ayant une information supplémentaire à savoir la donnée deX, l’incertitude sur θ ne peut donc que diminuer, en d’autres termes la va-riance diminue. En considérant Xn = 1

n

∑ni=1Xi dans le cas indépendant et

identiquement distribué, la loi a posteriori se centre sur Xn avec un nombred’observations qui augmente. Dans ce cas, elle se rapproche du maximum devraisemblance.

1.2 Extension aux lois impropres

Nous généralisons l’approche précédente aux lois a priori impropres, cequi est notamment utile dans les modèles non-informatifs.

2. B est la tribu borélienne dans Rp.

Page 7: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

1.2 Extension aux lois impropres 3

Définition 1.2.1 Loi impropreUne loi impropre est une mesure σ-finie 3 qui vérifie

∫Θ π(θ)dν(θ) = +∞.

L’utilisation d’une loi a priori impropre peut sembler saugrenue maiscela peut s’avérer particulièrement intéressant. Il est ainsi envisageable detravailler avec une loi normale centrée à grande variance pour approcherune « loi uniforme sur R » ; avec de bonnes propriétés, il est judicieux (etpréconisé !) de travailler alors avec une loi impropre, la mesure de Lebesguepar exemple. Cependant une telle loi est utile du moins tant que la loi aposteriori existe. Aussi, on se limite aux lois impropres telles que :

mπ(X) =∫

Θf(X|θ)dπ(θ) <∞ µ-pp

Exemple 1.2 Loi uniforme généralisée– Loi a priori uniforme 4

dπ(µ) = dµ

X ∼ N(µ, σ2)

∀X mπ(X) =∫e−

(X−µ)2

2σ2 dµ = σ√

2π <∞

La mesure de Lebesgue sur R est donc une loi impropre qui peut êtreutilisée.

– Dans le cas suivant :

X1, . . . , Xn ∼ N(µ, σ2)

π(µ, σ) =1σ

et Θ = R×R∗+

L’intégrale de la loi a priori s’écrit :∫R

∫ +∞

0e−

(Xn−µ)2

2σ2 e

∑ni=1(Xi−X)2

2σ2dσdµ

σn+1=∫ +∞

0

1√2πe

∑ni=1(Xi−X)2

2σ2dσ

σn

Pour que l’expression converge, il faut avoir n > 1 et la propriété suivantevérifiée : (∃i, j; i 6= j, tqXi 6= Xj). Lorsque n > 1 l’ensemble des vecteurs quine vérifient pas cette propriété est de mesure nulle et donc n’affecte pas lafinitude de l’intégrale définie ci-dessus. Il est possible de donner une interpré-tation intuitive du résultat précédent. Pour estimer la dispersion (variance),au moins deux observations sont nécessaires. L’interprétation est peut-être unpeu moins évidente en ce qui concerne la deuxième remarque mais elle restecohérente si toutes les observations sont égales. L’inférence sur σ conduitalors à considérer ce paramètre comme nul ; dans un tel cas, la distribution a

3. Cela peut être défini dans un cas général sans σ-finitude mais, comme nous allonsle voir, sans grand intérêt. . .

4. Dans ce cas, π est la mesure de Lebesgue.

Page 8: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4 Introduction : Les principes bayésiens

priori π(µ, σ2) = 1σ2 n’est pas définie, il n’est donc pas classique de la choisir

de cette forme.Dans le cas où π est une mesure impropre σ-finie, on considère π∗ = c ·π,

cette constante arbitraire doit être sans influence pour être cohérent. C’estbien le cas car c se simplifie haut et bas dans l’équation (1.1) définissant laloi a posteriori de telle sorte que dπ∗(θ|X) = dπ(θ|X).

En conclusion, l’usage de lois impropres a priori est justifié si la loi aposteriori est propre (non impropre 5) car elle ne dépend pas de constantemultiplicative de la loi a priori. Ceci est à rapprocher du principe de vraisem-blance indiqué par Christian Robert. D’une manière plus générale, l’inférencebayésienne se base sur π(θ|X).

1.3 Extension aux modèles non dominés

Le paramètre a jusqu’à présent été choisi parmi les éléments de Rd avecd fini dans un modèle dominé. Il est envisageable de choisir Θ = [0, 1]R,l’ensemble des distributions sur [0, 1] ou encore l’ensemble des probabilitéssur R (qui est non dominé).

Dans ce dernier cas, si P ∼ π une probabilité sur Θ, par exemple unprocessus de Dirichlet, on définit la loi a posteriori comme une version de laloi conditionnelle. Sur (R,B) et (Θ,A), pour (A,B) ∈ A× B :∫

AP (X ∈ B)dπ(P ) =

∫B

∫Amπ(X)dπ(P |X)

La loi de Dirichlet, notée D(α1, · · · , αp), est définie sur le simplexe Sp ={(x1, · · · , xp),

∑pi=1 xi = 1, xi ≥ 0 pour 0 ≤ i ≤ p} par :

dπα(x) = xα11 . . . x

αpp

Γ(∑

i αi)∏i Γ(αi)

Pour une mesure α sur R, le processus de Dirichlet se note D(α(.)). Enutilisant la topologie faible, on peut montrer pour toute partition de R(B1, · · · , Bp), si P ∼ D(α(.)) alors

(P (B1), · · · , P (Bp)) ∼ D(α(B1), · · · , α(Bp))

.

5. C’est-à-dire une loi de probabilité qui mesure les informations une fois les donnéesobservées.

Page 9: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 2

Une introduction à la théoriede la décision

2.1 Fonction de perte et risque

Pour le modèle X ∈ (X ,B, {Pθ, θ ∈ Θ}), on définit D l’ensemble desdécisions possibles. C’est-à-dire l’ensemble des fonctions de Θ dans g(Θ) oùg dépend du contexte :

– si le but est d’estimer θ alors D = Θ– pour un test, D = {0, 1}La fonction de perte est une fonction mesurable de (Θ × D) à valeurs

réelles positives : L : Θ×D → R+. Elle est définie selon le problème étudiéet constitue l’armature du problème statistique 1.

Définition 2.1.1 Risque fréquentistePour (θ, δ) ∈ Θ×D, le risque fréquentiste 2 est défini par :

R(θ, δ) = Eθ [L(θ, δ(X)))]

=∫XL(θ, δ(X)))f(X|θ)dµ(X)

C’est une fonction de θ et ne définit donc par un ordre total sur D etne permet donc pas de comparer toutes décisions et estimateurs. Il n’existedonc pas de meilleur estimateur dans un sens absolu. Ainsi, l’approche fré-quentiste restreint l’espace d’estimation en préférant la classe des estimateurssans biais dans laquelle il existe des estimateurs de risque uniformément mi-nimal ; l’école bayésienne ne perd pas en généralité en définissant un risque aposteriori. L’idée est d’intégrer sur l’espace des paramètres pour pallier cettedifficulté.

1. cf 2.2 pour des exemples.2. Dans le cas d’une fonction de perte quadratique, il est appelé risque quadratique.

Page 10: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

6 Une introduction à la théorie de la décision

Définition 2.1.2 Risque a posterioriUne fois données la loi a priori sur le paramètre et la fonction de perte, lerisque a posteriori est défini par :

ρ(π, δ|X) = Eπ(L(θ, δ(X)))|X)

=∫

ΘL(θ, δ(X)))dπ(θ|X)

Ainsi, le problème change selon les données ; ceci est dû à la non existenced’un ordre total sur les estimateurs.

Définition 2.1.3 Risque intégréA fonction de perte donnée, le risque intégré est défini par :

r(π, δ) =∫

ΘR(θ, δ)dπ(θ)

Définition 2.1.4 Estimateur bayésienUn estimateur bayésien est un estimateur vérifiant :

r(π, δπ) = infδ∈D

r(π, δ) <∞

Pour obtenir la valeur de l’infimum du risque intégré il faut donc enthéorie minimiser une intégrale double δ. L’introduction du risque intégré sejustifie par le théorème suivant. Il suffira de minimiser une grandeur qui nedépend plus que des données, ceci permet donc d’arriver à des estimateursatisfaisants.

Théorème 2.1 Méthode de calculSi ∃δ ∈ D, r(π, δ) <∞ et ∀X ∈ X δπ(X) = Argminδρ(π, δ|X),alors δπ(X) est un estimateur bayésien.Démonstration :

r(π, δ) =∫

ΘR(θ, δ)dπ(θ)

=∫

Θ

∫XL(θ, δ(X)))f(X|θ)dµ(X)dπ(θ)

=∫X

∫ΘL(θ, δ(X)))

f(X|θ))dπ(θ)mπ(X)

mπ(X)dµ(X) (Fubini)

=∫X

∫ΘL(θ, δ(X)))dπ(θ|X)mπ(X)dµ(X)

=∫Xρ(π, δ|X)mπ(X)dµ(X)

Ainsi, pour δ ∈ D, ρ(π, δπ|X) ≤ ρ(π, δ|X) ⇒ r(π, δπ) ≤ r(π, δ). Ce quipermet de conclure.

Page 11: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

2.2 Exemples 7

2.2 Exemples

Exemple 2.1 Perte quadratiqueD = Θ ⊂ Rd 3 et L(θ, δ) = ‖θ − δ‖2

Comme la norme au carré est une fonction convexe deux fois dérivablesur Θ, pour trouver δπ estimateur bayésien, il suffit de déterminer les pointscritiques du risque a posteriori 4.

ρ(π, δ|X) = Eπ(‖θ − δ‖2 |X)∂ρ(π, δ|X)

∂δ= −2

∫Θ

(π − δ(X))dπ(θ,X)

Donc∂ρ(π, δ|X)

∂δ= 0 ⇐⇒ δ(X) = Eπ(θ|X)

D’après l’inégalité de Jensen, δ 7−→ ρ(π, δ|X) est aussi convexe. L’estima-teur bayésien vaut donc δπ(X) = Eπ(θ|X) µ-pp. Dans le cas gaussien del’exemple 1.1 X ∼ N(µ, σ2) et µ ∼ N(µ0, τ), l’estimateur bayésien s’ex-prime :

δπ(X) =τ2

τ2 + σ2X +

σ2

τ2 + σ2µ0

Exemple 2.2 Perte L1

D = Θ ⊂ R et L(θ, δ) =∑d

i=1 |θi − δi|Dans le cas simple où d = 1 :

ρ(π, δ|X) =∫

Θ|θ − δ| dπ(θ|X)

=∫ δ

−∞(δ − θ)π(θ|X)dθ +

∫ ∞δ

(θ − δ)π(θ|X)dθ

Comme δ 7−→ ρ(π, δ|X) est convexe et dérivable µ-presque partout, il suffitlà encore de déterminer les points critiques :

∂ρ(π, δ|X)∂δ

=∫ δ

−∞π(θ|X)dθ −

∫ ∞δ

π(θ|X)dθ

Donc∂ρ(π, δ|X)

∂δ= 0 ⇐⇒ P π(θ ≤ δ|X) = P π(θ ≥ δ|X)

C’est-à-dire δπ(X) est la médiane de π(θ|X) 5.

3. Ceci peut facilement être généralisé au cas d’un Hilbert.4. En s’appuyant sur le théorème 2.1 et pour des solutions intérieures évidemment. . .5. Nous soulignons la robustesse vis à vis des valeurs extrêmes en comparaison de la

moyenne, ceci s’explique par les fonctions de perte correspondantes qui accordent plus oumoins d’importance aux valeurs élevées.

Page 12: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

8 Une introduction à la théorie de la décision

Exemple 2.3 Perte 0–1Cette fonction de perte est utilisée dans le contexte des tests. Un test est ladonnée d’une partition de Θ en Θ0 et Θ1

6. θ ∈ Θi correspond à l’hypothèseHi, H0 est appelée l’l’hypothèse nulle. Le principe du test (décisions) δ estdéfini comme suit :

δ ={

0 si θ ∈ Θ1

1 si θ ∈ Θ0

La fonction de perte correspondant au test est définie par :

L(θ, δ) = 1θ∈Θ1 × 1δ=0 + 1θ∈Θ0 × 1δ=1

Le risque a posteriori est alors le suivant :

ρ(π, δ|X) = 1δ=0Pπ(Θ1 |X) + 1δ=1P

π(Θ0 |X)

Ainsi :δπ(X) = 1⇔ P π(Θ0 |X) ≤ P π(Θ1 |X)

C’est-à-dire que l’estimation permet d’accepterH0 si c’est l’hypothèse la plusprobable a posteriori, ce qui est une réponse naturelle.

Une variante du test 0–1 est le test de Neymann Person qui permet dedistinguer risques de première et de deuxième espèce :

L(θ, δ) =

0 si δ = 1θ∈Θ1

a0 si δ = 1θ∈Θ0

a1 si δ = 0, θ ∈ Θ1

Le risque a posteriori est donné par :

ρ(π, δ|X) = a0δPπ(Θ1 |X) + a1(1− δ)P π(Θ0 |X)

Ainsi :δπ(X) = 1⇔ a0P

π(Θ0 |X) ≤ a1Pπ(Θ1 |X)

Ceci permet de modéliser des raisonnements de la forme « j’ai plus ou moinstort » en jouant sur le rapport a1

a0

7 et accorder plus ou moins d’importancerelative à Θ0 selon des arguments a priori.

2.3 Fonction de perte intrinsèque

Nous nous plaçons dans le cas où X|θ ∼ f(X|θ) et L(θ, δ) = d(fθ, fδ)avec d une distance entre densités.

Avant de voir la définition de fonction de perte intrinsèque, nous com-mençons par des exemples de distances classiques entre densités.

6. Θ0 ∪Θ1 = Θ et Θ0 ∩Θ1 = ∅.7. a1 = a0 correspond au cas précédent de test 0–1.

Page 13: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

2.3 Fonction de perte intrinsèque 9

Exemple 2.4 Distances usuelles entre densités (fθ, fθ′) de fonctions de ré-partition (Fθ, Fθ′) :

1. Distance de Kolmogoroff-Smirnoff :

dKS(fθ, fθ′) = supx|Fθ(x)− Fθ′(x)|

2. Distance L1 :

d1(fθ, fθ′) =∫|fθ(x)− fθ′(x)| dx (2.1)

= 2 supA|Pθ(A)− Pθ′(A)| (2.2)

3. Distance de Hellinger :

dH(fθ, fθ′) =(∫

(√fθ(x)−

√fθ′(x))2dx

) 12

4. Pseudo-distance 8 de Kullback-Liebler :

K(fθ, fθ′) =∫fθ(x) log

fθ(x)fθ′(x)

dx

Avec l’inégalité de Jensen, on prouve l’inégalité K(fθ, fδ) ≥ 0. De plus,K(fθ, fδ) = 0 si et seulement si fθ = fθ′ µ-presque sûrement.

5. Distance L2 :

d2(fθ, fθ′) =∫

(fθ(x)− fθ′(x))2dx

Ceci peut s’utiliser si les densités sont de carré intégrable.La notion de perte intrinsèque provient de l’exigence d’invariance par

transformation monotone inversible sur les données : les distances et doncles fonctions de perte, utilisées doivent donc être inchangées par l’actiond’un C1-difféomorphisme sur X . Ainsi, pour y = g(x) et X ∼ fθ où g estun C1-difféomorphisme, on note y ∼ gθ(y) = fθ(g−1(y))

∣∣∣dxdy ∣∣∣. Pour une perteintrinsèque, la distance entre fθ et fθ′ est la même que celle entre gθ et gθ′pour un g donné ; ceci correspond à une distance entre distributions (et nonplus entre densités).

L’invariance par C1-difféomorphisme est vérifiée pour les distances pré-cédentes à l’exception de la norme L2. Nous donnons à titre d’exemple ladémonstration pour la norme L1. Les autres cas sont laissés aux lecteurs etlectrices :

d1(gθ, gθ′) =∫ ∣∣fθ(g−1(y))− fθ′(g−1(y))

∣∣ ∣∣∣∣dxdy∣∣∣∣ dy

=∫|fθ(x)− fθ′(x)| dx

= d1(fθ, fθ′)

8. Car non symétrique.

Page 14: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

10 Une introduction à la théorie de la décision

Définition 2.3.1 Fonction de perte intrinsèqueEn s’appuyant sur ce qui précède, une fonction de perte intrinsèque est unefonction de perte définie à partir d’une distance entre distributions, c’est-à-dire invariante par transformation monotone inversible.

Nous terminons cette section par un exemple où nous calculons la dis-tance de Hellinger entre deux gaussiennes.

Exemple 2.5 Distance d’Hellinger de lois normalesEn notant Φµ,σ2 la densité de la loi N (µ, σ2) et θ = (µ, σ2), nous avons :

d2H(Φθ,Φθ′) =

∫R

(√

Φθ −√

Φθ′)2dx

= 2− 2∫R

√Φθ − Φθ′dx

= 2− 2√2πσσ′

∫R

exp(−(x− µ)2

4σ2− (x− µ′)2

4σ′2)dx︸ ︷︷ ︸

=I

I =∫R

exp

(− 1

4Σ2{x− (

µ

σ2+

µ

σ′2)Σ2}2 − Σ2

4(µ

σ2+

µ

σ′2)2 +

µ2

4σ2+

µ′2

4σ′2

)dx

en notant Σ2 = ( 1σ2 + 1

σ′2 )−1. D’où, en reconnaissant une intégrale gaussiennede variance 2Σ2 et en factorisant le facteur exponentiel :

I = Σ√

2πe− (µ−µ′)2

4(σ2+σ′2)

Ainsi, nous arrivons à :

12d2H(Φθ,Φθ′) = 1−

√2σσ′

σ2 + σ′2exp

(− (µ− µ′)2

4(σ2 + σ′2)

)= 1−

√2(u+ 1)

(u+ 1)2 + 1

(1− h2

4(σ2 + σ′2)

)+ o(h2)

en notant h = µ− µ′ et u =σ

σ′− 1(développement limité en (h,u))

C’est la somme de deux termes du second ordre :

1−

√2(u+ 1)

(u+ 1)2 + 1=

u2

((u+ 1)2 + 1) +√

2(u+ 1)((u+ 1)2 + 1)∼ u2

4

et

√2(u+ 1)

(u+ 1)2 + 1h2

σ′2(1 + (u+ 1)2)∼ h2

8σ′2

d’où

d2H(Φθ,Φθ′) =

2(σ − σ′)2 + (µ− µ′)2

4σ′2+ o(‖h, u‖2)

Page 15: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

2.4 Admissibilité et minimaxité 11

La partie régulière de ce développement limité s’écrit (θ − θ′)′ I(θ)2 (θ − θ′) oùI(θ) est l’information de Fisher du paramètre θ = (µ, σ) ; ceci est l’expres-sion d’une forme quadratique au voisinage de θ. L’information de Fishers’interprète donc comme la courbure (locale) du modèle 9. Intuitivement, celas’explique par le fait que si l’information est grande, elle permet de distinguerdeux paramètres distincts (et réciproquement), c’est une quantité intrinsèqueau modèle et explique en partie la récurrence avec laquelle elle apparaît dansles cours de statistique.

2.4 Admissibilité et minimaxité

2.4.1 Admissibilité

Définition 2.4.1 Estimateur admissibleSoit X ∈ (X ,B, {Pθ, θ ∈ Θ}) un modèle paramétrique et L une fonction deperte sur Θ × D où D est l’ensemble des décisions (fonctions des donnéesvers une transformation de l’ensemble des paramètres). On dit que δ ∈ Θ estinadmissible si et seulement si (∃δ0 ∈ D, ∀θ ∈ ΘR(θ, δ) ≥ R(θ, δ0) et ∃θ0 ∈Θ, R(θ0, δ) > R(θ0, δ0)). Un estimateur est dit admissible si et seulement siil n’est pas inadmissible.

Même si les estimateurs admissibles apparaissent comme ceux qu’il fautrechercher en priorité, le gain de l’admissibilité peut s’avérer réduit et coû-teux. Ainsi, dans le cas gaussien X ∼ N (θ, Id) et (X, θ) ∈ (Rp)2, on peutmontrer que le maximum de vraisemblance est admissible si et seulementsi p ≤ 2 pour la fonction de perte quadratique. En outre, le gain à êtreadmissible augmente avec p, la dimension de l’espace.

Théorème 2.2 Estimateurs bayésiens admissiblesSi l’estimateur bayésien δπ associé à une fonction de perte L et une loi apriori π est unique, alors il est admissible.Démonstration : Supposons δπ estimateur bayésien non admissible : ∃δ0 ∈D,∀θ ∈ Θ, R(θ, δ) ≥ R(θ, δ0) et ∃θ0 ∈ Θ, R(θ0, δ) > R(θ0, δ0). En intégrantla première inégalité :∫

ΘR(θ, δ0)dπ(θ) ≤

∫ΘR(θ, δπ)dπ(θ) = r(π)

donc δ0 est aussi un estimateur bayésien associé à L et π et δ0 6= δπ d’aprèsla seconde inégalité. Le théorème se déduit par contraposée. Ce théorèmes’applique notamment dans le cas d’un risque fini et d’une fonction de coûtconvexe. En outre, l’unicité de l’estimateur bayésien implique la finitude durisque : r(π) =

∫R(θ, δπ)dπ(θ) < ∞ (sinon, tout estimateur minimise le

risque).

9. Il est nécessaire de se placer dans le cadre de la géométrie différentielle et d’étudierla variété de Riemann de géométrie l’information de Fisher.

Page 16: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

12 Une introduction à la théorie de la décision

Définition 2.4.2 π-admissibilitéUn estimateur δ0 est π-admissible si et seulement si

∀(δ, θ), R(θ, δ) ≤ R(θ, δ0)⇒ π({θ ∈ Θ, R(θ, δ) < R(θ, δ0)}) = 0

Cette notion est utile pour démontrer le théorème important de cettesection par le biais de la proposition suivante.

Proposition 2.3 Tout estimateur bayésien tel que r(π) <∞ est π-admissibleDémonstration : Soit δπ un estimateur bayésien à risque fini. Pour δ0 telque ∀θR(θ, δ) ≤ R(θ, δ0), on note A = {θ ∈ Θ, R(θ, δ) < R(θ, δ0)}. Nousavons alors :∫

ΘR(θ, δ0)dπ(θ)−

∫ΘR(θ, δπ)dπ(θ) =

∫A

(R(θ, δ)−R(θ, δ0))dπ(θ) ≤ 0

avec égalité si et seulement si π(A) = 0. Or, comme δπ est bayésien et lerisque fini, r(θ, δ0) ≥ r(θ, δπ) donc l’intégrale est nulle (positive et négative !),d’où π(A) = 0 : δπ est π-admissible.

Nous pouvons maintenant énoncer une condition suffisante d’admissibi-lité des estimateurs bayésiens.

Théorème 2.4 Continuité et π-admissibilitéSi π > 0 sur Θ, r(π) < ∞ pour une fonction de perte L donnée, si δπ esti-mateur bayésien correspondant existe et si θ 7−→ R(θ, δ) est continu, alorsδπ est admissible.Démonstration : Supposons que δπ est non admissible. D’après la proposi-tion précédent, δπ est π-admissible. Ainsi, il existe δ0 tel que pour tout θ,R(θ, δ0) ≤ R(θ, δπ) et θ0 ∈ Θ, R(θ0, δ0) < R(θ0, δ

π). La fonction définie sur Θpar θ 7−→ R(θ, δ0)−R(θ, δπ) est continue. Donc il existe un voisinage (ouvert)de θ0, V0 ⊂ Θ tel que ∀θ ∈ V0, R(θ, δ0) < R(θ, δπ). En considérant A la mêmerégion que dans la proposition précédente, A = {θ ∈ Θ, R(θ, δ) < R(θ, δ0)},π(A) ≥ π(V0). Or π est supposée strictement positive que Θ donc en prenantun modèle dominé par une mesure qui charge positivement les ouverts (lamesure de Lebesgue par exemple) π(V0) > 0, A est donc non négligeable(de mesure non nulle), ce qui n’est pas conforme avec la π-admissibilité. Enconclusion, δπ est admissible.

Exemple 2.6 Discussion sur l’hypothèse de risque finiL’hypothèse r(π) <∞ est cruciale, comme le montre l’exemple suivant. Dansle cas gaussien, X ∼ N (θ, Id) et (X, θ) ∈ Rp2, pour une fonction de perteL(θ, δ) = (‖θ‖2−δ)2 et pour la mesure de Lebesgue (π(θ) = 1), on montre queδπ(X) = Eπ[‖θ‖2|X] = ‖X2‖+p. En prenant une loi a posteriori gaussienneπ(θ|X) ∼ N (X, Id), π(θ|X) ∝ exp(−‖X−θ‖

2

2 ) et on peut montrer que pourδ0(X) = ‖X‖2 − p, ∀θ ∈ Θ, R(θ, δ0) ≤ R(θ, δπ) avec inégalité stricte pourθ = 0. Ici, r(π) =∞ met en défaut le théorème précédent.

Page 17: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

2.4 Admissibilité et minimaxité 13

2.4.2 Minimaxité

Définition 2.4.3 Estimateur randomiséPour le modèle X ∈ (X ,B, {Pθ, θ ∈ Θ}), un ensemble de décisions D, ondéfinit D∗ comme l’ensemble des probabilités sur D. δ∗ ∈ D∗ est appelé esti-mateur randomisé.

L’idée à l’origine de cette notion est de rendre D convexe pour pouvoirmaximiser facilement. L’estimateur de Neyman-Pearson introduit dans lasection 2.2 s’appuie sur ce principe.

On définit de même des fonctions de perte et risque randomisés par :

L∗(δ∗, θ) =∫DL(θ, a)dδ∗(a) et R(θ, δ∗) = Eθ[L∗(δ∗, θ)]

Définition 2.4.4 Risque minimax et estimateur minimaxLe risque minimax est défini par R = inf

δ∗∈D∗supθ∈Θ

R(θ, δ∗). On dit que δ0 est un

estimateur minimax si et seulement si R = supθ∈Θ

R(θ, δ0).

L’estimateur minimax correspond au point de vue (conservateur !) defaire le mieux dans le pire des cas, c’est-à-dire à s’assurer contre le pire. Il estutile dans des cadres complexes 10 mais trop conservateur dans certains casoù le pire est très peu probable. Il peut être judicieux de voir l’estimationcomme un jeu entre le statisticien (choix de δ) et la Nature (choix de θ),l’estimation minimax rejoint alors celle de la Théorie des Jeux.

Théorème 2.5 Valeur et risque minimaxEn se plaçant dans le cadre précédent pour Θ ⊂ R et Θ compact, on noteR = sup

π probar(π) ; si pour π0 tel que r(π0) = R, δπ0 est un estimateur bayésien,

alors, en notant f = θ 7−→ R(θ, δπ0) :

(f analytique)⇒ (f constante ou supp(π) 11 fini)

Démonstration : Vérifions dans un premier temps le résultat général : R ≤R.

r(π) = infδ∈D

r(π, δ) ≤ r(π, δ) ≤∫

ΘR(θ, δ)dπ(θ) ≤ max

θ∈ΘR(θ, δ) si δ ∈ D

Donc pour tout δ ∈ D, r(π) ≤ maxθ∈Θ

R(θ, δ). Par combinaison convexe 12 sur

D, on passe à l’infimum sur D∗. D’où r(π) ≤ R, et pour conclure on passeau sup sur π une probabilité.

10. Par exemple, dans le cas non paramétrique ; il est alors utile de regarder la vitessede convergence de cet estimateur avec le nombre d’observations.11. support de la loi π, i.e. l’ensemble des estimateurs θ tels que π(θ) > 0.12. argument un peu rapide mais clair dans le cas fini et s’étend par densité dans le cas

continu.

Page 18: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

14 Une introduction à la théorie de la décision

Plaçons nous maintenant dans le cadre du théorème et considérons δπ0l’estimateur minimax bayésien : r(π) = r(π, δπ0 ). Supposons le risque nonconstant : il existe (θ1, θ2) tel que R(θ1, δ0) < R(θ2, δ0). Comme Θ compact,le maximum est atteint : il existe θ0 tel que R(θ0, δ0) = max

θ∈ΘR(θ, δ0), on

définit A = {θ ∈ Θ, R(θ, δ0) < R(θ0, δ0)}. En sachant que r(π0, δπ0) ≤ R et

δ0 estimateur minimax, on écrit :

r(π0, δπ0) =

∫AR(θ, δπ0)π0(θ)dθ +

∫AcR(θ, δπ0)π0(θ)dθ

Si π0(A) > 0, r(π0, δπ0) < R ; ce qui est impossible donc π0(A) = π0({θ ∈

Θ, R(θ, δ0) < R(θ0, δ0)}) = 0. En utilisant une conséquence du théorème dePicard en analyse complexe, f analytique implique que le support de π0 estfini.

Page 19: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 3

Estimation ponctuelle

Contrairement à l’estimation ensembliste, le but de ce chapitre est d’es-timer une fonction du paramètre g(θ), par exemple g(θ) = θ ou g(θ) = ‖θ‖2.Nous nous plaçons à L et π donnés de telle sorte que nous disposons d’unestimateur bayésien δπ correspondant.

3.1 Estimateur du maximum a posteriori

Définition 3.1.1 estimateur du maximum a posteriori (map)On appelle estimateur map tout estimateur δπ(X) ∈ Argmaxθπ(θ|X).

Cette notion est le pendant bayésien du maximum de vraisemblance fré-quentiste. Il a le grand avantage de ne pas dépendre d’une fonction de perteet est utile pour les approches théoriques. Ses inconvénients sont les mêmesque l’estimateur du maximum de vraisemblance : non unicité, instabilité(dus aux calculs d’optimisation) et dépendance vis-à-vis de la mesure deréférence (dominant Θ). En outre, il ne vérifie pas la non invariance parreparamétrisation qui peut apparaître importante intuitivement. Le dernierpoint se formalise ainsi : pour g un C1-difféomorphisme et η = g(θ), θ ∈ Θ,Argmaxπ′(η|X) 6=Argmaxπ(θ|X) avec π′(η|X) ∝ π(θ(η), X) ·

∣∣∣dθdη

∣∣∣Exemple 3.1 Modèles de mélangeCeci a pour but de modéliser des populations hétérogènes non distinguées.Dans ce cas, la loi conditionnelle s’écrit comme suit :

f(X|θk) =k∑j=1

pjg(X|γj) oùk∑j=1

pj = 1 et pour tout j pj ≥ 0

En outre, le nombre de composantes k n’est pas forcément connu.Les paramètres sont donc (k, (pj , γj)0≤j≤k) et la loi a priori se met sous la

forme dπ(θ) = p(k)πk(p1, · · · , pk, γ1, · · · , γk). Un estimateur naturel maxi-

Page 20: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

16 Estimation ponctuelle

mise la loi a posteriori :

kπ = Argmaxkπ(k|X) =

p(k)∫

Θkf(X|θk)dπk(θk)∑kmax

k=1 p(k)∫

Θkf(X|θk)dπk(θk)

.

3.2 Importance de la statistique exhaustive

Définition 3.2.1 Statistique exhaustiveOn appelle statistique exhaustive une statistique 1 S(X) telle que la loi condi-tionnelle se décompose sous la forme :

f(X|θ) = h(X|S(X)) · f(S(X)|θ)

Ceci se récrit π(θ|X) = π(θ|S(X)). En termes informationnels, ceci si-gnifie que S résume l’information a priori.

Lorsqu’on utilise des lois impropres, le comportement d’une statistiquepeut être capricieux. Par exemple, si on considère un paramètre de la formesuivante θ = (θ1, θ2) avec π(θ) une loi impropre et pour S une statistiqueexhaustive pour θ1, nous pouvons écrire :

f(X|θ1, θ2) = g(X|θ2) · f(S|X)

Dans ce cas, il peut arriver que π(θ1|X) = π(θ1|δ) mais sans qu’il n’existede π1(θ1) tel que π(θ2, S) = f(S|X)π1(θ1)∫

Θ1f(S|θ1)π1(θ1)dθ1

. Ceci est dû au fait que la loi

a priori est impropre et s’appelle le paradoxe de marginalisation qui nousillustrons dans l’exemple qui suit.

Exemple 3.2 Paradoxe de marginalisation

– Si X1, · · · , Xn indépendants tels que Xi ∼ exp(η) et Xj ∼ exp(cη)pour 0 ≤ i ≤ ξ < j ≤ n avec c connu.Le paramètre est θ = (η, ξ) où ξ ∈ {1, 2, . . . , n− 1} et nous supposonsque la loi a priori vérifie π(η, ξ) = π(ξ), cela implique notamment quela fonction a priori est impropre en η.On peut montrer que π(ξ|X) = π(ξ|Z) en posant Z = (X2

X1, . . . , XnX1

)et f(Z|ξ, η) = f(Z|η) et pourtant il n’existe pas de π(ξ) telle queπ(ξ|Z) ∝ f(Z|ξ)π(ξ).

– Dans le cas où U1 ∼ N(µ1, σ2), U2 ∼ N(µ2, σ

2) et S2

σ2 ∼ χ2(p)p avec

U1, U2, S2 indépendants, en prenant comme paramètre une transfor-

mation de (µ1, µ2, σ2), (ξ = µ1−µ2

σ , µ1, σ2), pour π(µ1, µ2, σ

2) = 1σ2

et en posant Z = U1−U2S on montre que f(Z|µ1, µ2, σ

2) = f(Z, ξ) et

1. C’est-à-dire une fonction des données.

Page 21: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

3.3 Prédiction 17

π(ξ|U1, U2, S) = π(ξ|Z) mais π(ξ|Z) 6= f(Z|ξ)π(ξ). Pour poursuivrecet exemple, les lecteurs-trices peuvent se référer à l’exercice 3.47 (Da-vid et Ziteck) du Choix Bayésien.

3.3 Prédiction

Le contexte du problème de la prédiction est le suivant : les observationsX sont identiquement distribuées selon Pθ, absolument continue par rap-port à une mesure dominante µ et donc qu’il existe une fonction de densitéconditionnelle f(·|θ). Par ailleurs on suppose que θ suit une loi a priori π.

Il s’agit alors à partir de n tirages X1, · · · , Xn de déterminer le plusprécisément possible ce que pourrait être le tirage suivant Xn+1.Dans l’approche fréquentiste, on calcule f(Xn+1|X1, · · · , Xn, θ). Comme lerévèle la notation θ, on ne connaît pas exactement θ. On doit donc l’estimerdans un premier temps et de ce fait, on utilise deux fois les données : unefois pour l’estimation du paramètre et une nouvelle fois pour la prédictiondans la fonction f . En général, ceci amène à sous-estimer les intervalles deconfiance.

La stratégie du paradigme bayésien, désormais bien comprise par la lec-trice et peut-être un peu assimilé par le lecteur, consiste à intégrer la prévi-sion suivant une loi a priori sur θ et ce, afin d’avoir la meilleure prédictioncompte tenu à la fois de notre savoir et de notre ignorance sur le paramètre.La loi prédictive s’écrit ainsi :

fπ(Xn+1|X1, · · · , Xn) =∫

Θf(Xn+1|X1, · · · , Xn, θ)π(θ|X1, · · · , Xn)dθ

Dans le cas des tirages indépendants et identiquement distribués, ceci de-vient :

fπ(Xn+1|X1, · · · , Xn) =∫

Θf(Xn+1|θ)π(θ|X1, · · · , Xn)dθ

En considérant le coût quadratique L(θ, δ) = ‖θ− δ‖2, on peut proposerle prédicteur :

Xπn+1 = Eπ(Xn+1|X1, · · · , Xn) =

∫Xn+1f(Xn+1|X1, · · · , Xn)dXn+1

3.4 Modèle Gaussien

Nous supposons Y1, · · · , Yni.i.d∼ N (µ, σ), π(µ, σ) = 1

σ (la mesure de Haar)et π(µ, σ2) = N (µ0, (τσ)2)⊗ IG(a, b) (loi Inverse Gamma). On considère lemodèle linéaire Y = Xβ + ε, où ε ∼ N (0,Σ) avec Σ = σ2Id. Le para-mètre est θ = (β, σ2). Si σ2 est connu, alors on peut écrire π(β) = N (µ,A)où A est un hyperparamètre et π(β|Y,X) = N ((Σ−1 + A−1)−1(Σ−1β +

Page 22: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

18 Estimation ponctuelle

A−1µ), (Σ−1 + A−1)−1). La regression linéaire bayésienne retrouve les for-mules β = (X ′X)−1X ′Y et Σ = σ2(X ′X)−1. Les modèles hétéroscédastiquespeuvent aussi être étudiés.

Liens entre les modèles à effets aléatoires et le paradigmebayésien

Considérons le modèle suivant : Y une variable d’intérêt quelconque,X = 1 si un individu est un hommme X = 0 si c’est une femme, avec(Y |X) ∼ N(βX, σ2). L’hétérogénéité de gendres se traduit par :

Y = u1 + ε siX = 1Y = u2 + ε siX = 0

⇒ Y = Xu1 + (1−X)u2 + ε

On suppose que u1 ∼ N (0, τ21 ) et que u2 ∼ N (0, τ2

2 ). Les effets aléatoiressignifient que β est aléatoire : β ∼ N (β0, A)

La variabilité est plus grande que ce que le modèle aléatoire propose, leseffets aléatoires augmentent la variance sans changer le modèle. La limiteentre le modèle bayésien hiérarchique et modèle à effet aléatoire est fine.

3.5 Mesure d’erreur

Pour mesurer une erreur, il est nécessaire d’introduire une fonction deperte, nous l’appellerons ici traditionnellement L = L(θ, δ). On définit en-suite le risque fréquentiste R(θ, δ) et le risque a posteriori ρ(π, δ|X).

Le but est d’estimer la fonction de perte pour δ donné mais l’utilisationdouble des données tend à sous-estimer les erreurs, ce qui limite cette dé-marche. On a évidement L(δ, δ) = 0 donc estimer une erreur en un point n’apas de sens. L’idée est d’introduire une fonction de perte sur les fonctions deperte et d’estimer ` = L(θ, δ) ∈ Λ ⊂ R+ :

L : Θ× Λ×D → R

(θ, `, δ) 7−→ L(θ, `, δ)

En appliquant dans ce contexte, le principe bayésien, maintenant maîtrisépar les lecteurs-trices et qui consiste à intégrer sur les paramètres, on définitle risque : ρ(π, δ, `|X) = Eπ

[L(θ, `, δ|X)

]. On cherche alors à calculer ˆ =

argmin` ρ(π, δ, `|X).

Exemple 3.3 Perte quadratiqueSi L(θ, `, δ|X) = (`−L(θ, δ))2, alors ρπ = Eπ [L(θ, δ|X)]. Si de plus, L(θ, δ) =‖θ − δ‖2, alors ρπ = Eπ

[(θ − δ)2|X

]et puisqu’en toute logique, on choisit

δ = δ∗ = Eπ [θ|X], on a :ρπ = V π [θ|X]

Page 23: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

3.5 Mesure d’erreur 19

Page 24: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

20 Estimation ponctuelle

Page 25: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 4

Tests et régions de confiance

4.1 Région de confiance

4.1.1 Définitions

Définition 4.1.1 Région α-crédibleUne région C de Θ est dite α-crédible si et seulement si P π(θ ∈ C|X) > 1−α.

Notons que le paradigme bayésien permet une nouvelle fois de s’affranchird’un inconvénient de l’approche fréquentiste. En effet, au sens fréquentiste,une région de confiance C est définie par ∀θ, Pθ(θ ∈ C) ≥ 1−α et correspondà l’interprétation suivante. En refaisant l’expérience un grand nombre defois, la probabilité que θ soit dans C est plus grand que 1 − α. Une régionde confiance n’a donc de sens que pour un très grand nombre d’expériencestandis que la définition bayésienne exprime que la probabilité que θ soit dansC au vue des celles déjà réalisées est plus grande que 1 − α. Il n’y a doncpas besoin ici d’avoir recours à un nombre infini d’expériences pour définirune région α-crédible, seule compte l’expérience effectivement réalisée.

Il y a une infinité de régions α-crédibles, il est donc logique de s’intéresserà la région qui a le volume minimal. Le volume étant défini par vol(C) =∫C dν(θ), si π(θ|X) est absolument continue par rapport à une mesure deréférence ν.

Définition 4.1.2 Région hpd (highest posteriori density)Cπα est une région hpd si et seulement si Cπα = {θ, π(θ|X) ≥ hα} où hα estdéfini par hα = sup {h, P π({θ, π(θ|X) ≥ h} |X) ≥ 1− α}.

Cπα est parmi les régions qui ont une probabilité supérieure à 1 − α decontenir θ (et qui sont donc α-crédibles) et sur lesquelles la densité a poste-riori ne descend pas sous un certain niveau (restant au dessus de la valeurla plus élevée possible).

Théorème 4.1 Régions hpdCπα est parmi les régions α-crédibles celle de volume minimal si et seulement

Page 26: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

22 Tests et régions de confiance

si elle est hpd.Démonstration : On considère le problème dual.

minC, Pπ(C|X)≥1−α

vol(C)⇔ maxC, vol(C)=V

P π(C|X) où V constante

Il suffit alors de montrer que pour tout C telle que π(C∆Cπα) > 0 (en notantC∆Cπα l’ensemble tel que C∆Cπα = Cπα ∩Cc

⋃Cπα

c∩C), si vol(C) = vol(Cπα)alors P π(C|X) < P π(Cπα |X).∫

Cπ(θ|X)dν(θ)−

∫Cπα

π(θ|X)dν(θ) =∫C∩Cπαπ(θ|X)dν(θ)−

∫Cπα∩Ccπ(θ|X)dν(θ)

Or, comme C et Cπα ont même volume,∫C∩Cπα

dν(θ) =∫Cπα∩Cc

dν(θ). Commeπ est dominé par ν, ces volumes sont strictement positifs. En outre :

–∫C∩Cπα

π(θ|X)dν(θ) < hα vol(C ∩ Cπα)–∫Cπα∩Cc

π(θ|X)dν(θ) ≥ hα vol(Cπα ∩ Cc)d’où finalement P π(C|X) < P π(Cπα |X).

Exemple 4.1 Par les calculsSi X1, · · · , Xn

i.i.d∼ N (µ, σ2) et π(µ, σ) = 1σ , alors

π(µ, σ2|X1, · · · , Xn) ∝ e−n(Xn−µ)2

2σ2 e−S2

n2σ2

où Xn = 1n

∑ni=1Xi et S2

n =∑n

i=1(Xi −Xn)2. On a alors :

π(µ|σ2, X1, · · · , Xn) = N (Xn,σ2

n) de densité :

√n

σ√

2πe−n(Xn−µ)2

2σ2

π(σ2|X1, · · · , Xn) ∝ e−Sn2σ2

σn+1

Il est important de remarquer qu’on a ici une formule explicite en µ, c’estce qui va nous permettre de poursuivre le calcul dans ce cas exceptionnel.Notons que la calculabilité repose parfois sur la notion de loi conjuguée. Icion est dans un cas limite, la famille conjuguée de la loi normale est la familledes lois normales ; la loi a priori π(µ, σ2) = 1

σ2 est en fait une loi normaledégénérée (la variance est infinie).

Des lois précédentes, on déduit :

π(µ|X1, · · · , Xn) ∝∫ ∞

0

1σen(Xn−µ)2

2σ2e−Sn2σ2

σn+1dσ2

∝∫ ∞

0

1σn+2

e−1

2σ2 (n(Xn−µ)2+Sn)dσ2

Page 27: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4.1 Région de confiance 23

On reconnaît une loi inverse gamma 1 :

σ2 ∼ IG

((n(Xn − µ)2 + Sn)

2,n

2

)∝

(1 +

n(Xn − µ)2

Sn2

)−n2

Ainsi µ−Xn√Snn

∼ St(n) 2.

On peut désormais calculer Cπα,µ = {µ, π(µ|X1, · · · , Xn) ≥ 1− α} et Cπα,σ ={σ, π(σ|X1, · · · , Xn) ≥ 1− α}.

π(µ|X1, · · · , Xn) ≥ kα = (1 +n(Xn − µ)2

Sn2 )−

n2 ≥ kα

⇐⇒ n(Xn − µ)2

Sn2 ≤ ˜kα

⇐⇒ −√˜kα ≤

√n(Xn − µ)Sn

≤√˜kα

Comme√n(Xn−µ)Sn

suit un Student à n2 degré de liberté, on connaît la valeur

de ˜kα qui est le carré du quantile d’ordre α2 . On peut ensuite remonter à kα

puisque ˜kα est une transformation bijective de kα. Résumons : kα est tel que

P (St(n

2) ≤

√˜kα) = 1− α

Ainsi :

Cπα,µ =

[Xn − tn

2(1− α

2)

√S2n

n;Xn + tn

2(1− α

2)

√S2n

n

]Pour comparer, nous rappelons la région de confiance fréquentiste bien connue

du lecteur une fois que l’on a pris conscience que√

S2nn n’est autre que σ2

n

(au maximum de vraisemblance) 3 :

Cπα,µ =

Xn − t(n−1)(1−α

2)

√σ2n

n;Xn + t(n−1)(1−

α

2)

√σ2n

n

On s’interesse maintenant au calcul de la région de confiance relative à σ2 :

Cπα,σ2 ={σ2;π(σ2|X1, · · · , Xn) ≥ gα

}1. La densité de IG(a, b) est ga,b(x) = x−(a+1)e−

bx ba

Γ(a).

2. On rappelle que u suit une loi de Student à p degré de liberté si gp(u) ∝ (1 +u2)−p.3. La différence est dans l’ordre du quantile de Student, il y a donc équivalence asymp-

totique.

Page 28: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

24 Tests et régions de confiance

Comme on a montré que π(σ2|X1, · · · , Xn) ∝ e−Sn2σ2

σn+1 :

π(σ2|X1, · · · , Xn) ≥ gα ⇐⇒e−Sn2σ2

σn+1≥ gα

On ne reconnaît pas là de loi connue. Il faut donc établir une table de valeurpour déterminer gα. Remarquons que le mode de la loi a posteriori est uniqueet vaut S2

nn+1 , il est alors assez simple de déterminer une procédure numérique

calculant gα. Pour un k donné, les deux solutions de e−Sn2u

un+1

2= k 4 permettent

de calculer l’aire sous la courbe et délimitée par ces deux solutions : si cetteaire est plus grande que 1 − α on baisse k et on l’augmente sinon ; ensuitecette démarche est renouvelée en fonction de la précision souhaitée.

Pour prolonger cet exemple, il est envisageable d’étudier les régions deconfiance liées au paramètre θ = (µ, σ2).

4.1.2 Calcul de région hpd

Pour calculer les régions hpd, il y a plusieurs méthodes :

1. Méthode analytique et numérique : c’est ce qui a été fait lors del’exemple précédent. Précisons une nouvelle fois que cette méthodene peut s’appliquer que dans des cas assez rares.

2. Méthode par approximation : cette méthode peut être appliquée si lemodèle est régulier : log(π) est C2 et θ tend vers θ pour Pθ.

3. Méthode de simulation que nous développons ci-après.

• Méthode par approximationConsidérons l’estimateur map θπ = Argmaxθ log(θ) + log π(θ) avec

log(θ) = log f(Xn|θ) pour un échantillon Xn = (X1, · · · , Xn). On peut mon-

trer que : π(θ|X1, · · · , Xn) = e−n(θ−θ)′ In2 (θ−θ)

|In|−12 (2π)

k2

où In = I(θπ) est l’information

de Fisher pour une observation prise en la valeur du map et k est tel queΘ ⊂ Rk. Ainsi, les propriétés asymptotiques bayésiennes ressemblent à cellesde l’estimateur du maximum de vraisemblance. L’idée est d’appliquer ce ré-sultat aux régions hpd : π(θ|X1, · · · , Xn) ≥ kα ⇐⇒ n(θ− θ′In(θ− θ)) ≤ gα.On trouve alors des ellipses de taille 1

n telles que gα proche du quantiled’ordre 1− α d’un chi-deux χ2

k.• Méthode de simulation

Le principe repose sur la méthode mcmc qui seront développées plusloin 5. Si θ1, · · · , θT iid∼ π(θ|X1, · · · , Xn) alors lorsque θ ∈ R, on s’intéresse

4. Il peut être judicieux de faire un dessin.5. Méthodes de Monte-Carlo par Chaînes de Markov ; voir notamment ? ].

Page 29: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4.1 Région de confiance 25

aux intervalles (quantiles empiriques) de la forme[θ(α

2), θ( 1−α

2)]tels que

P π(θ ∈[θ(α

2), θ( 1−α

2)]|X1, · · · , Xn) −→

T→+∞1− α

Pour T grand, θα2 s’approche du quantile d’ordre α

2 de la loi a posterioriπ(θ|X1, · · · , Xn). Cette région n’est pas nécessairement hpd mais reste α-crédible. Cette méthode est particulièrement adaptée lorsque la loi a prioriest unimodale. Il est toujours utile de représenter graphiquement les sortiespour fixer les idées. Enfin, il est aussi envisageable d’avoir recours à uneestimation non paramétrique par noyaux.

• Remarques sur les régions hpd

Non-invariance par reparamétrisation

Considérons Cπα = {θ;π(θ|X) ≥ hα} une région hpd et un C1-difféomorphismeη = g(θ) alors on peut définir : Cπα =

{θ; π(η|X) ≥ kα

}.

En général, Cπα 6= g(Cπα) 6. En effet, π(η|X) = π(θ(η)|X)×∣∣∣ dθdη ∣∣∣ donc{

θ; π(η|X) ≥ kα}

={θ;π(θ(η)|X)

∣∣∣ dθdη ∣∣∣ ≥ kα}.Exemple 4.2 N (θ, 1)Supposons π(θ) = 1 et π(θ|X) = N (X, 1), posons η = eθ.

Comme π(θ|X) ≥ h⇐⇒ (θ −X)2 ≤ (φ−1(1− α))2,Cπα,θ =

[X − φ−1(1− α);X + φ−1(1− α)

].

D’un autre côté, π(η|X) ∝ 1ηe− (X−log(η))2

2 . Ainsi :

π(η|X) ≥ gα ⇐⇒ (X − log(η))2

2+ log(η) ≤ gα

⇐⇒ (2X − log(η))2

2− X2

2≤ gα

⇐⇒ (2X − log(η))2 ≤ gα⇐⇒ log(η) ∈

[2X − φ−1(

α

2); 2X + φ−1(

α

2)]

On vérifie sur cet exemple que le lien entre Cπα,θ et Cπα,η ne correspond pas àla transformation initiale (exponentielle).

Nous pouvons comprendre pourquoi une région de confiance n’est pasinvariante par reparamétrisation. En effet, cette région se définit comme unesolution du problème de minimisation suivant :

Cπα = argminC, Pπ(C|X)≥1−α

vol(C)

6. Toujours à cause du jacobien. . .

Page 30: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

26 Tests et régions de confiance

où V ol(C) =∫C dθ. C’est là que le bât blesse : la mesure de Lebesgue n’est

pas invariante par reparamétrisation. Une idée pour lever cette difficulté estdonc logiquement d’abandonner la mesure de Lebesgue et de considérer pourune mesure s :

Cπα,s = argminC, Pπ(C|X)≥1−α

∫ds(θ)

Lien avec la théorie de la décision

En revenant à la notion de région de confiance, il est judicieux de remar-quer qu’il s’agit d’un problème de minimisation sous contrainte. L’idée estalors que la région de confiance minimise un fonction de perte. En particulier,on peut penser à la forme suivante :

L(C, θ) = V ol(C) + k(1− 1θ∈C)

qui correspond au risque a posteriori :

ρπ(C|X) = vol(C) + k(1− P π(C|X))

Nous pouvons observer un problème dans l’expression suivante, le secondterme varie entre 0 et k, tandis que le volume peut prendre des valeurs dansR+. Pour résoudre ce problème, une idée est de définir une probabilité surC (avec évidemment l’épineuse question du choix de cette probabilité), uneautre idée étudiée est de prendre dans la fonction de perte vol(C)

1+vol(C) à la placede vol(C) mais le comportement qui s’en déduit ne suit pas le maximum devraisemblance, qualité pourtant recherchée.

4.2 Test

Comme nous l’avons vu précédemment, un test se formalise de la manièresuivante : on définit une hypothèse nulle H0 : θ ∈ Θ0 et une hypothèsealternative H1 : θ ∈ Θ1 de telle sorte que Θ0 ∩Θ1 = ∅ et Θ0 ∪Θ1 ⊂ Θ.

Pour le modèle paramétrique X ∈ (X ,B, {Pθ, θ ∈ Θ}), Θ0 ∪Θ1 ⊂ Θ. Lecas propre correspond au cas où la loi a priori est telle que si θ suit la loi πalors π(Θ0) + π(Θ1) = 1 = π(Θ) 7. Cette dernière condition peut s’exprimeraussi sous la forme suivante : π(Θ \ (Θ0 ∪Θ1)) = 0.

4.2.1 Approche par la fonction de perte de type 0–1

Dans cette partie, l’espace des décisions est D = {0, 1}, la décision icorrespondant à accepter Hi, i = 0, 1. La fonction de perte est alors lasuivante :

L(θ, δ) ={

0 si δ = 1θ=θ11 si δ = 1θ=θ0

7. c’est-à-dire π(Θ \Θ1 ∪Θ0) = 0.

Page 31: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4.2 Test 27

Comme cela a été montré précédemment, l’estimateur bayésien associé àcette fonction de perte est :

δπ(X) ={

1 si P π(Θ1|X) ≥ P π(Θ0|X)0 sinon

Exemple 4.3 Loi binomiale

Exemple 4.4 Loi normaleX ∼ N (θ, σ2) avec σ2 connu, θ ∼ N (µ, τ2) et pour :

L(θ, δ) =

0 si δ = 1θ∈Θ1

a0 si δ = 1θ∈Θ0

a1 si δ = 0, θ ∈ Θ1

Alors :

δπ(X) = 1 ⇐⇒ a0Pπ(Θ0) < a1P

π(Θ1|X)

Ainsi, δπ(X) = 1⇐⇒ P π(Θ1|X) > a0a0+a1

.Pour tester l’hypothèse H0 : θ < 0 contre H1 : θ ≤ 0, on calcule

π(θ|X) ∝ e−(X−θ)2

2σ2 e−(θ−µ)2

2τ2

∝ e−(θ−µ(X))2

2V 2 = N (µ(X), V )

où µ(X) =Xτ2

σ2 + τ2+

µσ2

σ2 + τ2et V =

σ2τ2

σ2 + τ2

Notons une dualité entre la fonction de perte µ et la loi a priori (a0, a1).On peut prendre à l’une pour donner à l’autre comme l’illustre l’exempleprécédent. La détermination d’une fonction de risque ne peut se dissocierde celle de la loi a priori puisqu’elle correspond à une façon de sanctionnerl’erreur. Ceci s’explique par le fait que le statisticien a une idée a priori surla répartition de l’erreur et donc sur la loi a priori du paramètre. Prendreµ >> 0 équivaut à a0 << a1.

Ce dernier point se retrouve dans le cas des fonctions de perte quadra-tiques de la forme L(θ, δ) = ω(θ)(θ−δ)2 où seul le produit ω ·π compte dansl’estimateur bayésien associé δπ(X) =

∫Θ θω(θ)f(X|θ)dπ(θ)∫Θ ω(θ)f(X|θ)dπ(θ)

.Afin de rendre absolue la fonction de perte et qu’elle ne dépende plus de laloi a priori, nous introduisons dans la partie suivante le facteur de Bayes.

Page 32: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

28 Tests et régions de confiance

4.2.2 Facteur de Bayes

L’idée à l’origine de cette notion est de limiter l’importance du choix apriori de a0 et a0 introduits ci-dessus.

Définition 4.2.1 Facteur de BayesLe facteur de Bayes est défini par B0/1 = Pπ(Θ0|X)

Pπ(Θ1|X)×π(Θ1)π(Θ0) dès que π(Θ0) > 0

et π(Θ1) > 0.Le problème de définition relatif au Θi n’est en réalité que peu gênant

puisque si π(Θi) > 0, i = 0, 1 alors cela signifie que l’hypothèse i ne peutêtre acceptée a priori et donc, le risque correspondant ne peut pas être cor-rectement défini. Cependant, même s’il peut être naturel de ne pas prendreen compte le cas de probabilité nulle pour Θ0, le cas où Θ0 est de mesurenulle sans être vide peut s’avérer être problématique. A ce moment là, touteloi a priori est nulle sur Θ0 sans qu’il soit absurde de considérer des tests.

C’est le cas notamment pour l’estimation ponctuelle : Θ0 = {θ0} ou lestests de significativité dans les modèles de régression. Pour une loi a prioriabsolument continue par rapport à la mesure de Lebesgue, π(Θ0) = 0. Il fautdonc veiller à ne pas se placer dans un tel cas.

En écrivant un modèle linéaire sous la forme :

y = x1β1 + · · ·+ xpβp + ε

, le test de significativité de xp s’écrit : H0 : βp = 0 et H1 : βp 6= 0. A seuil designificativité (et p-value correspondante) fixé, l’augmentation du nombred’observations mène à refuser plus souvent H0, hypothèse ponctuelle. Enréalité, le problème peut se reformuler en précisant que le statisticien 8 veuten réalité tester |βp| < ε, mais reste la difficulté majeure que ε est inconnuet dépend du contexte de l’étude.

L’idée est d’introduire une masse de Dirac en 0 et de considérer à ε fixé,ρε = π(θ, |θ − θ0| < ε) et de choisir comme loi :

π(θ) = ρεδθ0 + (1− ρε)π1(θ)

où δθ0 mesure de Dirac en θ0 et π1(θ) absolument continue par rapport à lamesure de Lebesgue.

Le facteur de Bayes permet de s’affranchir du choix de ρ et de limiterl’influence du choix de ε 9. En effet, dans ce cas Θ1 = Θ\Θ0 et le facteur deBayes s’écrit (les termes en ρ se simplifient) :

B0/1 =f(X|θ0)∫

Θ f(X|θ)π1(θ)dθ

Ainsi, le facteur de Bayes peut s’interpréter comme le rapport de la vraisem-blance sous H0 par celle sous H1. Il peut s’utiliser comme une p-value : pour

8. ou économètre. . .9. Noter la correspondance entre choisir ρ et ε.

Page 33: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4.2 Test 29

B0/1 grand par rapport à 1, on accepte H010, et H1 pour des petites valeurs,

autour de 1 il n’est pas possible de conclure, c’est une zone floue.Plus généralement, pour

dπ(θ) = ρdπ0(θ)1θ∈Θ0 + (1− ρ)dπ1(θ)1θ∈Θ1

avec ∫Θ0

dπ0(θ)dθ =∫

Θ1

dπ1(θ)dθ = 1

le facteur de Bayes s’exprime :

B0/1 =ρ∫

Θ0f(X|θ)dπ0(θ)

(1− ρ)∫

Θ1f(X|θ)dπ1(θ)

× 1− ρρ

=m0(X)m1(X)

où mi(X) =∫

Θif(X|θ)dπi(θ) est la vraisemblance intégrée sous Hi.

Une remarque importante concerne le cas où dπ0 ou dπ1 n’est pas propre :B0/1 n’est alors pas défini de manière unique 11. En effet, si une loi est im-propre (par exemple dπ0) alors elle est définie à une constante multiplicativeprès. Pour dπ∗0(θ) = c dπ0(θ) alors le facteur de Bayes est lui aussi multipliépar c : B∗0/1 = B0/1 et par conséquent les ordres de grandeur de B0/1 n’ontplus de sens : il n’est plus possible de comparer ses valeurs à 1 comme leprécise l’exemple qui suit.

Exemple 4.5 Cas improprePour X ∼ N (θ, 1) et π(θ) = c, on considère le test suivant : H0 : θ = 0 etH1 : θ 6= 0. Dans ce cas, le facteur de Bayes est :

B0/1 =1∫

Θ1e−

(x−θ)22 dθ

=1C

Le facteur de Bayes est donc une constante et n’a pas d’interprétation.Pour remédier à ce problème, on envisage de réduire l’intervalle des pa-

ramètres de R à [−M ;M ], mais de la même façon que le choix de ε plushaut était influent, celui de M n’est pas sans conséquence sur l’expressiondu facteur de Bayes.

On peut aussi jouer sur la variance ; en adaptant l’exemple précédentavec X ∼ N (θ, 1) et θ ∼ N (0, V ), le choix d’une grande variance V permetde jouer sur le facteur de Bayes. Ainsi, cette stratégie n’est pas satisfaisante.

En conclusion, retenons que les tests requièrent des lois a priori propreset bien justifiées. C’est un problème parce qu’une loi non informative est engénéral impropre. Notons que ces défauts proviennent en partie du choix dela fonction de perte. La section suivante a pour but de généraliser le facteurde Bayes aux lois impropres.

10. par exemple, pour une valeur proche de 12, H0 est 12 fois plus vraisemblable queH1.11. Et n’a donc pas beaucoup de sens. . .

Page 34: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

30 Tests et régions de confiance

4.2.3 Variations autour du facteur de Bayes

Nous nous plaçons dans le cas des lois a priori impropres pour définir lefacteur de Bayes intrinsèque. L’idée est d’utiliser une partie de l’échantillonde départ pour travailler avec des lois propres.

Définition 4.2.2 Echantillon d’apprentissage (Training sample)Si Xn = (X1, · · · , Xn) sont les données, un sous-échantillon de Xn de taille` s’écrit X(`) = (Xi1 , · · · ), Xil , ` = i1, · · · , il ⊂ 1, · · · , n. Cet échantillon estdit d’apprentissage si et seulement si

∫Θ f(X(`)(θ)π(θ)dθ < +∞.

Il est ainsi possible de construire une loi a priori à partir de X(`).

Définition 4.2.3 Echantillon d’apprentissage minimalX(`) est un échantillon d’apprentissage minimal si pour tout sous-échantillonstrict de X(`) l’intégrale précédente sur ce sous-échantillon est impropre.

Le facteur de Bayes intrinsèque est alors défini pour Hi : θ ∈ Θi, munide la loi dπi (i = 0, 1).

Définition 4.2.4 Facteur de Bayes intrinsèqueSi X(`) échantillon d’apprentissage pour Θ0 et Θ1 et minimal pour la réuniondes deux 12, le facteur de Bayes intrinsèque est défini par :

B(`)0/1 =

∫Θ0f(X(−`)|θ)π0(θ|X(`))dν(θ)∫

Θ1f(X(−`)|θ)π1(θ|X(`))dν(θ)

où X(−`) = Xi, /∈ `.En faisant apparaître la loi jointe de X(`) et X(−`) 13, le facteur de Bayes

intrinsèque s’écrit :

B(`)0/1 =

Bπ0,π1

0/1 (Xn)

Bπ0,π1

0/1 (X(`))

avec des notations « claires », étant donné que le facteur de Bayes dépendde l’échantillon considéré. Moyenner sur les différents sous-échantillons X(`)

permet de s’affranchir de cette propriété.

Pour éviter de moyenner sur les sous-échantillons, O’Hagan a introduitle facteur de Bayes fractionnaire.

Définition 4.2.5 Facteur de Bayes fractionnaireIl est défini par :

FBF(b)0/1 = B0/1 ×

∫Θ1f b(X|θ)dπ1(θ)∫

Θ0f b(X|θ)dπ0(θ)

12. Nous supposons ainsi qu’il existe ; c’est presque toujours le cas, sinon c’est que leproblème doit être repensé à la base.13. Celle de Xn !

Page 35: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4.2 Test 31

b = inf{t > 0;

∫Θ1

f (t)(X|θ)dπ1(θ) < +∞,∫

Θ0

f (t)(X|θ)dπ0(θ) < +∞}

Notons que cette méthode présente l’inconvénient d’utiliser deux fois lesdonnées. Cependant, tout ce qui a été présenté dans cette section a unejustification asymptotique ; en particulier, b défini ci-dessus est très vraisem-blablement de la forme 1

n .

Exemple 4.6 Interprétation du facteur de Bayes fractionnaire comme vrai-semblance pénaliséeConsidérons le modèle linéaire M[1,n] :

y = X1β1 + · · ·+Xpβp + ε ε ∼ N (0, σ2)

Le problème consiste à sélectionner les Xj significatifs. A un sous-ensemble[`] donné d’éléments, on associe le modèle M[`] et l’on s’intéresse à β[`] ={βj , j ∈ [`]}.

Le maximum de vraisemblance est donné par f(X|β`, σ2,M[`]) et on re-garde Argmax` f(X|β`, σ2,M[`]). Le maximum est donné par le modèle leplus gros qui inclut toutes les variables proposées dans le modèle de départ.Cependant, il faut garder en tête que β et σ sont considérés comme connus.En fait, c’est là la justification de la pénalisation, il faut tenir compte de l’in-certitude sur les paramètres qui s’ajoute en gardant toutes les variables. C’estpourquoi, pénaliser permet de ne prendre en compte qu’un nombre limité etraisonnable de variables.

Pour une loi a priori dépendant des variables retenues π(l), le critèreretenu est de la forme :

`n(π(l)) = `n(θπ(l))− pen(n, `)︸ ︷︷ ︸

critère de pénalité

Le rapport suivant permet ainsi de comparer les deux modèles et de prendreen compte l’incertitude sur les paramètres :

BF`/`′ =

∫Θ`f`(Xn|θ`)dπ`(θ`)∫

Θ`′f`′(Xn|θ`′)dπ`′(θ`′)

4.2.4 Propriétés asymptotiques des facteurs de Bayes

Cette section cherche en outre à établir un lien entre le facteur de Bayes etla vraisemblance pénalisée. Le contexte est désormais usuel :Xn = (X1, · · · , Xn)

Page 36: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

32 Tests et régions de confiance

et Xn iid∼ f(X, θ), θ ∼ π, le test s’écrit toujours H0 : θ ∈ Θ0 et H1 : θ ∈ Θ1

dans le cadre un peu plus restreint Θ ⊂ Rd.Si le modèle est régulier et si θ0 ∈ Θ0 tel que π1(θ0) > 0 et de surcroît

dπj(θ) = πj(θ)d(θ), alors dans le cas où :

dπ(θ) = απ0(θ)1Θ0(θ) + (1− α)π1(θ)1Θ1(θ),

on peut définir une sorte de rapport de vraisemblance par :

B0/1 =

∫Θ0elog(θn)dπ0(θ)dθ∫

Θ1elog(θn)dπ1(θ)dθ

où log(θn) désigne log(f(Xn|θ)) la valeur de la log-vraisemblance.Les propriétés asymptotiques de B0/1 découlent du maximum du rapport

de vraisemblance et sont les suivantes :– si θ0 ∈ Θ0, B0/1

Pθ0−→n→+∞

+∞

– si θ0 ∈ Θ1, B0/1

Pθ0−→n→+∞

0

Ainsi le facteur de Bayes distingue la bonne hypothèse, avec une proba-bilité qui tend exponentiellement rapidement avec n vers 1. Le facteur deBayes est dit consistant.

Remarquons que l’hypothèse π1(θ0) > 0 peut paraître illusoire étantdonnée la propriété Θ0 ∩ Θ1 = ∅. En réalité, cela peut être le cas si parexemple Θ0 est dans l’adhérence de Θ1 ; en particulier, si Θ1 est de dimensionk, on peut trouver de tels Θ0 de dimension k − 1. Même si cela semblecontraignant, il faut se rendre compte que ce cas recouvre un grand nombrede problèmes comme nous le verrons plus loin.

Dans le cadre d’hypothèses « pseudo ponctuelles » de la forme Θ0 = {θ0}ou Θ = {θ1, θ2} et Θ0 = {θ1 = θ1,0} et pour Θ1 = Θ \ Θ0, si π1 estabsolument continu par rapport à la mesure de Lebesgue alors π1(Θ0) = 0et π(Θ1) = π(Θ) = 1. Comme l’illustre l’exemple suivant, l’hypothèse ainsiformulée est « trop petite ». L’idée est que θ0 est autant dans Θ1 que dansΘ0 au sens où θ0 appartient à l’adhérence de Θ1.

Exemple 4.7 Hypothèse pseudo-ponctuelleOn regarde un modèle que l’on suppose mélangé au sens où il se pourraitque certains éléments soient tirés suivant une loi d’un certain paramètre etd’autres suivant la loi avec un autre paramètre. La vraisemblance est alors :p · f(X|θ1) + (1− p) · f(X|θ2).

Ainsi, Θ = (p, θ1, θ2) et on définit : H0 : p = 1 ou θ1 = θ2. Cela cor-respond à n’avoir qu’un paramètre ou deux : Θ1 est de dimension 2, Θ0 estde dimension 1. Le facteur de Bayes converge exponentiellement vers 0 sousHO et de façon polynômiale vers l’infini sous H1. Le problème est que l’onteste une hypothèse « trop petite » et qu’il est difficile d’accepter H0.

Page 37: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

4.2 Test 33

Considérons le cadre particulier d’un choix de modèle dans une famillecroissante de modèles : ∀jΘj ⊂ Θj+1 tels que πj(Θj) = 1. L’inclusion doit secomprendre comme le fait que lorsqu’on est dans un modèle on est aussi dansun autre « plus grand ». L’exemple du nombre de variables explicatives dansune regression linéaire est en ce sens parlant. Le but du choix de modèle estd’établir une procédure qui permet de sélectionner le modèle « le plus petit »possible, c’est-à-dire le plus précis 14. Si θ0, la vraie valeur, est contenue dansΘj \ Θj−1 alors on veut sélectionner Θj comme étant le plus petit modèlecontenant θ0 et ce avec un probabilité tendant vers 1 lorsque n→ +∞.

Théorème 4.2 Hypothèses emboîtéesSi ∀j θ ∈ Θj 7−→ fj(X, θ) est régulière sur Θj , et si ∀j la loi a priori,continue sur Θj , est telle que πj(Θj) = 1 et πj(Θj−1) > 0 alors en notant θkle maximum de vraisemblance sur Θk et dk la dimension de Θk :

log

(mn,h(Xn)mn,h−1(Xn)

)= log(θk)− log(θk−1)−

(dk − dk−1

2

)log( n

)+O(1)

On voit apparaître ici un rapport de vraisemblance pénalisé 15. Cela corres-pond au critère BIC. Il est utile de formuler les hypothèses sous la formed1 < d2 < · · · où ∀j Θj ⊂ Rdj . L’idée à la base des critères BIC et AIC estque l’augmentation du nombre de paramètres à estimer augmente l’incerti-tude et qu’il faut pénaliser le fait qu’on fait comme si les valeurs estiméessont les vraies valeurs. On pénalise donc pour prendre en compte cette in-certitude.

Comme le montre l’exemple qui suit, le choix de modèle peut être consi-déré comme un cas particulier de test et donc on peut utiliser le facteur deBayes.

Exemple 4.8 Choix de modèleConsidérons H0 : X ∼ N (θ, σ2)θ ∈ R, σ > 0 sous π0(θ, σ2) et H1 : X ∼C(θ, σ) 16 sous π0(θ, σ).

Le facteur de Bayes s’écrit :

B0/1 =

∫R×R+ e

− (X−θ)2

2σ2 π0(θ,σ2)√2πσ2

dθdσ∫R×R+

πσ

1

1+(X−θσ )2π1(θ, σ)dθdσ

14. En effet, on rappelle au lecteur que dans une régression linéaire la qualité de lareprésentation ne peut qu’augmenter avec le nombre de variables explicatives. C’est unmoyen parfois artificiel de faire augmenter le sacro-saint R2 mais en augmentant les pro-cédures de calcul. S’il veut plus d’explications, le lecteur peut s’adresser à la lectrice quia bien suivi l’enseignement d’économétrie dispensé à l’Ensae.15. Notons que O(1) masque le logarithme du déterminant de la matrice d’information

de Fisher.16. Une loi de Cauchy de paramètre (θ, σ) admet comme densité par rapport à la mesure

de Lebesgue f(X|θ, σ) = π

σ[1+(X−θσ )

2]

Page 38: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

34 Tests et régions de confiance

Remarquons que le rapport de Bayes est une réponse à la fonction de perte0–1 correspondant à X1, · · · , Xn

i.i.d.∼ f , {fθ θ ∈ Θ} = F , H0 : f ∈ F .Lors d’une simplification de modèle, si on cherche à savoir dans quelle

mesure un modèle en approche bien un autre 17, il faut considérer une dis-tance entre la fonction f à approcher et la famille de modèle F par laquelleon veut approcher f . On considère une fonction de perte au lieu de la perte0–1 simple. Pour δ ∈ 0, 1 :

L(θ, δ) ={

(d(f,F)− ε)1d(f,F)>ε si δ = 0(ε− d(f,F))1d(f,F)<ε si δ = 1

Il faut que les lois qu’on regarde (de mesure nulle dans l’espace des loison le rappelle) ait un critère particulier pour qu’on puisse les différencier desautres lois. Ces lois particulières définissent un ensemble F0.

Pour résoudre notre problème il faut définir une loi a priori sur l’espacede dimension infinie contenant les lois de distribution 18. Cette loi π1 doitêtre centrée autour de F0. Si l’hypothèse H0 était vraie alors il existerait θtel que Fθ(X) ∼ U [0, 1], ∀θ ∈ Θ, Fθ(X) est une variable aléatoire sur [0, 1].Et puisque si X ne suit une loi Fθ pour aucun θ alors Fθ(X) n’est pas unevariable aléatoire à répartition uniforme sur [0, 1], on a un élément qui nouspermet d’établir une stratégie de test.

Exemple 4.9 On suppose ici Θ ={f, log(f) ∈ L2[0, 1]

}et on considère une

base orthonormale (φj)+∞j=0 quelconque de L2[0, 1]. Sur cette base, on décom-

pose log f par ψ = (ψj)j≥0 en écrivant log f =∑∞

j=0 ψjφj(X). On définitalors gpsi = e

∑∞j=0 ψjφj(X)−c(ψ) : s’il existe ψ0 tel que ∀u ∈ [0, 1], gψ0(u) = u,

ce sera centré.

4.2.5 Calcul du facteur de Bayes

On se place dans le cadre habituel : pour j = 0, 1, Hj : θ ∈ Θj muni dedπj (loi a priori) et fj(X|θ) (loi conditionnelle). Rappelons l’expression dufacteur de Bayes :

B0/1 =

∫Θ0f0(X|θ)dπ0(θ)∫

Θ1f1(X|θ)dπ1(θ)

Les différentes méthodes de calcul sont les suivantes :– Formules analytiques de B0/1 (rare, correspond au forme conjuguée)– Approximation par BIC si : les modèles sont réguliers, le max de vrai-

semblance se calcule sous H0 et H1 et de nombreuses observations sontdisponibles

– Méthodes par simulations (ou de Monte-Carlo) à partir de tirages indé-pendants des lois πj , j = 0, 1, on estime les intégrales grâce aux contre-parties empiriques (très grande nombre d’observations nécessaires)

17. c’est-à-dire avoir une idée de qualité (distance) au lieu d’une simple réponse binaire18. d’où une approche non paramétrique.

Page 39: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 5

Propriétés asymptotiques desapproches bayésiennes

5.1 Théorie générale

Cette partie s’appuie en particulier sur les travaux de Ibragimov & Khas’mins-kii (1985) [1].

On considère le cadre désormais classique : Xn ∼ f(Xn|θ) où f est unedensité absolument continue par rapport à une mesure µ et θ ∈ Θ ⊂ Rd. Ondéfinit la forme suivante :

Zn,θ(u) =f(Xn|θ + φnu)

f(Xn|θ)

où (φn)n∈N∗ ↘ 0, défini à une constante multiplicative près et un ∈ Un =φ−1n (Θ\θ). L’idée est de faire varier le paramètre avec n autour d’une valeur

donnée.La fonction de perte est alors donnée par L : Θ × D → R+ avec δ un

estimateur potentiel de θ dans D et π une loi de probabilité (a priori) surΘ. On fait maintenant les hypothèses suivantes :

1. Θ est un ensemble convexe 1

2. ∃ (φn)n∈N∗ ↘ 0 tel que ∀u ∈ Un Zn,θ(u) L→ Zθ(u) uniformément en θ3. ∃m,M1 tels que :

(a) ∃α > 0 tel que ∀θ ∈ Θ∀R > 0

sup|u1|≤R|u2|≤R

|u1 − u2|−α Enθ [Zn,θ(u1)− Zn,θ(u2)] ≤M1(1 +Rn)

(b) ∃β > 0,∀u ∈ Un,∀θ ∈ Θ

Enθ (Zβn,θ(u)) ≤ hn(u) = rn(u)γu−K

1. Il semble que compact peut aussi convenir.

Page 40: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

36 Propriétés asymptotiques des approches bayésiennes

où K est une constante dépendant de γ, β,m, α et où

limH→+∞

limn→+∞

∑k>H

rn(k) = 0

Ce qui est important ici est de majorer Enθ (Zβn,θ(u)) par une fonctiondécroissante de u. Il est conseillé de se référer à l’article correspondantpour d’avantage de précisions.

4. π est continue sur Θ et Θ est l’enveloppe convexe du support de π ; deplus ∀θ ∈ Θ, π(θ) > 0

5. L : δ 7−→ L(θ, δ) ∈ C3(Θ×D) ; ∀x∣∣∣x t∂3

∂δ3iL(θ, δ)x

∣∣∣ ≤M |x|26. `(θ) = ∂2

∂δ2 L(θ, δ)|δ=θ définie positive. L’idée est d’effectuer un déve-loppement limité au second ordre pour se ramener à une fonction deperte quadratique 2.

Théorème 5.1 Propriétés asymptotiquesSous ces hypothèses, en posant τ(θ) =

∫uZθ(u)du∫Zθ(u)du

, les propriétés suivantessont vraies :

1. φ−2n Enθ [L(θ, δπ(Xn))] −→

n→∞12E [τ(θ)′`(θ)τ(θ)]

2. φ−1n (θ − δπ(Xn)) L−→

∫uZθ(u)du∫Zθ(u)du

= τ(θ)

On précise que l’opérateur Enθ fait à chaque fois référence à l’espérance se-lon π(θ)f(Xn|θ). Avant de donner des pistes de démonstration du théorèmeprécédent, étudions un exemple.

Exemple 5.1 Modèles réguliers en dimension 1

logZn,θ(u) = log f(Xn|θ + φnu)− log f(Xn|θ)

= φnu∂

∂θlog f(Xn|θ) +

(φnu)2

2∂2

∂θ2log f(Xn|θ) + o((φnu)3)

Comme Sn(θ) = 1√n∂∂θ log f(Xx|θ) → N (0, I0(θ)) (I0(θ) est l’information

de Fisher), en choisissant (φn)n∈N∗ = ( 1√n

)n∈N∗ et si on note ξ une variablealéatoire suivant la loi normale, on a :

logZn,θ(u) = uξ − u2

2I(θ) +Op(1)

et logZn,θ(u) L→ Z , loi de densité logZθ(u) = e−u2

2I(θ)+uξ

2. qui est donc locale. . .

Page 41: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

5.2 Normalité asymptotique de la loi a posteriori 37

Si L(θ, δ) = (θ − δ)2 et avec `(θ) = 2 on a alors :

√n(δπ(Xn)− θ) L→

∫uZθ(u)du∫Zθ(u)du

=∫ue−

u2

2I(θ)+uξdu∫

e−u2

2I(θ)+uξdu

=∫e−

I(θ)2

(u−I−1(θ)ξ)2udu√

I−1(θ)√

= I−1(θ)ξ∼ N (0, I−1(θ))

A titre d’exercice, le lecteur peut appliquer le théorème ci-dessus à la loiuniforme sur un intervalle inconnu : U(θ1, θ2) avec une fonction de perte dela forme L(θ, δ) =

∫(√fθ −

√fδ)2dx, ou encore à θ1e

−θ1(X−θ2)1X≤θ2 avecla fonction de perte L(θ, δ) = (θ1 − δ1)2 + (θ2 − δ2)2 où l’on prendra φnbidimensionnel.Démonstration : (idée rapide, consulter l’article cité pour la démonstrationdétaillée et rigoureuse)Considérons l’estimateur bayésien δπ = ArgminδE[L(θ, δ)]. En effectuantun développement limité au second ordre de la vraisemblance, il s’agit demontrer en intégrant que E[L(θ, δ)]φ−2

n ≤ 12E[τ(θ)tl(θ)τ(θ)] et de passer

ensuite au minimum.

5.2 Normalité asymptotique de la loi a posteriori

Si le modèle est régulier, si π ∈ C0 et π > 0, en notant zn = z+√nθ, où

θ est le maximum de vraisemblance :

P π(√nθ ≤ z|Xn) = P π((θ − θ)

√n ≤ zn|Xn)→ φ(z

√I0(θ))

Or π(θ|Xn) = e`n(θ)+log π(θ)∫Θ e`n(θ)+log π(θ)dθ

et `n(θ) =∑

1≤i≤n log f(Xi|θ), donc pour

|θ−θ| < η (petit intuitivement), `n(θ)−`n(θ) ' −nI(θ) (θ−θ)2

2 +Op(n|θ−θ|3).Le comportement gaussien asymptotique est obtenu en repassant aux expo-nentielles et en encadrant les termes non quadratiques des ordres supérieurs.

Page 42: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

38 Propriétés asymptotiques des approches bayésiennes

Page 43: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 6

Détermination de lois a priori

Un grand intérêt de la théorie bayésienne est sa grande cohérence et saméthodologie unifiée. Ainsi, donner les lois a priori et a posteriori ainsi quela fonction de perte suffit pour déterminer, entre autres, un estimateur op-timal, des régions α-crédibles. Le choix de la loi a priori π est donc crucial.Avec beaucoup d’observations, le comportement asymptotique peut guiderce choix mais sinon il est nécessaire de le justifier avec précision. Il existeprincipalement deux méthodes : subjectives ou informatives, présentées suc-cessivement dans ce chapitre.

6.1 Lois subjectives

Précisons tout d’abord que cette démarche n’est pas forcément faciledans la pratique. L’idée est d’utiliser les données antérieures. Par exemple,dans un cadre paramétrique, cela revient à choisir une valeur particulière duparamètre.

Dans un cas concret, il peut être judicieux de baser son raisonnement surles dires d’experts, notamment à l’aide de questionnaires. Il est alors néces-saire de veiller à ce que les questions soient compréhensibles 1, par exempleen prenant comme base les quantiles plutôt que les moments. Pour plusieursexperts, il peut être utile de pondérer leurs réponses et d’utiliser des modèleshiérarchiques.

Ainsi, la difficulté ici n’est pas mathématique mais plus psychométriquepour réduire les biais sur les réponses fournies. Nous allons nous concentrersur le second aspect de la détermination.

1. On évitera : « Quelle est la loi a priori ? ».

Page 44: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

40 Détermination de lois a priori

6.2 Approche partiellement informative

6.2.1 Maximum d’entropie

Si l’on possède des informations partielles du type Eπ [gk(θ)] = µk oùpour chaque k = 1, · · · , n, gk est une fonction donnée, on cherche la loi lamoins informative sous ces contraintes, seules informations dont on dispose.Pour comparer le caractère informatif, il est nécessaire d’avoir recours à uncritère d’information. L’entropie de Shannon permet de définir ce niveaud’informativité, nous présentons dans un premier temps cette entropie dansle cas fini et discret.

Pour θ ∈ {1, · · · , n} et π(θ) = (π1, · · · , πn) tel que πi ≥ 0 et∑m

i=1 πi = 1,l’entropie de la loi est définie par :

Ent(π) = −m∑i=1

πi log(πi) ≤ −m∑i=1

1m

log(1m

) = logm

Ce dernier terme correspond à une répartition uniforme, la loi la plus « plate »,la plus désordonnée. Pour la masse de Dirac 2 δ(j), Ent(δ(j)) = 0 ce quicorrespond à l’intuition puisqu’alors il n’y a plus d’incertitude et l’informa-tion est totale. Une entropie petite s’interprète comme une loi concentrée etinformative. La maximisation de l’entropie sous les contraintes permet dechercher la loi qui apporte le moins d’information. Le principe à la base decette méthode est donc de chercher à calculer :

Argmaxπ

Ent(π) sous la contrainte Eπ [gk(θ)] = µk

La solution de ce problème est alors donnée par :

π? ∝ e∑nk=1 λkgk(θ)

où les λk sont les multiplicateurs de Lagrange associés. Dans la pratique,on détermine ces valeurs λ à partir des contraintes (systèmes d’équations)comme l’indique l’exemple à suivre.

Exemple 6.1 Un cas dénombrableIci, Θ = N et Eπ[θ] = x > 1, c’est-à-dire qu’ici g(θ) = θ et µ = x. On saitque π? ∝ eλθ et que λ est déterminé par :∑

θ∈N θeλθ∑

θ∈N eλθ

= x

Cela conduit à résoudre :

x

1− eλ=

1eλ

(1− eλ)2

d’où eλ =x− 1x

2. telle que πj = 1 et ∀i 6= j, πi = 0.

Page 45: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

6.2 Approche partiellement informative 41

Par exemple si x = 1211 alors λ = − log(12) .

En continu, il n’est pas possible de définir l’entropie comme ci-dessuspuisqu’on ne peut dénombrer les états (pas de mesure de comptage) en l’ab-sence de mesure de référence. Dans le cas continu, on définit alors l’équivalentde l’entropie par rapport à une mesure π0 :

Ent(π/π0) =∫

Θπ(θ) log

(π(θ)π0(θ)

)dθ

C’est en fait la divergence de Kullback. Dans l’idée π0 est la plus plate pos-sible, la plus proche de la répartition uniforme, c’est en fait l’équivalent dela répartition en 1

m de l’information discrète. L’objectif est donc de maxi-miser Ent(π/π0) sous les contraintes Eπ [gk(θ)] = µk. Là encore, la solutiongénérale est connue :

π?(θ) ∝ e∑nk=1 λkgk(θ)π0(θ)

Lorsque la structure est bonne, des choix raisonnables de π0 sont la mesurede Haar (pour les groupes) ou bien la loi de Jeffreys.

Exemple 6.2 Cas continuSi le modèle est de la forme f(X − θ) et si l’on choisit π0(θ) = 1 alors :

– si Eπ[θ] = µ et Vπ(θ) = σ2 sont connus alors la théorie prédit :

π(θ) ∝ eλ1θ+λ2θ2

C’est donc la loi normale N (θ, σ2)– si Eπ[θ] = µ alors la théorie donne :

π(θ) = eλθ

On n’a donc pas de solution sur R puisque dans ce cas ou bien θ < 0ou bien θ > 0

Ce dernier résultat est paradoxal : avec une information supplémentaire,la variance de θ, l’intervalle dans lequel évolue θ est agrandi, et une régionexclue dans un cas plus large (le second) devient accessible ; cela n’est pasloin de signifier que la conclusion antérieure qu’une région doit être excluen’est pas si évidente. Suivant les contraintes, il est donc possible de ne pastrouver de solutions.

De plus, le problème repose sur le choix de π0 et non du modèle (ou desa géométrie), cela constitue une limite de cette approche ou tout du moins,un point important à souligner.

6.2.2 Familles conjuguées

On considère une variable X suivant une fonction de densité paramé-trique absolument continue par rapport à la mesure de Lebesgue : X ∼f(X|θ).

Page 46: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

42 Détermination de lois a priori

Définition 6.2.1 Famille conjuguéeOn dit que la famille de lois a priori {πγ , γ ∈ Γ} est conjuguée si et seulementsi :

∀X,∀γ ∈ Γ, πγ(θ|X) ∈ {πγ , γ ∈ Γ}

⇔ ∀γ ∈ Γ, ∀X,∃γ′(X) ∈ Γ tel que πγ(θ|X) = πγ′(X)(θ)

L’avantage des familles conjuguées est avant tout de simplifier les calculs.Avant l’essor du calcul numérique, ces familles étaient pratiquement les seulesqui permettaient de faire aboutir des calculs.

Exemple 6.3 Lois normales et inverse-gammaPour X ∼ N (θ, σ2), π(θ, σ2) = π(θ|X,σ2)π(σ2) et θ|σ2 ∼ N (µ, τσ2), etσ2 ∼ IG(a, b) :

π(θ, σ2, |X) ∝exp(− (X−θ)2

2σ2 − −(θ−µ)2

2τσ2 )σ2

× (σ2)−(a+b)e−bσ2

∝ 1σ2

exp(− 1

2σ2(1 +

)[θ − (X +

µ

τ)(1 +

)−1

])×

e−X2

2σ2−µ

2τσ2−bσ2

(σ2)a+ 32

× e1

2σ2 (X+µτ

)2 τ1+τ

Donc la loi a posteriori est : (θ|σ2, X) ∼ N(

(X + µτ ) τ

1+τ , σ2 τ

1+τ

)et (σ2|X) ∼ IG

(a+ 1

2 , b+ X2

2 + µ2

2τ −(X+µ)2

1+τ

).

Un autre exemple est celui des lois binomiales dont les lois π(p) =Beta(a, b) constituent une famille conjuguée.

Définition 6.2.2 Familles exponentiellesLa famille exponentielle regroupe les lois de probabilité qui admettent unedensité de la forme : f(X|θ) = eα(θ)′T (X)−φ(θ)h(X); θ ∈ Θ. T est alors unestatistique exhaustive.

Une telle famille est dite régulière si Θ est un ouvert tel que Θ ={θ/∫eα(θ)′T (X)h(X)dµ(X) <∞

}. En outre, on appelle paramétrisation ca-

nonique, l’écriture : f(X|θ) = eθ′T (X)−φ(θ)h(X) et famille naturelle, l’expres-

sion f(X|θ) = eθ′T (X)k(X). Nous rappelons qu’il est possible de montrer

que :

Eθ(T (X)) = ∇φ(θ)

Vθ(T (X)) = ∇2φ(θ)

Exemple 6.4 Loi de PoissonPour X ∼ P(λ), P(X|λ) = e−λ λ

X

λ! = eX log λ−λ

λ! . Le paramètre canonique estdans ce cas θ = log λ.

Page 47: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

6.3 Approche non informative 43

Théorème 6.1 Familles exponentiellesSi X ∼ f(X|θ) = eθ

′T (X)−φ(θ)h(X), alors la famille de loi a priori{πλ,µ(θ) ∝ eθ′µ−λφ(θ)h(X);λ, µ

}est conjuguée. On note que πλ,µ est une densité de probabilité si et seulementsi λ > 0 et µ

λ ∈ Θ.Démonstration :

πλ,µ(θ|X) ∝ eθ′T (X)−φ(θ)h(X) · eθ′µ−λφ(θ)

∝ eθ′(T (X)+µ)−(λ+1)φ(θ)h(X)

= πλ+1, µ+T (X)(θ)

Dans un cadre partiellement informatif, on utilise Eπ [gk(θ)] = µk pourcalculer γ dans πγ , γ ∈ Γ. Une fois déterminé γél on utilise πγél

3. Il faut noterqu’avec un nombre d’expériences réduit, une modification de Γ ou le choixd’un γél différent peuvent modifier sensiblement les résultats. Ce n’est plusle cas avec un grand nombre d’expériences comme on pouvait s’y attendre.

Exemple 6.5 Si X ∼ P(λ) ; la famille conjuguée classique est l’ensembledes lois Gamma : {Γ(a, b); a, b > 0}. Pour les données élicitées suivantes :Eπ(λ) = 2 : Vπ(λ) = 4

Alors Eπ(Γ(a, b)) = ab = 2 et Vπ(Γ(a, b)) = a

b2= 4. D’où l’on tire a = 1

et b = 12 , c’est-à-dire : γél = (1, 1

2).En l’absence de connaissance a priori sur γ, il peut être judicieux d’avoir

recours à un modèle hiérarchique, c’est-à-dire à plusieurs étages. Si (X|θ) ∼f(X|θ) et (θ|γ) ∼ πγ , on munit le paramètre d’une loi γ ∼ q, qui peut êtrenon informative. Les calculs sont simplifiés dans le cas des lois conjuguées.

6.3 Approche non informative

Précisons dans un premier temps que la terminologie du titre est assezdiscutée dans la littérature. C’est l’approche utilisée pour construire une loide référence, on parle aussi de loi par défaut ou encore de loi objective carc’est une démarche à mettre en place en l’absence d’information apriori,quand on ne veut pas influencer l’étude.

Nous nous plaçons dans un contexte différent : X ∼ f(X|θ) et θ ∈Θ = Rd. Une première idée naturelle pour ne pas influencer a priori lesrésultats est de considérer chaque cas comme équiprobable et donc de prendreune mesure uniforme par rapport à la mesure de Lebesgue ou la mesure decomptage dans le cas discret. Le problème est que ce choix correspond à

3. L’indice « él » se réfère à élicité signifiant mis en valeur.

Page 48: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

44 Détermination de lois a priori

la sélection d’un paramètre particulier ; en effet, il n’est pas invariant parreparamétrisation comme nous l’avons déjà montré précédemment. Cetteméthode peut aussi présenter l’inconvénient présenté dans l’exemple qui suit.

Exemple 6.6 Problèmes pathogènesDans le cas où X ∼ B(n, p), θ = p et pour p(λ) = 1 − e−θd, θ > 0 avecd ≥ 102, cette démarche s’avère être très (trop) informative (proche d’uneDirac).

6.3.1 Lois de Jeffreys et Bernardo

Une seconde idée est d’adopter une approche invariante par reparamé-trisation. Jeffreys introduit la mesure suivante πJ(θ) ∝

√|I(θ)| en utilisant

l’information de Fisher I. Vérifions que c’est effectivement une loi de pro-babilité invariante par reparamétrisation : si η = g(θ) avec g ∈ C1, alorsπJ(η) =

√|I(η)|. En outre, I(η) = ∇g(θ)′I(θ)∇g(θ) ; il s’en suit que dans le

cas de la dimension 1, on a :

πJ(η) =√|I(η)| =

√|I(θ)|

∣∣∣∣dθdη∣∣∣∣ = πJ(θ)

∣∣∣∣dθdη∣∣∣∣

Ainsi la loi a priori de Jeffreys est invariante par reparamétrisation. Mal-gré l’immense intérêt d’une telle propriété, il faut savoir que la loi a priori deJeffreys n’a de bonnes propriétés que dans le cas des petites dimensions eten particulier de la dimension 1. La limite de l’a priori de Jeffreys en grandedimension peut se comprendre sur l’exemple suivant.

SiX ∼ N (µ, σ2Ip) et si l’on veut estimer θ = ‖µ‖2 alors comme `(µ, σ2) =−‖X−µ‖2

2σ2 − p2 log σ2 on a :

∂`

∂µj=Xj − µj

2σ2;

∂2`

∂µ2=

1σ2

∂`

∂σ=‖X − µ‖2

σ3− p

2;

∂2`

∂σ2= −3

‖X − µ‖2

σ4+

p

σ2

La matrice d’information de Fisher est alors :

I =

1 0 . . .0 1 1

0 0 p− 3‖X−µ‖2

σ2

On a donc |I| ∝ 1

σ2p et par conséquent πJ ∝ 1σp . Avec l’augmentation

de la dimension, trop d’importance est accordée à σ et c’est sous optimal.Car, comme Eπ

[‖µ‖2 |X

]= ‖X‖2 + p, on sait que le meilleur estimateur se

trouve dans la classe{‖X‖2 + c; c ∈ R

}et c’est ‖X‖2 − p.

Page 49: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

6.3 Approche non informative 45

Il existe une variante de l’approche précédente : la loi de référence deBernardo dont l’idée est de reposer sur un critère d’objectivité. On regardeici la loi a priori qui amène le moins d’information par rapport à ce quepouvait fournir les données. On s’intéresse donc à la fonction de π, la loi apriori, suivante :

In(π) =∫K (π(θ|Xn);π(θ))mπ(Xn)dXn

En outre, on peut vérifier que :

In(π) ∼n→+∞

d

2log

n

2π−∫π(θ) log

π√I(θ)

dθ +Op(1)

Dans le cas d’un modèle régulier In(π) est donc maximal lorsque n tend vers+∞ si π(θ) ∝

√I(θ).

Bernardo introduit la stratégie suivante avec un paramètre θ de la formeθ = (θ1, θ2) où θ1 est un paramètre d’intérêt et θ2 est un paramètre de nui-sance. On raisonne alors séquentiellement en écrivant : π(θ1, .) = π(.|θ1)π(θ1)et en prenant pour θ1 la loi de Jeffreys. Cette manière de faire peut se gé-néraliser si θ = (θ1, · · · , θn) où l’on a ordonné sans perte de généralité lesθi par intérêt croissant. Un algorithme consiste à prendre pour θ1 la loi deJeffreys, puis de calculer π(θ2|θ1) la plus objective puis π(θ3|θ1, θ2) la plusobjective, etc. Cependant, il est clair ce raisonnement n’est pas purementobjectif parce que donner plus d’importance à un paramètre qu’à un autrerelève une fois encore d’un choix.

6.3.2 Loi a priori de concordance – (matching priors)

Le but est de trouver une loi a priori cernant le paramètre θ qui serapproche le plus possible de la méthode de choix fréquentiste, cela revientà faire en sorte que le tirage X n’influence pas le résultat.

On rappelle dans un premier temps des exemples d’une région de confianceou α−crédible. Elle peut être par exemple un intervalle unilatéral

{θ ≤ θ(X)

d

}ou bien bilatéral {θα,1 ≤ θ ≤ θα,2}. Il peut s’agir aussi de région HPD, θ ∈ Cπαavec par exemple

{log((θ)− log(θ) ≤ hα

}tel que P π(θ ∈ C|X) = 1− α.

On cherche π tel que ∀θ;Pθ(θ ∈ C) = 1 − α, appelé la parfaite concor-dance. C’est en général impossible. On va alors chercher rn le plus petitpossible tel que :

∀θ ∈ Θ, ∀α ∈ ]0, 1[ , Pθ(θ ∈ C) = 1− α+O(rm)

La loi a priori est alors dite concordante à l’ordre rm.Lorsque le modèle est régulier et si π est continu alors :

P π[√

n(θ − θ) ≤ t|X]

= Φ(tI12 ) +Op(

1n

)

Page 50: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

46 Détermination de lois a priori

Si C = {θ ≤ θπα} où θπα est tel que P π(θ ≤ θπα|X) = 1−α. Alors pour évaluerPθ(θ ≤ θπα), il faut une approximation de θπα :

P π(θ ∈ [θ +I−12

√n

Φ−1(1− α)]|X) = 1− α+O(1√n

)

θπα = θ +I−12

√n

Φ−1(1− α)

Pθ(θ ≤ θ +I−

12

√n

Φ−1(1− α)) = Pθ(√nI(θ − θ) ≥ −Φ−1(1− α))

= 1− α+O(1√n

)

C’est dans le terme O( 1√n

) qu’intervient l’influence de la loi a priori π.Eliminer le terme dominant permet d’obtenir une loi concordante à un ordreplus poussé et donc plus précise.

Pour tout π continu, P π(θ ≤ θπα|X) = Pθ(θ ≤ θπα) + O( 1√n

), or nouscherchons π tel que ∀α;∀θ;P π(θ ≤ θπα|X) = Pθ(θ ≤ θα) +O( 1

n). Il faut alorsdévelopper avec la formule de Bernstein Von Mises.

Les développements de π(θ|X) à des ordres supérieurs sont basés sur desexpressions de type Laplace :

θπα = θ +I−

12

√n

Φ−1(1− α) +H(Xn)φ(Φ−1(1− α))

n+O(

1

n32

)

où H(Xn) est une fonction des paramètres θ et ∂2 log(θ)∂θ2 .

A partir de cette expression, on calcule

(θ ≤ θ +

I−12

√n

Φ−1(1− α) +H(Xn)φ(Φ−1(1− α))

n+O(n−

32 )

)

et on obtient le développement d’Edgeworth, à savoir que cette probabilitévaut : 1− α+ P1(π,θ)(1−α)√

n+O( 1

n).On en tire un résultat important, π sera de concordance à l’ordre 1 pour

les intervalles unilatéraux si et seulement si ∀θ ∈ Θ, P1(π, θ) = 0. Il estensuite possible de montrer que ∀θP1(π, θ) = 0 ⇐⇒ ∀θπ(θ) ∝

√I(θ). Nous

retrouvons alors la loi a priori de Jeffreys.

Page 51: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Chapitre 7

Méthodes numériques

Ce chapitre développe succinctement les deux principales approches desméthodes numériques bayésiennes.

7.1 Approches indépendantes

Le problème généralement rencontré est celui du calcul d’une intégralede la forme :

Iπ(h) =∫h(θ)π(θ)dθ

Par exemple, le calcul de la loi a posteriori : π(θ|X) = f(X|θπ(θ)m(X) exige le

calcul de m(X). De même, θ =∫θπ(θ)dθ peut aussi s’écrire Iπ(id).

Dès que la dimension de l’espace d’intégration est supérieure ou égale à3 le calcul numérique est délicat, c’est pourquoi on a recours à des méthodesde simulation.

La première idée se base sur le principe de Monte Carlo, à l’origine dé-veloppé pour les sciences physique. Pour θt iid∼ π où t = 1, · · ·T avec un Tgrand devant 1, Iπ(h) est approché par :

Iπ(h) =1T

T∑t=1

h(θt)

Notons qu’il peut être difficile de simuler sur π.Une deuxième idée est de baser l’estimation sur l’échantillonnage d’im-

portance. Il s’agit dans un premier temps de définir une densité instrumentaleq puis par un jeu d’écriture de noter :

Iπ(h) =∫h(θ)

π(θ)q(θ)

q(θ)dθ

Page 52: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

48 Méthodes numériques

Le principe repose sur θt ∼ q et l’estimation est alors :

Iπ(h) =1T

T∑t=1

h(θt)q(θ)

π(θt)

En se qui concerne la variance :

V(Iπ(h)) =∫h2(θ)π2(θ)

q(θ)q(θ)dθ − Iπ(h)2

D’après cette formule, si π2

q est grand alors la variance explose et le calculdevient périlleux, il est nécessaire que, dans une certaine mesure, q domineπ. Ainsi le choix de q est critique alors qu’il est arbitraire. Le problème serésout si q ≈ π ; seulement trouver un tel q n’est pas évident. Et de toutefaçon ceci marche très mal en grande dimension 1.

La section suivante présente à grands traits les principes des méthodes deMonte Carlo par Chaînes de Markov mcmc. Lectrices et lecteurs sont incitésà consulter l’ouvrage de référence sur le sujet de Christian P. Robert [3].

7.2 Méthodes mcmc

Le but des méthodes mcmc est de simuler selon π et l’idée de base estde construire une chaîne de Markov ergodique de loi stationnaire π.

7.2.1 Algorithme Hasting-Metropolis

Pour θ(0) est une valeur initiale, on définit par récurrence les valeurs deθ(t).

A l’étape t, à partir de θ(t−1), θ(t) est construit en tirant un θ′ à l’aided’une distribution de probabilité instrumentale : θ′ ∼ q(|θ(t−1)). θ(t) est alorsdonné par :

θ(t) ={θ′ avec une probabilité α(θ′, θ(t−1))θ(t−1) avec une probabilité 1− α(θ′, θ(t−1))

où α(θ′, θ(t−1)) = min(

π(θ′)π(θt−1)

q(θ(t−1)|θ′)q(θ′|θ(t−1))

, 1). Notons qu’il est possible suivant

cette construction de rester au même endroit après une itération. On peutalors montrer en écrivant la condition de balance, que pour ce choix de α,on obtient une chaîne de Markov de loi stationnaire π.

Cette chaîne de Markov est ergodique si et seulement si (θ(t))t est irré-ductible et apériodique.

1. l’erreur est exponentielle en la dimension, c’est le problème bien connu de curse ofdimensionality.

Page 53: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Exemple 7.1 Proposition indépendanteθ ∼ q(θ′) ne dépend pas de θt+1. α(θ′|θt−1) = π(θ′)

π(θt−1)q(θt−1)q(θ′) marche bien si

q > π ou πq borné.

Exemple 7.2 Marche aléatoire (ou symétrique)q(θ|θ′) = q(θ′|θ) et θ′ = θ(t−1) + εσ où ε a une loi symétrique par rapport à0.

Le choix de σ est ici primordial. Comme α(θ′, θt−1) = min(

π(θ′)π(θt−1)

, 1),

un σ trop faible ne permet pas d’explorer tout le support puisque les θ(t) sontproches les uns des autres ; si σ est grand, alors on refuse souvent θ′ et doncon ne profite pas bien du nombre de simulations. Empiriquement, le tauxd’acceptation optimal est entre 0,1 et 0,6, il faut donc choisir σ en fonction.

7.2.2 Algorithme de type Gibbs

Pour θ = (θ1, · · · , θp), on veut simuler π(θ) à partir de πi(θi|θ(−i)) =πi(θi|θj , j 6= i) pour tout i. On initialise avec θ(0) et à l’instant t, on écrit :

(θ(t)1 |θ

(t−1)) ∼ π1(θ(t)1 |θ

(t−1)(−1) )

(θ(t)2 |θ

(t−1), θ(t)1 ) ∼ π2(θ(t)

2 |θ(t)1 , θ

(t−1)3 , · · · , θ(t−1)

p )... ∼

...(θ(t)p |θ(t−1), θ

(t)(−p)) ∼ πp(θ(t)

p |θ(t)(−p))

Dans le cas où une telle loi π existe, θ(t) issu de cet algorithme est une chaînede Markov ergodique de loi stationnaire π.

En pratique, on combine souvent les deux grandes approches précédentescomme le montre l’exemple qui suit.

Exemple 7.3 Lois normales(Xij |µj , σ2

j ) ∼ N (µj , σ2j ) avec µj ∼ N (µ0, τ

20 ) et σ2

j ∼ IG(a, b) on peut ré-cupérer τ0, µ0, a, b à partir des lois conjuguées mais les calculs ne sont pas sisimples. On considère plutôt π(µ0|Xi, τ0, a, b) ∝ π(τ0, µ0, a, b) et (µt0|τ t0, at, bt) ∼q(·|µt−1

0 , τ t0, at, bt) ; c’est alors une chaîne de Markov de loi stationnaire π.

Page 54: Statistique Bayésienne Notes de cours - crest.fr · Statistique Bayésienne Notes de cours JudithRousseau1 rousseau@ceremade.dauphine.fr 1. ... Dans ce dernier cas, si P ˘ˇune

Conclusion générale

Comme conclusion, nous suggérons :

Les fréquentistes sont-ils fréquentables ? La question est posée. . . 2

Bibliographie

[1] I. A. Ibragimov and R. Z. Khas’minskii. On nonparametric estimationof the value of a linear functional in gaussian white noise. Theory ofProbability and its Applications, 29(1), 1985.

[2] Christian P. Robert. Le Choix Bayésien - Principes et pratique. Springer,2006.

[3] Christian P. Robert and George Casella. Monte Carlo Statistical Methods.Springer, 2004.

2. Bien entendu, ceci n’est qu’un point de vue.