Cours Simulation Stochastiquemath.univ-lille1.fr/~wicker/Cours/coursSimulationAleato...Cours...

57
North-Western European Journal of Mathematics W N M E J Cours Simulation Stochastique Nicolas Wicker Avant-propos Ce polycopié est une version de travail d’un polycopié à destination du master de mathématiques et finance de Lille 1. Il n’a aucun prétention à l’originalité mais re- groupe des résultats disséminés dans plusieurs ouvrages dont les plus notables sont Aldous (1983), Benaïm et El Karoui (2004), Comets et Meyre (2015), Nummelin (1984), Levin, Peres et Wilmer (2008) et Meyn et Tweedie (2009). 1 Introduction Motivation : intégration numérique : par exemple R R d f (x)dx = R R 2 f (x) g (x) g (x)dx avec g (x) une densité de probabilité. Ainsi, Z R 2 f (x)dx = E f (x) g (x) p.s. n+1 n n X i =1 f (x i ) g (x i ) Simulation de systèmes dynamiques stochastique. Simulation de variables aléatoires pour les statistiques bayésiennes. Optimisation d’une fonction complexe, ex : f (xminimiser, on simule c exp{- f (x) T } avec T facteur de température et c constante de normalisation. 1.1 Génération de nombres pseudo-aléatoires Avant toutes choses, un générateur de nombres uniformes entre dans [0, 1] est néccessaire. Un générateur usuel est le générateur congruentiel : x n = ax n-1 + b mod L avec typiquement a =2 7 , L =2 31 - 1 et b = 0. Un générateur proche, un poil plus sophistiqué mais plus performant est le générateur congruentiel inverse qui réalise : x n = ax -1 n-1 + b mod p ici L est remplacé par p pour travailler sur le corps fini F p . L’inverse est obtenu de la manière suivante : xx -1 =1 mod p, soit xx -1 - qp = 1. Comme x p = 1, on trouve x -1 et q par l’algorithme étendu d’Euclide donné par : 1

Transcript of Cours Simulation Stochastiquemath.univ-lille1.fr/~wicker/Cours/coursSimulationAleato...Cours...

North-Western European Journal of Mathematics

W N

M

E J

Cours Simulation Stochastique

Nicolas Wicker

Avant-propos

Ce polycopié est une version de travail d’un polycopié à destination du masterde mathématiques et finance de Lille 1. Il n’a aucun prétention à l’originalité mais re-groupe des résultats disséminés dans plusieurs ouvrages dont les plus notables sontAldous (1983), Benaïm et El Karoui (2004), Comets et Meyre (2015), Nummelin

(1984), Levin, Peres et Wilmer (2008) et Meyn et Tweedie (2009).

1 Introduction

Motivation : intégration numérique : par exemple∫Rd f (x)dx =

∫R

2f (x)g(x) g(x)dx

avec g(x) une densité de probabilité. Ainsi,∫R

2f (x)dx = E

f (x)g(x)

p.s.←

n→+∞1n

n∑i=1

f (xi)g(xi)

Simulation de systèmes dynamiques stochastique. Simulation de variables aléatoirespour les statistiques bayésiennes. Optimisation d’une fonction complexe, ex : f (x) àminimiser, on simule cexp− f (x)

T avec T facteur de température et c constante denormalisation.

1.1 Génération de nombres pseudo-aléatoires

Avant toutes choses, un générateur de nombres uniformes entre dans [0,1] estnéccessaire. Un générateur usuel est le générateur congruentiel :

xn = axn−1 + b mod L

avec typiquement a = 27, L = 231 − 1 et b = 0.Un générateur proche, un poil plus sophistiqué mais plus performant est le

générateur congruentiel inverse qui réalise :

xn = ax−1n−1 + b mod p

ici L est remplacé par p pour travailler sur le corps fini Fp. L’inverse est obtenu de lamanière suivante : xx−1 = 1 mod p, soit xx−1 − qp = 1. Comme x∧ p = 1, on trouvex−1 et q par l’algorithme étendu d’Euclide donné par :

1

Cours Simulation Stochastique N. Wicker

Require: Étant donnés a > bEnsure: Donne s et t tels que sa+ tb = pgcd(a,b)

(s0, t0, r0)← (1,0, a)(s1, t1, r1)← (0,1,b)while r2 , 1 doq← r0/r1s2← s0 − qs1t2← t0 − qt1(s0, t0, r0)← (s1, t1, r1)(s1, t1, r1)← (s2, t2, r2)

end whilereturn s et t

1.2 Méthode d’inversion de la fonction de répartition

Cette méthode est simple et efficace mais ne s’applique pas toujours, elle estbasée sur l’utilisation de la fonction de répartition : F(x) = P (X 6 x). On définitl’inverse généralisée F−1(u) = inft,F(t) > u. On utilise la propriété suivante :F−1(u) 6 x ⇔ u 6 F(x) de telle sorte que : P (F−1(U ) 6 x) = P (U 6 F(x)) avec Uuniforme sur [0,1). Ainsi, P (F−1(U ) 6 x) = F(x). F−1(U ) a la même fonction derépartition que X.

Proposition 1 – F−1(u) 6 x⇔ u 6 F(x)

Preuve. (⇐)

u 6 F(x)

⇒ F−1(u) 6 F−1(F(x)) 6 x car F−1 donne l’inf de t tel que F(t) > F(x) et F(x) > F(x)

⇒ F−1(u) 6 x

(⇒)

F−1(u) 6 x

⇒ F(F−1(u)) 6 F(x)

⇒ F(inft|F(t) > u 6 F(x) par continuité à droite de la fonction de répartition

⇒ u 6 F(x)

Application à la loi exponentielle : Soit X E(λ), f (x) = λe−λx. Sa fonction derépartition est donnée par

F(x) =∫ x

0λe−λudu = [−e−λu]x0 = 1− e−λx

2

1. Introduction

Algorithme : on génère U de manière uniforme sur ]0,1[, nous donne :

U = 1− e−λ

⇒ e−λx = 1−U−λx = ln(1−U )

⇒ x =− ln(1−U )

λ

où x = − lnUλ car U et 1−U ont même loi.

Application à la loi de Cauchy : Sa densité est donnée par f (x) = 1π(1+x2) .

F(x) =∫ x

−∞

duπ(1 +u2)

= [Arctan(u)

π]x−∞ =

Arctan(x)π

+12

⇒U =Arctan(x)

π+

12

⇒ x = tan[π(u − 12

)]

(mettre une figure)

application à la loi de Weibull : Sa fonction de survie est donnée par G(x) =1−F(x) = e−x

a, plus généralement elle s’écrit : e−( x−bc )a .

u = 1−G(x) = 1− e−xa

⇒ e−xa

= 1−u⇒−xa = ln(1−u)

⇒ x = ln(1

1−U)1/a

ou bien x = (− lnu)1/a.

1.3 Algorithme de Box-Muller

On considère une loi de Gauss XN (0, I2). Sa densité est donnée par f (x,y) =1

2π e− x

2+y2

2 . On fait le changement de variables suivant : x = r cosθ, y = r sinθ, r ∈R+

et θ ∈ [0,2π[. Le jacobien est donné par :∣∣∣∣∣ cosθ −r sinθsinθ r cosθ

∣∣∣∣∣ = r

3

Cours Simulation Stochastique N. Wicker

La densité devient r2π e− r22 . On effectue un nouveau changement de variables r2 = R,

la densité suivant R est alors : 12e−R2 , R suit une loi exponentielle de paramètre

1/2, ainsi R est généré par −2lnU , r =√−2lnU , x =

√−2lnU cos(2πV ) et y =√

−2lnU sin(2πV ) avec U et V lois uniformes sur ]0,1[.Simulation de gaussienne N (0,Σ). On la simule à partir de X N (0, I). On

utilise pour cela la décomposition de Cholesky de Σ en LL′, possible si Σ > 0. Onprend alors Y = LX. En effet, E(YY ′) = E(LXX ′L′) = LL′ = Σ.

Cholesky s’obtient sur une matrice M en observant successivement :

— M11 = L211 ainsi L11 =

√M11.

— ∀k ∈ 2, . . . ,n, Mk1 = Lk1L11 et donc Lk1 =Mk1/√M11

— ∀k ∈ 2, . . . ,n, Mkk =∑ki=1L

2ki et donc Lkk =

√Mkk −

∑k−1i=1 L

2ki

— ∀k ∈ 2, . . . ,n et j > k on a∑ki=1LjiLki ainsi Ljk =

Mjk−∑k−1i=1 LjiLkiLkk

.

1.4 Copules

Une copule est une fonction C : [0,1]p → [0,1] permettant d’introduire unedépendance entre p variables univariées. Il en existe beaucoup, une copule fréquenteest la copule gaussienne donnée par :

C(u1, . . . ,up) = φR(φ−1(u1), . . . ,φ−1(up))

avec R indiquant une matrice de corrélation.Comment simuler une loi définie par une copule? Soit une loi quelconqu de

lois de répartition marginales F1(x1), . . . ,Fp(xp). Sa fonction de répartition est alorsdonnée par :

F(x1, . . . ,xp) = C(F1(x1), . . . ,Fp(xp))

pour simuler une telle loi, on simule des uniformes U1, . . . ,Up de copule C et onrécupère : F−1

1 (U1), . . . ,F−1p (Up). Pourquoi cela fonctionne-t-il ?

P (F−11 (U1) 6 x1, . . . ,F

−1p (Up) 6 xp) = P (U1 6 F1(x1), . . . ,Up 6 Fp(xp))

= C(FU (F1(x1)), . . . ,FU (Fp(xp)))

= C(F1(x1), . . . ,Fp(xp))

Comment y arriver ?On simule Y = (Y1, . . . ,Yp) de copule C et on prend φ1(Y1), . . . ,φp(Yp) où φ1, . . . ,φpsont les fonctions de répartition marginales de Y . Ainsi,

P (φ(Y1) 6 u1, . . . ,φ(Yp) 6 up) = P (Y1 6 φ−1(u1), . . . ,φ−1(up))(Cont. page suiv.)

4

1. Introduction

= C(φ(φ−1(u1)), . . . ,φ(φ−1(up)))

= C(u1, . . . ,up)

= C(FU (u1), . . . ,FU (up))

1.5 Méthode du rejet

Simulation d’une loi conditionnelle

On s’intéresse à P (Z ∈ B|A), Z v.a. et A un évènement. Pour cela, on simule unesuite (Zn,An), les couples (Zn,An) sont indépendants. avec An = A ou A. On noteτ = inft|At = A. Alors

P (Zτ ∈ B) =+∞∑t=1

P (A1 = A, . . . ,At−1 = A,At = A,Zt ∈ B)

=+∞∑t=1

P (A)t−1P (At = A,Zt ∈ B)

=+∞∑t=1

(1− P (A))t−1P (Zt ∈ B|At = A)P (A)

= 1.1

1− (1− P (A))P (A)P (Z ∈ B|A)

= P (Z ∈ B|A)

Simulation d’une loi non-conditionnelle

Objectif : on veut simuler une variable aléatoire de densité f (x) et dont F−1 estdifficile à calculer car l’algorithme du rejet implique un certain nombre de rejetset donc de calculs « inutiles ». Pour cela, on utilise une variable aléatoire Y facile àsimuler de densité g(x) telle que cg(x) > f (x) avec c ∈R+. Si U est une loi uniformesur [0,1], c > f (x)

g(x) . On note A = CUg(x) < f (x). (figure)

P (Yτ ) = P (Y ∈ B|A) par l’algorithme du rejet pour une loi conditionnelle

=P (Y ∈ B,A)P (A)

=1

P (A)

∫B

∫Cug(x)<f (x)

g(x)1[0,1]dudx

=1

P (A)

∫B

f (x)cg(x)

g(x)dx(Cont. page suiv.)

5

Cours Simulation Stochastique N. Wicker

=P (X ∈ B)CP (A)

(1)

En particulier, si B = R2, P (Y ∈ Rd |A) = 1 = 1

cP (A) , ainsi cP (A) = 1 et P (Y ∈ B|A) =P (X ∈ B).

On remarque au passage que P (A) = 1c , P (A) est la probabilité d’acceptation,

il faut donc que c soit le plus petit possible. Si on considère maintenant une loigéométrique de paramètre p = P (A), alors c = 1

p = 1P (A) est son espérance, soit ici le

nombre moyen d’itérations avant qu’un nombre soit produit.

Application à la loi gamma : Soit X Γ (a) de densité f (x) = xa−1

Γ (a) e−x avec a ∈]0,1[.

Soit Y W (a), G(x) = 1 − F(x) = e−xa, F(x) = 1 − e−xa , donc g(x) = axa−1e−x

a. Quel

coefficient c faut-il prendre? On considère pour cela la fraction :

f (x)g(x)

=xa−1e−x

Γ (x)axa−1e−xa

=e−x+xa

Γ (a)a

Soit h(x) = −x + xa ainsi h(x)′ = −1 + axa−1 = 0 et xa−1 = 1a et x∗ = ( 1

a )1a−1 . La dérivée

seconde h′′(x∗) = a(a− 1) < 0 car a ∈]0,1[. Ainsi,

f (x)g(x)6e−( 1

a )1a−1 +( 1

a )aa−1

Γ (a)a= c

Pour simuler une loi Γ (n+ a), on simule X1 E(1), . . . ,Xn E(n),Y Γ (a) et oneffectue X1 + · · ·+Xn +Y .

2 Réduction de la variance

2.1 Variables de contrôle

On veut estimer E(X) alors que l’on arrive à calculer de manière explicite E(h(x)).On écrit alors X = X −Y +Y . On a ainsi une première estimation de E(X) donnéepar :

e1 =1n

n∑i=1

Xi

de variance V ar(e1) = V arXn . Une seconde estimation, faisant usage d’une variable

de contrôle Y est donnée par :

e2 =1n

n∑i=1

Xi − aYi + aE(Y )

6

2. Réduction de la variance

où on a toute latitude de choisir a ∈R au mieux. La variance de e2 est donnée par :

V ar(e2) =1nV ar(X − aY )

=1n

(V arX + a2

V arY − 2aCov(X,Y ))

Si bien qu’on peut déterminer a de la manière suivante,

∂V are2

∂a=

1n

(2aV arY − 2Cov(X,Y )

)= 0

⇒ a =Cov(X,Y )V arY

Et obtenir comme variance,

V are2 =1n

(V arX +

Cov(X,Y )2

V arY− 2

Cov(X,Y )2

V arY

)=

1nV arX

(1−Cor(X,Y )2

)si bien que l’on voit que l’on peut toujours en théorie réduire la variance pour peuque Y ne soit pas indépendante de X.

Exemple 1 – XU (0,1), estimation de E(exp(X)) à l’aide de la variable de contrôle1 +X.

2.2 Variables antithétiques

Un petit lemme est nécessaire d’abord.

Lemme 1 – Si Y est une variable aléatoire réelle, f une fonction décroissante et g unefonction croissante, on a alors : C = Cov(f (Y ), g(Y )) 6 0.

Preuve. Soit Y et Y ′ deux variables aléatoires indépendantes de même loi. On aalors : E

((f (Y )− f (Y ′))(g(Y )− g(Y ′))

)6 0. Par ailleurs,

E

((f (Y )− f (Y ′))(g(Y )− g(Y ′))

)=

E

(f (Y )g(Y )

)+E

(f (Y ′)g(Y ′)

)−E

(f (Y )g(Y ′)

)−E

(f (Y ′)g(Y )

)=

2E(f (Y )g(Y )

)− 2E

(f (Y )

)E

(g(Y )

)=

2Cov(f (Y ), g(Y )

)si bien que Cov

(f (Y ), g(Y )

)6 0. Ce qui conclut la preuve.

7

Cours Simulation Stochastique N. Wicker

En particulier, si f est monotone et φ décroissante on a :

Cov(f (Y ), f (φ(Y )))

Cela peut être exploité si φ(Y ) suit la même loi que Y comme par exemple pour

— loi uniforme Y sur [0,1] alors φ(Y ) = 1−Y suit la même loi.

— loi de Gauss Y alors φ(Y ) suit la même loi.

Supposons maintenant que l’on veuille estimer E(f (Y )), l’estimateur classiqueest :

e1 =1n

n∑i=1

f (Yi)

Le nouvel estimateur est :

e2 =1n

n∑i=1

f (Yi) + f (φ(Yi))2

alors V are2 = 12n (V arf (Y ) + Cov(f (Y ), f (φ(Y )))) ainsi :

V are1

V are2=

2V arf (Y )V arf (Y ) + Cov(f (Y ), f (φ(Y )))

> 2

Exemple 2 – E

(1

1+X

)avec XU (0,1). On peut prendre Y = 2−X.

2.3 Echantillonnage préférentiel

I =∫f (x)g(x)dx avec f (x) une densité à laquelle on va préférer f ∗(x). Ainsi :

I =∫ f (x)g(x)

f ∗(x) f∗(x)dx.

Exemple 3 – E

([X − 3]+

)avec XN (0,1). On peut prendre Y N (3,1).

2.4 Stratification

On suppose que l’on a plusieurs strates S1, . . . ,Sk dans lesquelles on va échan-tillonner suivant des proportions à définir. D’une manière générale, on veut estimerX au moyen de :

e2 =k∑j=1

pj1nj

nj∑i=1

Xij

8

3. Chaînes de Markov à temps discret

où nj représente le nombre de points échantillonnés dans Sj . Ainsi :

V ar(e2) =k∑j=1

p2j

njV ar(Xj )

=1n

k∑j=1

pj V ar(Xj ) en supposant nj = npj

=1n

k∑j=1

pj V ar(X |Z ∈ Sj )P (Z ∈ Sj )

=E(V ar(X |Z))

n

or E(V ar(X |Z)) 6 V ar(X).

Exemple 4 – On veut calculer E(exp(X)) avecXU (−1,1). On peut utiliser commestrates (−1,0) et (0,1).

3 Chaînes de Markov à temps discret

3.1 Introduction aux chaînes de Markov

Dans la suite, on considèrera X = (Xn)n>1 une suite de variables aléatoires avecXn : (Ω,F)→ (En,Tn). On note que X est mesurable sur T la tribu engendrée parles cylindres C = A1 × · · · ×Ak ×

∏i>k+1Ei , avec Aj ∈Tj . En effet, pour un cylindre B,

on a X−1(B) = ∩ki=1X−1i (Ai) ∈F as X−1

i (Aj ) ∈Fj for all j.

Définition 1 – Une chaîne de Markov de matrice de transition P est une suitevariables aléatoires (Xn) définie sur un espace probabilisé (Ω,T, P ) à valeurs dans Etelle que P (Xn+1 = xn+1|Xn = xn, . . . ,X1 = x1) = P (xn,xn+1).

3.2 Chaînes de Markov à nombre d’états fini

On considère une chaîne de Markov sur Ω avec |Ω| fini.La matrice de transition P indique en position (i, j) par Pij la probabilité d’aller

de l’état i à l’état j.

Remarque 1 – La valeur propre de M 1 est maximale. En est, d’après le théo-rème 1 page suivante chaque valeur propre est comprise dans un des disquesD(Pii ,

∑j,i |Pij |). Ainsi, comme la somme d’une ligne est égale à 1, en valeur absolue

on ne peut excéder 1.

9

Cours Simulation Stochastique N. Wicker

Théorème 1 – Toute valeur propre d’une matrice M complexe est comprise dans un desdisques D(Mii ,

∑j,i |Mij |).(Gershgorin)

Preuve. Soit un vecteur propre v pour la valeur propre λ. Définissonsm = argmaxi |vi |.Ainsi,

λvm =∑j

Mmjvj =Miivm +∑j,m

Mmjvj

⇒ (λ−Mmm)vm =∑j,m

Mmjvj

⇒ |λ−Mmm||vm| = |∑j,m

vj | 6∑j,m

|Mmj ||vj |

⇒ |λ−Mmm| 6∑j,m

|Mmj |vj|vm|6

∑j,m

|Mmj |

Lemme 2 – Il existe toujours au moins une loi stationnaire.

Preuve. On commence par remarquer que P a toujours 1 comme valeur propreassociée au vecteur propre 1, ainsi 1 est également valeur propre de P ′ car P et P ′

ont même polynôme caractéristique.Il faut prouver maintenant qu’il existe un vecteur propre non-négatif associée à

la plus grande valeur propre de A = P ′ ne contenant que des valeurs non-négatives.Soit u vecteur propre de A, montrons que prendre la valeur absolue de ses

éléments ne change pas sa qualité de vecteur propre, considérons ainsi le vecteur vtel que vi = |ui |. On a :∑

j

Aijvj −λvi =∑j

Aij |uj | −λ|ui |

> |∑j

Aijuj | −λ|ui |

> λ|ui | −λ|ui | = 0 (2)

Supposons par l’absurde que ∃i, (Av −λv)i > 0. Si on somme suivant i, on obtient :∑i

∑j

(Aijvj −λvi

)=

∑i

∑j

(Pjivj −λvi

)= 0

On en déduit que ∀i,∑j Aijvj − λvi = 0, v est donc bien vecteur propre pour la

valeur propre 1.

En utilisant le théorème de Brouwer, on aurait pu conclure immédiatement.

10

3. Chaînes de Markov à temps discret

Remarque 2 – Attention, il peut y avoir plusieurs lois stationnaires pour une chaînede Markov. Considérons par exemple :

P =(

1 00 1

)ici, (1,0) et (0,1) sont des lois stationnaires et il en existe une infinité (à vous de lestrouver).

Remarque 3 – Attention, d’une manière générale les valeurs propres de P peuventêtre imaginaires. Considérons par exemple :

P =

12

12 0

0 12

12

12 0 1

2

En effet, si on calcule le polynôme caractéristique on obtient :∣∣∣∣∣∣∣∣

12 −λ

12 0

0 12 −λ

12

12 0 1

2 −λ

∣∣∣∣∣∣∣∣ =(1

2−λ

)3+

18

= −λ3 +32λ2 − 3

4λ+

14

On obtient : −λ3+ 32λ

2− 34λ+ 1

4 = (λ−1)(−λ2+ λ2 −

14 ). Or, le discriminant de −λ2+ λ

2 −14

est ∆ = −34 < 0 impliquant donc l’existence de deux valeurs propres imaginaires.

Remarque 4 – Attention, d’une manière générale P peut ne pas être diagonalisable.Considérons par exemple :

P =

12

12 0

0 12

12

0 0 1

En effet, si on considère la valeur propre 1

2 de multiplicité algébrique 2, on a parcontre :

P − 12I3 =

0 1

2 00 0 1

20 0 1

2

qui est de rang 2, de telle sorte que dim(E 1

2) = 1.

Lemme 3 – Si une chaîne de Markov est réversible pour la loi π alors π est une loistationnaire.

11

Cours Simulation Stochastique N. Wicker

Preuve. On a l’égalité π(x)q(x,y) = π(y)q(y,x). Si on somme suivant x, on obtient :∑x

π(x)q(x,y) =∑x

π(y)q(y,x)∑x

π(x)q(x,y) = π(y)

Lemme 4 – L’irréductibilité implique l’unicité de la loi stationnaire.

Preuve. Soit une chaîne irréductible, ainsi ∀i, j ∃n tel que P nij > 0. Par l’absurde,supposons l’existence de u un vecteur propre de P non collinéaire à 1 pour la valeurpropre 1. Soit m = argmaxi |ui |, on a par définition : um =

∑ni=1 P

nmjuj . On a par

conséquent :

|um| =

∣∣∣∣∣∣∣∣∑j

P nmjuj

∣∣∣∣∣∣∣∣6

∑j

P nmj |uj |

6 P nmm|um|+∑j,m

P nmj |uj | en s’arrangeant pour que P nmj > 0 et |uj | < |um|

< P nmm|um|+∑j,m

P nmj |um| car par construction |uj | < |um|

< |um|

Nous aboutissons ainsi à une contradiction et pouvons conclure.

Une fois que nous avons déterminer s’il y a une ou plusieurs lois stationnaires,nous voulons savoir s’il y a convergence vers cette loi stationnaire. En effet, l’exis-tence d’un point fixe dans un système dynamique n’implique par pour autant laconvergence du système vers ce point fixe.

Le théorème suivant fournit un critère simple de convergence mais pour celanous avons besoin de la notion d’apériodicité.

Définition 2 – Un état x est apériodique si le pgcd de Nx = n|P n(x,x) > 0 est égalà 1. Une chaîne de Markov est apériodique si tous ses états sont apériodiques.

Théorème 2 – Si une chaîne de Markov dans un espace à nombre d’états fini est irré-ductible et apériodique alors elle converge vers son unique loi stationnaire.

Preuve. Soit Ni = n|P ni,i > 0. Par Bezout, ∃a1, . . . , ak ∈ Z et n1, . . . ,nk ∈ Ni tels que∑ki=1 aini = 1. Notons A+ et A− l’ensemble des coefficients positifs et négatifs

12

3. Chaînes de Markov à temps discret

respectivement. On a ainsi∑ai∈A+ aini = −

∑ai∈A− aini + 1. On obtient ainsi mi =

−∑ai∈A− aini ∈Ni avec mi + 1 ∈Ni également.Soit ∀n > m2

i , si on divise n de manière euclidienne parmi , on obtient : n = qmi+ravec r < mi et q >mi . Ainsi, n = qmi + r(mi+1 −mi) =mi(q− r) + rmi+1 or mi(q− r) estun multiple positif de mi et rmi+1 de mi+1. Ainsi, n ∈ Ni et plus généralement sinous prenons n > m = maxim

2i , alors n ∈ ∩iNi .

Soit n >maxij nij +m, alors P nij > Pn−nijii P

nijij , ce produit est positif car P

nijij > 0 par

définition et n−nij > m donc Pn−nijii > 0.

On vient de montrer que pour n suffisamment grand la matrice de transitionP n n’a que des entrées positives. Le théorème de Frobenius nous dit alors qu’il y aune valeur propre maximale (au sens de la valeur absolue) unique. En utilisant ladécomposition de Jordan, on a alors :

P n =Q

1 0 . . . 0

0 B2. . .

......

. . .. . . 0

0 . . . 0 Bk

Q−1

avec Bi =

λi 1 0 . . . 0

0. . .

. . .. . .

...... . . .

. . .. . . 1

0 . . . . . . 0 λi

. Le nombre de blocs pour une valeur propre

correspond à sa multiplicité géométrique alors que la somme des tailles des blocsdonne sa multiplicité algébrique. Ainsi, si on met P n à la puissance on obtient laconvergence vers :

Q

1 0 . . . 0

0 0. . .

......

. . .. . . 0

0 . . . 0 0

Q−1

Remarque 5 – A propos de Bni , pour voir qu’il y a convergence vers la matrice nulle,on écrit :

Bni =

λiIli +

0 1 0 0...

. . .. . . 0

0 . . . 0 10 . . . . . . 0

n

13

Cours Simulation Stochastique N. Wicker

=n∑k=0

(nk

)λn−ki Ili

0 1 0 0...

. . .. . . 0

0 . . . 0 10 . . . . . . 0

k

(Cont. page suiv.)

=li−1∑k=0

(nk

)λn−ki Ili

0 1 0 0...

. . .. . . 0

0 . . . 0 10 . . . . . . 0

k

(3)

La convergence vers 0 est alors immédiate.

Vitesse de convergence

Nous ne détaillons ici que quelques méthodes de base.

Théorème 3 – Si une chaîne de Markov à d états est irréductible, apériodique et rever-sible on a alors :

∀i, j |P nij −π(j)| 6√π(j)√π(i)

max(|λ2|n, |λd |n)

où λ1 = 1 > λ2 > . . . > . . .λd

Preuve. Soit D, Dij = δij√π(i), alors la matrice DPD−1 est symétrique donc diago-

nalisable dans une base orthornormée. Par ailleurs, si v est un vecteur propre pourP et la valeur propre λ, Dv est un vecteur propre pour DPD−1 pour la même valeurpropre. On a la symétrie car :

(DPD−1)ij =√π(i)Pij

√π(j)

−1

=√π(i)

−1π(i)Pij

√π(j)

−1

=√π(i)

−1π(j)Pji

√π(j)

−1par réversibilité de la chaîne

=(DPD−1)ji

On peut donc écrire :

DPD−1 =∑k=1

λkvkv′k

et par orthonormalité de la base : DP nD−1 =∑k=1λ

nkvkv

′k . ainsi :

P nij =

√π(j)√π(i)

v1(i)v1(j) +∑k>1

√π(j)√π(i)

λnkvk(i)vk(j)

14

3. Chaînes de Markov à temps discret

=

√π(j)√π(i)

√π(i)

√π(j) +

∑k>1

√π(j)√π(i)

λnkvk(i)vk(j) (Cont. page suiv.)

=π(j) +∑k>1

√π(j)√π(i)

λnkvk(i)vk(j)

Par conséquent,

|P nij −π(j)| 6√π(j)√π(i)

√∑k>1

λ2nk vk(i)

2

√∑k>1

vk(i)2 par Cauchy-Schwarz

6

√π(j)√π(i)

max(|λ2|n, |λd |n)

On définit un produit scalaire sur les fonctions réelles définies sur l’espaced’états fini M :

〈f ,g〉 :=∑x∈M

π(x)f (x)g(x)

On note aussi πf = 〈f ,1〉, V arπ(f ) = Eπ

∥∥∥f −πf ∥∥∥2= 〈f −πf ,f −πf 〉π et P f (x) =∑

y P (x,y)f (y) ce qui nous permet de définir les formes de Dirichlet et inégalités dePoincaré comme suit.

Définition 3 – On appelle forme de Dirichlet l’expression :

ε(f , f ) = 〈(I − P )f , f 〉π

Définition 4 – Une inégalité de Poincaré est inégalité de la forme suivante :

V arπ(f ) 6 Cε(f , f )

Théorème 4 – Si P est réversible, la seconde valeur propre de P , λ2 est bornée par :

1−λ2 = minf ⊥π1,f ,0

ε(f , f )V arf

Preuve. Ainsi, on a ∀i, j 〈fi , fj〉π = δij avec f1, . . . , fn vecteurs propres de P tels queDf1, . . . ,Dfn soient des vecteurs propres orthonormés de DPD−1. Ainsi, si 〈f , f1〉π =0, on a : f =

∑di=2 aifi et par conséquent :

〈(I − P )f , f 〉π =d∑i=2

a2i (1−λi) >(1−λ2)

d∑i=2

a2n

>(1−λ2)V arf

15

Cours Simulation Stochastique N. Wicker

Ainsi, on a l’inégalité suivante pour tout f orthogonal à f1 :

1−λ2 6ε(f , f )V arf

avec égalité pour f = f2, d’où la conclusion.

Remarque 6 –∑x,y

12π(x)π(y)|f (x)− f (y)|2 =

∑x,y

12π(x)π(y)f (x)2 +

12π(x)π(y)f (y)2 −π(x)π(y)f (x)f (y)

= E(f (X)2)− (Ef (X))2

Lemme 5 – Si une chaîne de Markov vérifie pour tout x, P (x,x) > 12 alors |λ2| > |λd |.

Preuve. Soit un vecteur propre f associé à la valeur propre λ et m = argmaxi |vi |.Alors, on a par définition :

λvm =∑j

Pmjvj

⇒ vm(λ− Pmm) =∑j,m

Pmjvj

⇒ |λ− Pmm| =∑j,m

Pmj|vj ||vm|

⇒ |λ− Pmm| 6∑j,m

Pmj

⇒ |λ− Pmm| 6 1− Pmm⇒ |λ| − Pmm > 1− Pmm⇒ |λ| > 2Pmm − 1

⇒ |λ| > 0

Ainsi, si toutes les valeurs propres sont positives, on a bien : λ2 > λd .

L’implication de ce lemme est que pour une chaîne de Markov paresseuse, seule laseconde valeur propre compte pour l’estimation de la vitesse de convergence. Onpeut en particulier tirer alors profit de théorème 4 page précédente.

Théorème 5 – Pour une chaîne de Markov apériodique, irréductible et réversible on al’inégalité suivante :

V arπ f 6 supe

Q(e)−1∑

x,y:e∈γ(x,y)

|γ(x,y)|π(x)π(y)

ε(f , f )

16

3. Chaînes de Markov à temps discret

Preuve. Commençons à observer que pour deux états x et y, on a :

|f (y)− f (x)|2 =

∣∣∣∣∣∣∣∣∑

e∈γ(x,y)

df(e)

∣∣∣∣∣∣∣∣2

6 |γ(x,y)|∑

e∈γ(x,y)

df(e)2

avec df(e) = f (e+)− f (e−) où e représente l’arête e−, e+. Ainsi,∑x,y

12π(x)π(y)|f (y)− f (x)|2 61

2

∑x,y

|γ(x,y)|∑

e∈γ(x,y)

df(e)2π(x)π(y)

612

∑x,y

|γ(x,y)|π(x)π(y)∑

e∈γ(x,y)

Q(e)−1df(e)2Q(e)

612

∑e

∑x,y:e∈γ(x,y)

|γ(x,y)|Q(e)−1π(x)π(y)df(e)2Q(e)

612

supe

Q(e)−1∑

x,y:e∈γ(x,y)

|γ(x,y)|π(x)π(y)

∑e

df(e)2Q(e)

Or,

ε(f , f ) =〈(I − P )f , f 〉π

=∑x

π(x)

f (x)−∑y

P (x,y)f (y)

f (x)

=∑x

∑y

π(x)P (x,y) (f (x)− f (y))f (x)

=12

∑x

∑y

π(x)P (x,y) (f (x)− f (y))2 par réversibilité

=∑e

df (e)2Q(e)

ainsi :∑x,y

12π(x)π(y)|f (y)− f (x)|2 6 sup

e

Q(e)−1∑

x,y:e∈γ(x,y)

|γ(x,y)|π(x)π(y)

ε(f , f )

soit :

V arf 6 supe

Q(e)−1∑

x,y:e∈γ(x,y)

|γ(x,y)|π(x)π(y)

ε(f , f )

17

Cours Simulation Stochastique N. Wicker

Exemple 5 – L’urne d’Ehrenfest. L’espace d’états est donné par M = 0,1N avec lestransitions suivantes : P (x,y) = 1

2N pour x , y et P (x,x) = 12 sinon, où lorqu’il y a

un changement une particule est choisie de manière uniforme et change d’urne.On construit un ensemble de chemins Γ entre tous les couples (x,y) en modifiantitérativement x1, puis x2 et ainsi de suite jusqu’à xN . La loi stationnaire est donnéepar π(x) = 1

2N , en effet on a P reversible :

π(x)P (x,y) =1

2N1

2N= π(y)P (y,x).

La longueur d’un chemin est bornée par |γ(x,y)| 6 N . Enfin, si on considère unearête e = (e−, e+) ∈ γ(x,y), il y a un seul indice i tel que e−i , e

+i donc ∀j < i, yj = e−j et

∀j > i, xj = e+j . On a ainsi, pour une arête 2N−1 couples (x,y) possibles. Comme on

peut choisir yj pour j > i et xj quelconques pour j < i et conserver la même arête e,on en déduit grâce au théorème 5 p. 16 :

V arf 6ε(f , f )π(e−)π(e+)π(e−)P (e−, e+)

N2N−1

6ε(f , f )1

2N2NN2N−1

6ε(f , f )N2

Ainsi, λ2 6 1− 1N2 .

Exemple 6 – Un petit graphe presque biparti. On considère une marche aléatoiresur un graphe presque biparti avec deux partitions V1 = 1,2 et V2 = 3, . . . ,N . Pourtout x, P (x,x) = 1

2 , pour x ∈ V1 et y ∈ V2, P (x,y) = 12(N−2) et pour x ∈ V2 et y ∈ V1,

P (x,y) = 14 . Le graphe est représenté sur la figure 1

On a ainsi :

P =

12

12(N−1)

12(N−1) . . . 1

2(N−1)1

2(N−1)12

12(N−1) . . . 1

2(N−1)14

14

12 0 0

......

. . . 014

14 0 1

2

La loi stationnaire est donnée par : π = 1

4N−6 (N − 1,N − 1,2, . . . ,2)′ . Détaillons lesdifférents chemins :

— entre 1 et 2 : 132, de même pour 2 et 1 : 231

— entre 1 et i > 2 : 1i, de même pour 2 et i > 2 : 2i

— entre i > 2 et 1 : i1, de même pour i > 2 et 2 : i2

— entre i , j > 2 : i1j

18

3. Chaînes de Markov à temps discret

1

2

3

N

4

Figure 1 – Graphe presque biparti 2 contre N − 2 sommets.

On distingue les arêtes (1,3), (3,1) et (1,2). Pour (1,3), on a :

C13 61

π(1)P13

∑γ(x,y)3(1,3)

π(x)π(y)|γ(x,y)|

64N − 6N − 1

2(N − 1)[2

N − 1(4N − 6)2 + (N − 3)2

2× 2(4N − 6)(4N − 6)

]∼5

Pour (3,1), on a :

C31 61

π(1)P12

∑γ(x,y)3(1,2)

π(x)π(y)|γ(x,y)|

64N − 6

24(1

24N − 6

N − 14N − 6

+ 2(N − 3)2

4N − 62

4N − 6

)∼5

Pour (1,2), on a :

C12 = 2(N − 1)N − 1

4N − 6∼ N

2

On conclut donc que C ∼ N2 .

19

Cours Simulation Stochastique N. Wicker

Exemple 7 – Mélange de N = 52 cartes. On considère le processus suivant où unecarte est prise au hasard parmi n et placée ensuite au sommet du mélange de cartes.On appelle cela en anglais random-to-top shuffling. Ensuite, on rend réversible etparesseux ce processus en considérant également l’opération contraire où la cartedu dessus prend une place aléatoire dans la pile de cartes. On considère le cheminsuivant entre deux sommets (x1, . . . ,xN ) et (y1, . . . , yN ) :

x1x2. . .xN

→yNx12. . .x1N

→ ·· · →y1y2. . .yN

Si on considère une arête sur un tel chemin et que l’on a déjà placé correctement

i cartes parmi les N cartes alors on a : (N − i − 1)!(Ni

)possibilités, en sommant

suivant i ∈ 0, . . . ,N − 1 on obtient :

C 61

1/(2N )1/N !1N !

1N !NN−1∑i=0

(N − i − 1)!(Ni

)6N2

N !

N−1∑i=0

(N − i − 1)!N !(N − i)!i!

6N2N−1∑i=0

1N − i

6N2(1 + lnN )

Exemple 8 – Loi de Gibbs. Soit une loi de Gibbs donnée par πT (x) = 1ZT

exp−V (x)T

avec V :M→ R, d = |M | et ZT =∑y∈M exp−V (y)

T . On fait l’hypothèse que si x , yalors V (x) , V (y) et que infx∈M V (x) = 0, on note Vmin = x|V (x) = 0 et N (x) lesvoisins d’un état x. On définit l’élévation d’un chemin comme Elev(γ) = supi V (xi),avec γ = (x1, . . . ,xk). On définit aussi la hauteur de communication comme : C(V ) =supx∈M infy∈Vmin

(Elev(γ(x,y))−V (x)) . On choisit parmi les chemins existants entredeux points x et y un de ceux qui minimisent Elev(Γ ). On a :

Q(e) =π(e−)P (e−, e+)

=exp− 1TV (e−)

1|N (e−)|

|N (e−)||N (e+)|

exp 1T

(V (e−)−V (e+)) 1ZT∧ 1

=exp

− 1TV (e+)

1ZT

1|N (e+)|

∧ exp− 1TV (e−)

1ZT

1|N (e−)|

20

3. Chaînes de Markov à temps discret

Ainsi, Q(e)−1 6 dZt exp sup(V (e−),V (e+))T et donc :

V arf 6ε(f , f )supeQ(e)−1

∑γ(x,y):e∈γ(x,y)

π(x)π(y)|γ(x,y)|

6ε(f , f )d2

ZTsupe

expsup(V (e−),V (e+))

T

∑γ(x,y):e∈γ(x,y)

exp− 1T

(V (x) +V (y))

6ε(f , f )d2

ZTsupe

∑γ(x,y):e∈γ(x,y)

expElev(γ(x,y))

Texp

− 1T

(V (x) +V (y))

6ε(f , f )d4

ZTsupx,y

expElev(γ(x,y))

T− 1T

(V (x) +V (y))

Or, ∀y0 ∈ Vmin on a : Elev(γ(x,y)) 6maxElev(γ(x,y0)),Elev(γ(y,y0))

en considérant

un chemin qui irait d’abord de x en y0, puis de y0 en y car par construction γ(x,y)est d’élévation minimale. D’où :

Elev(γ(x,y))−V (x)−V (y) 6C(V )

Ainsi,

V arf 6ε(f , f )d4 exp 1T

supx,y∈M

(Elev

(γ(x,y)−V (x)

),Elev

(γ(x,y)−V (y)

))6ε(f , f )d4 exp

1TC(V )

On constate ainsi que plus la température est élevée meilleure sera la borne, maisattention pour une température trop grande les valeurs propres ne sont plus toutespositives.

Voyons un cas particulier dérivé de celui que l’on vient de voir, à savoir le recuitsimulé. L’idée du recuit simulé est de faire varier en plus la température pour affinerla recherche du minimum local.

Exemple 9 – Plusieurs schémas de recuit existent, ici nous nous intéresserons aucas où la température décroît par paliers, avec T (n) = 1

k pour nk−1 < n 6 nk , nk =bexpkCc et C > C(V ).

Commençons par remarquer que lorsque T → 0, alors la probabilité P (x,y) = 1Nx

si y est voisin de x et V (x) > V (y). Si on ordonne les points par ordre décroissant,on obtient une matrice triangulaire supérieure dont toutes les valeurs propres sontpositives, ainsi pour T suffisamment petit on obtient une matrice P positive de tellesorte que la borne sur λ2 finit par dominer.

21

Cours Simulation Stochastique N. Wicker

L’autre observation que l’on peut faire est la suivante.

π(x)π(y)

= expV (y)−V (x)

T

(Cont. page suiv.)

⇒ π(y) =1∑

x expV (y)−V (x)

T

Ainsi, quand T → 0, π(y) =

1Vmin (y)|Vmin |

.En utilisant le résultat précédent entre deux temps nk−1 et nk , on obtient :∣∣∣P (Xnk ∈ A|Xnk−1=x)−π1/k(A)

∣∣∣ 6 1√π1/k(x)

(1− 1

d4 exp−kC(V )

)nk−nk−1

61√

π1/k(x)exp

(−nk −nk−1

d4 exp−kC(V )

)Or,

nk −nk−1 =bexpkCc − bexp(k − 1)Cc>expkC − exp(k − 1)C − 1

>expkC(1− exp−C − expkC

)>α expkC pour un α > 0

Et,

π1/k(x)−1 6 d exp(kVmax

)Ainsi,∣∣∣P (Xnk ∈ A|Xnk−1=x)−π1/k(A)

∣∣∣ 6 √d exp(− αd4 exp

k(C −C(V ))

+k2Vmax

)En intégrant suivant x, on obtient :∣∣∣P (Xnk ∈ A)−π1/k(A)

∣∣∣ 6 √d exp(− αd4 exp

k(C −C(V ))

+k2Vmax

)En faisant tendre k vers +∞, le membre de droite tend vers 0 et π1/k(y)→ 1Vmin (y)

|Vmin |d’après l’observation ci-dessus. On a ainsi dans ce cas particulier la démonstrationde la convergence de l’algorithme du recuit simulé.

Le lemme suivant est une alternative pour la recherche de la vitesse de conver-gence :

22

3. Chaînes de Markov à temps discret

Lemme 6 – ‖P t(x, .)−π(.)‖TV 6maxy P (Xt , Y t) où Xt ,Y t réalisent un couplage de loismarginales P t(x, .) et P t(y, .) de même loi stationnaire π.

Preuve.

‖P t(x, .)−π(.)‖TV =maxAP t(x,A)−π(A)

=maxA

∑z∈M

π(z)(P t(x,A)− P t(z,A))

6maxA

maxz∈M

P t(x,A)− P t(z,A)

6maxy∈M‖P t(x, .)− P t(y, .)‖TV

Soit w un couplage de variables aléatoires X et Y de lois µ et ν ce qui signifieque µ(x) =

∑y∈Mw(x,y) et ν(y) =

∑x∈Mw(x,y). On a alors :

P (X , Y ) =1− P (X = Y )

=1−∑z∈M

w(z,z)

>∑z

µ(z)−∑z

µ(z)∧ ν(z)

>∑

z:µ(z)>ν(z)

µ(z)− ν(z)

>‖µ− ν‖TV

On a ainsi, ‖P t(x, .)−π(.)‖TV 6 P (Xt , Y t)

Exemple 10 – Urne d’Ehrenfest. La transition aléatoire est donnée par le choix d’unélément parmi N que l’on place à −1 ou 1. On applique la même transition à deuxchaînes, celles-ci réalisant alors un couplage. On a alors :

P (Xt , Y t) =P (T > t)

6P (T > t)

6E(T )t

par Markov

6nH(n)t

(4)

En effet, il faut attendre d’avoir collecter les N objets et on a ainsi :

E(T ) =E(T1) + · · ·+E(TN )

23

Cours Simulation Stochastique N. Wicker

=1 +n

n− 1+ · · ·+ n

1

=n(1 +

12

+ · · ·+ n− 1n

)(Cont. page suiv.)

=nH(n)

où Ti est le temps qu’il faut attendre pour collecter le ie objet.La vitesse de convergence est donc de l’ordre de n lnn.

Exemple 11 (Graphe presque biparti) – On suppose que x et y sont à gauche,

P (X2x = Y 2

y ) > 14

n−2n−1

212 ∼

18 . Si x et y sont à droite : P (X1

x = Y 1y ) > 1

214 2 = 1

4 . Si

x est à gauche et y à droite : P (X2x = Y 2

y ) > 12n−2n−1

12

12 ∼

18 . Ainsi, dans tous les cas la

vitesse de convergence est une constante.

S’il n’y a pas convergence, on a malgré tout un théorème sympathique qui nousdit que la loi stationnaire d’une chaîne de Markov irréductible représente le nombrede passage moyen par chaque état. Le théorème suivant nous donne

Théorème 6 – Soit une chaîne de Markov irréductible de loi stationnaire π, on a alorspresque sûrement :

limn→∞

1n

n∑k=1

1Xk=x = π(x)

Preuve. Soit T 0x = 0, T 1

x le temps de premier retour en x et ainsi de suite avecT i+1x = infk > T ix |Xkx = x ∈N. Soit (Ik)k > 1 une suite de variables iid distribuées

comme T 1x . On a alors par la loi des grands nombres :

limn→∞

T nxn

= limn→

I1 + · · ·+ Inn

= E(T 1x )

∀n, ∃i tel que T ix 6 n < Ti+1x d’où :

1n

n∑k=1

1Xkx=x =in∈] i

T i+1x

,i

T ix]

ainsi, par passage à la limite, on obtient :

limn→∞

1n

n∑k=1

1Xkx=x =1

E(T 1x )

On a donc,

limn→∞

1n

n∑k=1

1Xk=x =1

E(T 1x )

(5)

24

3. Chaînes de Markov à temps discret

pour X0 = x, montrons que cette égalité reste vrai pour X0 , x. Il faut montre queXk rencontre x en un temps fini T , on considère alors la chaîne de Markov décalée(Xn+T )n > 0. En effet,

limn→∞

1n+ T

n∑k=1

1Xk=x = limn→∞

1n+ T

T∑k=1

1Xk=x +1

n+ T

T+n∑k=T+1

1Xk=x

=1

E(T 1x )

Montrons maintenant que T est fini presque sûrement pour tout point de départy, on s’intéresse donc à

Ty,x = infn > 0|Xny = x

or α = infy∈M P (Ty,x <∞) > 0 par irréductibilité de la chaîne. Ainsi,

P (Ty,x =∞) =∑

(x1,...,xn)∈(M\x)nP (Ty,x =∞|X0 = y,X1 = x1, . . . ,Xn = xn)

P (X0 = y,X1 = x1, . . . ,Xn = xn)

=∑

(x1,...,xn)∈(M\x)nP (Txn,x =∞)P (X0 = y,X1 = x1, . . . ,Xn = xn)

=∑

(x1,...,xn)∈(M\x)n(1− P (Txn,x <∞))P (X0 = y,X1 = x1, . . . ,Xn = xn)

6(1−α)∑

(x1,...,xn)∈(M\x)nP (X0 = y,X1 = x1, . . . ,Xn = xn)

6(1−α)P (Ty,x > n)

Par passage à la limite, on obtient :

1−α 6 (1−α)2

par conséquent, α = 1.En prenant l’espérance de l’équation 5, on obtient :

limn→∞

1n

n∑k=1

P (Xk = x) =1

E(T 1x )

par application du théorème de convergence dominée pour n’importe quel X0, ainsion a également :

limn→∞

1n

n∑k=1

∑y∈M

π(y)P k(y,x) =1

E(T 1x )

25

Cours Simulation Stochastique N. Wicker

ainsi :

π(x) =1

E(T 1x )

ce qui permet de conclure.

3.3 Chaînes de Markov à nombre d’états dénombrable

Utilisation des fonctions génératrices

On introduit les deux outils suivants :

— U (x, t) =∑k>1 P (Tx = k) = E

(tTx1Tx<∞

)— G(x, t) =

∑k>0 P

k(x,x)tk

Proposition 2 – G(x, t) = 11−U (x,t)

Preuve. On a :∑k>0

1Xkx=xtk =1 +

∑k>1

1Xkx=xtk

=1 +∑k>1

1T kx <∞tT kx

En passant à l’espérance, on obtient :

∑k>0

P k(x,x)tk =1 +E

(∑k>1

k∏i=1

1Ti<∞tTi)

avec Ti de même loi que T1

=1 +∑k>1

U (x, t)k

=1 +U (x, t)

1−U (x, t)

=1

1−U (x, t)

Ainsi, on obtient en particulier que P (Tx <∞) =U (x,1) de telle sorte que la chaînede Markov est récurrente si et seulement si G(x,1) =∞, soit

∑k>0 P

k(x,x) =∞. Nousen donnons maintenant une autre preuve, ne faisant pas intervenir les fonctionsgénératrices.

Proposition 3 – Une chaîne de Markov est récurrente ssi∑k P (x,x)k =∞.

26

3. Chaînes de Markov à temps discret

Preuve. Si x est transient alors α = P (T 1x <∞) < 1, ainsi :

E(Nx) =∑k=0

P (Nx > k)

=∑k=0

αk

=1

1−α<∞ comme α < 1

Or, Nx =∑k 1Xk=x et donc E(Nx) =

∑k P (x,x)k qui converge si α < 1 par le calcul

précédent ce qui permet de conclure.

On peut définir toutes les fonctions génératrice dont on peut avoir besoin, enparticulier on peut également définir U (x,y, t) et G(x,y, t) si les points d’arrivée etde départ sont différents.

Appliquons maintenant cela à la marche aléatoire canonique sur Z où Xt+1 =Xt + 1 avec probabilité p et Xt+1 = Xt − 1 avec probabilité q = 1− p. Sans perte degénéralité, on suppose que X0 = 0 par homogénéité de la chaîne le long de Z :

U (x, t) =∑k>1

[P (Tx = k|X1 = 1)P (X1 = 1) + P (Tx = k|X1 = −1)P (X1 = −1)

]tk

=∑k>2

P (T10 = k|X1 = 1)ptk−1t + P (T−10 = k|X1 = −1)qtk−1t

=ptU−1(t) + qtU1(t) où Ua(t) désigne Ux,x+a,t

Maintenant, calculons U1(t) :

U1(t) =∑k>1

P (T01 = k)tk

=∑k>1

P (T01 = k|X1 = 1)ptk + P (T01 = k|X1 = −1)qtk

=pt + qtU2(t)

Puis U2(t) :

U2(t) =E(1T02<∞t

T02

)=E

(1T01<∞t

T01

)2

=U1(t)2

Alors,

U1(t) = pt + qtU1(t)2(Cont. page suiv.)

27

Cours Simulation Stochastique N. Wicker

⇒ qtU1(t) = pqt2 + q2t2U1(t)2

⇒ y2 − y + pqt2 = 0 avec y(t) = qtU1(t)

On en déduit, comme y(0) = 0 que y = 1−√

1−4pqt2

2 . Comme cette expression estsymétrique en p et q, on obtient : U (x, t) = 1−

√1− 4pqt2, puis :

G1(t) =1

1−U1

=1√

1− 4pq

Par conséquent, la chaîne est récurrente pour p = q = 12 . Par ailleurs, on a :

U ′1(t) =∑k>1

kP (Tx = k)k−1

=∑k>1

kP (Tx = k)

Ainsi, comme E(Tx) > U ′1(1) = 4pq√1−4pq

= ∞ pour p = q = 1/2, la chaîne est alors

récurrente nulle.

Etude de la convergence

Proposition 4 – Les états d’une chaîne de Markov irréductible sont tous de même nature.

Preuve. Pour tout x et n, ∃n1 et n2 tels que :

P n+n1+n2(x,x) > P n1(x,x)P n(x,y)P n2(y,y)

> εP n(x,x) avec ε > 0

Ainsi,∑n P

n(x,x) > ε∑n P

n(y,y), la divergence du membre de droite impliquantcelle du membre de gauche, la récurrence de y implique celle de x et inversementpar symétrie.

Proposition 5 – Les deux propriétés suivantes sont vérifiées par une chaîne de Markovirréductible

(A1) limn→+∞1n

∑nk=11Xk=x = 1

E(T 1x )

(A2) Les propriétés suivantes sont équivalentes :

(i) il existe une unique loi stationnaire π

(ii) ∀x, π(x) = 1E(T 1

x )

28

3. Chaînes de Markov à temps discret

(iii) tous les états sont récurrents positifs

(iv) un état est récurrent positif

Preuve. Prouvons d’abord 17. Si x est transient alors, P (Tx = ∞) = α > 0, ainsiE(T 1

x ) =∞ et 1E(T 1

x )= 0. Soit N x

x le nombre de visites de x en partant de x, P (N xx =

k) = (1−α)k−1α→k→∞= 0. Ainsi, limn→∞1n

∑nk=11Xk=X = 0. Si x est récurrent, P (Tx <

∞) = 1 et donc :

limn→∞

1n

n∑k=1

1Xk=x = limn→∞

1n

+1n

n∑k=Tyx

1Xky=x

= limn→∞

n− Tyxn

1n− Tyx

n−Txy∑k=1

1Xky=x

=i

n− Tyxavec T ix 6 n− Tyx < T i+1

x

=1

E(T 1x )

Prouvons maintenant (A2). Pour (i)⇒ (ii), on utilise simplement le résultat :

limn→∞

1n

n∑k=1

1Xk=x =1

E(T 1x )

⇒ limn→∞

1n

n∑k=1

P (Xky = x) =1

E(T 1x )

en prenant l’espérance par convergence dominée

⇒ limn→∞

1n

n∑k=1

+∞∑k=1

π(y)P (Xky = x) =1

E(T 1x )

⇒ π(x) =1

E(T 1x )

Pour (ii)⇒ (iii), comme π(x) = 1E(T 1

x ), l’espérance est forcément fini pour tout x et

donc la chaîne est récurrente. (iii)⇒ (iv) est évident.

Il faut maintenant montrer que l’on a (iv) ⇒ (i). Soit Yi =∑T i+1

x

k=T ix1Xk=x, on a

alors :

E(Yi) = limn→+∞

1n

T nx∑k=0

1Xk=y = E

T1x∑

k=1

1Xk=y

29

Cours Simulation Stochastique N. Wicker

or

1n

T nx∑k=0

1Xk=y =T nxn

1T nx

T nx∑k=0

1Xk=y → limn→+∞

E(T 1x )

E(T 1y

ainsi, π(y) = 1E(T 1

y )définit une probabilité. Il faut montrer qu’elle est stationnaire :

∑y∈M

π(y)P (y,x) =∑y∈M

limn→+∞

1n

n∑k=1

1Xk=yP (y,x)

=∑y∈M

limn→+∞

1n

n∑k=1

P (Xk = y)P (y,x)

6 limn→+∞

1n

n∑k=1

P (Xk+1 = x) = π(x)

Ainsi, pour tout x,∑y π(y)P (y,x) 6 π(x) et comme∣∣∣∣∣∣1n

n∑k=1

P (Xkx = x)− 1n

n∑k=1

P (Xk+1x = x)

∣∣∣∣∣∣ =1n

∣∣∣∣P (Xn+1x = x)− P (X1

x = x)∣∣∣∣

62n→n→+∞ 0

on a bien :∑y∈M π(y)P (y,x) = π(x).

Proposition 6 – Si Φ est irréductible, apériodique et récurrente positive alors la chaîneproduit Xn ⊗Yn est également irréductible, apériodique et récurrente positive.

Preuve. L’irréductibilité et l’apériodicité sont évidentes. La récurrence positive semontre simplement en utilisant le proposition 5 p. 28 et le fait que π⊗π est une loiinvariante pour la chaîne produit.

Théorème 7 (ergodicité) – Si Φ est irréductible, apériodique et récurrente positivealors limn→+∞ P (Xn = x) = π(x)

Preuve. Soit Zn = (Xn,Yn) une chaîne produit Xn et Yn de même noyau de Markovavec T le premier temps où Xn = Yn, on a alors :

P (Xn = x) =P (Xn = x,T > n) + P (Xn = x,T 6 n)

=P (Xn = x,T > n) + P (Yn = x,T 6 n)

6P (T > n) + P (Yn = x)

30

3. Chaînes de Markov à temps discret

Par conséquent, P (Xn = x) − P (Yn = x) 6 P (T > n), par symétrie on obtient égale-ment P (Yn = x) − P (Xn = x) 6 P (T > n) et donc |P (Xn = x) − P (Yn = x)| 6 P (T > n).Comme Zn est récurrente positive, par récurrence positive de Xn, P (T =∞) = 0 donclimn→+∞ P (T > n) = 0. Si on prend maintenant Y0 de loi π par invariance on obtientque Yn est également de loi π ce qui permet de conclure.

3.4 Chaînes de Markov à nombre d’états non dénombrable

Commençons par quelques définitions de récurrence permettant de voir quemême celle-ci revêt une réalité plus riche lorsque l’on passe au cas général.

Définition 5 – Un état x est dit récurrent si P (τx < +∞) = 1 où τx est le temps depremier retour.

Définition 6 – Un ensemble d’états A est dit récurrent si pour tout x ∈ A, Ex(ηA) =∞ où ηA indique le nombre de passage en A. Parfois, on trouve aussi la définitionsuivante : un ensemble d’états A est dit récurrent si pour tout x ∈ A, P (τA < +∞) = 1.Les deux définitions ne sont pas équivalentes en général, elles sont équivalentes surun espace dénombrable d’états si A est un atome 1.

Définition 7 – Un ensemble d’états α est dit être un atome s’il existe un mesure µtelle que ∀x ∈ α, P (x,A) = µ(A).

Définition 8 – Un ensemble d’états A est dit Harris-récurrent si P (ηA = +∞) = 1.

Avec ces deux dernières définitions, on comprend que la Harris-récurrence estune notion plus forte car le nombre de passages est infini de manière presque sûreet non pas simplement en moyenne.

L’exemple suivant illustre bien cela. On considère la chaîne de Markov sur Ndécrite par les probabilités de transition suivante : P (1,1) = 1 et ∀x > 1, P (x,x + 1) =1− 1/x2 et P (x,1) = 1/x2. Soit A = 1,2, A est récurrent mais pas Harris récurrent.En effet, P2(τA =∞) =

∏t>2

(1− 1

t2

)> 0 mais on a bien E(ηA) = +∞) car s’il y a retour

dans l’état 1 la chaîne y demeure indéfiniment.

Définition 9 – Pour un ensemble d’état dénombrables, une chaîne est dite récur-rente si chaque état est récurrent.

Définition 10 – Une chaîne est dite Harris récurrente si elle est ψ-irréductible et sitout A ∈ B+(X) est Harris récurrent.

Remarque 7 – Une chaîne φ-irréductible est toujours ψ-irréductible. Nous ne défi-nissons pas ici la ψ-irréductibilité, il faut simplement la voir comme une mesuremaximum sur les φ possibles.

1. Meyn et Tweedie, 2009, Markov Chains and Stochastic Stability.

31

Cours Simulation Stochastique N. Wicker

Théorème 8 – La marche aléatoire sur Zd est récurrente pour d ∈ 1,2 et transientepour d > 2.

Preuve. Considérons d’abord le cas d = 1 et sans perte de généralité le cas où l’onpart de l’état 0. On peut décrire la marché aléatoire par la somme Sn =

∑ni=0Xi avec

Xi ∈ −1,1. On a alors :

P (S2n = 0) =

(2nn

)22n

=(2n)!n!n!22n

∼√

4πn√

2πn2

(2n)2n

n2n22n en utilisant la formule de Stirling

∼ 1√πn

Ainsi,∑+∞n=0 P (S2n = 0) = +∞ ce qui permet de conclure à la récurrence.

De manière semblable pour d = 2, on a :

P (S2n = 0) =1

42n

∑k=0

(2n)!k!k!(n− k)!(n− k)!

=(2n)!

42n(n!)2

∑k=0

(nk

)(nk

)=

142n

(2nn

)2

∼ 1πn

Maintenant pour d = 3, on a :

P (S2n = 0) =1

62n

∑i,j,k

i+j+k=n

(2n)!i!j!k!(n− i)!(n− j)!(n− k)!

6(2n)!

62n(⌊n3

⌋]!)3

1n!

∑i,j,k

i+j+k=n

(n!i!j!k!

)

6(2n)!

62n(⌊n3

⌋!)3

3n

n!(Cont. page suiv.)

32

3. Chaînes de Markov à temps discret

∼(2ne

)2n√

2π2n3n

62n(

n3e

)n/3√2πn/3

3(ne

)n√2πn

∼√

2(√2π3

)31n3/2

Ainsi,∑+∞n=0 P (S2n = 0) < +∞ donc le retour ne peut se produire une infinité de fois.

Définition 11 – Une chaîne de Markov est φ-irréductible si Φ est une mesurepositive telle que pour tout x ∈Ω et A ∈Ω avec Φ(A) > 0 alors ∃n = n(x,A) tel queP n(x,A) > 0.

Définition 12 – La période d’une chaîne de Markov sur (Ω,T) est le plus grandnombre D ∈ N tel qu’il existe des ensembles disjoints χ1, . . . ,χD ∈ T avec π loistationnaire vérifiant π(χi) > 0 et pour i ∈ 1, . . . ,D − 1 P (x,χi+1) = 1,∀x ∈ χi etP (x,χ1) = 1,∀x ∈ χD . Si D = 1 on dit que la chaîne est apériodique.

Le but de cette section est d’arriver à la démonstration du théorème 10 donnantune condition d’ergodicité sur une chaîne de Markov dans le cas général. Pourprouver la convergence, on utilisera l’inégalité de couplage suivante :

Lemme 7 – ‖L(Xn)−L(Yn)‖ 6 P (Xn , Yn)

Preuve.∣∣∣P (Xn ∈ A)− P (Yn ∈ A)∣∣∣ =

∣∣∣P (Xn ∈ A,Xn = Yn) + P (Xn ∈ A,Xn , Yn)− P (Yn ∈ A,Xn , Yn)− P (Yn ∈ A,Xn , Yn)∣∣∣

=∣∣∣P (Xn ∈ A,Xn , Yn)− P (Yn ∈ A,Xn , Yn)

∣∣∣6P (Xn , Yn)

Définition 13 – Un ensemble C de l’espace d’état (Ω,T) est dit small s’il existen ∈N et ε > 0 tels que ∀x ∈ C P n(x,A) > εQ(A) où Q est une probabilité et A ∈T.

Lemme 8 – Soit une chaîne de Markov sur l’espace X avec loi stationnaire π. Supposonsque pour A ∈X, on ait Px(τA <∞) > 0 pour tout x ∈X. Alors pour π presque tout x ∈X,Px(τA <∞) = 1.

Preuve. Prouvons cela par contradiction et supposons qu’il existem ∈N et B ⊆X telqueπ(B) > 0 et Px(τA <∞) 6 1− 1

m pour tout x ∈ B. Par ailleurs, comme Px(τA <∞) > 0pour tout x ∈X, ∃n0 ∈ B, δ0 > 0 et B′ ⊆ B tels que P n0(x,A) > δ0 et π(B′) > 0 pourtout x ∈ B′. Soit, ηB′ = #k > 1|Xn0k ∈ B

′, on a P (τA = ∞,ηB′ = r) 6 (1 − δ0)r . Enparticulier, P (τA =∞,ηB′ =∞) = 0. Ainsi, pour tout x ∈ B′ , on a :

Px(τA =∞,ηB <∞) =1− Px(τA =∞,ηB =∞)− Px(τA <∞) (Cont. page suiv.)

33

Cours Simulation Stochastique N. Wicker

>1− 0−(1− 1

m

)=

1m

Maintenant, on sait qu’il existe l ∈N, δ > 0 et B′′ ⊆ B′ tels que :

Px(τA =∞,supk > 1|Xn0k ∈ B

′ < l)> δ,x ∈ B′′

Ainsi, on posant n = n0l on garantit que pour tout x ∈ B′′, on a Px(τA = ∞,Xkn <B′ ,∀k > 1) > δ. On va maintenant montrer que π(Ac) peut être aussi grand quepossible, en effet :

π(Ac) =∫

Xπ(dy)P jn(y,Ac)

=∫

Xπ(dy)P jn(y,Ac)

>

∫Xπ(dy)Py

j−1⋃i=0

[Xin ∈ B′′ ,X(i+1)n < B

′ , . . . ,X(j−1)n < B′ ,Xjn ∈ Ac

]=j−1∑i=0

∫Xπ(dy)Py

(Xin ∈ B′′ ,X(i+1)n < B

′ , . . . ,X(j−1)n < B′ ,Xjn ∈ Ac

)

=j−1∑i=0

∫Xπ(dy)Py

(X0 ∈ B′′ ,Xn < B′ , . . . ,X(j−i−1)n < B

′ ,X(j−i)n ∈ Ac)

en utilisant la propriété de Markov (6)

On en déduit que :

π(Ac) >j−1∑i=0

[π(B′′)δ

]= jπ(B′′)δ

On aboutit ainsi à une contradiction, ce qui conclut la preuve.

Lemme 9 – Soit une chaîne apériodique Φ , si C ⊆ X est un ensemble small avecP k0(x, .) > εQ(.) pour tout x ∈ C et si on pose S = n > 1|

∫Q(dx)P n(x,C) > 0 alors

∃n∗ ∈N tel que S ⊇ n∗,n∗ + 1,n∗ + 2, . . .

Preuve. Soit T = S + k0, T représente le temps où il est possible, si on a démarré autemps 0 avec la distribution Q(.) d’être dans l’ensemble C. On constante aussi queT est additive, en ce sens que ∀n,m ∈ T , n+m ∈ T .

Par ailleurs, on a pgcd(T ) = 1. En effet, si on avait pgcd(T ) = d > 1, alors pour1 6 i 6 d avec Xi = x ∈X|∃l ∈N,

∫Q(dx)P ld+i(x,C) > 0 on aurait X = X1 ∪ · · · ∪Xd

qui forme une partition par rapport à laquelle la chaîne de Markov est périodiquede période d. Ce qui contredit l’hypothèse d’apériodicité de la chaîne de Markov.

34

3. Chaînes de Markov à temps discret

Ainsi, pgcd(T ) = 1 et T est additive. Par un résultat standard de théorie desnombres 2, on a l’existence de n′ ∈N tel que T ⊇ n′ ,n′ + 1,n′ + 2, . . .. On peut alorsconclure en posant n∗ = n′ − k0.

Théorème 9 – Toute chaîne de Markov φ-irréductible contient un ensemble small C ⊂X avec φ(C) > 0.

Preuve. La preuve peut être trouvée dans Meyn et Tweedie (2009, Theorem 5.2.2)et dans Jain et Jamison (1967).

Théorème 10 – Si P (x,dy) est la probabilité de transition d’une chaîne de Markovapériodique, φ-irréductible sur un espace général X avec une loi stationnaire π. Alors,π-p.s. pour x ∈X, on a :

limn→∞‖P n(x, .)−π(.)‖ = 0

Preuve. La preuve retranscrit ce qui peut être lu dans Rosenthal (2002), elle utiliseles lemmes 9, 8. Elle est schématisée par la figure 2.

C couplage Qavec probabilité epsilon

x

y

k0

n*

ny

nx

utilisation de la pi-stationnarité

Figure 2 – Schéma simplificateur de la preuve

On utilise la construction éclatée (split chain) 3 suivante : étant donnée (Xn,Yn),

2. Billingsley, 1995, Probability and Measure, voir p. 541.

35

Cours Simulation Stochastique N. Wicker

1. si (Xn,Yn) < C ×C, alors on choisit indépendamment Xn+1 ∼ P (Xn, .) et Yn+1 ∼P (Yn, .). On remplace n par n+ 1.

2. si (Xn,Yn) ∈ C ×C, alors

(a) avec probabilité ε, on choisit Xn+k0= Yn+k0

∼Q(.)

(b) avec probabilité 1−ε, on choisit indépendammentXn+k0∼ 1

1−ε

(P k0(Xn, .)−

εQ(.))

et Yn+k0∼ 1

1−ε

(P k0(Yn, .) − εQ(.)

)Sous les conditions 2a et 2b, on

remplit les trous entre les temps n et n + k0 conditionnellement à Xnet Xn+k0

pour Xkn<k<n+k0et conditionnellement à Yn et Yn+k0

pourXkn<k<n+k0

. On remplace n par n+ k0.

D’après le théorème 9, il y a un ensemble small C ⊂X vérifiant φ(C) > 0 tel queP k0(x, .) > εQ(.) pour tout x ∈ C.

On choisit (X0,Y0) = (x,y) pour x,y ∈X et on définit Xnn et Ynn d’après laconstruction split ci-dessus. Comme φ(C) > 0, on a Px(τC <∞) > 0 et Py(τC <∞) > 0par irréductibilité de la chaîne. Alors, il existe nx et ny tels que P nx (x,C) > 0 etP ny (y,C) > 0. Soit n∗ défini comme dans le lemme 9. Ainsi, avec P k0(x, .) > εQ(.) pourtout x ∈ C, on obtient que P nx+k0+n(x,C) > 0 à chaque fois que n > n∗. De même,P ny+k0+n(y,C) > 0 pour tout n > n∗.

Soit l >max(nx,ny) + k0 + n∗, on a comme la loi jointe fonctionne comme deuxlois indépendantes jusqu’à l’entrée en C ×C :

P(x,y)(τC×C <∞) > P l(x,C)P l(y,C) > 0.

On a ainsi, P(x,y)(τC×C <∞) > 0 pour tout (x,y) ∈X ×X.

Soit, G ⊆X ×X l’ensemble des couples (x,y) pour lesquels P(x,y)

((Xn,Yn) ∈ C ×

Ci.s.)

= 1. On va montrer que l’on a :

(π ×π)(G) = 1 (7)

En appliquant le lemme 8, comme le temps de retour en C ×C est positif pour tout(x,y), on a une probabilité 1 de retour en C×C pour (π×π)-presque tout (x,y) ∈ C×C.Lorsque la chaîne rejoint C ×C, elle y retourne indéfiniment avec probabilité 1 cequi prouve l’ équation (7). C’est ici que l’hypothèse de π-stationnarité joue son rôleet rend cette preuve plus courtes que toutes celles existants par ailleurs dans lalittérature.

Maintenant, à chaque fois que (Xn,Yn) ∈ C ×C (en excluant les temps à moinsde k0 pas d’une précédente visite de C ×C), d’après la partie 2a de la constructionsplitée, il y a une probabilité ε > 0 que les deux chaînes se couplent k0 itérations plustard(on aurait donc comme temps de couplage T∗ = n+ k0. Par conséquent, commeC ×C est visité infiniment souvent, on a :

limn→∞

P(x,y)(T∗ > n) = 0, (x,y) ∈ G.

36

3. Chaînes de Markov à temps discret

L’inégalité de couplage nous donne :

‖P n(x, .)− P n(y, .)‖ 6 P(x,y)(Xn , Yn) 6 P(x,y)(T∗ > n).

pour presque tout couple (x,y). Soit pour x ∈X, Gx = y ∈X|(x,y) ∈ G et G = x ∈X|π(Gx) = 1. Ainsi, on a pour tout x ∈ G :

limn→∞‖P n(x, .)−π‖ = lim

n→∞

∥∥∥∥∫ π(dy)P n(x, .)−∫π(dy)P n(y, .)

∥∥∥∥6 limn→∞

∫π(dy)‖P n(x, .)− P n(y, .)‖

6 limn→∞

∫π(dy)P(x,y)(T∗ > n) = 0

où on a pour tout x ∈ G, que limn→∞ P(x,y)(T∗ > n) = 0 pour π-presque tout y ∈X.Finalement, on montre que π(G) = 1, en effet si on avait π(G) < 1, on aurait :

(π ×π)(Gc) =∫

Xπ(dx)π(Gc

x) =∫Gcπ(dx)

[1−π(Gx)

]> 0

ce qui contredit 7. Ainsi, π(G) = 1 ce qui conclut la preuve.

Exemple 12 – Simulation de la loi cible :

f (x) ∝ e−‖x−µ‖2

2σ2

5∏i=1

e− 1‖x−pi ‖

à l’aide de l’algorithme de Metropolis-Hastings. On prend comme loi de propositionq(xt ,x∗) la loi N (xt ,σ2I2). La chaîne est φ-irréductible, il suffit de prendre pour celala mesure de Lebesgue φ et de constater que pour A tel que φ(A) > 0 on a uneprobabilité positive d’aller en A en une étape. Pour l’apériodicité, quel que soit ledécoupage en ensembles disjoints, il sera toujours possible de rester dans le mêmeensemble avec une probabilité non nulle. On a donc convergence f -presque partoutd’après le théorème 10 p. 35.

Si la chaîne de Markov est Harris-récurrente, alors on peut remplacer pourπ-presque tout x ∈X par pour tout x ∈X 4. La Harris récurrence peut nous êtrefacilement garantie par le résultat suivant :

3. Athreya, Doss et Sethuraman, 1992, « A proof of convergence of the Markov chain simulationmethod » ;

Nummelin, 1984, General irreducible Markov chains and non-negative operators ;Meyn et Tweedie, 2009, Markov Chains and Stochastic Stability.

4. Tierney, 1994, « Markov chains for exploering posterior distributions ».

37

Cours Simulation Stochastique N. Wicker

Théorème 11 – Si P est un noyau de Métropolis π-irréductible alors P est Harris récur-rente 5.

Une preuve directe est également disponible dans Athreya, Doss et Sethuraman(1992).

3.5 Chaînes de Markov à temps continu et espace dénombrable(intro)

On considère une chaîne de markov (Xt)t∈R+ à valeur dans M et de matrice detransition au temps t, P t notée également P (t) suivant les cas.

Proposition 7 – Equation de Chapman-Kolmogorov : P (t + t′) = P (t)P (t′).

Preuve. On considère la partition de l’espace Ω sur lequel est définie la chaîne :Ω = ∪k∈M Xt = k et on obtient :

Pij (t + t′) =∑k∈M

P (Xt+t′ = j |X0 = i,Xt = k)P (Xt = k|X0 = i)

=∑k∈M

P (Xt+t′ = j |Xt = k)P (Xt = k|X0 = i)

=∑k∈M

Pik(t)Pkj (t′)

Un outil commode pour manipuler ces chaînes et le générateur infinitésimaldéfini ci-dessous, il permet en effet de caractériser complètement la chaîne deMarkov.

Définition 14 – On appelle générateur infinitésimal la limite suivante :

A = limt→0

P (t)− It

= P ′(0)

L’équation de Chapman-Kolmogorov nous dit en effet que P (t + h) = P (h)P (t),si on dérive par rapport à h on obtient alors P ′(t + h) = P ′(h)P (t) ce qui donne enfaisant tendre h vers 0 :

P ′(t) = AP (t)

qui se résoud en :

P (t) = eAt car P (0) = I

Ainsi, il suffit de calculer l’exponentielle de At pour trouver P (t).

5. Tierney, 1994, « Markov chains for exploering posterior distributions ».

38

3. Chaînes de Markov à temps discret

Exemple 13 – Soit A =(−1 11 −1

), ainsi : (At)2 = t2

(2 −2−2 2

)et d’une manière

générale : (At)k = tk(−1)k(

2k−1 −2k−1

−2k−1 2k−1

)ainsi :

eAt =I +12

∞∑k=1

tk(−1)k2k

k!

(1 −1−1 1

)=I +

12

(e−2t − 1

)( 1 −1−1 1

)=

12

(1 + e−2t 1− e−2t

1− e−2t 1 + e−2t

)On va maintenant montrer que le générateur infinitésimal s’interprète facile-

ment en considérant, avec comme point de départ X0 = x, d’une part P (T1 > t) etd’autre part P (T1 < t,Z1 = y) où T1 indique le premier saut et Z1 le premier étatatteint après x. On introduit une discrétisation de [0, t] avec des pas de taille h. On re-marque pour commencer que T1 > t ⊂ X0 = Xh = · · · = Xnh ⊂ T1 > t∪T2−T1 < h,le dernier ensemble exprime la possibilité de ne pas observer un saut car il se pro-duirait à une échelle de temps trop petite. Ainsi, on obtient :

P (T1 > t) = limh→0,nh=t

P (X0 = Xh = · · · = Xnh)

= limh→0,nh=t

P nx,x

or lnPx,x(h) = Px,x(h)− 1 + o(|Px,x(h)− 1|

), ainsi :

Px,x(h) =expPx,x(h)− 1 + o(|Px,x(h)− 1|

)

=expAx,xh+ o(h)

On en déduit que :

P (T > t) = limh→0,nh=t

expAx,xnh+no(h)

=eAx,xt

On peut alors interpréter tous les termes diagonaux du générateur comme lesopposés des temps moyens de rester dans les états correspondants, temps quisuivent tous une loi exponentielle.

De même, on observe que T < t,Z1 = y ⊂ ∪nm=1X0 = Xh = · · · = X(m−1)h,Xmh =y ⊂ T < t,Z1 = y ∪ T2 − t1 < h de telle sorte que :

P (T < t,Z1 = y) = limh→0,nh=t

n∑m=1

Pm−1x,x (h)Pxy(h) (Cont. page suiv.)

39

Cours Simulation Stochastique N. Wicker

= limh→0,nh=t

1− P nx,x(h)1− Px,x(h)

Pxy(h)

= limh→0,nh=t

1− eAx,xnh+o(h)

−hAx,x + o(h)Px,y(h)

=(1− e−Ax,xt

) Ax,y−Ax,x

On voit maintenant, que les termes non diagonaux sont proportionnels aux proba-bilités de choix du prochain état, après saut.

Exemple 14 (Processus de Poisson) – Soit

A =

−λ λ−λ λ

−λ λ. . .

. . .

. . .. . .

En notant U la sur-diagonale ne contenant que des 1, on a : A = −λI +λU , ainsi :

P (t) =eAt

=e−λtI+λtU

=e−λtIeλtU par commutativité de I et U

=e−λtI∞∑k=0

(tU )k

k!

de telle sorte que Pij(t) = e−λt tj−i

(j−i)! où l’on retrouve la loi de Poisson. On retrouvece processus lorsque l’on compte des évènements se produisant à des intervallesde temps qui suivent une loi exponentielle, ce qu’expriment justement les termesdiagonaux comme on vient de le voir dans le paragraphe précédent.

4 Méthode de Monte-Carlo et statistiques bayésiennes

4.1 Introduction

L’idée de base : P (x|θ) la loi sur x de paramètre θ avec un a priori sur P (θ)souvent noté π(θ). exemples :1)les longueurs de pétales d’iris données en cm, θN(3,1)

2)estimation d’une populationN à partir de capture-recapture. P (N ) = 1[1,Nmax]1N

avec Nmax = 1000.

40

4. Méthode de Monte-Carlo et statistiques bayésiennes

On utilise la formule de Bayes pour maximiser :

P (θ|x) =P (x|θ)P (θ)

P (x)

On dit que l’on estime θ par maximum a posteriori. Il est important ici de remarquerque quel que soit θ, P (x) est une constante et donc on écrira couramment P (θ|x) ∝P (x|θ)P (θ). Soit on maximise directement P (θ|x) ce qui en général est ardu, soit onsimule θ d’après P (θ|x) ce qui constitue la pratique courante.

4.2 Lois conjuguées

Définition : la loi de θ est conjuguée à celle de P (x|θ) si la loi de P (θ|x) est demême type (même loi mais avec éventuellement des paramètres différents).

Exemple 15 – la loi bêta Be(α,β) est conjuguée à la loi binomiale B(n,p). Prenons,

P (x|n,p) =(nx

)px(1− p)n−x et P (p) = Γ (α+β)

Γ (α)Γ (β)pα−1(1− p)β . Alors,

P (p|x) ∝(nx

)Γ (α + β)Γ (α)Γ (β)

px+α−1(1− p)n+β−x−1

∝ px+α−1(1− p)n+β−x−1

On a donc que P (p|x) Be(x+α,n− x+ β).

Exemple 16 – la loi Γ (k,θ) est conjuguée à la loi de Poisson P (λ). Prenons P (x|λ) =e−λ λ

x

x! et P (λ|k,θ) = λk−1

Γ (k)e−λ/θ

θk. Ainsi,

p(λ|x) ∝ e−λλx

x!λk−1

Γ (k)e−λ/θ

θk

∝ e−λλx+k−1e−λ/θ

∝ e−λ(1+1/θ)λx+k−1

donc P (λ|x) Γ (x+ k, (1 + 1θ )−1).

Exemple 17 – la loi de Gauss N(m,s2) est conjuguée à la loi de Gauss N(µ,σ2) pour

le paramètre µ. Prenons, P (x|µ,σ2) = 1√2πσ

e−(x−µ)2

2σ2 et P (µ|m,s2) = 1√2πse− (µ−m)2

2s2 . Ainsi,

P (µ|x) ∝ e(x−µ)2

2σ2 e− (µ−m)2

2s2

∝ e−12

[µ2( 1

σ2 + 1s2

)−2µ( xσ2 + m

s2)]

41

Cours Simulation Stochastique N. Wicker

On introduit T = ( 1σ2 + 1

s2)−1/2, ainsi

P (µ|x) ∝ e−1/2[ µ2

T 2 −2T 2

T 2 ( xσ2 + m

s2)µ]

∝ e−1

2T 2

(µ−( x

σ2 + ms2

)T 2)2

donc P (µ|x)N(T 2( xσ2 + m

s2),T 2).

Exemple 18 – la loi inverse-gamma IG(k,θ) est conjuguée à la loi de Gauss pour le

paramètre σ2. Prenons P (x|µ,σ2) = 1√2πσ

e− (x−µ)2

2σ2 et P (σ2) = θkeθ/σ2

Γ (k)σ2(k+1) . Ainsi,

P (σ2|x) ∝ 1√

2πσe− (x−µ)2

2σ2θke−θ/σ

2

Γ (k)σ2(k+1)

∝ 1σe− (x−µ)2

2σ2e− θσ2

σ2(k+1)

∝ e− 1σ2

((x−µ)2

2 +θ)

1(σ2)k+1/2+1

donc P (σ2|x) IG(k + 12 ,

(x−µ)2

2 +θ)

4.3 Métropolis-Hastings

Principe : on veut simuler une loi π(θ) (dans notre cas, la loi P (θ|x)), loi cibleavec une chaîne de Markov.

Initialisation : θ0← valeur quelconque Etape 1 : on propose θ∗ suivant une loi

de proposition q(θt−1,θ∗). Etape 2 : θt ← θ∗ avec la probabilité π(θ∗)q(θ∗,θt−1)π(θt−1q(θt−1,θ∗) ∧ 1,

parfois on a simplement π(θ∗)π(θt−1) ∧ 1. Etape 3 : retour en 1 sauf si nombre d’itérations

suffisant.Pour que cela fonctionne, il faut que la chaîne de Markov soit irréductible et

apériodique dans le cas d’un nombre d’états finis.

Proposition 8 – π(θ) est bien la loi stationnaire.

Preuve. Cela se démontre en exhibant la réversibilité de la chaîne, on a en effet :

π(θt−1)P (θt−1,θt) = π(θt−1q(θt−1,θt)(π(θt)q(θt ,θt−1

π(θt−1q(θt−1,θt∧ 1

)= π(θt)q(θt ,θt−1)∧π(θt−1)q(θt−1,θt)

= π(θt)P (θt ,θt−1)

42

4. Méthode de Monte-Carlo et statistiques bayésiennes

En pratique, il est important de connaître la vitesse de convergence, pour avoirune bonne vitesse de convergence, il faut bien choisir q(θt ,θ∗). On peut avoirMétropolis indépendant, simulation de manière globale, sinon c’est une simulationlocale.

Exemple 19 – f (x) ∝ e−‖x‖2

2∏ki=1 e

− 1‖x−µi ‖ ,x,µ1, . . . ,µk ∈R2, les µi définissent des zones

interdites. q(xt−1,x∗)N (xt−1, sI2).

Exemple 20 – capture-recapture. On cherche à connaître un effectif total N . Oneffectue deux captures et on note x1 et x2 les effectifs de ces deux captures et x+

le nombre d’invidus capturés au moins une fois (x∗ > x1 + x2). Notre modèle est le

suivant : P (N ) = 1[1,Nmax](N ) 1Nmax

, P (xi |pi) =(Nxi

)pxii (1 − pi)N−xi et pi Be(α,β).

On considère n1 : nombre d’individus capturés uniquement au temps 1, n2 au temps2 et n12 les individus capturés aux temps 1 et 2. On a le modèle multinomial :

P (n1,n2,n12|N,p1,p2) = () [p1(1− p2)]n1 [p2(1− p1)]n2(p1p2)n12 [(1− p1)(1− p2)]N−n1−n2−n12

=N !

n1!n2!n12!(N − x+)!pn1+n12p

n2+n122

1 (1− p1)N−n1−n12(1− p2)N−n2−n12

Ainsi,

P (N |x) ∝ (N − 1)!(N − x+)!

2∏i=1

pxii (1− pi)N−xi1[1,Nmax](N )Γ (α + β)Γ (α)Γ (β)

pα−1i (1− pi)β−1

Comment estime-t-on N ? On simule P (N |x) et on sélectionne le maximum deNt , t ∈ 0, tmax.

Exemple 21 – estimation des paramètres de la loi de Weibull avec G(x) = 1−F(x) =e−bx

aet f (x|a,b) = abxa−1e−bx

a. On veut estimer a et b en prenant comme loi a priori

E(1) pour a et Γ (k,θ) pour b. La loi a posteriori pour un échantillon x1, . . . ,xn estalors :

P (a,b|x) ∝ anbnn∏i=1

xai e−b

∑ni=1 x

ai e−abk−1e−b/θ

Comme loi de proposition, on peut prendre : q(θt−1,θ∗) = e−a∗/at−1

e−b∗/bt−1

at−1bt−1 . La proba-bilité d’acceptation prend une forme innommable :

a∗b∗(∏ni=1 xi)

a∗e−b∗∑n

i=1 xa∗i e−a

∗(b∗)k−1e−

b∗θ

at−1bt−1(∏ni=1 xi)

at−1e−bt−1 ∑n

i=1 xat−1i e−at−1(bt−1)k−1e−

bt−1θ

at−1bt−1e−at−1a∗ e−

bt−1b∗

a∗b∗e− a∗at−1 e

− b∗bt−1

∧ 1

Cela sera revu dans l’échantillonnage par tranche.

43

Cours Simulation Stochastique N. Wicker

4.4 Méthode de Gibbs

Origine : simulation des champs de Gibbs où P (S1, . . .Sn) ∝ e−E/T avec E =∑i∼j (Si − Sj )2kij avec i ∼ j si Si et Sj sont voisins.

Idée : simuler Si en les traitant un par un.Gibbs bivarié pour simuler P (α,β).

Initialisation : α0 et β0 quelconques.Etape 1 : simulation de αt suivant P (α|βt−1).Etape 2 : simulation de βt suivant P (β|αt)Etape 3 : retour en 1 sauf si nombre d’itérations suffisant.

Cela fonctionne car la chaîne de Markov est réversible, en effet :

π(αt−1,βt−1)P (αt |βt−1)P (βt |αt) = P (αt−1,βt−1,αt ,βt)

= π(αt ,βt)P (αt−1|βt)P (βt−1,αt−1)

Gibbs multivarié : La chaîne de Markov ainsi obtenue est bien réversible. En

Initialisation : α01 , . . . ,α

0k .

Etape 1 : αt1 généré suivant P (α1|αt−12 , . . . ,αt−1

k ).Etape 2 : αt2 généré suivant P (α2|αt1,α

t−13 , . . . ,αt−1

k )...Etape k : αtk généré suivant P (αk |αt1, . . . ,α

t−1k−1)

Etape k + 1 : retour en 1 sauf si nombre d’itérations suffisant.

effet,

P (αt−11 , . . . ,αt−1

k ,αt1, . . . ,αtk) =P (αt−1

1 , . . . ,αt−1k )P (αt1|α

t−12 , . . . ,αt−1

k )P (αt2| . . . ) . . .P (αtk |α

t1, . . . ,α

tk−1)

=P (αt1, . . . ,αtk)P (αt−1

1 |αt2, . . . ,α

tk)P (αt−1

2 | . . . ) . . .P (αt−1

k |αt−11 , . . . ,αt−1

k−1)

Application à la régression linéaire : On considère le modèle y = bx + ε avecεN(0,σ2), σ2 IG(k,θ) et bN(β,α2).

Soit un échantillon x1, . . . ,xn, y1, . . . , yn, f (y|x,σ2,b) =∏ni=1

1√2πσ

e− (yi−bxi )2

2σ2 et

g(σ2,b|y,x) ∝ f (y|x,σ2,b)e−(b−β)2

2α2θke−

θσ2

Γ (k)(σ2)k+1(Cont. page suiv.)

44

4. Méthode de Monte-Carlo et statistiques bayésiennes

∝ e−∑ni=1

(yi−bxi )2

2σ22σ2

e− (b−β)2

2α2 e− θσ2

(σ2)k+1/2+1

∝ e−(b−β)2

2α2e− 1σ2 (θ+

∑ni=1

(yi−xi )22 )

(σ2)k+1/2+1

On simule donc σ2 suivant la loi IG(k + 1/2,θ +∑ni=1(yi−bt−1xi )2

2 ). De même,

g(σ2,b|y,x) ∝ e−12 [b2( 1

α2 +∑ni=1 x

2i )−2b(β−

∑ni=1 yixi )]

∝ e− 1

2 ( 1α2 +

∑ni=1 x

2i

σ2 )(b2−2b(β+

∑ni=1

xi yiσ2

1α2 +

∑ni=1 x

2i

)

∝ e−(b−

β+∑ni=1 xi yi /σ2

1/α2+∑ni=1 x

2i /σ

2

)2

2(

1α2 +

∑ni=1 x

2i

σ2

)−1

Ainsi, bt est simulé suivant : N(β+∑ni=1 xiyi /(σ

t)2

1α2 +

∑ni=1 x

2i

σ2

,(

1α2 +

∑ni=1 x

2i

(σ t)2

)−1).

4.5 Echantillonnage par tranche

On a une loi π(θ) que l’on n’arrive pas à simuler directement mais que l’on peutécrire

π(θ) =n∏i=1

wi(θ) =n∏i=1

∫ wi (θ)

01dwi

On s’intéresse à la densité :

h(θ,w1, . . . ,wn) = 1θ∈D

n∏i=1

1[0,wi (θ)](wi)

On applique maintenant l’algorithme de Gibbs multivarié car la densité marginaleen θ est π(θ) par construction.

Application à la loi de Weibull On considère Ga,b(x) = e−bxa

= 1−F(x). Soit f (x) =

abxa−1e−bxa

avec comme lois a priori π(a) = e−a et π(b) = bk−1

Γ (k)θke−

bθ . On dispose d’un

échantillon x1, . . . ,xn de vraisemblance : f (x|a,b) = anbn(∏ni=1 xi)

a−1(∏ni=1 e

−bxai ). Laloi a posteriori est alors :

g(a,b|x) ∝ anbn(n∏i=1

xi)a

n∏i=1

e−bxai e−abk−1

e−bθ

Γ (k)θk(Cont. page suiv.)

45

Cours Simulation Stochastique N. Wicker

Initialisation : θ0.Etape 1 : wt1 simulé suivant U (0+, w1(θt−1))...Etape n : wtn simulé suivant U (0+, wn(θt−1))Etape n+ 1 : θt simulé suivant UA avec A = θ ∈D,∀i wti 6 wi(θ)

∝ an(n∏i=1

xi)abn+k−1e−b( 1

θ +∑ni=1 x

ai )e−a

On peut ainsi simuler bt suivant Γ (n+ k, 1θ +

∑ni=1 x

at−1

i ). On simule at en utilisantl’échantillonnage par tranche :

g(a,b|x) ∝ an∫ e−a

0dw−1

∫ ∏ni=1 xi

0dw0

n∏i=1

∫ e−bxai

0dwi

On considère la densité :

h(a,w0,w1, . . . ,wn) ∝ 1a∈]0,+∞[an1w−1∈[0,e−a

−−1 ]1w0∈[0,∏xi ]

n∏i=1

1wi∈[0,e

−bxai ]

Initialisation : a0.Etape −1 : wt−1 simulé suivant U (0, e−a

t−1)

Etape 0 : wt0 simulé suivant U (0, (∏ni=1 xi)

at−1)

Etape 1 : wt1 simulé suivant U (0, e−bxat−11 )

...Etape n : wtn simulé suivant U (0, e−bx

at−1n )

Etape n + 1 : at simulé suivant la loi puissance PA(n) loi puissance de para-mètre navec A = θ ∈ D,∀i wti 6 wi(θ) avec A = a > 0, tel que wt−1 6 e

−a,wt0 6

(∏ni=1)a et ∀iwti 6 e

−bxai .

Au sujet de A : lnwt0 6 a ln∏ni=1 xi , soit a > lnwt0∑n

i=1 lnxiet ∀i,wti 6 e

−xai soit lnwti 6

−bxai et doncln(− lnwti /b)

lnxi> a ainsi a+ > a > a− avec a+ = min

i∈1,..., ln(− lnwti /b)

lnxi et a− =

lnwt0∑ni=1 lnxi

. La loi puissance se simule par anamorphose :

Fa(x) =∫ a+

a−undu = [

un+1

n+ 1]a

+

a− =1

n+ 1[(a+)n+1 − (a−)n+1]

46

4. Méthode de Monte-Carlo et statistiques bayésiennes

alors

F(x) =∫ x

a−

(n+ 1)un

(a+)n+1 − (a−)n+1 du

=xn+1 − (a−)n+1

(a+)n+1 − (a−)n+1 =U (8)

avec U loi uniforme sur (0,1). Ainsi, x =U [(a+)n+1 − (a−)n+1] + (a−)n+1

1n+1 .

Vue synthétique : Gibbs bivarié avec un échantillonnage de bt puis un échan-tillonnage par tranche de at .

Application à la gaussienne tronquée Soit f (x) ∝ e−x22 1[a,b](x) gaussienne N(0,1)

tronquée à [a,b]. On réécrit la densité :

1[a,b](x)∫ e−

x22

0dw1

et on simule suivant :

1[a,b](x)1[0, e− x2

2 ](w1)

Initialisation : x0.

Etape 1 : wt1 simulé suivant U (0, e−(xt−1)2

2

Etape 2 : xt généré suivant UA avec A = x ∈ [a,b]|w1 6 e− x2

2

Concernant A, w1 6 e− x2

2 soit 2lnw1 6 −x2⇒ x2 6 2lnw1. Donc |x| 6√−2lnw1,

ainsi A = [a,b]∩ [−√−2lnw1,

√−2lnw1].

Application à la loi bêta B(α,β) Soit f (x) ∝ Γ (α+β)Γ (α)Γ (β)x

α−1(1 − x)β−1. On réécrit ladensité comme :

1[0,1](x)∫ xα−1

0dw1

∫ (1−x)β−1

0dw2

et on simule suivant :

1[0,1](x)1[0,xα−1](w1)1[0,(1−x)β−1](w2)

Pour obtenir A, on observe que 0 6 xt , wt1 6 x(α−1) et wt2 6 (1 − x)(β−1), ainsi

xt > (wt1)1/(α−1) et xt 6 1− (wt2)1/(β−1). Ainsi, A = [max0, (wt1)1/(α−1),1− (wt2)1/(β−1)].

47

Cours Simulation Stochastique N. Wicker

Initialisation : x0.Etape 1 : wt1 simulé suivant U [0,xα−1]Etape 2 : wt2 simulé suivant U [0, (1− x)β−1]Etape 3 : xt généré suivant UA avec A à déterminer

Application à la régression logistique avec le modèle probit Dans le modèle

probit on a : P (y = 1) = φ(x′ib) avec φ(x) =∫ x−∞

1√2πe−

u22 du. On a un échantillon

y1, . . . , yn ∈ 0,1, x1, . . . ,xn ∈Rp. La vraisemblance est donnée par :

f (y|b,x) =n∏i=1

[φ(x′ib)]yi [1−φ(x′ib)]1−yi

On introduit l’a priori suivant sur b :

π(b) ∝ e−‖b‖2

2 avec bN(0, Ip)

La loi a posteriori est :

g(b|y,x) ∝ e−‖b‖2

2

n∏i=1

n∏i=1

[φ(x′ib)]yi [1−φ(x′ib)]1−yi

∝ e−‖b‖2

2

n∏i=1

∫ x′ib

−∞e−

w2i

2

yi ∫ +∞

x′ibe−

w2i

2

1−yidwi

On applique l’échantillonnage par tranche :

Initialisation : b0.Etape 1 : wt1 simulé suivant une N(0,1) tronquée à ]−∞,x′1] si y1 = 1 et à [x′1b,+∞[si y1 = 0

Etape... :

Etape n : wtn simulé suivant une N(0,1) tronquée à ]−∞,x′n] si yn = 1 et à [x′nb,+∞[si yn = 0Etape n + 1 : bt simulé suivant N(0, Ip) tronquée sur A = x ∈ R

P tq ∀i ∈1, . . . ,n,wi 6 x′ib si yi = 1x′ib 6 wi si yi = 0

On simule bt avec un échantillonnage de Gibbs multivarié, sur b = (b1, . . . , bp) ensimulant à chaque fois une gaussienne univariée tronquée.

48

4. Méthode de Monte-Carlo et statistiques bayésiennes

Application à la régression logistique avec le modèle logit On utilise iciψ(x′b) =ex′b

1+ex′balors

f (y|x,b) =n∏i=1

[ψ(x′ib)]yi [1−ψ(x′ib)]1−yi

π(b) ∝ e−‖b‖2

2 . Ainsi,

g(b|x,y) ∝ e−‖b‖2

2

n∏i=1

[ψ(x′ib)]yi [1−ψ(x′ib)]1−yi

∝∝ e−‖b‖2

2

n∏i=1

[∫ ψ(x′ib)

0dwi]

yi [∫ 1−ψ(x′ib)

0dwi]

1−yi

On a la densité en b,w1, . . . ,wn suivante :

h(b,w1, . . . ,wn) ∝ e−‖b‖2

2

n∏i=1

[1[0,ψ(x′ib)(wi )]]yi [1[0,1−ψ(x′ib)(wi )]]

1−yi

Initialisation : b0.Etape 1 : wt1 simulé suivant U [0,ψ(x′1b)] si y1 = 1 et wt1 simulé suivant U [0,1 −ψ(x′1b)] si y1 = 0.

Etape... :

Etape n : wtn simulé suivant U [0,ψ(x′nb)] si yn = 1 et wtn simulé suivant U [0,1−ψ(x′nb)] si yn = 0.Etape n + 1 : bt simulé suivant N(0, Ip) tronquée sur A = b ∈ R

P tq ∀i ∈1, . . . ,n,wti 6 ψ(x′ib) si yi = 1wti 6 1−ψ(x′ib) si yi = 0

or wi 6 ψ(x′ib) = ex′i b)

1+ex′i b

, donc wi 6 ex′ib(1−wti ) et

wi 6 1−ψ(x′ib) =1

1 + ex′ib

⇒ wti +witex′ib 6 1

x′ib 6 ln(

1−wtiwti

)On simule à nouveau b comme b = (b1, . . . , bp) à l’aide de gaussiennes univariéestronquées par un échantillonnage de Gibbs multivarié.

49

Cours Simulation Stochastique N. Wicker

4.6 Échantillonnage exact

Soit un couplage global de tous les états de Ω espace d’états fini, i.e. f : Ω ×[0,1]→ Ω avec r pris uniformément sur [0,1] tel que f (Xt , r) converge vers unedistribution stationnaire π. Soit, Ft2t1 (x) = ft2 ft2−1 · · · ft1+1(x). Remarquons que si

|Ft2t1 (Ω)| = 1 alors |Ft2t1−1(Ω)| = 1.

limt→+∞

F(X0−t(x)) = lim

t→+∞F(Xt0(x)) = π

Ainsi, si F0−M (Ω) est un état unique Z alors, F0

−∞(Ω) = Z ce qui conclut la preuve.

Application au modèle d’Ising On considère des états dans Ω = −1,1V où Vsont les sommets d’un graphe G(V ,E). La probabilité d’un état est donnée par :

P (X) ∝ e∑u∼v X(u)X(v)

T avec T facteur de température

Ce modèle est issu de la physique mais est utilisé en finance pour simuler lecomportement d’agents financiers.

La chaîne de Markov est monotone par rapport à la relation d’ordre donnée parX > Y ssi ∀v ∈ V , X(v) > Y (v). Il y a monotonie ici pour une chaîne de Métropolisdonnée par

Xt+1←

X∗ avec une probabilité e

∑u∼v X∗(u)X∗(v)

T q(Xt)

e

∑u∼v Xt (u)Xt (v)

T q(X∗)∧ 1

Xt sinon

En effet,

e∑u∼v X∗(u)X∗(v)

T

e∑u∼v Xt (u)Xt (v)

T

= exp 1T

(s −Xt(v))∑u∼v

Xt(u)

Soit Xt > Yt , si s = 1 et Xt(v) = 0 et Yt(v) = 0 alors la transition se fait avec uneprobabilité exp 1

T

∑u∼vXt(u) pour X et exp 1

T

∑u∼v Yt(u) pour Y . Or,

∑u∼vXt(u) >∑

u∼v Yt(u), donc si Y change, X aussi.

5 Application aux équations différentielles stochastiques

5.1 Schéma d’Euler

On considère l’équation différentielle stochastique suivante :

dXt = b(Xt)dt + σ (Xt)dBt

50

5. Application aux équations différentielles stochastiques

alors, on réalise l’approximation : Xh ≈ X0 + hb(X0) + σ (X0)(Bh −B0) et de manièregénérale :

Xtk+1= Xtk + hb(Xtk ) + σ (Xtk )(Btk+1

−Btk )

Théorème 12 – Pour b et σ Lipschitzienne, h = T /n, pour tout q ∈R on a :

E( supk,kh<T

|Xkh −Xkh|2q) 6 Chq

On aura besoin plus loin de la formule de Black-Scholes :

Proposition 9 – Avec le modèle dSt = St(rdt + σtBT ) alors le prix d’un put est donnépar :

E((K − St)+) = Kφ(d1)− S0eT rφ(

d1 − σT√T

)

avec d1 = 1σ ln

(KS0

)− tσ

(r − σ2

2

).

Preuve. On pose yt = lnSt , ainsi par la formule d’Itô on a :

yT = y0 +∫ T

0rds+ σdBS −

12

∫ T

0σ2ds

⇒ ST = S0eT(r− σ2

2

)+σBT

Calculons maintenant le prix du put, pour intégrer il faut faire attention au change-ment de signe de : K − ST or

K − ST > 0

⇔ K − S0eT(r− σ2

2

)+σBT> 0

BT 61σ

ln(KS0

)− Tσ

(r − σ

2

2

)= d1 (9)

Ainsi,

E((K − ST )+) =∫ d1

−∞(K − S0e

T(r− σ2

2

)+σx

)e−

x22T

√2πT

dx

=Kφ(d1/√T )− S0e

T(r− σ2

2

)∫ d1

−∞

e−(x−σT )2

2√

2πTeσ

2T /2dx

=Kφ(d1/√T )− S0e

T rφ(d1 − σT√

T)

51

Cours Simulation Stochastique N. Wicker

5.2 Simulation du brownien fractionnaire

Le brownien fractionnaire de coefficient α est un processus gaussien de cova-riance :

cov(Bs,Bt) =12

(t2α + s2α − |t − s|2α)

pour α = 0.5 on retrouve le mouvement brownien, pour α > 0.5 on augmente larégularité et pour α < 0.5 on la diminue. Propriété de longue mémoire :∑

i=1

|E(Bαi+1 −Bαi )Bα1 | = +∞ si α > 0.5,

Propriété de Hölder sur une période [0,T ] :

∃C tel que ∀s, t|Bαt −Bαs | 6 C|s − t|α∗

pour tout α∗ < α

5.3 Réduction de la variance pour option asiatique

On considère le modèle de Black-Scholes : dSt = St(rdt + σdBt). On veut évaluerun call asiatique de prix d’exercice K sur une période T , son coût est donné par :

E

(1T

∫ T

0Sudu −K

)+

avec comme vu précédemment, St = S0e

(r− σ2

2

)t+σBt . Alors, on constate que Z =(

exp 1T

∫ T0 lnStdt −K

)+

peut être simulé facilement et a aussi une espérance qui se

calcule facilement. On peut donc utiliser Z comme variable de contrôle.

Lemme 10 –∫ T

0 BuduN (0,T 3/3)

Preuve. Pour tout ω ∈FT filtration naturelle du mouvement brownien,∫ T

0 Bu(ω)duest définie par continuité de Bu(ω). Ainsi, on peut calculer l’intégrale de Riemanpar : ∫ T

0Bu(ω)du = lim

n→+∞

n∑i=1

TnB iT

n(ω)

Ainsi,∑ni=1

TnB iT

nconverge presque sûrement vers

∫ T0 Budu et par conséquent égale-

ment en loi. Or la loi de∑ni=1

TnB iT

nest la même que celle de :

n∑i=1

Tn

(n+ 1− i)Ui où les U1, . . . ,Un sont des gaussiennes indépendantes centrées de variance T /n

52

5. Application aux équations différentielles stochastiques

Ainsi, le membre de droite est une gaussienne de variance :

n∑i=1

T 3

n3 (n+ 1− i)2 =T 3

n3

n∑i=1

i2

=T 3

n3n(n+ 1)(2n+ 1)

6

Ainsi, V ar(∫ T

0 Wudu) = T 3

3 .

Ainsi,

Z =(exp

1T

∫ T

0lnS0 + (r − σ

2

2)t + σBtdt

)+

=(S0e

(r−σ2/2) T2 + σT u −K

)+

(10)

avec uN (0,T 3/3) d’après le lemme 10.Calculons l’espérance :

E(Z) =∫ ∞−∞

(S0e

(r−σ2/2) T2 eσT u −K

)+

1√

2π√T 3/3

exp− u2

2T 3/3du

soitw tel que pour u > w on a : S0e(r−σ2/2) T2 e

σT u−K > 0. On aw =

(ln(K/S0)− (r − σ2/2)T2

)Tσ .

Ainsi,

E(Z) =∫ ∞w

(S0e

(r−σ2/2) T2 eσT u −K

) 1√

2π√T 3/3

exp− u2

2T 3/3du

=∫ +∞

wS0e

(r−σ2/2) T21

√2π√T 3/3

e−(u− σT

T 33 )2 1

2T 3/3 eσ2 T

6 −Kφ(w/√T 3/3)

=S0e(r−σ2/2) T2 eσ

2 T6 (1−φ((w − σT 2/3)/

√T 3/3))−K(1−φ(w/

√T 3/3))

5.4 Options sur panier

Le cours des actions est donné par S iT = xierT+σiB

iT et le panier par :

X =p∑i=1

aiSiT avec a1, . . . , ap ∈R

On approche X =∑pi=1 aixie

rT+σiWBiT par Y = me1m

∑di=1 aixi (rT+

∑pi=1 σiB

iT ) avec m =∑p

i=1 aixi . On sait calculer E((K−X)+) par analogie avec Black-Scholes car l’exposant

53

Cours Simulation Stochastique N. Wicker

est une gaussienne. Donc si on pose Z = (K −Y )+, on peut simuler (K −X)+ −Z et onestime E((K −X)+) par :

1n

n∑i=1

(K −Xi)+ − (K −Yi)+ +E((K −Y )+)

5.5 Utilisation du conditionnement

On sait que E(Z) = E(E(Z |Y )) avec V arE(Z |Y ) 6 V arZ, en effet par la formule dela variance totale on a : V arY = V ar(E(Z |Y )) +E(V ar(Z |Y )). Il existe des situationsoù la volatilité est elle-même stochastique, considérons par exemple un cas simplifiédu modèle de Heston :

dSt = St(rdt + σtB1t )

dσt = a(θ − σ2t )dt + bσtdB

2t

ST est donné par ST = S0erT−

∫ T0 σ2

t /2dt+∫ T0 σtdB

1t Comme il y a indépendance entre σt

et B1t , on a :

∫ T0 σtdB

1t égal en loi à

√1T

∫ T0 σ2

t drB1T Ainsi, si on veut calculer le put

E((K − ST )+) on peut d’abord le simuler en conditionnant par rapport à σ et doncpour une trajectoire de la volatilité fixée on a :

E((K − S0e

(r− σ2

2

)T+σBT )+)

avec σ2 = 1T

∫ T0 σ2

t dt.

5.6 Utilisation des équations aux dérivées partielles

Ici, on remplace l’approche Monte-Carlo par une approche déterministe, évi-demment la réciproque est possible.

On considère le générateur infinitésimal At (elliptique) d’une équation différen-tielle stochastique : dXt = b(t,Xt)dt + σ (t,Xt)dBt . Alors u(t,x) solution de :

∂u(t,x)∂t +Atu(t,x) = 0

u(T ,x) = f (x)∀x

vérifie : u(t,x) = E[f (Xt,xT )] avec Xt,x le processus valant x en t. On applique cela àBlack-Scholes : dSt = St(rdt + σdBt) Pour satisfaire à la condition d’ellipticité, oneffectue le changement de variable Yt = lnSt et on obtient ainsi :

dYt = (r − σ2

2)dt + σdBt

54

5. Application aux équations différentielles stochastiques

ainsi,

A =σ2

2∂2

∂x2 + (r − σ2

2)∂∂x

on ajoute la contrainte au bord (de type Neumann) :

∂u(t,x)∂x

(a) =∂u(t,x)∂x

(b) = 0

si on se restreint à x ∈ [a,b]. On discrétise maintenant en espace puis en temps. Onprend comme pas h. On note par uh la forme discrétisée de u(t,x) avec uih = u(t,a+ih)avec i ∈ 0,N + 1 avec f (x) au temps T discrétisé en fh = (f ih )i∈1,...,N L’opérateur A sediscrétise en :

Ah =σ2

2h2 (ui+1h − 2uih +ui−1

h ) + (r − σ2

2)ui+1h −ui−1

h

2h

=[σ2

2h2 +1

2h(r − σ

2

2)]ui+1h − σ

2

h2 uih +

[σ2

2h2 −1

2h(r − σ

2

2)]ui−1h

Ainsi Ah se réécrit :

Ah =

α + β γ 0 . . . 0

α β γ. . .

...

0. . .

. . .. . . 0

.... . . α β γ

0 . . . 0 α β +γ

où considère d’après les conditions de Neumann que f 0

h = f 1h et f Nh = f N+1

h et

α = σ2

2h2 − 12h (r − σ2

2 ), β = −σ2

h2 et γ = σ2

2h2 + 12h (r − σ2

2 ). On obtient ainsi le systèmediscrétisé en espace suivant : duh(t)

dt +Ahuh(t) = 0uh(T ) = fh

On discrétise maintenant en temps avec M pas de taille k : On a ainsi uMh,k = fh et

un+1h,k −u

nh,k

k+θAhu

nh,k + (1−θ)Ahu

n+1h,k = 0

⇒ (k(1−θ)Ah + I)un+1h,k = (I − kθAh)unh,k

On doit donc résoudre à chaque étape le système T unh,k = B en partant du tempsT avec B = (k(1−θ)Ah + I)un+1

h,k et T = (I − kθAh). On triangularise ensuite T et onobtient T ′unh,k = B′ .

55

Cours Simulation Stochastique N. Wicker

Références

Aldous, A. (1983). Random walks on finite groups and rapidly mixing Markov chains.Springer-Verlag, New York, p. 243-297 (cf. p. 1).

Athreya, K., H. Doss et J. Sethuraman (1992). « A proof of convergence of theMarkov chain simulation method ». In : Technical Report 868, Dept. Statistics,Florida State Univ. (Cf. p. 37, 38).

Benaïm, M. et N. El Karoui (2004). Promenade aléatoire. Les éditions de l’Écolepolytechnique (cf. p. 1).

Billingsley, P. (1995). Probability and Measure. 3rd Edition, Wiley et Sons, New York(cf. p. 35).

Comets, F. et T. Meyre (2015). Calcul stochastique et modèles de diffusions. Dunod(cf. p. 1).

Jain, N. et B. Jamison (1967). « Contributions to Doeblin’s theory of Markov pro-cesses ». Z. Wahrsch. Verw. Geb. 8, p. 19-40 (cf. p. 35).

Levin, D., Y. Peres et E. Wilmer (2008). Markov chains and mixing times. Americanmathematical society (cf. p. 1).

Meyn, S. et R. Tweedie (2009). Markov Chains and Stochastic Stability. Cambridge :Cambridge University Press (cf. p. 1, 31, 35, 37).

Nummelin, E. (1984). General irreducible Markov chains and non-negative operators.Cambridge University Press (cf. p. 1, 37).

Rosenthal, J. (2002). « A review of asymptotic convergence for general state spaceMarkov chains ». Far East Journal of Theoretical Statistics 5, p. 37-50 (cf. p. 35).

Tierney, L. (1994). « Markov chains for exploering posterior distributions ». Annalsof Statistics 22, p. 1701-1762 (cf. p. 37, 38).

56

Table des matières

Table des matières

Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Génération de nombres pseudo-aléatoires . . . . . . . . . . 11.2 Méthode d’inversion de la fonction de répartition . . . . . . 21.3 Algorithme de Box-Muller . . . . . . . . . . . . . . . . . . . 31.4 Copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5 Méthode du rejet . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Réduction de la variance . . . . . . . . . . . . . . . . . . . . . . . . 62.1 Variables de contrôle . . . . . . . . . . . . . . . . . . . . . . 62.2 Variables antithétiques . . . . . . . . . . . . . . . . . . . . . 72.3 Echantillonnage préférentiel . . . . . . . . . . . . . . . . . . 82.4 Stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Chaînes de Markov à temps discret . . . . . . . . . . . . . . . . . . 93.1 Introduction aux chaînes de Markov . . . . . . . . . . . . . 93.2 Chaînes de Markov à nombre d’états fini . . . . . . . . . . . 93.3 Chaînes de Markov à nombre d’états dénombrable . . . . . 263.4 Chaînes de Markov à nombre d’états non dénombrable . . 313.5 Chaînes de Markov à temps continu et espace dénombrable

(intro) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384 Méthode de Monte-Carlo et statistiques bayésiennes . . . . . . . . 40

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2 Lois conjuguées . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Métropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . 424.4 Méthode de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . 444.5 Echantillonnage par tranche . . . . . . . . . . . . . . . . . . 454.6 Échantillonnage exact . . . . . . . . . . . . . . . . . . . . . 50

5 Application aux équations différentielles stochastiques . . . . . . . 505.1 Schéma d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . 505.2 Simulation du brownien fractionnaire . . . . . . . . . . . . 525.3 Réduction de la variance pour option asiatique . . . . . . . 525.4 Options sur panier . . . . . . . . . . . . . . . . . . . . . . . 535.5 Utilisation du conditionnement . . . . . . . . . . . . . . . . 545.6 Utilisation des équations aux dérivées partielles . . . . . . 54

Références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

i