Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les...

81

Transcript of Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les...

Page 1: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Introduction aux processus stochastiques

Notes de cours

Nicolas Chopin

Page 2: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2

Page 3: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Table des matières

1 Introduction 7

1.1 Processus stochastiques : dénition . . . . . . . . . . . . . . . . . 71.2 Rappels sur l'espérance conditionnelle . . . . . . . . . . . . . . . 9

2 Chaînes de Markov 13

2.1 Construction et dénitions . . . . . . . . . . . . . . . . . . . . . . 132.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . 152.3 Propriété de Markov forte . . . . . . . . . . . . . . . . . . . . . . 192.4 Classes d'états . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.5 Opérateur potentiel et nature des classes d'états . . . . . . . . . 222.6 Théorèmes ergodiques . . . . . . . . . . . . . . . . . . . . . . . . 272.7 Périodicité, convergence des lois marginales . . . . . . . . . . . . 342.8 Condition de balance et algorithme de Metropolis . . . . . . . . . 372.9 Extension à un espace d'états continu . . . . . . . . . . . . . . . 40

3 Martingales 43

3.1 Dénitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2 Temps d'arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3 Théorème d'arrêt : le cas borné . . . . . . . . . . . . . . . . . . . 513.4 Décomposition de Doob . . . . . . . . . . . . . . . . . . . . . . . 533.5 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . . . 553.6 Convergence dans L2 (et plus généralement Lp, p > 1) . . . . . . 583.7 Interlude : urnes de Polya . . . . . . . . . . . . . . . . . . . . . . 613.8 Convergence : résultats plus généraux . . . . . . . . . . . . . . . 633.9 Deuxième interlude : processus de branchement . . . . . . . . . . 653.10 Martingales régulières et théorème d'arrêt . . . . . . . . . . . . . 67

4 Processus en temps continu 71

4.1 Processus ponctuels, processus de Poisson . . . . . . . . . . . . . 714.1.1 Préliminaires : loi de Poisson . . . . . . . . . . . . . . . . 714.1.2 Les processus de Poisson comme processus ponctuels . . . 724.1.3 Cas E = R+ . . . . . . . . . . . . . . . . . . . . . . . . . 754.1.4 Généralisation aux processus Markovien en temps discret 76

4.2 Mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . 77

3

Page 4: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

4 TABLE DES MATIÈRES

4.2.1 Processus gaussiens . . . . . . . . . . . . . . . . . . . . . 774.2.2 Mouvement brownien . . . . . . . . . . . . . . . . . . . . 784.2.3 Processus markovien en temps continu . . . . . . . . . . . 79

Page 5: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

TABLE DES MATIÈRES 5

La première version de ces notes du cours d'introduction aux processus(deuxième année de l'ENSAE) est due à Pierre Alquier, qui a enseigné cettematière avant moi. Un grand merci à lui, ainsi qu'à ses prédécesseurs (EricGautier notamment). Je me suis contenté de ré-organiser les chapitres, d'ajou-ter quelques exemples, etc. N'hésitez pas à me signaler toute erreur ou faute defrappe qui m'aurait échappé.

Quelques références pour aller plus loin : Le livre de Brémaud (1999) a unpoint de vue très mathématique. A l'inverse, le livre de Lawler (2006) ore unpanorama assez complet tout en gardant un niveau de formalisme assez faible :c'est idéal pour se forger une intuition sur le sujet. Enn, le livre de Baldi et al.(2002) est une compilation d'exercices assez utile pour réviser (même si ils sonten général assez diciles). Il contient également de brefs rappels de cours assezutiles (et sur lesquels beaucoup des preuves de ce poly sont basées).

Page 6: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

6 TABLE DES MATIÈRES

Page 7: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Chapitre 1

Introduction

1.1 Processus stochastiques : dénition

Dans tout le cours, on considèrera un espace probabilisé (Ω,F ,P), un espacemesurable (E, E) et un ensemble T .

Dénition 1.1.1. On appelle processus stochastique, ou processus aléatoire, unefamille (Xt)t∈T de variables aléatoires à valeurs dans E. Autrement dit, pourtout t ∈ T , l'application ω 7→ Xt(ω) est une application mesurable de (Ω,F)dans (E, E). On appelle E l'espace d'états du processus.

En pratique, on utilise souvent les processus pour de la modélisation dy-namique : Xt est la valeur d'une variable d'intérêt à la date t. L'ensemble Treprésente alors l'ensemble des dates possibles.

Dénition 1.1.2. Lorsque T = N ou T = Z on dit que (Xt)t∈T est un processusà temps discret. Lorsque T = R, ou un intervalle de R, on parle de processus àtemps continu.

Exemple 1.1.1. Un exemple à temps discret : soit Xt le PIB de la France àl'année t (donc E = R+). En revanche, en nance, les prix des actifs, devises,etc. sont mises à jour avec une fréquence tellement élevée qu'on préfère utiliserune modélisation à temps continu : soit Xt le cours EURO/DOLLAR à la datet, t mesurée en heures avec t = 0 correspondant au 1er janvier 1999 à 0h.

On peut donc voir un processus comme une fonction de deux variables :

Ω× T → E

7

Page 8: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

8 CHAPITRE 1. INTRODUCTION

(ω, t) 7→ Xt(ω)

qui doit vérier la condition que, pour t xé, ω 7→ Xt(ω) est mesurable (autre-ment dit, Xt vérie bien la dénition de variable aléatoire). A ω xé, la fonctiont 7→ Xt(ω) s'appelle une trajectoire du processus.

Dénition 1.1.3. On appelle ltration une suite (Ft)t∈T de σ-algèbres vériant

s ≤ t⇒ Fs ⊂ Ft ⊂ F .

Explication sur cette notion : quand on observe un processus au cours dutemps, à la date t, on connaît les valeurs de Xs pour s ≤ t mais on ne connaîtpas encore les valeurs de Xs pour s > t. En terme de conditionnement, ça veutdire qu'on sera souvent amené à conditionner par les variables (Xs)s≤t, ou defaçon équivalente par la σ-algèbre Ft := σ(Xs, s ≤ t). On vérie immédiatementque (Ft)t∈T est une ltration, on l'appelle ltration canonique.

Donc, l'idée d'une ltration (Ft)t∈T est de représenter l'information dispo-nible à la date t.

On peut se poser la question naturelle : pourquoi introduire un conceptgénéral de ltration plutôt que d'utiliser toujours la ltration canonique ? D'unpoint de vue intuitif : à la date t, on peut avoir plus d'informations que lesvaleurs passées (Xs)s≤t. Dans l'exemple où Xt est le PIB de la France à l'annéet, à la n de l'année t, on connaît certes le PIB de la France à l'année t, maisaussi le PIB des USA, des autres pays de la zone euro, le cours du pétrôle,les diérents taux de change, etc. qui peuvent donner de l'information sur lesvaleurs futures du PIB de la France. D'un point de vue plus formel, on peutavoir plusieurs processus dénis sur le même (Ω,F ,P), par exemple (Xt)t∈T et(Yt)t∈T , et la considérer la ltration Ft := σ(Xs, Ys, s ≤ t) qui n'est PAS laltration canonique pour le processus (Xt).

Dénition 1.1.4. Le processus (Xt)t∈T est dit adapté à la ltration (Ft)t∈T sipour tout t ∈ T , Xt est Ft-mesurable.

Exemple 1.1.2. Dans cet exemple T = N, soit (εt)t∈N une suite de variablesaléatoires i.i.d de loi N (0, 1), (α, β) ∈ R2, X0 = 0 et

Xt+1 = αXt + β + εt.

Ce processus est étudié dans le cours de séries temporelles sous le nom de proces-sus autorégressif (AR). On dénit Ft = σ(εs, s ≤ t) la ltration canonique pour(εt)t∈N. On peut vérier de façon triviale que le processus (Xt)t∈N est adapté àla ltration (Ft)t∈N.

On peut maintenant annoncer le plan du cours. Dans les Chapitres 3 et 2,on n'étudiera que des processus à temps discret avec T = N.

Chapitre 2) On étudiera les chaînes de Markov, dénies par la propriété

L(Xt+1|Ft) = L(Xt+1|Xt)

(où L se lit loi de, là encore, une dénition formelle viendra plus tard).On se restreindra au cas où E est ni ou dénombrable.

Page 9: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

1.2. RAPPELS SUR L'ESPÉRANCE CONDITIONNELLE 9

Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à valeursdans E = R vériant la relation

E(Xt+1|Ft) = Xt

(une dénition formelle sera donnée plus loin).

Chapitre 4) Une toute petite discussion du cas continu, à travers deux exemples (leprocessus de Poisson, et le mouvement brownien) dénis sur T = R+.

Comme la dénition de martingale repose sur une espérance conditionnelle,la n de cette introduction contient quelques rappels sur cette notion.

1.2 Rappels sur l'espérance conditionnelle

On rappelle que pour deux événements A et B dans F , avec P(B) 6= 0, on apar dénition

P(A|B) =P(A ∩B)

P(B).

Soient deux variables aléatoires réelles dénies sur (Ω,F), X et Y . On sup-pose que X est intégrable. Dans un premier temps, on va supposer que Y est unevariable aléatoire discrète, à valeurs dans N. On suppose également que pourtout y ∈ N, P(Y = y) > 0. On a alors, pour tout A ∈ F ,

P(A|Y = y) =P(A ∩ Y = y)

P(Y = y)

ce qui dénit une mesure de probabilité sur (Ω,F), notons-là Py, et il est naturelde dénir

E(X|Y = y) :=

∫Ω

X(ω)Py(dω) =

∫XdPy. (1.1)

On vérie en fait directement que

E(X|Y = y) =

∫X1Y=ydPP(Y = y)

. (1.2)

L'important est que l'on voit, que ce soit dans (1.1) ou (1.2), que E(X|Y = y)est une fonction de y, notons-là f(y). On dénit alors simplement E(X|Y ) :=f(Y ). Faire bien attention : E(X) est un nombre réel, déterministe, alors queE(X|Y ) = f(Y ) est une variable aléatoire, fonction de la variable Y , autrementdit, σ(Y )-mesurable.

Le problème de cette construction intuitive est qu'on ne peut pas l'étendreau cas où Y est une variable continue. Il faut alors trouver une caractérisationde E(X|Y ) qui n'implique pas de diviser par P(Y = y) et puisse s'étendre au casgénéral. On va démontrer la propriété suivante : pour toute variable Z bornéequi est aussi σ(Y )-mesurable, autrement dit, ici, Z = g(Y ), on a

E[E(X|Y )Z

]= E(XZ). (1.3)

Page 10: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

10 CHAPITRE 1. INTRODUCTION

En eet :

E[E(X|Y )Z] = E[E(X|Y )g(Y )]

= E

[ ∞∑y=0

E(X|Y = y)g(y)1Y=y

]

=

∞∑y=0

g(y)E(X|Y = y)P(Y = y)

=

∞∑y=0

g(y)E(X1Y=y) d'après (1.1)

= E

[ ∞∑y=0

X1Y=yg(y)

]= E [Xg(Y )]

= E(XZ).

Le théorème suivant dit justement que la propriété 1.3 peut s'étendre au casgénéral.

Théorème 1.2.1. Soit A ⊂ F une σ-algèbre et X une variable aléatoire réelle,positive ou intégrable. Alors il existe une variable aléatoire A-mesurable, positiveou intégrable, unique à un p.s près, notée E(X|A), telle que pour toute variablealéaoire Z, A-mesurable, positive ou bornée, on a

E[E(X|A)Z

]= E(XZ). (1.4)

Dans le cas où A = σ(Y ) pour une variable aléatoire Z, on note simplementE(X|Y ) au lieu de E(X|σ(Y )).

Preuve. La preuve a été faite en 1ère année, on ne la refait pas complètement.Rappel de l'idée générale : on commence par traiter le cas où X ∈ L2 l'ensembledes variables de carré intégrable. Alors

1. On vérie que 〈X,Y 〉 := E(XY ) est bien un produit scalaire qui fait deL2 un espace de Hilbert.

2. On vérie que l'ensemble des variables A-mesurables et dans L2 est unsous-espace vectoriel fermé de L2. On peut donc dénir la projectionorthogonale sur ce sous-espace, Π.

3. La variableX−Π(X) est alors orthogonale à toute variable Z A-mesurableet dans L2. Ceci se traduit par

〈X −Π(X), Z〉 = E[X −Π(X)

]Z

soitE(XZ) = E[Π(X)Z].

On voit donc qu'en posant E(X|A) := Π(X) la relation (1.4) est immé-diatement satisfaite.

Page 11: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

1.2. RAPPELS SUR L'ESPÉRANCE CONDITIONNELLE 11

Il reste ensuite à travailler un peu pour étendre cette dénition au cas où X estsimplement intrégrable (X ∈ L1) ou positive.

On rappelle quelques propriétés qu'on utilisera en permanence tout a longde ce cours. Soient X et Y deux variables aléatoires réelles, λ et µ deux nombresréels, A et B deux σ-algèbre, (Xn)n∈N une suite de variables aléatoires, et f unefonction R→ R.

1. E(λ|A) = λ.

2. E(λX + µY |A) = λE(X|A) + µE(Y |A).

3. X indépendant de A ⇒ E(X|A) = E(X).

4. X A-mesurable ⇒ E(X|A) = X et E(XY |A) = XE(Y |A).

5. E[E(X|A)] = E(X).

6. B ⊂ A ⇒ E[E(X|A)|B] = E(X|B).

7. X ≤ Y p.s ⇒ E(X|A) ≤ E(Y |A) p.s

8. (Jensen conditionnel) f convexe ⇒ f(E(X|A)) ≤ E(f(X)|A).

9. (TCD cond.) Xnp.s−−→ X, |Xn| ≤ Z, Z ∈ L1 ⇒ E(Xn|A)

p.s−−→ E(X|A).

10. (TCM cond.) Xn,p.s−−−−→ X, Xn ≥ 0 ⇒ E(Xn|A)

,p.s−−−−→ E(X|A).

11. (Fatou cond.) Xn ≥ 0 ⇒ E(lim inf Xn|A) ≤ lim inf E(Xn|A).

Page 12: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

12 CHAPITRE 1. INTRODUCTION

Page 13: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Chapitre 2

Chaînes de Markov

2.1 Construction et dénitions

Dans tout ce chapitre, (Xt)t∈N un processus à valeurs dans un espace (E, E),et (Ft) sa ltration canonique Ft = σ(X0, . . . , Xt).

Dénition 2.1.1. Le processus (Xt)t∈N est markovien si et seulement si

∀n ∈ N,∀A ∈ E , P(Xt+1 ∈ A|Ft) = P(Xt+1 ∈ A|Xt).

Un processus markovien (à temps discret) est aussi appelé chaîne de Markov.

Cette dénition étant posée dans le cas général, on va maintenant se res-treindre cas où E est un espace ni ou dénombrable (et E = P(E)). Le cas oùE est un espace quelconque sera uniquement abordé dans la Section 2.9.

Dans ce cas, la propriété de Markov implique que, pour tout (x0, . . . , xn) ∈En+1,

P(Xn = xn|Xn−1 = xn−1, . . . , X0 = x0) = P(Xn = xn|Xn−1 = xn−1).

Mais alors, par récurrence,

P(Xn = xn, Xn−1 = xn−1, . . . , X0 = x0)

= P(Xn = xn|Xn−1 = xn−1, . . . , X0 = x0)P(Xn−1 = xn−1, . . . , X0 = x0)

= P(Xn = xn|Xn−1 = xn−1)P(Xn−1 = xn−1, . . . , X0 = x0)

= P(Xn = xn|Xn−1 = xn−1)P(Xn−1 = xn−1|Xn−2 = xn−2)

. . .P(X1 = x1|X0 = x0)P(X0 = x0).

Donc, on peut décrire la loi de la chaîne (Xn) par la loi de X0 et la loi deXn+1|Xn pour tout n ∈ N.

Dénition 2.1.2. On dit qu'une chaîne de Markov (Xn) est homogène si, pourtout (x, y) ∈ E2, P(Xn+1 = y|Xn = x) ne dépend que de (x, y), et pas de n.

13

Page 14: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

14 CHAPITRE 2. CHAÎNES DE MARKOV

A partir de maintenant, on ne considèrera que des chaînes de Markov homo-gènes.

Un abus (très) fréquent consiste à appeler chaîne de Markov uniquement leschaînes de Markov homogènes, et chaîne de Markov non homogène une chaînede Markov quelconque. A partir de maintenant, on suivra cette convention.

Dénition 2.1.3. Soit (Xt) une chaîne de Markov (donc, homogène). Notons

P (x, y) = P(Xn+1 = y|Xn = x),

on appelle alors P = (P (x, y))(x,y)∈E2 la matrice de transition de (Xn). Notons

µ(x) = P(X0 = x),

on appelle le vecteur µ = (µx)x∈E la loi initiale de (Xn).

On a alors

P(Xn = xn, Xn−1 = xn−1, . . . , X0 = x0) = µ(x0)P (x0, x1) . . . P (xn−1, xn).

Même si c'est évident, n'importe quelle matrice ne peut pas être une matricede transition !

Proposition 2.1.1. Soit une matrice de transition P d'une chaîne de Markov(Xn). Alors, pour tout (x, y), P (x, y) ∈ [0, 1] et∑

y∈EP (x, y) = 1.

Preuve. Pour la première propriété, P (x, y) = P(X1 = y|X0 = x) ∈ [0, 1]. Pourla deuxième :∑

y∈EP (x, y) =

∑y∈E

P(X1 = y|X0 = x) = P(X1 ∈ E|X0 = x) = 1.

On mentionne ensuite une méthode simple pour construire une chaîne deMarkov.

Proposition 2.1.2. Pour toute loi initiale µ, et matrice de transition P , sur unespace dénombrable E, il existe des fonctions f0 et f , et une suite de variablesaléatoires IID (indépendantes et identiquement distribuées) U0, U1, . . . telles quela suite de variables aléatoires X0 = f0(U0), Xn = f(Xn−1, Un) est une chaînede Markov de loi initiale µ et de matrice de transition P .

Démonstration. On va prendre pour les Un des variables de loi uniforme sur[0, 1]. L'espace E est dénombrable, on peut sans perte de généralité appelerses éléments 1, 2, .... On dénit f0(u) comme suit : f0(u) = 1 si u ∈ [0, µ(1)[,f0(u) = 2 si u ∈ [µ(1), µ(2)[, etc. On montre facilement que X0 = f0(U0) esttelle que P(X0) ∼ µ0. On procède de la même manière pour f : pour x ∈ E xé,f(x, u) est la fonction qui renvoie l'entier k si u ∈ [P (x, k − 1), P (x, k)[.

Page 15: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.2. PROPRIÉTÉS ÉLÉMENTAIRES 15

Ce résultat nous apporte deux choses :

1. Théoriquement : il prouve l'existence des chaînes de Markov. Ce pointpeut paraître évident à horizon ni (l'existence de X0, . . . , Xn pour nxé), il l'est un peu moins à horizon inni. En particulier, la constructionde l'espace de probabilité des trajectoires de la chaîne de Markov sembleêtre essentiellement la même que celle de l'espace de probabilité des suitesinnies de variables IID.

2. Pratiquement : la preuve nous donne aussi un algorithme simple et gé-nérique pour simuler n'importe quelle chaîne de Markov. Ce point seraabordé à nouveau dans le cours de Simulation et méthodes de MonteCarlo au deuxième semestre. (La preuve utilise en fait la technique desimulation dite d'inversion de la fonction de répartition.)

Dans ce chapitre on va essentiellement étudier le comportement asympto-tique de (Xn). On va voir que les états de E peuvent se répartir dans des classesd'équivalences :

pour certaines classes (dites transientes) : (Xn) peut visiter la classe, puisen sort.

pour les autres (dites récurrentes) : une fois que (Xn) est dans la classe,il n'en sort plus.

Cette classication occupera les Sections 2.2, 2.4 et 2.5.On s'intéressera ensuite au cas des chaînes n'ayant qu'une seule classe d'équi-

valence. Pour ces chaînes, on pourra établir en général une loi des grandsnombres du type

1

n

n∑i=1

f(Xi) −−−−→n→∞

EX∼π[f(X)]

dans un sens à préciser, et où π est une loi à préciser ! Sous des hypothèses unpeu plus forte, on pourra établir la convergence en loi de (Xn) vers π. Ceci seratraité dans les Sections 2.6 et 2.7 respectivement. Enn, la Section 2.8 discuterad'une application en simulation, et la Section 2.9 discutera (à la main, sansrentrer dans les détails) quels sont les résultats parmi ceux qui précèdent quipeuvent s'étendre au cas où E est un espace continu.

2.2 Propriétés élémentaires

Il y a une ambiguité sur la notation Pn(x, y) : s'agit-il du nombre P (x, y) àla puissance n, ou de l'entrée d'indices (x, y) de la matrice P à la puissance n ?

Dénition 2.2.1. On note Pn(x, y) l'entrée d'indices (x, y) de la matrice P àla puissance n, Pn.

Proposition 2.2.1. Soit (Xn) une chaîne de Markov de matrice de transitionP . Pour tout (x, y) ∈ E2 et (m,n) ∈ N2,

P(Xn+m = y|Xn = x) = Pm(x, y).

Page 16: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

16 CHAPITRE 2. CHAÎNES DE MARKOV

Preuve. Par récurrence. C'est vrai pour m = 1 par dénition. Supposons quem > 1 et que ce soit vrai pour 1, 2, ..., m− 1. Alors :

P(Xn+m = y|Xn = x)

=∑z∈E

P(Xn+m = y,Xn+1 = z|Xn = x)

=∑z∈E

P(Xn+m = y|Xn+1 = z,Xn = x)P(Xn+1 = z|Xn = x)

=∑z∈E

P(Xn+m = y|Xn+1 = z)P(Xn+1 = z|Xn = x) (Markov)

=∑z∈E

Pm−1(z, y)P (x, z) (hypothèse de récurrence)

=∑z∈E

P (x, z)Pm−1(z, y)

= Pm(x, y).

En conséquence, remarquer que Pm vérie également les hypothèses d'une ma-trice de transition, en particulier, Pm(x, y) ∈ [0, 1] et

∑y P

m(x, y) = 1.

Dénition 2.2.2. Soit une loi initiale µ et une matrice de transition P . Onnote

µP (x) =∑z∈E

µ(z)P (z, x).

Autrement dit, dans nos notations matricielles, on considère une loi initialecomme un vecteur ligne.

Proposition 2.2.2. Soit (Xn) une chaîne de Markov de matrice de transitionP et de loi intiale µ. Pour tout x ∈ E et n ∈ N,

P(Xn = x) = µPn(x).

Preuve. On a

P(Xn = x) =∑z∈E

P(Xn = x|X0 = z)P(X0 = z)

=∑z∈E

Pn(z, x)µ(z) d'après la Proposition 2.2.1

=∑z∈E

µ(z)Pn(z, x)

= µPn(x).

Dénition 2.2.3. Soit une fonction f : E → R, positive ou bornée, et unematrice de transition P . On note

Pf(x) =∑z∈E

P (x, z)f(z).

Page 17: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.2. PROPRIÉTÉS ÉLÉMENTAIRES 17

Autrement dit, dans nos notations matricielles, on considère une loi fonctioncomme un vecteur colonne.

Proposition 2.2.3. Soit (Xn) une chaîne de Markov de matrice de transitionP et une fonction f : E→ R, positive ou bornée. Pour tout x ∈ E et n ∈ N,

E[f(Xn)|X0 = x] = Pnf(x).

Preuve. On a

E[f(Xn)|X0 = x] =∑z∈E

f(z)P(Xn = z|X0 = x)

=∑z∈E

f(z)Pn(x, z) d'après la Proposition 2.2.1

=∑z∈E

Pn(x, z)f(z)

= Pnf(x).

Enn avec les mêmes hypothèses on peut noter

µPnf =∑x∈E

∑y∈E

µ(x)Pn(x, y)f(y) ∈ R

et remarquer queµPnf = E[f(Xn)].

On peut représenter une matrice de transition P par un graphe orienté : onreprésente les états par les sommets du graphes, et si P (x, y) > 0, on trace uneèche de x à y sur laquelle on écrit la valeur de P (x, y). Le graphe est orienté,il peut y avoir une èche de x vers y et/ou une èche de y vers x. D'autrepart, si P (x, x) > 0, il y a une èche de x à lui-même. Noter que la condition∑y P (x, y) = 1 devient : la somme des èches partant du sommet x doit être

égale à 1.

Exemple 2.2.1. Lorsque E est un espace à deux éléments, E = 1, 2, toutematrice de transition P peut se mettre sous la forme

P =

(p 1− p

1− q q

)où (p, q) ∈ [0, 1]2. Le graphe de cette chaîne est alors :

Page 18: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

18 CHAPITRE 2. CHAÎNES DE MARKOV

On termine par une petite discussion heuristique sur le comportement asymp-totique d'une chaîne (Xn) : supposons que Xn converge en loi vers une loi π.Comme la loi de Xn est en fait µPn, on a µPn → π. En multipliant les deuxmembres par P , on a µPnP → πP et d'autre part µPnP = µPn+1 → π. Doncon devrait avoir πP = π. Même si on n'a rien justié proprement, cette relationsera très utile.

Dénition 2.2.4. On appelle π loi invariante pour une chaîne (Xn) de transi-tion P une loi vériant

πP = π.

Proposition 2.2.4. Si (Xn) est une chaîne de transition P et de loi initiale πinvariante par P alors, pour tout n ∈ N, Xn ∼ π.

Preuve. On sait déjà que Xn ∼ πPn et par invariance, π = πP = πP 2 = ... Par la suite, on justiera proprement que si (Xn) converge en loi, c'est vers

une loi invariante. En revanche, il se peut très bien que (Xn) ne converge pas enloi. De même, l'existence d'une loi invariante ne garantit pas que (Xn) convergeen loi vers cette loi invariante (car il peut y avoir plusieurs lois invariantes).

Exemple 2.2.2. Revenons à l'Exemple 2.2.1, cherchons toutes les lois inva-riantes de P avec

P =

(p 1− p

1− q q

)où (p, q) ∈ [0, 1]2. On écrit le système πP = π, si π = (π1 π2) ça donne :

(π1 π2)

(p 1− p

1− q q

)= (π1 π2)

soit : pπ1 + (1− q)π2 = π1

(1− p)π2 + qπ2 = π2.

On remarque tout de suite que les deux équations de ce système sont liées : ellessont équivalentes à

(1− p)π1 = (1− q)π2.

C'est TOUJOURS le cas qu'il y a au moins une équation redondante dans le sys-tème πP = π. Mais il ne faut pas oublier qu'on a une équation supplémentaire :π est une probabilité, donc π1 + π2 = 1. On cherche donc à résoudre :

(1− p)π1 = (1− q)π2

π1 + π2 = 1.

Noter que si (p, q) 6= (1, 1) alors il y a toujours une solution unique. En eet, lesystème peut se ré-écrire

π1 = 1−q1−pπ2

π1 + π2 = 1.

Page 19: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.3. PROPRIÉTÉ DE MARKOV FORTE 19

et donc en injectant la première équation dans la deuxième,(1− q1− p

+ 1

)π2 = 1

soit

(2− p− q)π2 = 1− p

soit π2 = 1−p2−p−q et la première équation du système donne π1 = 1−q

2−p−q donc lasolution unique est

π =

(1− q

2− p− q,

1− p2− p− q

).

En revanche, dans le cas p = q = 1, la première équation donne 0 = 0... et onvérie que l'ensemble des solutions est donné par

π ∈ (α, 1− α), α ∈ [0, 1] .

On a donc deux cas diérents : dans un cas, il y a une loi invariante unique ;dans l'autre cas, il y a une innité de lois invartiantes.

2.3 Propriété de Markov forte

De la dénition d'une chaîne de Markov, on peut aisément déduire des pro-priétés d'indépendance conditionnelle des variables Xt. Par exemple :

P(Xt+2 = xt+2, Xt+1 = xt+1 |X0 = x0, . . . , Xt = xt) = P (xt, xt+1)P (xt+1, xt+2)

et donc la loi du bloc (Xt+1, Xt+2) ne dépend pas du passé Xt−1, . . . , X0 condi-tionnellement au présent Xt. C'est vrai aussi bien sûr pour un bloc plus grand(Xt+1, . . . , Xt+k), et pour les marginales correspondantes : Xt+k est indépen-dante de Xt−l sachant Xt, pour k, l ≥ 1. Par ailleurs, la loi de Xt+k sachantXt = x est la même que celle que de (Xk) sachant X0 = x.

Ce que nous venons d'énoncer est la version la plus basique de la propriétéde Markov. Elle ne peut s'appliquer à des événements concernant la trajec-toire complète de la chaîne : par exemple la probabilité de revisiter un état xdans le futur, sachant Xt = x. On admettra les propriétés suivantes, dites deMarkov forte.

Proposition 2.3.1. Soit (Xt) une chaîne de Markov (de loi initiale µ) et ϕ :E∞ → R, mesurable, positive ou bornée, alors :

Eµ[ϕ((Xt+n)n≥0)| Xt = x] = Ex [ϕ ((Xt)t≥0)]

où Eµ est l'espérance sous la loi de (Xt), et Ex := Eδx est l'espérance sous lamême loi, mais avec loi initiale δx.

Page 20: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

20 CHAPITRE 2. CHAÎNES DE MARKOV

En appliquant ce résultat à une fonction indicatrice, on obtient :

Pµ((Xt+n)n≥0 ∈ A| Xt = x) = Px((Xn)n≥0 ∈ A)

où A appartient à une tribu sur l'espace des trajectoires, E∞. (Grosso modo,le même type d'espace que celui auquel s'applique le p.s. dans la loi forte desgrands nombres.)

La vraie propriété de Markov forte est encore un peu plus générale, et permetde conditionner à un temps aléatoire, à condition que ce temps aléatoire soit uncertain type de variable aléatoire dit temps d'arrêt.

Dénition 2.3.1. On appelle temps d'arrêt par rapport à une ltration (Ft)(rappel : Ft = σ(X0, . . . , Xt) dans ce chapitre) une variable aléatoire à valeursdans N ∪+∞, telle que τ ≤ t ∈ Ft pour tout t ≥ 0.

La notion de temps d'arrêt est assez technique, et sera vue plus en détaildans la partie sur les martingales. Pour l'instant, je vous propose l'interprétationsemi-formelle suivante :

un temps d'arrêt est une fonction déterministe de la trajectoire du pro-cessus (Xt) ;

telle que l'indicatrice 1τ ≤ t ne dépend que de (X0, . . . , Xt). End'autres termes, observer le processus jusqu'au temps t sut à déter-miner si τ ≤ t ou pas.

Et pour simplier encore un peu plus les choses, gardez à l'esprit l'exemplesuivant, du temps d'atteinte :

τy = inft ≥ 0 : Xt = y (2.1)

C'est bien un temps d'arrêt. Si la trajectoire du processus ne passe jamais pary, on a : τy = +∞.

On peut énoncer la propriété de Markov forte.

Proposition 2.3.2. Sous les mêmes conditions que la proposition précédente,et pour τ un temps d'arrêt (par rapport à Ft = σ(X0, . . . , Xt)), on a :

Eµ[ϕ((Xτ+n)n≥0)| Xτ ]1τ<+∞ = EXτ [ϕ ((Xt)t≥0)]1τ<∞ (2.2)

En particulier, si Px(τ <∞) = 1 pour tout x ∈ E, cette identité se simplieen :

Eµ[ϕ((Xτ+n)n≥0)| Xτ = x] = Ex [ϕ ((Xt)t≥0)] . (2.3)

Noter que si τ = +∞, la variable Xτ n'est pas clairement dénie. C'est pourcela que l'on a besoin d'indicatrices dans (2.4).

En fait, dans ce chapitre, on va souvent appliquer cette propriété au temps

de retour en x :σx = inft ≥ 1 : Xt = x

ce qui est presque la même chose qu'un temps d'atteinte (mais σx ≥ 1). Dansce cas, la propriété de Markov forte s'écrit comme suit :

Eµ [ϕ((Xt+σx)n≥0)] = Ex [ϕ ((Xt)t≥0)] (2.4)

si σx <∞ p.s.

Page 21: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.4. CLASSES D'ÉTATS 21

2.4 Classes d'états

Dans toute cette section, on considère une matrice de transition P sur E.

Dénition 2.4.1. Soient (i, j) ∈ E2. On dit que i mène à j, et on note i j,si il existe n ∈ N tel que Pn(i, j) > 0.

Autrement dit, il y a une probabilité non nulle de passer de i à j en nétapes. Bien noter que dans le cas n = 0, Pn est la matrice identité, pourlaquelle P 0(i, i) = 1, autrement dit, par convention, on considère toujours quei i.

Dénition 2.4.2. On dit que i et j communiquent, et on note i! j, si i jet j i.

Proposition 2.4.1. La relation! est une relation d'équivalence sur E.

Preuve. Il faut prouver la transitivité, la reexivité et la symétrie. Or la symétrieest évidente à partir de la dénition de! et la reexivité est conséquence dela convention i i.

Reste la transitivité, assez évidente, mais elle utilise une technique de preuvetrès classique que l'on ré-utilisera souvent. Si i j, il existe n tel que Pn(i, j) >0. Si de plus j k, il existe m tel que Pm(j, k) > 0. Mais alors

Pn+m(i, k) =∑`∈E

Pn(i, `)Pm(`, k) ≥ Pn(i, j)Pm(j, k) > 0.

Dénition 2.4.3. Les classes d'équivalences pour la relation! sont appeléesclasses de communication de P , et par extension, on les appelle égalementclasses de communication de toutes chaîne de Markov (Xn) ayant P pour ma-trice de transition.

On omet souvent le terme communication, on parle alors des classes d'étatsou simplement des classes de (Xn) et de P ...

Exemple 2.4.1. On revient à l'exemple à deux états.

Si p < 1 alors 1 2. Si q < 1 alors 2 1. On a donc : soit p < 1 et q < 1 etalors 1! 2, il y a une seule classe d'équivalence 1, 2 ; soit p = 1 ou q = 1 etalors il y a deux classes d'équivalence, 1 et 2.

Page 22: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

22 CHAPITRE 2. CHAÎNES DE MARKOV

Dans l'exemple précédent, si p = 1, alors lorsque la chaîne entre dans l'état1, elle ne peut plus jamais en sortir, car P (1, 1) = 1. C'est une situation quel'on rencontre fréquemment en modélisation, par exemple en épidémiologie oùles états pour un individu peuvent être E = sain, infecté, mort : on ne sortpas de l'état mort. Un tel état constitue nécessairement une classe à lui toutseul.

Dénition 2.4.4. Si un état i vérie P (i, i) on dit que c'est un état absorbant.

A l'inverse, dans l'exemple ci-dessus, si p < 1 et q < 1 alors on a vu qu'iln'y a qu'une seule classe d'états : 1, 2. Les chaînes de Markov avec une seuleclasse sont plus simples à étudier asymptotiquement...

Dénition 2.4.5. Soit (Xn) une chaîne de Markov avec une seule classe d'états.On dit que la chaîne (Xn) est irréductible.

2.5 Opérateur potentiel et nature des classes d'états

Dans toute cette section, (Xn) est une chaîne de Markov de matrice detransition P et de loi initiale µ.

Dénition 2.5.1. On dénit l'opérateur potentiel :

U =∑k∈N

P k.

Bien noter que pour (i, j) ∈ E2,

U(i, j) =∑k∈N

P k(i, j) ∈ [0,∞].

Enormément des propriétés liées à la communication et aux classes d'étatspeuvent se lire sur l'opérateur U . Par exemple, il est évident que

U(i, j) > 0⇔ ∃k : P k(i, j) > 0⇔ i j.

On va maintenant, à l'aide de U , faire une étude plus ne des classes.

Dénition 2.5.2. Soit A ∈ F , on dénit NA le nombre de passages en A :

NA =∑n∈N

1Xn∈A.

Lorsque A = i a un seul élément, on note souvent Ni au lieu de Ni :

Ni =∑n∈N

1Xn=i.

Proposition 2.5.1. Pour tout (x, y) ∈ E2,

U(x, y) = Ex(Ny).

Page 23: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.5. OPÉRATEUR POTENTIEL ET NATURE DES CLASSES D'ÉTATS 23

Preuve. Fixons x et y,

Ex(Ny) = Ex

( ∞∑n=0

1Xn=y

)=

∞∑n=0

Px (Xn = y) =

∞∑n=0

Pn(x, y) = U(x, y).

Dénition 2.5.3. Un état x est dit récurrent si Px(Nx =∞) = 1 ; transient si Px(Nx <∞) = 1.

On pourrait se poser la question de l'existence d'un cas intermédiaire : est-cequ'il peut exister par exemple un état tel que Px(Nx = ∞) = Px(Nx < ∞) =1/2 ? On va voir dans le prochain théorème que la réponse est non : tout étatest soit récurrent, soit transient.

Théorème 2.5.2. Pour tout x ∈ E,

U(x, x) =∞⇔ x récurrent⇔ Px(σx <∞) = 1,

U(x, x) <∞⇔ x transient⇔ Px(σx <∞) < 1,

où σx est le temps de retour en x (déni en 2.2).

Preuve. On introduit les temps d'arrêt σkx, k ≥ 1, par la relation de récurrence

σk+1x = infn > σkx : Xn = x

que l'on initialise avec σ1x = σx. On commence par démontrer la relation

Px(σnx <∞) = [Px(σx <∞)]n

(2.5)

qui nous permettra de conclure assez rapidement.On écrit pour ce faire : σnx = σn−1

x + (σnx − σn−1x ), où le deuxième terme est

le temps de premier retour en x, pour la trajectoire translatée (Xt+σn−1x

)t≥0.

Posons τ := σn−1x pour rendre les équations plus lisibles :

Px(σnx <∞) = Px(τ <∞, σnx − σn−1x <∞)

= Ex [1τ <∞1σx ((Xt+τ )t≥0) <∞]= Ex [1τ <∞E[1σx((Xt+τ )t≥0) <∞|τ ]] double espérance

= Px(τ <∞)Px(σx <∞)

par la propriété de Markov forte.Supposons dans un premier temps que Px(σx <∞) = 1. Alors d'après (2.5),

pour tout n, Px(σnx <∞) = 1. Donc

Nx = 1X0=x +∑n≥1

1σnx<∞ =∞ p.s

et nalement Ex(Nx) = U(x, x) =∞.

Page 24: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

24 CHAPITRE 2. CHAÎNES DE MARKOV

Supposons maintenant que Px(σx <∞) < 1, alors

U(x, x) = Ex(Nx) = 1 +∑n≥1

Px(σnx <∞)

=∑n≥0

[Px(σx <∞)]n =1

1− Px(σx <∞)<∞

et comme Ex(Nx) = U(x, x) <∞ on a nécessairement Nx <∞ p.s.

Théorème 2.5.3. Si x! y alors x et y sont de même nature (soit tous lesdeux récurrents, soit tous les deux transients).

Avant de prouver le théorème, bien noter que son énoncé implique que la ré-currence et la transience sont en fait des propriétés de classe : une classe contientsoit uniquement des états récurrents, soit uniquement des états transients. Ducoup, on introduit la terminologie naturelle suivante.

Dénition 2.5.4. Si les états d'une classe sont récurrents, on dit que la classeest récurrente. Si les états d'une classe sont transients, on dit que la classe esttransiente.

Si une chaîne est irréductible et que son unique classe d'états est récurrente,on dit que la chaîne est récurrente. Si l'unique classe est transiente, on dit quela chaîne est transiente.

La preuve du théorème utilise un lemme.

Lemme 2.5.4. Pour tout (x, y) ∈ E2, U(x, y) ≤ U(y, y).

Preuve du Lemme 2.5.4. Pour cette preuve, on utilise le temps d'arrêt sy =infn ≥ 0 : Xn = y :

U(x, y) = Ex(Ny)

= Ex(1sy <∞Ny((Xt+sy )t≥0)

)= Ex

[1sy <∞EXsy (Ny)

](Markov forte)

= Ex[1sy<∞Ey(Ny)

]= Px(σy <∞)U(y, y)

≤ U(y, y).

Preuve du Théorème 2.5.3. Soit x récurrent et y tel que x ! y. Alors enparticulier, il existe n tel que Pn(x, y) > 0. Alors on commence par utiliser leLemme 2.5.4,

U(y, y) ≥ U(x, y) =∑k≥0

P k(x, y) ≥∑k≥0

P k+n(x, y)

≥∑k≥0

P k(x, x)Pn(x, y) = U(x, x)︸ ︷︷ ︸=∞

Pn(x, y)︸ ︷︷ ︸>0

=∞

Page 25: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.5. OPÉRATEUR POTENTIEL ET NATURE DES CLASSES D'ÉTATS 25

et donc y est récurrent. On nit par quelques exemples qui vont permettre de mieux comprendre ces

notions.

Proposition 2.5.5. Toute chaîne irréductible (Xn) dénie sur E ni est ré-currente.

Preuve. Si elle était transiente, p.s, chaque état ne serait visité qu'un nombreni de fois. Or, il existe au moins un état visité une innité de fois.

Proposition 2.5.6. Sur un espace E dénombrable, non ni, il existe des chaînesirréductibles récurrentes, et des chaînes irréductibles transientes.

Preuve. On va construire un exemple avec E = Z (on peut l'étendre à tout autreensemble E inni dénombrable via une bijection avec Z). On dénit la marchealéatoire sur Z comme la chaîne de Markov dont la matrice de transition estdonnée par :

P (i, i− 1) = 1− p et P (i, i+ 1) = p

pour un p ∈]0, 1[ xé. Vérier que si p = 1 ou p = 0 la chaîne n'est plusirréductible ; on élimine ces cas. En revanche, si p ∈]0, 1[, pour tout i, i i + 1 i et donc la chaîne est irréductible. On va vérier que si p 6= 1/2 lachaîne est irréductible transiente, et si p = 1/2 elle est irréductible récurrente.

Commençons par le cas p = 1/2 (on parle dans ce cas de marche aléatoiresymétrique sur Z). Dans ce cas on peut calculer explicitement Pn(0, 0). En fait,pour n impair, n = 2k + 1, on a évidemment Pn(0, 0) = 0. En revanche, sin pair, Pn(0, 0) > 0. En fait, il y a 22k possibles chemins de longueur 2k, etparmi ceux-ci, mènent de 0 à 0 uniquement les chemins comportant autaut dedéplacements vers la gauche que de déplacements vers la droite. Le nombre deces chemins est

(2kk

)(il faut choisir exactement k déplacements vers la gauche

parmi 2k déplacements). Donc :

P 2k(0, 0) =1

22k

(2k

k

)=

(2k)!

(k!)222k.

En utilisant la formule de Stirling, que l'on rappelle :

m! ∼m→∞(m

e

)m√2πm

on obtient :

P 2k(0, 0) ∼k→∞1√πk.

Comme la série∑k 1/√k diverge, la série

∑P 2k(0, 0) =

∑n P

n(0, 0) divergeégalement, donc U(0, 0) =∞, et la chaîne est récurrente.

Traitons maintenant le cas p 6= 1/2 - on va en fait supposer p > 1/2, lecas p < 1/2 étant symétrique. Posons, pour tout n, εn = Xn −Xn−1. Alors, siX0 = 0,

Xn =

n∑i=1

εi.

Page 26: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

26 CHAPITRE 2. CHAÎNES DE MARKOV

On vérie que les εi sont indépendants. En eet, soit i < j, on a (pour f et gmesurables, positives),

E0(f(εj)g(εi)) = E0(f(Xj −Xj−1)g(Xi −Xi−1))

= E0 [E0 (f(Xj −Xj−1)g(Xi −Xi−1)|Fj−1)]

= E0 [E0 (f(Xj −Xj−1)|Fj−1) g(Xi −Xi−1)]

= E0 [(pf(1) + (1− p)f(−1)) g(Xi −Xi−1)]

= (pf(1) + (1− p)f(−1)) (pg(1) + (1− p)g(−1))

= E0(f(εj))E0(g(εi)).

Du coup, par la loi des grands nombres,

Xn

n=

1

n

n∑i=1

εip.s−−−−→

n→∞E0(ε1) = p× 1 + (1− p)× (−1) = 2p− 1 > 0

car p > 1/2. Ceci prouve que

Xnp.s−−−−→

n→∞∞

et donc que (Xn) ne passera presque sûrement qu'un nombre ni de fois par 0 :la chaîne est donc transiente.

On peut se poser la question de la généralisation dans Zd. Pour information,on donne le résultat suivant. On ne le prouvera pas car la preuve est un peutechnique, on renvoie le lecteur vers les références. (Mais de toutes façons cethéorème ne sera pas utilisé dans la suite de ce cours).

Théorème 2.5.7 (Théorème de Polya). Soit (Xn) la marche aléatoire symé-trique dans Zd, c'est-à-dire une chaîne de Markov de matrice de transition don-née par

P ((i1, i2 . . . , id), (i1 + 1, i2, . . . , id)) = P ((i1, i2 . . . , id), (i1 − 1, i2, . . . , id))

= P ((i1, i2 . . . , id), (i1, i2 + 1, . . . , id))

= P ((i1, i2 . . . , id), (i1, i2 − 1, . . . , id))

= . . .

= P ((i1, i2 . . . , id), (i1, i2, . . . , id + 1))

= P ((i1, i2 . . . , id), (i1, i2, . . . , id − 1))

=1

2d

pour tout (i1, . . . , id) ∈ Zd. Alors (Xn) est irréductible récurrente si d = 1 oud = 2, elle est irréductible transiente si d ≥ 3.

La preuve pour le cas particulier d = 2 reste cependant faisable à la main,à essayer !

Page 27: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.6. THÉORÈMES ERGODIQUES 27

2.6 Théorèmes ergodiques

On garde toutes les notations de la section précédente.

Théorème 2.6.1. Soit (Xn) une chaîne irréductible récurrente. Alors :

(Xn) possède au moins une mesure invariante µ (qui n'est pas forcémentune probabilité), unique (à une constante près), et pour tout x ∈ E, on a0 < µ(x) <∞.

la mesure invariante µx dénie par la contrainte de normalisation µx(x) =1 est donnée par :

∀y ∈ E, µx(y) = Ex

(σx−1∑k=0

1y(Xk)

).

Avant de donner la preuve, on discute les conséquences (importantes) de cerésultat.

Proposition 2.6.2. Pour tout x ∈ E, µx(E) = Ex(σx).

Preuve de la Proposition 2.6.2. On a

µx(E) =∑y∈E

µx(y) =∑y∈E

Ex

(σx−1∑k=0

1y(Xk)

)

= Ex

σx−1∑k=0

∑y∈E

1y(Xk)

= Ex

(σx−1∑k=0

1

)= Ex(σx).

Supposons µx(E) <∞. Alors en dénissant π par π(y) = µx(y)µx(E) , π est d'après

le Théorème 2.6.1 une probabilité invariante pour (Xn) et elle est unique. Enrevanche, si µx(E) =∞ alors (Xn) n'admet pas de probabilité invariante.

Dénition 2.6.1. Soit (Xn) une chaîne irréductible récurrente. Alors :

soit µx(E) = Ex(σx) < ∞ pour tout x, ce qui implique que (Xn) ad-met une unique probabilité invariante. On dit que (Xn) est une chaînerécurrente positive.

soit µx(E) = Ex(σx) = ∞ pour tout x, ce qui implique que (Xn) admetune unique mesure invariante qui ne peut pas se re-normaliser en mesurede probababilité. On dit que (Xn) est une chaîne récurrente nulle.

On donne quelques exemples : on va voir que toute chaîne irréductible surE ni est récurrente positive (on l'énonce comme une proposition), et on donneun exemple de chaîne irréductible récurrente nulle.

Proposition 2.6.3. Toute chaîne irréductible (Xn) dénie sur E ni est ré-currente positive.

Page 28: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

28 CHAPITRE 2. CHAÎNES DE MARKOV

Preuve de la Proposition 2.6.3. On a

µx(E) =∑y∈E

µx(y)︸ ︷︷ ︸<∞

<∞.

Exemple 2.6.1. On a déjà vu dans la preuve de la Proposition 2.5.6 que lamarche aléatoire symétrique sur Z est irréductible récurrente. Il est immédiatque la mesure de comptage, µ(z) = 1, est invariante. Or elle ne peut pas êtrenormalisée en probabilité. Donc cette chaîne est récurrente nulle.

Un dernier petit résultat utile avant de passer à la preuve du théorème.

Proposition 2.6.4. Supposons que (Xn) soit une chaîne irréductible admettantune probabilité invariante. Alors elle est récurrente positive.

Preuve de la Proposition 2.6.4. Soit π la loi invariante : π = πP = · · · = πPn.Autrement dit, pour tout x :

π(x) =∑y∈E

π(y)Pn(y, x). (2.6)

Supposons que la chaîne soit transiente. Alors pour tout (x, y) ; U(x, y) ≤U(y, y) <∞ et comme U(x, y) =

∑n≥0 P

n(x, y) on a nécessairement Pn(x, y)→0 quand n → ∞. De plus Pn(x, y) ≤ 1. Donc on peut appliquer le TCD aumembre de droite dans (2.6) et on obtient

π(x) = limn→∞

∑y∈E

π(y)Pn(y, x) =∑y∈E

π(y) limn→∞

Pn(y, x) = 0.

Donc pour tout x, π(x) = 0, ce qui est en contradiction avec le fait que π estune mesure de probabilité. Donc la chaîne ne peut pas être transiente, elle estdonc récurrente.

Passons maintenant à la preuve du théorème.Preuve du Théorème 2.6.1. On xe une fois pour toutes x ∈ E. On procède entrois étapes :

1. on va démontrer que la mesure µx dénie par

∀y ∈ E, µx(y) = Ex

(σx−1∑k=0

1y(Xk)

)

est bien une mesure invariante.

2. ensuite, on vérie que pour tout y, 0 < µx(y) <∞.

3. enn, on vérie l'unicité (à un facteur multiplicatif près).

Etape 1. On va montrer que pour toute fonction f : E → R+ on a µxPf = µxf .En eet :

µxPf = µx(Pf)

Page 29: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.6. THÉORÈMES ERGODIQUES 29

=∑y∈E

µx(y)Pf(y)

=∑y∈E

Ex

(σx−1∑k=0

1y(Xk)

)Pf(y)

= Ex

σx−1∑k=0

∑y∈E

1y(Xk)Pf(y)

= Ex

(σx−1∑k=0

Pf(Xk)

)

= Ex

( ∞∑k=0

1k<σxE[f(Xk+1)|Xk)]

)par dénition de Pf

=

∞∑k=0

Ex(1k<σxf(Xk+1)

)Fubini, double espérance, k < σx est Fk mesurable

= Ex

(σx∑k=1

f(Xk)

)

= Ex

(σx−1∑k=0

f(Xk)

)car Xk = X0 = x sachant σx = k

Etape 2. On xe y ∈ E. Dans un premier temps, montrons que µx(y) <∞. Eneet, la chaîne étant irréductible, il existe n tel que Pn(y, x) > 0 et alors

1 = µx(x) = µxPn(x) =

∑z∈E

µx(z)Pn(z, x) ≥ µx(y)Pn(y, x)

et donc µx(y) <∞.De la même façon, montrons que µx(y) > 0. En eet il existe m tel que

Pm(y, x) > 0 et alors

0 < Pm(x, y) = µx(x)Pm(x, y) ≤∑z

µx(z)Pm(z, y) = µxPm(y) = µx(y).

Etape 3. On montre maintenant l'unicité. Pour ceci, on introduit de nouvellesnotations. On dénit une nouvelle matrice de transition P ′ par

P ′(y, z) =µx(z)

µx(y)P (z, y).

C'est bien une matrice de transition, car P ′(y, z) ≥ 0 et

∑z∈E

P ′(y, z) =

∑z∈E µx(z)P (z, y)

µx(y)=µxP (y)

µx(y)=µx(y)

µx(y)= 1.

Page 30: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

30 CHAPITRE 2. CHAÎNES DE MARKOV

Soit (Yn) une chaîne de Markov de transition P ′. Montrons que, comme (Xn),(Yn) est irréductible récurrente. En eet :

P ′2(y, z) =∑t

P ′(y, t)P ′(t, z) =∑t

µx(t)

µx(y)P (t, y)

µx(z)

µx(t)P (z, t)

=µx(z)

µx(y)

∑t

P (z, t)P (t, y) =µx(z)

µx(y)P 2(z, y).

Par récurrence, on montre que pour tout n,

P ′n(y, z) =µx(z)

µx(y)Pn(z, y).

Donc :

U ′(y, z) =∑n

P ′n(y, z) =µx(z)

µx(y)

∑n

Pn(z, y) =µx(z)

µx(y)U(z, y).

En particulier, U ′(y, z) > 0 ⇔ U(z, y) > 0, ce qui montre que si (Xn) étantirréductible, alors (Yn) l'est aussi. De plus, U ′(y, z) =∞⇔ U(z, y) =∞, ce quiprouve que (Xn) étant récurrente, (Yn) aussi.

Cette partie de la preuve repose sur la théorie des martingales, vue dans laprochaine section. Vous pouvez l'ignorer pour l'instant ; voir aussi la remarque2.6.1 pour une démonstration directe dans le cas réccurent positif.

On va montrer que pour toute fonction f ≥ 0, si P ′f(z) = f(z) pour tout z,alors f est constante. Posons Zn = f(Yn) et Gn = σ(Y0, . . . , Yn). Alors

E(Zn+1|Gn) = E(f(Yn+1)|Y0, . . . , Yn)

= E(f(Yn+1)|Yn) (Markov)

= P ′f(Yn)

= f(Yn) par hypothèse sur f

= Zn.

On a donc montré que (Zn) est une martingale pour (Gn). Comme f estpositive, (Zn) est une martingale positive, donc en particulier une sur-martingalepositive. Donc, d'après le Lemme 3.8.2 du chapitre sur les martingales, (Zn)

converge p.s vers une variable aléatoire Z∞. Donc : f(Yn)p.s−−→ Z∞. Soient y 6= y′.

Comme (Yn) est récurrente, il existe une innités de n tels que Yn = y et une

innités de m tels que Ym = y′. Ceci prouve que f(y)p.s−−→ Z∞ et f(y′)

p.s−−→ Z∞,or comme f(y) et f(y′) ne dépendent pas de n, ceci montre forcément que f estune fonction constante (et que Z∞ est une variable aléatoire constante).

On est maintenant en position de démontrer l'unicité. Soit λ une mesureinvariante de (Xn), le but est de montrer que λ et µx sont proportionnelles.Posons f(y) = λ(y)/µx(y), on a

P ′f(y) =∑z

P ′(y, z)λ(z)

µx(z)

Page 31: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.6. THÉORÈMES ERGODIQUES 31

=∑z

µx(z)

µx(y)P (z, y)

λ(z)

µx(z)par def. de P ′

=1

µx(y)

∑z

λ(z)P (z, y)

=1

µx(y)λP (y)

=λ(y)

µx(y)par hypothèse sur λ

= f(y).

Donc f vérie P ′f(y) = f(y) pour tout y, donc f est constante, ce qui signiebien que λ et µx sont proportionnelles.

On énonce maintenant trois théorèmes, souvent appelés théorèmes ergo-diques, qui sont l'analogue de la loi forte des grands nombres et du théorèmecentral limite pour les chaînes de Markov. On démontrera les lois des grandsnombres, mais le TCL sera admis...

Théorème 2.6.5. Soit (Xn) une chaîne de Markov irréductible récurrente po-sitive de loi invariante π, de transition P et de loi initiale µ. Alors, pour toutefonction f telle que

∫|f |dπ <∞ on a

1

n

n∑i=1

f(Xi)Pµ−p.s−−−−→n→∞

∫fdπ.

Noter qu'on peut utiliser diérentes notations :

π(f) =

∫fdπ =

∫E

f(x)π(dx) =∑x∈E

f(x)π(x) = EX∼π[f(X)] = . . .

On a en particulier :

1

n

n∑i=1

1x(Xi)p.s−−−−→

n→∞π(x),

la proportion de temps passé en x est asymptotiquement π(x).

Théorème 2.6.6. Soit (Xn) une chaîne de Markov irréductible récurrence po-sitive de loi invariante π. Soit f une fonction telle que

∫|f |dπ <∞ et

∃x, s2(x) := Ex

σx∑i=1

[f(Xi)−

∫fdπ

]2<∞.

Alors σ2 = s2(x)π(x) ne dépend en fait pas de x et on a

√n

[1

n

n∑i=1

f(Xi)−∫fdπ

]loi−−−−→

n→∞N (0, σ2).

Page 32: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

32 CHAPITRE 2. CHAÎNES DE MARKOV

(C'est ce théorème qui sera admis).

Théorème 2.6.7. Soit (Xn) une chaîne de Markov irréductible récurrente nulle.Alors, pour tout x ∈ E,

1

n

n∑i=1

1x(Xi)p.s−−−−→

n→∞0,

Ceci donne une autre interprétation des diérences entre chaînes (irréduc-tibles) transientes, récurrentes nulles et récurrentes positives : dans une chaînetransiente, chaque état est visité un nombre ni de fois. Dans une chaîne récur-rente nulle, chaque état est visité un nombre inni de fois, mais la proportion detemps passé dans l'état est asymptotiquement nul. Dans une chaîne récurrentepositive, la proportion de temps passé dans l'état x est asymptotiquement égaleà π(x).Preuve simultanée des Théorèmes 2.6.5 et 2.6.7. Soit une fonction g ≥ 0. Fixonsx ∈ E. On dénit les sommes de blocs :

Z0 =

σ1x−1∑h=0

g(Xh), . . . , Zk =

σk+1x −1∑h=σkx

g(Xh), . . .

Propriété de Markov forte : les variables Z1, Z2, . . . (mais pas nécessairementZ0) sont IID, d'espérance µx(g).

On peut donc utiliser la loi des grands nombres sur les Zi :

1

n

n∑i=1

Zip.s−−−−→

n→∞

∫gdµx,

soit :

1

n

σnx∑i=0

g(Xi) =Z0

n+

1

n

n∑i=1

Zi +g(x)

n

p.s−−−−→n→∞

∫gdµx.

Or, pour un m ∈ N, il existe un unique ν(m) tel que

σν(m)x ≤ m < σν(m)+1

x .

Noter que

ν(m) ≤m∑k=0

1x(Xk) = ν(m) + 1x(X0) ≤ ν(m) + 1

et donc ν(m)→∞ quand m→∞. Mais alors

ν(m)

ν(m) + 1︸ ︷︷ ︸→1

∑σν(m)x

k=0 g(Xk)

ν(m)︸ ︷︷ ︸→

∫fdµx

≤∑mk=0 g(Xk)∑m

k=0 1x(Xk)≤ ν(m) + 1

ν(m)︸ ︷︷ ︸→1

∑σν(m)+1x

k=0 g(Xk)

ν(m) + 1︸ ︷︷ ︸→

∫fdµx

Page 33: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.6. THÉORÈMES ERGODIQUES 33

ce qui montre le résultat intermédiaire :∑mk=0 g(Xk)∑m

k=0 1x(Xk)

p.s−−−−→m→∞

∫gdµx. (2.7)

On conclut d'abord la preuve du Théorème 2.6.5 : on commence par appli-quer (2.7) avec g = 1. On a :∑m

k=0 1∑mk=0 1x(Xk)

=m+ 1∑m

k=0 1x(Xk)

p.s−−−−→m→∞

∫1dµx = µx(E).

On prend le ratio de cette équation et de (2.7) on obtient :∑mk=0 g(Xk)

m+ 1

p.s−−−−→m→∞

∫gdµx

µx(E)=

∫gdπ

quelle que soit la fonction g ≥ 0. On étend à une fonction f quelconque en ladécoupant en partie positive et partie négative : f = f+ − f− et on applique lerésultat précédent successivement sur g = f+ ≥ 0 puis sur g = f− ≥ 0.

Maintenant : le Théorème 2.6.7. Dans ce cas, on prend F ⊂ E ni et onapplique 2.7 respectivement sur g = 1F . En prenant l'inverse de la relationobtenue, ∑m

k=0 1x(Xk)

m+ 1≤∑mk=0 1x(Xk)∑mk=0 1F (Xk)

p.s−−−−→m→∞

µx(x)

µx(F )=

1

µx(F ).

Comme µ(E) = ∞, on sait qu'on peut trouver F ni de façon à rendre µx(F )arbitrairement grand, ce qui permet de conclure.

Remarque 2.6.1. On peut adapter cette preuve pour démontrer l'unicité de laloi invariante (et ainsi éviter le recours aux martingales dans la preuve du Théo-rème 2.6.1, du moins dans le cas récurrent positif). Pour ce faire, considérer uneautre loi invariante π′, et prendre π′ comme loi initiale. Alors en appliquantessentiellement la même preuve (cette fois Z0 à la même loi que Z1, Z2, . . .), onobtient une loi des grands nombres avec π′ comme loi limite ; en particulier :

1

n

n∑i=1

1x(Xi)→ π′(x)

et donc π′(x) = π(x) pour tout x ∈ E.

On termine cette section en traitant complètement l'exemple de la marchealéatoire sur N avec réexion en 0.

Exemple 2.6.2. Transition P (0, 1) = 1 − P (0, 0) = p et ensuite P (i, i + 1) =1− P (i, i− 1) = p ∈]0, 1[ pour i > 0. La chaîne est irréductible.

(Pour p > 1/2, on adapte facilement l'argument utilisé pour la marche surZ pour montrer que la chaîne est transiente).

Page 34: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

34 CHAPITRE 2. CHAÎNES DE MARKOV

Cherchons une loi invariante. On note que le système πP = π conduit àl'équation générique

(1− p)πj+1 − πj + pπj−1 = 0,

une récurrence à deux pas, avec en plus π0 = p1−pπ1.

Dans le cas p < 1/2, la solution générique est de la forme

πj = α+ β

(p

1− p

)j,

l'équation sur π0 et π1 montre que α = 0 et

πj = β

(p

1− p

)jqui peut se normaliser en probabilité pour β bien choisir :

πj =1− 2p

1− p

(p

1− p

)j.

Donc la chaîne EST récurrente positive.Dans le cas p = 1/2, la solution générique est de la forme

πj = α+ βj,

l'équation sur π0 et π1 montre que β = 0 et donc

πj = α

(constante). Cette mesure ne peut pas être normalisée en probabilité. Donc lachaîne n'est PAS récurrente positive.

2.7 Périodicité, convergence des lois marginales

Intuitivement, on s'attend à avoir, pour une chaîne (Xn) irréductible récur-

rente positive de loi invariante π : Xnloi−→ π. En fait, ça n'est pas toujours le

cas, comme le montre l'exemple suivant.

Exemple 2.7.1. Une chaîne sur E = 1, 2 avec P (1, 2) = P (2, 1) = 1. Alors,si X0 = 1, on a toujours X2n = 1 et X2n+1 = 2. Autrement dit il n'y a pas deconvergence en loi.

On va voir dans cette section que si on élimine ces phénomènes de périodicité,alors on peut prouver la convergence en loi.

Dénition 2.7.1. On appelle la période d'un élément x ∈ E le nombre entierd(x) déni par :

d(x) = PGCD(J(x))

oùJ(x) = n ∈ N : Pn(x, x) > 0.

Page 35: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.7. PÉRIODICITÉ, CONVERGENCE DES LOIS MARGINALES 35

Exemple 2.7.2. Dans l'Exemple 2.7.1, on a J(1) = 0, 2, 4, 6, . . . et doncd(1) = 2. En revanche, si on prenait P (1, 2) = 1 mais P (2, 1) = 0.99 etP (2, 2) = 0.01 on voit que 2 ∈ J(1) et 3 ∈ J(1) donc nécessairement d(1) = 1.

Proposition 2.7.1. Si x! y alors d(x) = d(y).

Démonstration. Comme x y, il existe un n tel que Pn(x, y) > 0. De mêmecomme y x il existe m tel que Pm(y, x) > 0. Donc Pm+n(x, x) > 0, soitm+ n ∈ J(x) et donc m+ n = kd(x) avec k ∈ N.

Soit ` ∈ J(y), alors

Pm+n+`(x, x) ≥ Pn(x, y)P `(y, y)Pm(y, x) > 0

et donc m+ n+ ` ∈ J(x) et donc m+ n+ ` = hd(x). Donc ` = (m+ n+ `)−(m+ n) = (k − h)d(x) et donc d(x) divise `. Donc, d(x) divise tout élément deJ(y) et donc d(x) ≤ PGCD(J(y)) = d(y).

En refaisant la même preuve en échangeant les rôles de x et y on obtientd(y) ≤ d(x) et donc d(x) = d(y).

Autrement dit, la période est une propriété de classe, et si la chaîne estirréductible, tous les éléments ont même période.

Dénition 2.7.2. Soit (Xn) une chaîne irréductible. Elle est dite apériodiquesi d(x) = 1 pour un x ∈ E (et donc automatiquement pour tout x).

Théorème 2.7.2. Supposons que (Xn) soit une chaîne irréductible récurrentepositive de loi invariante π. Si, de plus, (Xn) est apériodique alors, quelle quesoit la loi initiale µ,

∀x ∈ E, Pµ(Xn = x) −−−−→n→∞

π(x).

Dénition 2.7.3. Lorsqu'une chaîne vérie les conditions du Théorème 2.7.2on dit qu'elle est ergodique.

La preuve du théorème nécessite deux lemmes.

Lemme 2.7.3. Si (Xn) est ergodique, ∀x ∈ E, ∃n(x), ∀n ≥ n(x), Pn(x, x) > 0.

Preuve du Lemme 2.7.3. Soient n1, . . . , nk tels que Pni(x, x) > 0 et

PGCD(n1, . . . , nk) = 1.

Alors le Théorème de Bezout implique qu'il existe (q1, . . . , qk) ∈ Zk tels que

1 =

k∑i=1

qini.

En posant

a(x) =∑qi>0

qini et b(x) = −∑qi≤0

qini

Page 36: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

36 CHAPITRE 2. CHAÎNES DE MARKOV

on a a(x)− b(x) = 1. Posons enn n(x) = b(x)2 − 1.Pour n ≥ n(x), en écrivant la division euclidienne de n par b(x) on a n =

db(x) + r, avec 0 ≤ r ≤ b(x) − 1. Comme n ≥ n(x) = b(x)2 − 1, d ≥ b(x) ≥ r.Donc :

n = db(x) + r[a(x)− b(x)]

= (d− r)b(x) + ra(x)

= (d− r)∑qi≤0

(−qi)ni + r∑qi>0

qini

=

k∑i=1

αini

où tous les αi sont ≥ 0. Donc

Pn(x, x) ≥ Pα1n1(x, x) . . . Pαknk(x, x) > 0.

Lemme 2.7.4. Soient (X1n) et (X2

n) deux chaînes de Markov indépendantes,de même matrice de transition P , irréductibles et apériodiques. Alors la chaîneproduit (Yn), dénie sur E2 par Yn = (X1

n, X2n) l'est aussi. Si de plus (X1

n) et(X2

n) sont récurrentes positives alors (Yn) l'est aussi.

Preuve du Lemme 2.7.4. La matrice de transition Q de (Yn) est donnée par

Q((x1, x2), (x′1, x′2)) = P (x1, x

′1)P (x2, x

′2).

Or il existem1 etm2 tels que Pm1(x1, x

′1) > 0 et Pm2(x2, x

′2) > 0 (irréductibilité

des deux chaînes). On utilise le Lemme 2.7.3 et on prend n ≥ n(x′1) + n(x′2) +m1 +m2. Alors :

Qn((x1, x2), (x′1, x′2)) = Pn(x1, x

′1)Pn(x2, x

′2)

≥ Pm1(x1, x′1)Pn(x′1)+n(x′2)+m2(x1, x

′1)

× Pm2(x2, x′2)Pn(x′1)+n(x′2)+m1(x2, x

′2)

> 0

et donc (Yn) est irréductible. En refaisant le même calcul avec n+ 1 à la placede n on obtient également que (Yn) est apériodique.

Enn, si P est la matrice de transition de chaînes récurrentes positives,elle admet une unique loi invariante π, et on vérie directement que π ⊗ π estinvariante pour Q.

On peut maintenant prouver le théorème. La preuve utilise une techniquedite de couplage de deux chaînes, qui est une technique récurrente pour dé-montrer des propriétés des chaînes de Markov.Preuve du Théorème 2.7.2. Soient (X1

n) et (X2n) deux chaînes de Markov indé-

pendantes, de même matrice de transition (P ) que (Xn), et donc irréductibles

Page 37: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.8. CONDITION DE BALANCE ET ALGORITHME DE METROPOLIS37

et apériodiques, récurrentes, positives. Alors d'après le Lemme 2.7.4 la chaîneproduit (Yn), dénie sur E2 par Yn = (X1

n, X2n) l'est aussi. On pose

T = infn≥0:X1

n=X2n

.

En utilisant la propriété forte de Markov comme dans la preuve du Théo-rème 2.6.5, on obtient que pour tout n ≥ T , X1

n et X2n ont la même distribution.

Alors :

P(X1n = x) = P(X1

n = x, T > n) + P(X1n = x, T ≤ n)

= P(X1n = x, T > n) + P(X2

n = x, T ≤ n)

≤ P(T > n) + P(X2n = x)

et doncP(X1

n = x)− P(X2n = x) ≤ P(T > n).

En interversetnstissant les rôles de (X1n) et (X2

n) on obtient

|P(X1n = x)− P(X2

n = x)| ≤ P(T > n).

En particulier, si on prend la loi initiale de X10 étant µ et celle de X2

0 étant π,on a

|Pµ(X1n = x)− π(x)| ≤ P(T > n).

Or la chaîne (Yn) est récurrente positive donc T est ni p.s et donc P(T > n)→ 0quand n→∞.

2.8 Condition de balance et algorithme de Me-tropolis

Dénition 2.8.1. Soit P une matrice de transition et π une loi de probabilité.On dit qu'elles vérient la condition de balance si pour tout (i, j) ∈ E2 on a

π(i)P (i, j) = π(j)P (j, i).

Proposition 2.8.1. Si P et π vérient la condition de balance alors π estinvariante pour P .

Preuve. On montre que πP = π composante par composante. Pour tout j ∈ E,

πP (j) =∑i∈E

π(i)P (i, j)

=∑i∈E

π(j)P (j, i) (condition de balance)

= π(j)∑i∈E

P (j, i)

Page 38: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

38 CHAPITRE 2. CHAÎNES DE MARKOV

= π(j).

Supposons qu'on souhaite calculer une espérance : on se donne une loi π surE, une fonction f , et on souhaite approcher numériquement

EX∼π[f(X)] =

∫E

f(x)π(dx)

(si bien sûr cette quantité existe). Pour ceci, on pourrait simuler des variablesXi i.i.d de loi π et utiliser la loi des grands nombres :

1

n

n∑i=1

f(Xi)p.s−−−−→

n→∞

∫E

f(x)π(dx).

Le problème est que si π est tordue, il peut être très coûteux de simuler desvariables de loi π. Une idée est de simuler une chaîne de Markov (Xn) irréductiblerécurrente positive de loi limite π. Alors la convergence ci-dessus tiendra toujoursd'après le Théorème 2.6.5. La question qui reste est : comment simuler cettechaîne ?

L'Algorithme de Metropolis, et une de ses généralisations, Metropolis-Hastings,permettent de simuler une chaîne de Markov de transition P qui vérie la condi-tion de balance avec π, et donc, de loi invariante π. Cet algorithme est très utiliséen pratique. Bien noter qu'il reste à vérier si la chaîne est bien irréductible (sic'est le cas, comme elle admet une probabilité invariante, elle est récurrente po-sitive). Celà n'est pas toujours le cas, ça dépend en fait d'un certain choix quel'on fait dans l'algorithme - la loi q dite de proposition.

Dénition 2.8.2 (Algorithme de Metropolis). Supposons E = Zd pour d ≥ 1.Soit q une mesure de probabilité telle qu'on sait simuler une variable aléatoirede loi q. On suppose q symétrique. Soit X0 xé. Etant donné Xn :

1. on tire Zn ∼ q (indépendante de toutes les variables simulées jusqu'ici) ;

2. on tire Un ∼ U([0, 1]) (idem) ;

3. on dénit :

Xn+1 =

Xn + Zn si Un ≤ min

(1, π(Xn+Zn)

π(Xn)

)Xn sinon.

Notons un point intéressant : π n'apparaît que dans le ratio π(Xn+Zn)/π(Xn).Donc, si on ne connaît π qu'à un facteur multiplicatif près, on peut quand mêmeutiliser l'algorithme !

Théorème 2.8.2. Le processus (Xn) déni par l'Algorithme de Metropolis estune chaîne de Markov dont la matrice de transition P vérie la condition debalance avec π.

Page 39: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.8. CONDITION DE BALANCE ET ALGORITHME DE METROPOLIS39

Preuve. Pour le fait que c'est une chaîne de Markov : Xn+1 = f(Xn, (Zn, Un))et utiliser l'Exercice 5 du TD 3. On écrit sa matrice :

P (x, y) =∑z∈E

q(z)

min

(1,π(x+ z)

π(x)

)1y=x+z

+

[1−min

(1,π(x+ z)

π(x)

)]1y=x

.

Reste à faire le calcul :

π(x)P (x, y) = π(x)∑z∈E

q(z)

min

(1,π(x+ z)

π(x)

)1y=x+z

+

[1−min

(1,π(x+ z)

π(x)

)]1y=x

=∑z∈E

q(z) min (π(x), π(x+ z))1x=y−z

+∑z∈E

q(z)

[1−min

(1,π(x+ z)

π(x)

)]π(x)1y=x

posons z′ = −z dans la première somme

=∑z′∈E

q(−z′) min (π(y − z′), π(y))1x=y+z′

+∑z∈E

q(z)

[1−min

(1,π(y + z)

π(y)

)]π(y)1y=x

=∑z∈E

q(z) min (π(y − z), π(y))1x=y+z

+∑z∈E

q(z)

[1−min

(1,π(y + z)

π(y)

)]π(y)1y=x

= π(y)P (y, x).

Exemple 2.8.1. Soit X une version discrète d'une variable aléatoire gaus-sienne : P(X = i) = π(i) := c exp(−i2) où c est une constante multiplicative,que l'on n'a pas besoin de connaître ici. On souhaite calculer E[cos(X)]. On pro-pose d'utiliser l'algorithme de Metropolis avec q donnée par q(1) = q(−1) = 1/2.On initialise X0 = 0, l'algorithme s'écrit, étant donné Xn :

1. on tire Zn = ±1 avec proba. 1/2 ;

2. on tire Un ∼ U([0, 1]) (idem) ;

3. on dénit :

Xn+1 =

Xn + Zn si Un ≤ min[1, exp(X2

n − (Xn + Zn)2)]

Xn sinon.

Page 40: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

40 CHAPITRE 2. CHAÎNES DE MARKOV

D'après le Théorème 2.8.2, (Xn) est une chaîne de Markov admettant π commeloi invariante. De plus, on vérie que pour tout x ∈ Z, et pour tout z ∈ −1,+1,on a min

[1, exp(X2

n − (Xn + Zn)2)]> 0, ce qui signie que la transition P de

(Xn) vérie P (x, x+ 1) > 0 et P (x, x− 1) > 0. Donc la chaîne est irréductible,et comme elle a une probabilité invariante, elle est récurrente positive, et on abien la convergence

1

n

n∑i=1

cos(Xi)p.s−−−−→

n→∞E[cos(X)].

Maintenant, la version plus générale (et plus connue).

Dénition 2.8.3 (Algorithme de Metropolis-Hastings). Supposons E = Zdpour d ≥ 1. Soit Q une matrice de transition telle que, pour tout x ∈ E, on saitsimuler une variable aléatoire de loi (Q(x, ·). Soit X0 xé. Etant donné Xn :

1. on tire Zn ∼ Q(Xn, ·) (indépendante de toutes les variables simuléesjusqu'ici) ;

2. on tire Un ∼ U([0, 1]) (idem) ;

3. on dénit :

Xn+1 =

Zn si Un ≤ min

(1, π(Zn)Q(Zn,Xn)

π(Xn)Q(Xn,Zn)

)Xn sinon.

Théorème 2.8.3. Alors (Xn) (déni par Metropolis-Hastings) est une chaînede Markov dont la transition P vérie la condition de balance avec π.

La preuve est similaire à celle du Théorème 2.8.2, elle est laissée en exercice.

2.9 Extension à un espace d'états continu

Le but de cette section est d'expliquer, à la main, comment construire unechaîne de Markov sur un espace d'états E quelconque (par exemple E = R).On ne donnera pas de preuve, elles sont un peu plus complexes dans ce cas.Le lecteur est invité à se reporter à la bibliographie, en particulier Meyn andTweedie (2009) mais c'est une lecture un peu violente par moments ! Ceci dit,on peut se faire une bonne intuition des cas simples...

Dans le cas discret, on construisait une chaîne homogène à l'aide d'une ma-trice de transition P ,

P (i, j) = P(Xn+1 = j|Xn = i).

Dans le cas continu, il faut dénir de la même façon un objet qui permette dedonner la loi de Xn+1 sachant Xn. Par contre, pour une loi continue, P(Xn+1 =j) = 0 donc on va devoir passer par une mesure...

Page 41: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

2.9. EXTENSION À UN ESPACE D'ÉTATS CONTINU 41

Dénition 2.9.1. Soit (E, E) un espace mesurable. On appelle noyau de tran-sition P une fonction

P : E × E → [0, 1]

telle que :

1. pour tout x ∈ E xé, l'application A 7→ P (x,A) est une mesure de pro-babilités ;

2. pour tout A ∈ E xé, l'application x 7→ P (x,A) est mesurable.

Etant donné une loi µ et un noyau de transition P sur (E, E), on pourradénir X0 comme une variable aléatoire de loi µ et les (Xn) par récurrence :

P(Xn+1 ∈ A|Xn = x) = P (x,A).

Remarquer qu'on peut étendre toutes les opérations que l'on a fait dans lecas discret sur les matrices de transition au cas de noyaux de transition. Parexemple,

P 2(i, j) =∑k∈E

P (i, k)P (k, j)

dans le cas discret devient, dans le cas continu

P 2(x,A) =

∫E

P (x,dy)P (y,A).

Pour une loi de probabilité µ,

µP (A) =

∫µ(dx)P (x,A).

En particulier, on dit qu'une loi π est invariante si πP = π.

Exemple 2.9.1. On considère un processus AR(1) : X0 ∼ µ puis

Xn+1 = α+ βXn + εn+1

où les (εn) sont i.i.d (et indép. de X0) de loi N (0, σ2). Noter qu'on peut alorsdonner la loi de Xn+1|Xn directement, sans écrire εn+1 : Xn+1|Xn ∼ N (α +βXn, σ

2). On peut alors écrire le noyau de transition P sous une forme explicite :

P (x,A) =

∫A

1√2πσ2

exp

− [y − (α+ βx)]

2

2σ2

dy.

En général, résoudre l'équation πP = π peut être très compliqué. Dans ce cas,on peut vérier que si µ = N (m, s2) alors X1, en tant que somme de deuxgaussiennes indépendantes, est aussi gaussienne, d'espérance α+ βm et de va-

riance β2s2 + σ2. Donc, si |β| < 1, on voit que π = N ( α1−β ,

σ2

1−β2 ) est une loiinvariante.

Page 42: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

42 CHAPITRE 2. CHAÎNES DE MARKOV

On va juste donner maintenant deux théorèmes ergodiques dans ce contexte(sans les démontrer, là encore, on renvoie le lecteur à Meyn and Tweedie (2009)).L'intérêt est qu'ils permettront d'analyser les versions de l'Algorithme de Metropolis-Hastings dans le cas continu, cf. le cours de simulation et Monte-Carlo. Cesénoncés nécessitent de généraliser les notions d'irréductiblité, récurrence, etc...

Pour l'irréductibilité, attention : P (x, y) = 0 pour une loi continue, donc,il faut là encore procéder autrement.

Dénition 2.9.2. Soit Φ une mesure σ-nie sur (E, E). On dit que (Xn) estΦ-irréductible si :

∀A ∈ E ,∀x ∈ E : [Φ(A) > 0⇒ ∃n ∈ N : Pn(x,A) > 0] .

On peut vérier que si E est dénombrable et si Φ est la mesure de comptage,on retombe bien sur la dénition précédente...

Il faudrait ensuite étendre la notion de récurrence, mais il n'y a pas uneextension unique : il y a plusieurs dénitions de récurrence, qui permettent dedémontrer des propriétés diérentes. Ceci dit, on se souvient que dans le casdiscret, si une chaîne est irréductible et admet une loi invariante, alors on avaitdirectement le théorème ergodique. C'est de ce résultat qu'on on va donner uneforme dans le cas continu, sans avoir à dénir l'irréductibilité.

Théorème 2.9.1. Supposons que E = Rd pour un d ≥ 1 et que E est la σ-algèbre des boréliens. Si (Xn) est λ-irréductible, où λ est la mesure de Lebesgue,et si π est invariante pour (Xn), alors π est unique, et pour toute fonction hintégrable par rapport à π, on a

1

n

n∑i=1

h(Xi)p.s−−−−→

n→∞

∫h(x)π(dx).

Dénition 2.9.3. On dit que (Xn) est périodique si il existe une partitionmesurable X0, . . . ,Xk de E, avec k ≥ 1, telle que pour tout x ∈ Xi avec i <k, P (x,Xi+1) = 1, et pour tout x ∈ Xk, P (x,X0) = 1. On dit que (Xn) estapériodique si elle n'est pas périodique.

Théorème 2.9.2. Sous les hypothèses du Théorème 2.9.1, si en plus (Xn) estapériodique, alors pour tout borélien A on a

Pµ(Xn ∈ A) −−−−→n→∞

π(A).

Page 43: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Chapitre 3

Martingales

3.1 Dénitions

Dénition 3.1.1. Soit (Xt)t∈N un processus, à valeurs dans R, adapté à uneltration (Ft)t∈N. On dit que le processus est une martingale si, pour tout t ∈ N,

i) Xt est intégrable, soit E(|Xt|) <∞,

ii) E(Xt+1|Ft) = Xt.

On dit que le processus est une martingale positive si, pour tout t ∈ N,i) Xt ≥ 0 p.s,

ii) E(Xt+1|Ft) = Xt.

On dénit de la même façon une sous-martingale (resp. une sous-martingale po-sitive) en remplaçant la condition (ii) dans la dénition de martingale (resp. demartingale positive) par E(Xt+1|Ft) ≥ Xt. On dénit de la même façon une sur-martingale (une sur-martingale positive) en remplaçant (ii) par E(Xt+1|Ft) ≤Xt.

Quelques propriétés évidentes : (Xt) est une martingale si et seulement sic'est une sur-martingale et une sous-martingale. L'espérance d'une martingaleest constante. En eet,

E(Xt+1|Ft) = Xt

et en prenant l'espérance des deux côtés, on obtient

E[E(Xt+1|Ft)] = E(Xt),

soit

E(Xt+1) = E(Xt).

De la même façon, pour une sur-martingale, les espérances sont décroissantesE(Xt+1) ≤ E(Xt) et pour une sous-martingale, les espérances sont croissantesE(Xt+1) ≥ E(Xt).

43

Page 44: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

44 CHAPITRE 3. MARTINGALES

Proposition 3.1.1. Soit (Xt) une martingale, soit k, t ≥ 0, alors

E(Xt+k|Ft) = Xt.

Pour une sur et une sous-martingale, la propriété tient en remplaçant = par ≤et ≥ respectivement.

Preuve. Par récurrence sur k : le cas k = 1 est vrai par dénition. Supposonsque la propriété est vraie au rang k. Alors,

E(Xt+k+1|Ft) = E[E(Xt+k+1|Ft+k)

∣∣∣Ft]= E(Xt+k|Ft) par dénition d'une martingale

= Xt par hypothèse de récurrence.

Proposition 3.1.2. Soit (Xt) une martingale et f une fonction convexe telleque f(Xt) soit intégrable pour tout t. Alors le processus [f(Xt)]t∈N est une sous-martingale.

Preuve. Par Jensen, E[f(Xt+1)|Ft] ≥ f [E(Xt+1|Ft)] = f(Xt) par dénition. Donnons maintenant quelques exemples de martingales.

Exemple 3.1.1. Soit (Xt)t∈N une suite de variables centrées et indépendantes.Posons

Mt =

t∑i=0

Xi.

On pose Ft = σ(X0, . . . , Xt), on peut vérier qu'on a également la relationFt = σ(M0, . . . ,Mt). Alors (Mt)t∈N est une martingale pour la ltration (Ft).En eet :

E(Mt+1|Ft) = E(Xt+1 +Mt|Ft)= E(Xt+1|X0, . . . , Xt) + E(Mt|M0, . . . ,Mt)

= 0 +Mt.

Un exemple : Xt ∼ N (0, σ2t ). Dans ce cas, notons que

Mt ∼ N

(0,

t∑i=0

σ2i

).

Si∑∞i=0 σ

2i = S < ∞ , on a la vague impression que Mt va converger vers

une variable aléatoire de loi N (0, S). A l'inverse, si∑∞i=0 σ

2i = ∞, la loi de la

variable s'étale de plus en plus et on a l'impression qu'il n'y aura pas de conver-gence. Une bonne partie de ce chapitre sera consacré à étudier le comportementasymptotique des martingales.

Dénition 3.1.2. Soit (εt) un processus. On dit que c'est un incrément demartingale si il existe une ltration (Ft) et une martingale (Mt) telles que εt =Mt −Mt−1 pour tout t > 0.

Page 45: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.1. DÉFINITIONS 45

Un des intérêts des incréments de martingales est qu'il existe énormément depropriétés vraies pour les variables indépendantes centrées que l'on peut étendreaux incréments de martingales. Par exemple, la loi faible des grands nombres.

Proposition 3.1.3. Soit (εt) un incrément de martingale avec E(ε2t ) = σ2 <

∞. Alors1

n

n∑i=1

εiproba.−−−−→ 0.

Preuve. On a

P

(∣∣∣∣∣ 1nn∑i=1

εi

∣∣∣∣∣ > t

)≤

E(∣∣ 1n

∑ni=1 εi

∣∣2)t2

=

∑ni=1 E

(ε2i

)+ 2

∑1≤i<j≤n E(εiεj)

n2t2

=σ2

nt2+

2∑

1≤i<j≤n E(εiεj)

n2t2.

Dans le cas de variables indépendantes, on a E(εiεj) = E(εi)E(εj) = 0, ce quiprouve que

P

(∣∣∣∣∣ 1nn∑i=1

εi

∣∣∣∣∣ > t

)≤ σ2

nt2−−−−→n→∞

0.

Or, pour des incréments de martingales εt = Mt −Mt−1, on a :

E(εiεj) = E[(Mi −Mi−1)(Mj −Mj−1)]

= E[E[(Mi −Mi−1)(Mj −Mj−1)|Fj−1]]

= E[(Mi −Mi−1)E[(Mj −Mj−1)|Fj−1]]

= 0

par dénition d'une martingale. Une question naturelle est alors : est-ce qu'il existe des exemples de martin-

gales autres que les sommes de variables indépendantes ou de façon équivalente,est-ce qu'il existe des exemples d'incréments de martingales qui ne sont pas in-dépendants. L'exemple suivant fournit une réponse positive.

Exemple 3.1.2 (Processus ARCH). Soit (ηk) une suite de variables i.i.d gaus-siennes centrées réduites et, pour tout k, Fk = σ(η1, . . . , ηk). Soit (Zk) un pro-cessus déni par récurrence : z0 = 1 et

Zk+1 = ηk+1

√α0 + α1Z2

k

où α0 > 0 et α1 ≥ 0. Le processus (Zk) est appelé processus ARCH(1) et esttrès souvent utilisé en nance. On pose

Mn =

n∑k=1

Zk.

Page 46: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

46 CHAPITRE 3. MARTINGALES

Figure 3.1 Voici un exemple de réalisation de (Zn) : ressemble à un bruitblanc, avec des périodes de bruits extrêmes. Ici α0 = 0.5 et α1 = 0.7.

On vérie bien que (Mn) est une martingale, en montrant l'intégrabilité parrécurrence puis

E(Mn+1|Fn) = E(Zn+1 +Mn|Fn)

= E(ηn+1

√α0 + α1Z2

n|Z0, . . . , Zn) +Mn

= E(ηn+1|Z0, . . . , Zn)√α0 + α1Z2

n +Mn

= Mn.

Les incréments de la martingale (Mn) sont les Zn et ceux-ci ne sont bien entendupas indépendants, par exemple,

E(Z2n+1|Zn) = E(η2

n+1(α0 + α1Z2n)|Zn) = (α0 + α1Z

2n)E(η2

n+1) = (α0 + α1Z2n).

En général, en nance, les actifs nanciers ne sont pas modélisés directementpar des processus ARCH, mais plutôt par la martingale associée (Mn) ou parune transformation de celle-ci comme Yn = exp(λ − γMn) avec λ, γ > 0. LaProposition 3.1.2 montre que (Yn) est une sur-martingale. Les Figures 3.1, 3.2et 3.3 montrent des exemples de réalisation de tels processus.

Page 47: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.1. DÉFINITIONS 47

Figure 3.2 Le processus (Mn) correspondant.

Figure 3.3 Le prix (Yn) correspondant. Ici λ = 1 et γ = 0.03.

Page 48: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

48 CHAPITRE 3. MARTINGALES

3.2 Temps d'arrêt

Idée : supposons que je possède un actif nancier, soit Xt sa valeur à ladate t. A un instant t, je peux décider de vendre l'actif, ou pas. Notons τl'instant auquel je me décide à vendre l'actif (noter qu'il s'agit d'une variablealéatoire, puisque ma décision dépendra des valeurs, aléatoires, de l'actif). Sima modélisation est réaliste, il est important que le fait de vendre à l'instant t(i.e. τ = t) ne dépende que de l'information disponible à la date t. On rappellequ'on représentait l'information disponible à la date t à l'aide d'une ltration.

Dénition 3.2.1. Soit τ une variable aléatoire à valeurs dans N = N ∪ +∞ou dans R+ = R+ ∪ +∞. Soit (Ft)t∈N une ltration. La variable τ est ditetemps d'arrêt pour la ltration (Ft)t∈N si et seulement si, pour tout t dans N,ou R+ respectivement, τ ≤ t ∈ Ft.

Proposition 3.2.1. Dans le cas où τ une variable aléatoire à valeurs dans N,τ est un temps d'arrêt ssi pour tout t dans N, τ = t ∈ Ft

Preuve. Si τ est un temps d'arrêt, alors τ = t = τ ≤ t \ τ ≤ t − 1 =τ ≤ t ∩ (τ ≤ t − 1c) et par dénition, τ ≤ t ∈ Ft et τ ≤ t − 1 ∈Ft−1 ⊂ Ft. Comme une σ-algèbre est stable par passage au complémentaire etpar intersection, τ = t ∈ Ft.

Réciproquement, si pour tout t dans N, τ = t ∈ Ft, alors, pour t xé,τ ≤ t = τ = 0∪ · · · ∪ τ = t et chacun de ces ensembles sont dans Ft doncτ ≤ t. Donc τ est un temps d'arrêt.

A partir de maintenant (et jusqu'à la n du Chapitre 2) on ne considèreraque des processus à temps discret avec T = N et des temps d'arrêt à valeursdans N.

Exemple 3.2.1. Exemples de temps d'arrêt : τ = 3 (ou n'importe quelleconstante). Un exemple plus intéressant est le temps d'entrée dans un ensembleA :

τA := infn ∈ N : Xn ∈ A

avec la convention habituelle inf ∅ =∞.

Dénition 3.2.2. Soit τ un temps d'arrêt pour la ltration (Ft)t∈N. On dénit

F∞ = σ

( ∞⋃t=0

Ft

)

etFτ = A ∈ F∞ : ∀n ∈ N, τ ≤ n ∩A ∈ Fn .

Proposition 3.2.2. Les ensembles F∞ et Fτ sont deux σ-algèbres.

Preuve. C'est évident pour F∞, on passe directement à Fτ . Il faut vérier que∅ ∈ Fτ , que Fτ est stable par passage au complémentaire et est stable parréunion dénombrable.

Page 49: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.2. TEMPS D'ARRÊT 49

Pour tout n, τ ≤ n ∩ ∅ = ∅ ∈ Fn et donc ∅ ∈ Fτ .Soit A ∈ Fτ . Pour n ∈ N, τ ≤ n ∩ Ac = τ ≤ n ∩ (A ∩ τ ≤ n)c ∈ Fn.

Donc Ac ∈ Fτ .Enn, supposons que A0, A1, · · · ∈ Fτ . Alors, pour n ∈ N,

τ ≤ n ∩

( ∞⋃k=0

Ak

)=

∞⋃k=0

(τ ≤ n ∩Ak) ∈ Fn

et donc ∪kAk ∈ Fτ .

Proposition 3.2.3. Soient τ1 et τ2 deux temps d'arrêt. Alors

1. τ1 + τ2, τ1 ∧ τ2 = min(τ1, τ2) et τ1 ∨ τ2 = max(τ1, τ2) sont aussi des t.a.

2. τ1 ≤ τ2 ⇒ Fτ1 ⊂ Fτ2 .3. Fτ1∧τ2 = Fτ1 ∩ Fτ2 .4. τ1 < τ2 ∈ Fτ1∧τ2 , τ1 = τ2 ∈ Fτ1∧τ2 .

Preuve. On prouve 1., les autres propriétés sont laissées en exercice.Pour τ1 + τ2 :

τ1 + τ2 = n =

n⋃k=0

(τ1 = k ∪ τ2 = n− k

)et τ1 = k ∈ Fk ⊂ Fn, τ2 = n− k ∈ Fn−k ⊂ Fn et donc τ1 + τ2 = n ∈ Fn.Donc τ1 + τ2 est un t.a.

Pour τ1 ∧ τ2 : τ1 ∧ τ2 ≤ n = τ1 ≤ n ∪ τ2 ≤ n ∈ Fn. De même pourτ1 ∨ τ2 : τ1 ∨ τ2 ≤ n = τ1 ≤ n ∩ τ2 ≤ n ∈ Fn.

Dénition 3.2.3. Soit τ un temps d'arrêt pour la ltration (Ft)t∈N, et (Xt)t∈Nun processus. Si τ <∞ p.s, on pose

Xτ =∑t∈N

Xt1τ=t.

Dans les cas où τ peut être inni, on peut parfois étendre la dénition. Par

exemple, si Xnp.s−−→ X il est naturel de poser

Xτ =∑t∈N

Xt1τ=t +X1τ=∞.

On conclut cette section par une application de la notion de temps d'arrêtpour énoncer une version de l'idendité de Wald. L'idée est la suivante. Supposontque l'on a des variables aléatoires X1, X2, . . . indépendantes, intégrables (oupositives), avec la même espérance E(X1) = E(X2) = . . . Pour un N ∈ N(déterministe), on a évidemment

E

(N∑i=1

Xi

)= NE(X1).

Page 50: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

50 CHAPITRE 3. MARTINGALES

La question est : si N est aléatoire, a-t'on

E

(N∑i=1

Xi

)= E(N)E(X1)?

Cette égalité n'est pas vraie en général. Quand elle est vraie, porte le d'indentitéde Wald. Il en existe plusieurs versions, avec des hypothèses diérentes. On endémontre ici une version où N est un temps d'arrêt.

Théorème 3.2.4 (Identité de Wald). Soit (Xi)i≥1 une suite de variables aléa-toires indépendantes, intégrables ou positives, de même espérance. Soit N untemps d'arrêt pour la ltration (Ft)t∈N∗ dénie par Ft = σ(X1, . . . , Xt). Onsuppose que E(N) <∞. Alors

E

(N∑i=1

Xi

)= E(N)E(X1).

Preuve. On commence par le cas positif. On a :

E

(N∑i=1

Xi

)= E

( ∞∑i=1

Xi1N≥i

)on utilise Fubini, tout est positif

=

∞∑i=1

E(Xi1N≥i

)=

∞∑i=1

E(Xi1N≤i−1c

)on utilise la dénition de l'espérance conditionnelle

=

∞∑i=1

E(E(Xi|Fi−1)1N≤i−1c

)or Xi indep. de σ(X1, . . . , Xi−1) = Fi−1

=

∞∑i=1

E(E(Xi)1N≤i−1c

)or E(Xi) = E(X1) non aléatoire

= E(X1)E

( ∞∑i=1

1N≤i−1c

)

= E(X1)E

( ∞∑i=1

1N≥i

)= E(X1)E (N) .

Page 51: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.3. THÉORÈME D'ARRÊT : LE CAS BORNÉ 51

Dans le cas où les Xi ne sont plus forcément positifs mais intégrables, la preuveprécédente peut être réutilisée pour prouver que

E

( ∞∑i=1

|Xi|1N≥i

)= E(N)E(|X1|) <∞. (3.1)

On réutilise ensuite la même preuve que dans le cas positif, l'unique diérenceétant que l'utilisation de Fubini n'est plus justiée par le fait que les Xi sontpositifs, mais par (3.1).

On conclut par un contre-exemple rigolo. Supposons que l'on les Xi sont i.i.davec P(Xi = +1) = P(Xi = −1) = 1/2, et posons

N = inf

n ∈ N :

n∑i=1

Xi = 1

.

Avec la terminologie de l'Exemple 3.2.1, N est le temps d'entrée du processus∑ni=1Xi dans l'ensemble 1. On garde bien entendu la convention que inf ∅ =

+∞. Supposons que E(N) <∞. Alors en particulier, N <∞ p.s et

N∑i=1

Xi = 1.

L'identité de Wald que l'on vient de démontrer dit alors que

1 = E

(N∑i=1

Xi

)= E(N)E(X1) = 0.

C'est donc que la supposition initiale, à savoir E(N) <∞, est fausse. On a doncétabli que E(N) =∞.

3.3 Théorème d'arrêt : le cas borné

Pour une martingale (Xt) on a vu qu'on a toujours E(Xt) = E(X0). Unequestion naturelle est alors : est-ce que pour un temps aléatoire τ , on a E(Xτ ) =E(X0) ? Noter que ceci est assez proche de la question qu'on se posait pourl'idendité de Wald, et en fait, il s'agit de la même question dans le cas parcticulieroù Xt est une somme d'accroissements indépendants. On appelle théorèmed'arrêt un théorème qui assure que E(Xτ ) = E(X0) pour un temps d'arrêtτ - ceci ne peut s'obtenir qu'avec certaines hypothèses sur la martingale (Xt)et/ou sur τ . De façon directe, on peut alors étendre ces résultats aux cas desur-martingales pour montrer que E(Xτ ) ≤ E(X0), et de sur-martingales pourmontrer que E(Xτ ) ≥ E(X0).

Dans cette section, on va démontrer un premier théorème d'arrêt, lorsque τest borné.

Page 52: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

52 CHAPITRE 3. MARTINGALES

Proposition 3.3.1. Soit (Xn) une martingale pour (Fn) et τ un temps d'arrêt.Soit le processus (Yn) donné par Yn = Xn∧τ . Alors (Yn) est une martingale. Onnotera Xτ

n := Yn, on appelle le processus (Xτn) une martingale arrêtée.

Preuve. On a

E(Yt+1|Ft) = E(X(t+1)∧τ |Ft)= E(Xτ1τ≤t +Xt+11τ≤tc |Ft)

= E

(t∑

k=0

Xk1τ=k +Xt+11τ≤tc

∣∣∣∣∣Ft)

=

t∑k=0

Xk1τ=k + 1τ≤tcE(Xt+1|Ft)

= Xτ1τ≤t + 1τ≤tcXt

= Xt∧τ = Yt.

Comme pour toutes les propriétés précédentes, on adapte celle-ci de façon directepour les martingales positives et les sur et sous-martingales.

Théorème 3.3.2 (Théorème d'arrêt - cas borné). Soit (Xn) une martingalepour (Fn) et τ un temps d'arrêt. On suppose que τ est borné p.s, autrement dit,il existe T0 ∈ N tel que P(τ ≤ T0) = 1. Alors :

E(Xτ ) = E(X0).

Preuve.D'après la proposition précédente, (Xτt ) est une martingale donc E(Xτ

T0) =

E(Xτ0 ). De plus, il est immédiat que Xτ

T0= Xτ et d'autre part Xτ

0 = X0. Onrécapitule :

E(Xτ ) = E(XτT0

) = E(Xτ0 ) = E(X0)

ce qui conclut. Il existe en fait une formulation un peu plus générale.

Théorème 3.3.3 (Théorème d'arrêt - cas borné, deuxième version). Soit (Xn)une martingale pour (Fn) et τ1 et τ2 deux temps d'arrêt avec 0 ≤ τ1 ≤ τ2 ≤ T0

p.s Alors :E(Xτ2 |Fτ1) = Xτ1 .

Pour voir que ceci implique bien la première version, prendre τ1 = 0 pourobtenir E(Xτ2 |F0) = X0, et en prenant l'espérance des deux côtés, E(Xτ2) =E(X0).Preuve. Par dénition de l'espérance conditionnelle, il s'agit de démontrer quepour tout A ∈ Fτ1 on a

E(1AXτ2) = E(1AXτ1).

On commence donc le calcul :

E(1AXτ2) = E(1AXτ2∧T0)

Page 53: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.4. DÉCOMPOSITION DE DOOB 53

= E

(T0∑t=0

1A1τ1=tXτ2∧T0

)

=

T0∑t=0

E(1A∩τ1=tXτ2∧T0

)=

T0∑t=0

E[E(1A∩τ1=tXτ2∧T0

|Ft)], or A ∩ τ1 = t ∈ Ft

=

T0∑t=0

E[1A∩τ1=tE(Xτ2

T0|Ft)

]=

T0∑t=0

E(1A∩τ1=tX

τ2t

)=

T0∑t=0

E(1A∩τ1=tXt∧τ2

), or t = τ1 ≤ τ2

= E

(T0∑t=0

1A1τ1=tXt

)= E(1AXτ1)

ce qui conclut.

3.4 Décomposition de Doob

Dénition 3.4.1. On appelle processus croissant un processus (Yt)t∈N tel quepour tout t, Yt ≤ Yt+1 p.s

Dénition 3.4.2. On appelle processus prévisible pour la ltration (Ft)t∈N unprocessus (Yt)t∈N tel que pour tout t, Yt+1 est Ft mesurable.

Théorème 3.4.1 (Théorème de décomposition de Doob). Soit (Xt)t∈N uneSOUS-martingale pour la ltration (Ft)t∈N. Alors on a la décomposition :

Xt = Mt + Yt

où (Mt) est une martingale, et Yt est un processus croissant prévisible. Si onrajoute la condition Y0 = 0, cette décomposition est unique. Elle s'appelle dé-composition de Doob de (Xt) et le processus (Yt) s'appelle le compensateur de(Xt).

Preuve. Poser Y0 = 0, Yn+1 = Yn+E(Xn+1−Xn|Fn) puisMn = Xn−Yn. On apar récurrence que Yn+1 est Fn-mesurable, et donc (Yn) est prévisible. De plus,

Yn+1 − Yn = E(Xn+1 −Xn|Fn) = E(Xn+1|Fn)−Xn ≥ 0

Page 54: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

54 CHAPITRE 3. MARTINGALES

car (Xn) est une sous-martingale, donc (Yn) est croissant. Il reste à vérier que(Mn) est une martingale. Or :

E(Mn+1|Fn) = E(Xn+1 − Yn+1|Fn) = E(Xn+1 − (Yn +Xn+1 −Xn)|Fn) = Mn

donc (Mn) est bien une martingale.Démontrons enn l'unicité. Supposons Xn = Mn+Yn = M ′n+Y ′n avec (M ′n)

martingale, Y ′0 = 0 et (Y ′n) croissant prévisible. Alors

Y ′n+1 − Y ′n = Xn+1 −Xn +M ′n+1 −M ′net en prenant E(·|Fn) on a

Y ′n+1 − Y ′n = E(Xn+1 −Xn|Fn).

Comme Y ′0 = 0 = Y0, par récurrence, Y′n = Yn pour tout n, et du coupM

′n = Mn

pour tout n.

Exemple 3.4.1. Soit (Xn) une martingale pour (Fn) avec E(X2n) < ∞ pour

tout n. Alors en utilisant la Proposition 3.1.2, ou en invoquant directementl'inégalité de Jensen, on a immédiatement que (X2

n) est une sous-martingale.On en déduit que

X2n = Mn + Yn

où (Mn) est une martingale et (Yn) un processus croissant prévisible, avec Y0 =0. On appelle le processus (Yn) la variation quadratique de la martingale (Xn)ou parfois le crochet de (Xn), et on note 〈X〉n := Yn, donc la décompositionse ré-écrit :

X2n = Mn + 〈X〉n .

Le terme crochet se justie par la notation, le terme variation quadratiquepar le fait qu'on peut démontrer que

〈X〉n =

n∑i=1

E((Xi −Xi−1)2|Fi−1

). (3.2)

En eet, à partir de la preuve de la décomposition de Doob, on a 〈X〉0 = 0 et〈X〉n+1 = 〈X〉n + E(X2

n+1 −X2n|Fn), et par récurrence on obtient :

〈X〉n =

n∑i=1

E(X2i −X2

i−1|Fi−1).

Or :

E((Xi −Xi−1)2|Fi−1

)= E

(X2i |Fi−1

)− 2E (Xi−1Xi|Fi−1) +X2

i−1

= E(X2i |Fi−1

)− 2Xi−1E (Xi|Fi−1) +X2

i−1

or (Xn) est une martingale donc

= E(X2i |Fi−1

)− 2X2

i−1 +X2i−1

= E(X2i −X2

i−1|Fi−1

)et donc (3.2) est prouvée.

Page 55: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.5. INÉGALITÉS MAXIMALES 55

3.5 Inégalités maximales

Il s'agit de borner le max de martingales.Lorsqu'on souhaite borner la probabilité qu'une variable X ≥ 0 soit trop

grande, on utilise en général l'inégalité de Markov. On la rappelle ici avec sapreuve, car la construction des inégalités maximales repose sur une sophistica-tion de cette preuve.

Théorème 3.5.1 (Inégalité de Markov). Soit X une v.a. positive. Pour toutt > 0,

P(X ≥ t) ≤ E(X)

t.

Preuve. On a E(X) ≥ E(X1X≥t

)≥ E

(t1X≥t

)= tP(X ≥ t).

Si l'on souhaite borner le max de N variables aléatoires X1, . . . , XN de mêmeespérance, de façon générale, on utilise un outil appelé borne d'union :

P( max1≤i≤N

Xi ≥ t) = P

⋃1≤i≤N

Xi ≥ t

N∑i=1

P (Xi ≥ t)

=

N∑i=1

E(Xi)

t

=NE(X1)

t.

Le facteur N semble être le prix à payer pour passer au max. Cette borne esttrès grossière, mais sans hypothèse supplémentaire sur les Xi, on ne peut pasvraiment l'améliorer. On peut faire par exemple des hypothèses de moments,etc. ceci est énormément utilisé dans les cours de statistique et machine learningthéorique. Ici, on va voir que si on suppose que les (Xi) sont en fait une (sur ousous) martingale, il n'y a pas de prix à payer pour passer au max.

Proposition 3.5.2. Soit a > 0. Soit (Xn) une SUR-martingale positive. Alors

P(

supn∈N

Xn > a

)≤ E(X0)

a.

Preuve. On dénit le temps d'arrêt

τa = inf n ∈ N : Xn > a ,

on remarque que

τa <∞ =

supn∈N

Xn > a

Page 56: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

56 CHAPITRE 3. MARTINGALES

et queXn∧τa ≥ a1τa≤n. (3.3)

Puisque (Xτan ) est une sur-martingale, E(Xτa

0 ) ≥ E(Xτan ), et donc :

E(X0) = E(Xτa0 ≥ E (Xn∧τa)

≥ E(a1τa≤n

)d'après (3.3)

= aP (τa ≤ n) −−−−→n→∞

aP (τa <∞)

Proposition 3.5.3. Soit a > 0. Soit (Xn) une SOUS-martingale positive. Alors

P(

max0≤k≤n

Xk > a

)≤ E(Xn)

a.

Preuve. On utilise le même temps d'arrêt τa, et cette fois-ci on veut contrôlermax

0≤k≤nXk > a

= τa ≤ n.

Or on a

aP (τa ≤ n) = E(a1τa≤n

)= E

(n∑k=0

a1τa=k

)

≤ E

(n∑k=0

Xk1τa=k

)

=

n∑k=0

E(Xk1τa=k

)≤

n∑k=0

E(E(Xn|Fk)1τa=k

)=

n∑k=0

E(E(Xn1τa=k|Fk)

)=

n∑k=0

E(Xn1τa=k

)= E

(Xn

n∑k=0

1τa=k

)= E

(Xn1max0≤k≤nXk>a

)(3.4)

≤ E(Xn).

On rappelle que pour 1 ≤ p < ∞ on dénit l'espace Lp comme l'ensembledes variables aléatoires X telles que E(|X|p) < ∞. On munit cet espace de la

Page 57: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.5. INÉGALITÉS MAXIMALES 57

norme‖X‖p = [E(|X|p)]

1p .

Dans le cas p = ∞ l'espace Lp est l'espace des variables aléatoires bornéespresque sûrement, et on pose

‖X‖∞ = inf u ≥ 0 : P(X ≤ u) = 1 .

Dénition 3.5.1. Soit un processus (Xn)n∈N. On dit que le processus est bornédans Lp pour p ∈ [1,∞] si et seulement si chaque Xn ∈ Lp et

supn∈N‖Xn‖p <∞.

Théorème 3.5.4 (Inégalité de Doob). Soit p ∈]1,∞], (Xn) une martingale ouune sous-martingale positive, et on suppose que (Xn) est bornée dans Lp. Alorssupn∈N |Xn| est dans Lp, et on a∥∥∥∥sup

n∈N|Xn|

∥∥∥∥p

≤ p

p− 1supn∈N‖Xn‖p.

Bien remarquer que la borne ne s'étend pas au cas p = 1, ceci aura desconséquences importantes dans l'étude de la convergence des martingales dansla section suivante.Preuve. Dans le cas p =∞, l'inégalité est en fait une égalité trivialement vraie.On va maintenant supposer p ∈]1,∞[. Remarquer que si (Xn) est une martin-gale, par Jensen, (|Xn|) est une sous-martingale positive. Dans le cas où (Xn)est une sous-martingale positive, Xn = |Xn|. Donc, dans les deux cas, (|Xn|)est une sous-martingale positive. On xe a > 0, et pour faire court, on poseYn = max0≤k≤n |Xn|. On peut utiliser la Proposition 3.5.3, ou plutôt l'Inéga-lité 3.4 dans la preuve de la Proposition 3.5.3, qui donne :

aE(1Yn>a

)≤ E

(|Xn|1Yn>a

).

On multiplie les deux membres par pap−2 :

pap−1E(1Yn>a

)≤ pap−2E

(|Xn|1Yn>a

).

On intégre pour a dans R+ et on obtient :∫ ∞0

pap−1E(1Yn>a

)da ≤

∫ ∞0

pap−2E(|Xn|1Yn>a

)da.

Les quantités intégrées étant toutes positives, on peut utiliser Fubini :

E(∫ ∞

0

pap−11Yn>ada

)≤ E

(∫ ∞0

pap−2|Xn|1Yn>ada)

soit

E

(∫ Yn

0

pap−1da

)≤ E

(|Xn|

p

p− 1

∫ Yn

0

(p− 1)ap−2da

).

Page 58: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

58 CHAPITRE 3. MARTINGALES

On fait le changement de variable b = ap à gauche et c = ap−1 à droite

E

(∫ Y pn

0

db

)≤ p

p− 1E

(|Xn|

∫ Y p−1n

0

dc

)et le calcul des deux intégrales devient trivial. On obtient :

E (Y pn ) ≤ p

p− 1E(|Xn|Y p−1

n

).

On remarque que le membre de gauche est ‖Yn‖pp et on applique Hölder sur lemembre de droite :

‖Yn‖pp ≤p

p− 1‖Xn‖p‖Y p−1

n ‖ pp−1

=p

p− 1‖Xn‖p‖Yn‖p−1

p .

Une simplication des deux membres par ‖Yn‖p−1 donne

‖Yn‖p ≤p

p− 1‖Xn‖p,

soit, en revenant à la dénition de Yn,∥∥∥∥ max0≤k≤n

|Xn|∥∥∥∥p

≤ p

p− 1‖Xn‖p.

En prenant le sup en n ∈ N des deux membres on obtient∥∥∥∥supn∈N|Xn|

∥∥∥∥p

≤ p

p− 1supn∈N‖Xn‖p

ce qui est bien le résultat voulu.

3.6 Convergence dans L2 (et plus généralementLp, p > 1)

On rappelle d'abord que Lp est l'espace vectoriel des variables aléatoiresréelles telles

‖X‖p := E|X|p1/p <∞.On peut dénir cette quantité pour tout p > 0, mais nous ne considéreronsque le cas p ≥ 1, pour lequel c'est une norme (si l'on travaille sur les classesd'équivalence dénies par X = Y p.s.) ; notamment on a l'inégalité triangulaire(dite inégalité de Minkowski) :

‖X + Y ‖p ≤ ‖X‖p + ‖Y ‖p

encore une fois pour p ≥ 1.On peut aussi dénir L∞, l'ensemble des variables bornées p.s. Noter que

les ensembles Lp forment une suite décroissante (X ∈ Lp ⇒ X ∈ Lq si p > q).On dira qu'un processus (Xt) est bornée dans Lp si les Xt sont bornés

uniformément dans Lp :

Page 59: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.6. CONVERGENCE DANS L2 (ET PLUS GÉNÉRALEMENT Lp, P > 1)59

Dénition 3.6.1. Un processus (Xt) est dit borné dans Lp s'il existe C tel que‖Xt‖p <= C pour tout t ≥ 0. (Cela implique notamment que Xt ∈ Lp pour toutt ≥ 0.)

Les deux espaces Lp les plus importants en pratique sont L2 (qui est un es-pace de Hilbert), et L1 (l'espace des variables intégrables). Les résultats concer-nant L2 sont souvent plus simples à établir, mais, par construction, les résultatsconcernant L1 sont plus généraux. On s'intéresse donc pour commencer à desmartingales bornées dans L2.

Proposition 3.6.1. Soit (Xn) une martingale bornée dans L2. Alors (Xn)converge p.s et dans L2.

Exemple 3.6.1. Avant de passer à la preuve, revenons à un exemple présentéau début du chapitre : des variables indépendantes εt ∼ N (0, σ2

t ) et

Xt =

t∑i=0

εi.

Dans ce cas, notons que

Xt ∼ N

(0,

t∑i=0

σ2i

)⇒ ‖Xt‖2 =

t∑i=0

σ2i .

Si∑∞i=0 σ

2i = S < ∞, la martingale (Xn) est bornée dans L2, et donc elle

converge p.s et dans L2 vers une variable aléatoire que l'on pourra noter X∞.Par ailleurs, en passant par exemple par la fonction caractéristique, on démontreque

X∞ ∼ N

(0,

∞∑i=0

σ2i

).

Exemple 3.6.2. Un exemple plus rigolo. On sait que la série harmonique di-verge, en fait

n∑k=1

1

k∼ log(n) −−−−→

n→∞∞.

Mais quid de la série ∑k∈N±1

k

où les signes sont tirés à pile-ou-face ? Soient donc des variables i.i.d (Xk) avecP(Xk = +1) = P(Xk = −1) = 1/2 et on dénit M0 = 0 puis

Mn =

n∑k=1

Xk

k.

Page 60: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

60 CHAPITRE 3. MARTINGALES

On vérie que (Mn) est une martingale, que

E(M2n) =

n∑k=1

1

k2≤∞∑k=1

1

k2=π2

6

et donc (Mn) converge p.s (et dans L2). Autrement dit, presque sûrement parrapport au tirage des signes ± à pile-ou-face, la série∑

k∈N±1

k

converge.

Preuve. On commence par montrer la convergence dans L2. Pour ceci, il sutde démontrer que (Xn) est une suite de Cauchy dans L2.

Par Jensen, (X2n) est une sous-martingale, donc E(X2

n) est une suite crois-sante. De plus c'est une suite bornée par hypothèse. Donc E(X2

n) converge versune limite C > 0. Donc :

‖Xn+p −Xn‖22 = E[(Xn+p −Xn)2

]= E

[E((Xn+p −Xn)2|Fn

)]= E

[E(X2n+p|Fn

)− 2XnE

(X2n+p|Fn

)+X2

n

]= E

[E(X2n+p|Fn

)−X2

n

]= E

(X2n+p

)− E

(X2n

)≤ C − E

(X2n

)−−−−→n→∞

0.

Donc (Xn) est une suite de Cauchy dans L2, donc elle converge dans L2.Reste à démontrer que (Xn) converge également presque sûrement. Là en-

core, on va démontrer que (Xn) est p.s de Cauchy. Pour celà, on pose

Vn = supi,j≥n

|Xi −Xj |.

On note que (Vn) est p.s positive et décroissante, donc, elle converge presquesûrement vers une limite V . De plus,

P(Vn > t) = P(

supi,j≥n

|Xi −Xj | > t

)≤ P

(supk≥0|Xk+n −Xn| >

t

2

)≤(

2

t

)2

E

[(supk≥0|Xk+n −Xn|

)2]par Markov

≤(

2

t

)22

2− 1supk≥0

E(|Xk+n −Xn|2

)par Doob avec p = 2

Page 61: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.7. INTERLUDE : URNES DE POLYA 61

=8

t2supk≥0

E(|Xk+n −Xn|2

)−−−−→k→∞

0

car (Xk) est de Cauchy dans L2. Ceci prouve que

Vnproba.−−−−→n→∞

0.

Or on a déjà montré que

Vnp.s−−−−→

n→∞V.

Par unicité de la limite (à un p.s près), V = 0 p.s et donc

Vnp.s−−−−→

n→∞0

ce qui prouve que (Xn) est p.s une suite de Cauchy, donc elle converge p.s.

3.7 Interlude : urnes de Polya

Le problème de l'urne de Polya fournit une première illustration de la théo-rie des martingales (et notamment des théorèmes de convergence de la sectionprécédente).

On place dans une urne deux boules, une blanche, une noire. Puis on répètel'opération suivante : tirage d'une boule au hasard, remise de cette boule, etajout d'une boule supplémentaire de même couleur que la boule tirée. Soit Ntle nombre de boules blanches à l'itération t (parmi un total de t+ 2 boules). Onpose N0 = 1, et on voit que :

E(Nt −Nt−1| Nt−1 = n) =n

t+ 1(3.5)

On considère désormais la proportion de boules blanches : Mt = Nt/(t+ 2).C'est une martingale : en adaptant (3.5), on obtient eectivement que

E(Mt| Mt−1) =Mt−1(t+ 1)

(t+ 2)+

Mt−1

(t+ 2)= Mt−1

Cette martingale est à valeur dans [0, 1] (c'est une proportion), donc elle estbornée, de façon déterministe et a fortiori dans Lp pour tout p ≥ 1. On sait doncque Mt → M∞ p.s. et dans Lp, p > 1 (Théorème 3.6.1). On veut maintenantdéterminer la loi de M∞. Pour ce faire, on détermine d'abord la loi de Nt

Proposition 3.7.1. La variable Nt suit une loi uniforme sur l'ensemble 1, . . . , t+1.

Démonstration. Par récurrence : on a bien P (N1 = 1) = P (N2 = 2) = 1/2(ou même N0 = 1, ce qui est bien une loi uniforme sur le singleton 1). Si lapropriété est vraie au temps t− 1, on a, pour 1 ≤ n ≤ t+ 1 :

Page 62: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

62 CHAPITRE 3. MARTINGALES

P(Nt = n) = P(Nt−1 = n− 1)n− 1

t+ 1+ P (Nt−1 = n)

(1− n

t+ 1

)=

1

t+ 1

On en déduit aisément que Mt converge en loi vers une loi uniforme sur[0, 1] ; puis par unicité de la limite, que M∞ ∼ U [0, 1].

Ce problème peut se généraliser comme suit : on place initialement ni boulesde couleur i dans l'urne, pour i = 1, . . . , k. Quelle est alors la loi limite ? La façonla plus élégante de traiter cette généralisation est d'utiliser des propriétés deslois dites de Dirichlet, présentée ci-dessous.

Lemme 3.7.2. Soient V1, . . . , Vk, k ≥ 2, des variables aléatoires indépendantestelles que Vi ∼ Gamma(αi, 1), αi > 0. Soient Ui = Vi/

∑kj=1 Uj. Le vecteur

(U1, . . . , Uk−1) suit une loi dite de Dirichlet(α1, . . . , αk), de densité :

f(u1, . . . , uk−1) =Γ(∑ki=1 αi)∏k

i=1 Γ(αi)

k∏i=1

uαii 1Sk(u1, . . . , uk−1)

où ui = 1 − u1 − . . . − uk−1, et Sk est l'ensemble (u1, . . . , uk−1) : ui >

0,∑k−1i=1 ui ≤ 1. Pour α1 = . . . = αk = 1, on parlera de loi uniforme sur

le simplexe.

La preuve est simple et laissée au lecteur. On notera que cette loi est déniepour le vecteur (u1, . . . , uk−1), plutôt que (u1, . . . , uk), pour éviter les problèmestechniques liées aux lois dénies sur un espace contraint (la contraint étant u1 +. . . uk = 1). (Mais par abus de langage, on dira aussi que le vecteur (u1, . . . , uk)suit aussi cette loi de Dirichlet). On peut maintenant généraliser assez aisémentle résultat précédent.

Proposition 3.7.3. Soit une urne de Polya contenant initialement ni boulesde couleur i, pour i = 1, . . . , k, et soit Mt le vecteur des proportions de chaquecouleur au temps t. Le processus Mt converge p.s. vers une variable M∞ de loide Dirichlet(α1, . . . , αk), avec αi = ni/

∑kj=1 nj.

Démonstration. On suppose pour commencer que n1 = . . . = nk = 1. Commedans le cas k = 2, on montre aisément que queMt suit une certaine loi uniforme(sur des ensembles d'entiers), qui doit converger (en loi) vers une loi uniformesur le simplexe. Noter aussi que chaque composante du vecteur Mt est bien unemartingale (par rapport à quelle ltration ?), et donc converge p.s.

Pour une conguration de départ quelconque, faisons la "thought expe-riment" suivante : on numérote les boules de départ de 1 à m =

∑ki=1 ni. Puis

on eectue un tirage de Polya, en remplaçant les "couleurs" par les catégoriesdénies par ces nombres : i.e. au temps 1 on tire une boule au hasard, et on

Page 63: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.8. CONVERGENCE : RÉSULTATS PLUS GÉNÉRAUX 63

replace dans le sac deux boules avec le même nombre. Le résultat précédentmontre que le vecteur des proportions tend vers une loi uniforme (c'est à dire,une Dirichlet(1, . . . , 1)). On réunit ensuite les boules de même couleur, et onapplique le Lemme 3.7.2, pour conclure.

3.8 Convergence : résultats plus généraux

Lorsqu'un processus est borné dans L1, les choses deviennent nettementplus techniques. En particulier, on peut avoir convergence presque sûre sansconvergence dans L1. On commence par énoncer et démontrer deux résultats deconvergence ps.

Théorème 3.8.1. Soit (Xn) une sous-martingale bornée dans L1. Alors elleconverge presque sûrement.

La preuve nécessite un lemme qui est un résultat intéressant en soi.

Lemme 3.8.2. Soit (Xn) une sur-martingale positive. Alors Xnp.s−−−−→

n→∞X∞.

De plus, X0 <∞ ⊂ X∞ <∞ et E(X∞|Fn) ≤ Xn.

Noter que ces deux résultats sont assez intuitifs, par analogie avec les suitesdéterministes : une suite croissante (resp. décroissante) et bornée supérieurement(resp. inférieurement) converge vers une limite nie.Preuve du Lemme 3.8.2. Comme (Xn) est une sur-martingale positive, (Yn)déni par Yn = exp(−Xn) est une sous-martingale positive (Jensen) avec 0 ≤Yn ≤ 1. On peut donc écrire sa décomposition de Doob :

Yn = Mn +An (3.6)

où (Mn) est une martingale, (An) un processus croissant prévisible et A0 = 0.Comme (An) est un processus croissant, il converge presque sûrement vers A∞à valeurs dans R+ ∪ ∞. Par le TCM, E(An)→ E(A∞) et de plus,

E(An) = E(Yn)− E(Mn) par (3.6)

= E(Yn)− E(M0) car (Mn) martingale

= E(Yn)− E(Y0) par (3.6) encore

≤ 1 car 0 ≤ Yn ≤ 1.

Ceci prouve que E(A∞) ≤ 1 et donc que A∞ < ∞ p.s. Pour p ∈ N posonsτp = infn ∈ N : An+1 > p, comme (An) est prévisible, τp est bien un tempsd'arrêt. De plus, An∧τp ≤ p. Donc :

|Mτpn | = |Mn∧τp | = |Yn∧τp −An∧τp | ≤ 1 + p

donc la martingale arrêtée (Mτpn ) est une martingale bornée, donc bornée dans

L2, et donc d'après la Proposition 3.6.1 elle converge presque sûrement et dansL2. Donc

Yn∧τp = Mτpn +An∧τp

Page 64: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

64 CHAPITRE 3. MARTINGALES

converge p.s. Autrement dit :

τp =∞ ⊂ (Yn) converge

soit (passage au complémentaire)

(Yn) diverge ⊂ τp <∞ ⊂ A∞ > p

et doncP ((Yn) diverge) ≤ P (τp <∞) ≤ P(A∞ > p) −−−→

p→∞0

car A∞ < ∞ p.s. Or P ((Yn) diverge) ne dépend bien entendu pas de p doncon a P ((Yn) diverge) = 0, autrement dit, (Yn) converge p.s. En revenant àXn = − log(Yn), on a directement que (Xn) converge également p.s, la limiteétant à valeurs dans R+ ∪ ∞.

Reste à prouver la relation sur l'espérance :

E (X∞|Fk) = E(

lim infn→∞

Xn|Fk)

≤ lim infn→∞

E (Xn|Fk) par Fatou conditionnel

≤ Xk car (Xn) sur-martingale.

On peut maintenant prouver le théorème.Preuve du Théorème 3.8.1. Rappel : (Xn) est cette fois une sous-martingalebornée dans L1. On pose X+

n = Xn ∨ 0, en tant que fonction convexe de (Xn),c'est une sous-martingale (positive). On peut donc encore une fois écrire ladécomposition de Doob :

X+n = Mn +An

et, comme dans la preuve du Lemme 3.8.2, (An) étant positif et croissant, ilconverge vers une limite A∞ à valeurs dans R+ ∪ ∞. Cette fois

E(A∞) = supn∈N

E(An)

= supn∈N

[E(X+

n )− E(Mn)]

≤ supn∈N

E(|Xn|)− E(M0)

<∞ par hypothèse,

donc là encore E(A∞) <∞ et A∞ <∞ p.s. On dénit un nouveau processus,

Yn = Mn + E (A∞|Fn) .

Le processus (Mn) est une martingale, quand à (E (A∞|Fn)), c'est une martin-gale régulière. Donc (Yn) est aussi une martingale. Comme (An) est un processuscroissant, A∞ ≥ An ⇒ E(A∞|Fn) ≥ E(An|Fn) = An. Donc,

Yn = Mn + E (A∞|Fn) ≥Mn +An = X+n ≥ 0.

Page 65: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.9. DEUXIÈME INTERLUDE : PROCESSUS DE BRANCHEMENT 65

Donc (Yn) est une (sur-)martingale positive, d'après le Lemme 3.8.2, Ynp.s−−→ Y∞.

On pose égalementZn = Yn −Xn,

en tant que somme d'une martingale et d'une sur-martingale, c'est une sur-martingale et comme Yn ≥ X+

n ≥ Xn on a immédiatemen Zn ≥ 0. On peut

là-encore invoquer le Lemme 3.8.2, Znp.s−−→ Z∞. Comme Xn = Yn − Zn on a

presque établi la convergence p.s. de (Xn), il faut juste vérier qu'il n'y a pasde forme indéterminée. En fait,on va montrer que Y∞ et Z∞ sont nies p.s.

Tout d'abord, E(Yn) = E(Mn) + E(A∞) < ∞, or le Lemme 3.8.2 dit égale-ment que E(Y∞|Fn) ≤ Yn donc

E(Y∞) = E[E(Y∞|Fn)] ≤ E(Yn) <∞

et donc Y∞ <∞ p.s.De la même façon,

E(Z∞) ≤ E(Zn) = E(Yn)− E(Xn) <∞

et donc Z∞ <∞ p.s.

3.9 Deuxième interlude : processus de branche-ment

On considère une population évoluant dans le temps : chaque individu autemps t− 1 aura un nombre aléatoire de descendants au temps t. Ce nombre dedescendants suit une loi xe. Donc, au temps t ≥ 1, le nombre d'individu est :

Zt =

Zt−1∑i=1

Xt,i

où les Xt,i sont des copies IID de X. On prend classiquement Z0 = 1. On vasupposer que P (X = 0) > 0 et P (X > 1) > 0 pour rendre l'étude plus inté-ressante. (Pourquoi ?) Bien entendu, le nombre de descendants X est à valeursdans N.

Les processus de branchement sont très utiles pour modéliser diérents phé-nomène en biologie notamment. Ils présentent aussi une belle application de lathéorie des martingales.

Posons d'abord le décor. Soit µ := E(X) et G(x) = E(xX) ; G est la fonctiongénératrice de la loi G. On montre aisément les propriétés suivantes : G(0) =P (X = 0), G′(1) = µ, G est croissante, convexe. Par ailleurs, si Gt est la fonctiongénératrice de Zt, on a : Gt = G Gt−1 (par récurrence).

Par ailleurs E[Zt|Zt−1] = µZt−1, donc E[Zt] = µt, et : si µ > 1 (cas sur-critique) : (Zt) est une sous-martingale (positive). si µ = 1 (cas critique) : (Zt) est une martingale (positive). si µ < 1 (cas sous-critique) : (Zt) est une sur-martingale (positive).

Page 66: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

66 CHAPITRE 3. MARTINGALES

(Dans les trois cas, la ltration associée est la ltration canonique.) On peut endéduire que pour µ ≤ 1, Zt converge p.s. vers une limite Z∞. Nous aimerions ensavoir plus sur Z∞. (Et sur le comportement asymptotique de Zt quand µ > 1.)

Intéressons-nous tout d'abord à la probabilité d'extinction de la population ;soit l'événement E : Zt = 0 au bout d'un certain temps t. On note que

E = ∪∞t=1Zt = 0

et donc π := P(E) est la limite de la suite croissante P(Zt = 0) = Gt(0)(théorème de la convergence monotone). Reste à savoir dans quels cas π = 1 ouπ < 1. (On sait déjà que π > 0.)

Puisque π = limt→+∞Gt(0), c'est une solution de l'équation π = G(π).(Gt+1(0) = G(Gt(0)), et on passe à la limite ; G est continue.)

Le lemme suivant devient évident si l'on trace les graphes correspondants (serappeler que G est croissante, convexe, que G(0) = P (X = 0) > 0 et G′(1) = µ).

Lemme 3.9.1. Si µ ≤ 1, l'unique solution dans [0, 1] de l'équation π = G(π)est π = 1. Si µ > 1, cette équation admet une solution dans ]0, 1[ que l'on noteraπ par la suite (reste à démontrer que c'est bien la probabilité d'extinction.)

En d'autres termes, pour µ ≤ 1, Zt s'annule en un temps ni. (Et donc lalimite Z∞ est simplement un Dirac en 0). Pour µ < 1, on peut de plus montrerque la probabilité de survie jusqu'à la date t décroît exponentiellement. Parl'inégalité de Markov :

P(Zt ≥ 1) ≤ E(Zt) = µt.

Pour µ = 1, il est possible de montrer que la probabilité de survie décroît en1/t (résultat admis).

Pour étudier plus nement le cas µ > 1, on introduit la martingale suivante :Mt := Zt/µ

t. (Expliquer pourquoi c'est une martingale.)

Proposition 3.9.2. Si X ∈ L2 (et donc σ2 := Var(X) < ∞), la martingaleMt est bornée dans L2. Donc elle converge p.s. et dans L2 vers une limite M∞.

Preuve : On peut écrire par exemple (en partant de Var(X) = E(X2) −E(X)2) que

E(Z2t |Zt−1 = z) =

σ2

z+ µ2z2

et en déduire que

E(M2t −M2

t−1|Mt−1) =σ2

µt+1Mt−1

et donc

E(M2t ) =

σ2

µ

t∑s=1

1

µs≤ σ2

µ(1− µ).

La preuve ci-dessus nous donne d'ailleurs l'espérance et la variance de la loilimiteM∞. Puisque la variance est non-nulle, on a bien montré que la probabilité

Page 67: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.10. MARTINGALES RÉGULIÈRES ET THÉORÈME D'ARRÊT 67

d'extinction est strictement inférieure à 1. (Si cette probabilité valait 1, alors Ztet donc aussi Mt s'annulerait au bout d'un certain t.)

Donc, pour conclure, quand µ > 1, le comportement asymptotique de lapopulation est le suivant :

Avec probabilité π (l'unique solution dans ]0, 1[ de l'équation π = G(π)),la population s'éteint en un temps ni.

Avec probabilité (1-π), la taille de la population diverge exponentielle-ment, au taux M∞(ω)µt. (La constante devant le µt est aléatoire, et suitla loi de M∞ conditionnellement à M∞ > 0.)

Si la loi de X n'a pas de variance, on peut avoir des comportements un peuplus compliqués.

Notons enn que si la martingale Mt n'est pas très utile en soi dans le casµ ≤ 1, c'est un exemple simple de martingale qui converge p.s. (vers 0 commeon l'a déjà expliqué) mais pas dans L1, puisque E(Mt) = 1. Intuitivement, laloi de Mt s'écrase vers zéro, mais avec une probabilité non nulle de prendre detrès grandes valeurs, qui "compensent".

3.10 Martingales régulières et théorème d'arrêt

On a insisté dans les sections précédentes sur le fait qu'une martingale pou-vait converger p.s. sans converger dans L1. (Les processus de branchement nousont donné un tel exemple). On va caractériser dans cette section les martingalesqui convergent selon ces deux modes.

On commence par dénir les martingales régulières :

Dénition 3.10.1. Un processsus (Xt) qui peut se mettre sous la forme

Xt = E(X|Ft)

pour une certaine ltration (Ft) et une certaine variable intégrable X, est appelémartingale régulière.

(Le fait qu'un tel processus soit eectivement une martingale associée à laltration (Ft) est facile à démontrer.)

Théorème 3.10.1. Soit (Xt) une martingale. Cette martingale converge dansL1 vers une variable X ssi c'est une martingale régulière associée à X ; i.e.Xt = E(X|Ft) où (Ft) est une ltration.

Preuve. Commençons par la réciproque. Si XnL1−−→ X∞ alors en écrivant

|Xn| ≤ |X∞|+ |Xn −X∞|

on voit immédiatement que supn E(|Xn|) <∞, donc on peut invoquer le Théo-

rème 3.8.1 qui montre que Xnp.s−−→ X∞. Or

Xn = E(Xn+k|Fn)p.s−−−−→k→∞

E(X∞|Fn)

Page 68: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

68 CHAPITRE 3. MARTINGALES

(via le TCD) or Xn ne dépendant pas de k, il y a en fait égalité :

Xn = E(X∞|Fn)

et donc (Xn) est une martingale régulière.Dans l'autre sens, supposons maintenant que Xn = E(X|Fn). On a alors

E(|Xn|) = E (|E(X|Fn)|) ≤ E (E(|X| |Fn)) = E(|X|)

donc (Xn) est bornée dans L1 et le Théorème 3.8.1 dit qu'elle converge p.svers une v.a X∞. Démontrons maintenant que la convergence a aussi lieu dansL1. Pour ceci on va démontrer que (Xn) est de Cauchy dans L1. Pour ceci, ondécompose X = X+ +X− avec X+ = X ∨ 0 et X− = (−X)∨ 0, on décomposeXn = E(X|Fn) = E(X+|Fn) − E(X−|Fn) et on va démontrer que E(X+|Fn)et E(X−|Fn) sont des suites de Cauchy. On traite le cas de E(X+|Fn), le casE(X−|Fn) est exactement similaire. On a :

‖E(X+|Fn)− E(X+|Fm)‖1 = ‖E(X+|Fn)− E(X+ ∧ a|Fn)‖1︸ ︷︷ ︸−−−→a→∞

0 (TCD)

+ ‖E(X+ ∧ a|Fn)− E(X+ ∧ a|Fm)‖1+ ‖E(X+ ∧ a|Fm)− E(X+|Fm)‖1︸ ︷︷ ︸

−−−→a→∞

0 (TCD)

.

Pour le terme ‖E(X+ ∧ a|Fn) − E(X+ ∧ a|Fm)‖1, noter que (E(X+ ∧ a|Fn))est une martingale bornée dans L1, donc elle converge p.s, et de plus c'est unemartingale bornée, donc, la convergence p.s implique la convergence dans L1.Donc cette suite est de Cauchy dans L1 et donc le terme peut être rendu aussipetit que l'on veut quand m,n sont assez grands.

La dernière étape est de démontrer que X = E(X|F∞). Pour A ∈ Fn, on aévidemment

∀k ≥ n, E(Xk1A) = E(X1A).

En faisant tendre k →∞, le TCD donne :

E(X∞1A) = E(X1A). (3.7)

On a donc la relation

∀A ∈⋃n∈NFn, E(X∞1A) = E(X1A).

Malheureusement, ceci ne montre pas que c'est vrai pour tout A ∈ F∞ =σ(⋃

n∈N Fn). On s'en sort avec le théorème de classe monotone : tout d'abord,

l'ensemble des A qui satisfait (3.7) est une classe monotone (contient Ω, stablepar union croissante et par diérence). De plus,

⋃n∈N Fn est un π-système

(stable par intersection nie) inclus dans cette classe monotone. Le théorèmede classe monotone dit alors que σ

(⋃n∈N Fn

)est aussi inclus dans la classe

monotone.

Page 69: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

3.10. MARTINGALES RÉGULIÈRES ET THÉORÈME D'ARRÊT 69

Théorème 3.10.2. Soit Xn = E(X|Fn) une martingale régulière et τ un tempsd'arrêt quelconque (à valeurs dans N ∪ ∞). Alors E(X|Fτ ) = Xτ .

En particulier, en prenant l'espérance, on obtient E(Xτ ) = E(X) = E(X0).Preuve. On a

Xτ =∑k∈N

E(X|Fk)1τ=k + E(X|F∞)1τ=∞.

En particulier E(|Xτ |) ≤ E(|X|) <∞ donc Xτ est intégrable.Pour démontrer E(X|Fτ ) = Xτ , il sut de démontrer que pour tout A ∈ Fτ ,

E(1AX) = E(1AXτ ). Or on a :

E(1AX) = E

(1A∑k∈N

X1τ=k + 1AX1τ=∞

)=∑k∈N

E(X 1A∩τ=k︸ ︷︷ ︸∈Fk

) + E(X 1A∩τ=∞︸ ︷︷ ︸∈F∞

)

=∑k∈N

E(Xk1A∩τ=k) + E(X∞1A∩τ=∞)

= E(1AXτ ).

Page 70: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

70 CHAPITRE 3. MARTINGALES

Page 71: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Chapitre 4

Processus en temps continu

Le but de cette section est d'introduire les deux processus en temps continules plus courament utilisés :

le processus de Wiener, dit mouvement brownien ; le processus de Poisson ;

sans trop rentrer dans la théorie.Comme bien expliqué dans la préface du livre de Kingman (1993), il est

plus intuitif de présenter certaines propriétés de ces processus dans un cadreplus général que le cadre temporel ; c'est à dire comme des fonctions aléatoiresτ → R, sans se restreindre à τ = R+ (espace des temps). C'est l'approche quenous suivrons.

4.1 Processus ponctuels, processus de Poisson

4.1.1 Préliminaires : loi de Poisson

On commence par rappeller la dénition d'une loi de Poisson.

Dénition 4.1.1. La la loi de Poisson de paramètre µ > 0 est la loi d'unevariable aléatoire X, à valeurs dans N, telle que :

P(X = k) =e−µµk

k!, k = 0, 1, . . . .

Il sera utile par la suite d'étendre cette dénition :

au cas µ = 0 : X = 0 p.s. ; au cas µ = +∞ : X = +∞ p.s.

La fonction génératrice d'une loi de Poisson se calcule aisément :

G(x) := E[xX]

= exp µ(x− 1) , |x| ≤ 1,

et permet d'obtenir tous ces moments par dérivation : G′(1) = E[X], G′′(1) =E [X(X − 1)], etc. Notamment :

E[X] = Var[X] = µ.

71

Page 72: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

72 CHAPITRE 4. PROCESSUS EN TEMPS CONTINU

Une propriété fondamentale des lois de Poisson est leur additivité, ou plusgénéralement leur sigma-additivité.

Proposition 4.1.1. Soient Xi ∼ Poisson(µi) des variables indépendantes, avecµi ∈ [0,∞]. Alors

∞∑i=1

Xi ∼ Poisson

( ∞∑i=1

µi

).

Démonstration. Dès qu'un des µi = +∞, le résultat devient évident. On supposetous les µi < +∞.

On montre aisément que cette propriété est vraie pour une somme nie :

n∑i=1

Xi ∼ Poisson(

n∑i=1

µi).

(Preuve par récurence, et pour n = 2, simple calcul de probabilité discrète, laisséà votre soin. Ou alors passer par la fonction génératrice.) Il sut ensuite d'in-voquer le théorème de convergence monotone pour conclure. Ce raisonnementest valable que la série

∑∞i=1 µi converge ou pas. (Exercice : vérier les détails

du raisonnement dans ces deux cas !).

4.1.2 Les processus de Poisson comme processus ponc-

tuels

On appelle processus ponctuel (point process) dans un espace E une va-riable aléatoire Π dont les réalisations sont des ensembles, au plus dénombrables,de points dans E ; la gure 4.1 représente une telle réalisation pour E = [0, 1]2.

Ces processus ponctuels sont utilisés par exemple en statistique spatiale,pour modéliser la positions de tremblements de terre, d'arbres, d'étoiles, etc.Un exemple historique est l'étude du caractère aléatoire des impacts demissiles V1 sur la ville de Londres à la n de la seconde guerre mondiale ; cf.Shaw and Shaw (2019).

Il est commode de représenter un tel processus via le processus de comp-

tage (counting process) associé. Soit l'application (aléatoire) qui à un ensembleA ⊂ E associe le nombre de points de Π qui tombe dans A :

N(A) = # Π ∩A .

Remarque 4.1.1. Techniquement, il faut donc imposer que pour des ensemblesA intéressants, la variable aléatoire N(A) soit bien dénie, i.e. l'applicationω → # Π(ω) ∩A soit bien mesurable. Les ensembles intéressants serontgénéralement les éléments d'une tribu associée à E, comme cela va apparaîtreclairement par la suite.

Les processus de Poisson sont des processus ponctuels vériant les propriétéssuivantes.

Page 73: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

4.1. PROCESSUS PONCTUELS, PROCESSUS DE POISSON 73

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Figure 4.1 Réalisation d'un processus ponctuel sur [0, 1]2 ; pour un processusde Poisson, les nombres de points qui tombent dans chacun des deux rectanglessont indépendants.

Dénition 4.1.2. Soit (E, E) un ensemble mesurable, et µ une mesure associéeà cet ensemble. On appelle processus de Poisson de mesure moyenne

µ un processus ponctuel Π tel que le processus de comptage associé, N(A) =# Π ∩A, vérie les deux propriétés suivantes :

1. Pour A1, . . . , Ak ∈ E disjoints, les variables N(Ai) sont indépendantes.

2. Pour A ∈ E, N(A) ∼ Poisson (µ(A)).

La première propriété est la plus fondamentale : un processus de Poissonmodélise une notion d' indépendance locale : la position d'un point n'a pasd'inuence sur la position des autres ; voir à nouveau la gure 4.1. Cette pro-priété est vraisemblable dans beaucoup d'applications. Il est aussi possible deconstruire des processus ponctuels répulsifs (les points se repoussent), ou attrac-tifs (les points s'agglutinent) mais ces processus sont nettement plus compliquéset ne seront pas abordés dans le cours.

Dans la dénition, la mesure µ sert bien de moyenne, dans le sens où

E[N(A)] = µ(A).

Si µ(E) < +∞ (resp. = ∞), Π est p.s. un ensemble ni (resp. inni dénom-brable).

Dans beaucoup d'applications, E ⊂ Rd, et µ est dominée par la mesurede Lebesgue : µ(dx) = λ(x)dx, où la fonction λ est dite fonction d'intensité.Quand λ est constante, on dit que le processus est homogène. Pour une mesureµ plus générale, il n'est pas forcément possible de construire un processus dePoisson de mesure moyenne µ. En particulier, si µ est atomique (i.e. µ(x) > 0pour un certain x ∈ E), l'existence d'un tel processus entraînerait la contra-diction suivante : N(x) ≤1 (par dénition), et N(x) ∼ Poisson(c) pour un

Page 74: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

74 CHAPITRE 4. PROCESSUS EN TEMPS CONTINU

certaine constante c > 0. Le théorème suivant donne des conditions susantessur µ pour l'existence d'un processus de Poisson.

Théorème 4.1.2. (Existence) Soit µ une mesure sigma-nie non-atomique sur(E, E). Alors il existe un processus de Poisson de mesure moyenne µ.

Démonstration. On commence par le cas où µ est une mesure nie, µ(E) <∞.On pose µp = µ/µ(E) ; c'est une mesure de probabilité.

On se donne un espace de probabilité (Ω,F ,P) sur lequel on peut construireles variables aléatoires suivantes : X1, X2, . . . une suite de variables IID de loiµp, et N une variable indépendante des Xi, de loi Poisson(µ(E)). On pose alors :

Π = X1, . . . , XN .

Montrons que Π est bien un processus de Poisson. Pour A1, . . . , Ak ∈ E , soitA0 le complémentaire de ∪ki=1Ai. Conditionnellement à N = n, le vecteur desN(Ai) suit une loi multinomiale :

P (N(A0) = n0, . . . , N(Ak) = nk|N = n) =n!∏ki=0 ni!

k∏i=0

µ(Ai)

µ(E)

niet donc

P (N(A0) = n0, . . . , N(Ak) = nk) =

e−µ(E)µ(E)n

n!

n!∏ki=0 ni!

k∏i=0

µ(Ai)

µ(E)

ni=

k∏i=0

e−µ(Ai)µ(Ai)ni

ni!.

Les N(Ai) sont bien indépendants et de loi Poisson (µ(Ai)).Dans le cas sigma-ni, µ =

∑∞i=1 µi, avec µi(E) <∞. Soit

Π = ∪∞i=1Πi

où Πi est un processus de Poisson de mesure moyenne µi. On invoque le théorème(admis) de superposition, qui dit que Π suit alors un processus de Poisson demesure µ.

Noter que ce théorème de superposition est à première vue un corrolairedirect de la sigma-additivité des lois de Poisson : si Ni(A) = # Πi ∩A ∼Poisson (µi(A)), alors

∞∑i=1

Ni(A) ∼ Poisson(

∞∑i=1

µi(A)).

Mais, pour que cette somme soit bien le cardinal de Π∩A, il faut s'assurer queles ensembles Πi∩A sont bien disjoints p.s. C'est vrai pour A tel que µ(A) <∞mais non trivial, voir les pages 14 à 17 de Kingman (1993).

La construction explicite ci-dessus (dans le cas µ nie) donne une nouvelleinteprétation d'un processus de Poisson : chaque réalisation est un jeu dedonnées (une collection de variables IID) dont la taille est aléatoire.

Page 75: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

4.1. PROCESSUS PONCTUELS, PROCESSUS DE POISSON 75

4.1.3 Cas E = R+

On s'intéresse désormais au cas E = R+. Il est alors possible d'ordonner lespoints de Π ; soit 0 < X1 < X2 < . . . . Ces variables sont interprétées commedes dates d'événements (par exemple de tremblements de terre). On pose

Nt := N([0, t]) =

∞∑i=1

1 Xi ≤ t .

C'est ce processus (Nt)t≥0 que l'on appelle communément processus de Poisson.Ses propriétés principales se déduisent immédiatement de sa dénition et de celledes processus de Poisson généraux.

Proposition 4.1.3. La trajectoire t → Nt est p.s. constante par morceaux,càdlàg (continue à droite, limitée à gauche) et croissante. Le processus (Nt) est àaccroissements indépendants : i.e. les variables Ns et Nt−Ns sont indépendantspour 0 ≤ s ≤ t.

Le processus(Nt) nous donne un premier exemple de processus Markovienen temps continu : pour 0 ≤ s ≤ t, Nt = Ns + (Nt−Ns), où l'accroissement estindépendant de la trajectoire sur [0, s] ; donc Nt sachant cette même trajectoirene dépend que de Ns. Nous formaliserons la notion de processus Markovien entemps continu à la n du chapitre. De la même façon, on se doute que Mt =Nt−µ([0, t]) dénit une martingale en temps continu, puisque E[Mt|Ms] = Ms.

On s'intéresse désormais au cas homogène : µ([0, t]) = λt, pour un certainλ > 0. Dans ce cas, les lois des dates Xi des événements, et des durées d'attenteentre ces événements, Yi := Xi −Xi−1 (i ≥ 2, Y1 := X1) sont particulièrementsimples.

Proposition 4.1.4. Les variables Yi sont IID (indépendantes et identitique-ment distribuées) de loi Exp(λ). Les variables Xi sont de loi Gamma(i, λ).

Démonstration. Pour X1 = Y1, on a :

P(X1 > t) = P (Nt = 0) = exp(−λt)

puisque Nt ∼ Poisson(λt). Ceci est bien la fonction de survie d'une loi exponen-tielle. Plus généralement pour Xi :

Si(t) := P(Xi > t) = P (Nt ≤ i− 1) = exp(−λt)i−1∑k=0

(λt)k

k!

et on obtient la densité de Xi en dérivant (par rapport à t) :

−S′i(t) = − exp(−λt)

i−1∑k=1

λktk−1

(k − 1)!− λ

i−1∑k=0

(λt)k

k!

=λi

(i− 1)!ti−1 exp(−λt)

Page 76: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

76 CHAPITRE 4. PROCESSUS EN TEMPS CONTINU

qui est bien la densité d'une loi Gamma(i, λ).Pour montrer que Y1 et Y2 sont IID, de loi exponentielle, on peut partir de

(pour 0 ≤ s ≤ t) :

P(X1 > s,X2 > t) = P(Ns = 0, Nt = 1)

= P(Ns = 0)P(Nt −Ns = 1)

= exp(−λt)(t− s)

puis dériver (en s et en t) pour obtenir la densité jointe de (X1, X2), et endéduire la densité jointe de (Y1, Y2). Mais c'est rapidement laborieux pour(Y1,Y2, . . . , Yk).

Le résultat devient évident si l'on admet que le processus N′

t = Nt−X1 − 1(qui compte le nombre d'événements à partir du temps X1) est indépendant deX1, et de même loi que (Nt); alors Y2 = X2−X1 a forcément la même loi queX1.Cette propriété admise est essentiellement la propriété de Markov forte en tempscontinu ; pour un preuve relativement simple (mais spécique au processus dePoisson), voir par exemple les pages 39 et 40 de Kingman (1993).

Remarque 4.1.2. Indirectement, on vient de redémontrer que la somme devariables IID de loi exponentielle suit une loi Gamma. A titre d'exercice, dé-montrer la réciproque de la Proposition 4.1.4 : un processus ponctuel déni àpartir de durées inter-événements IID, de loi exponentielle est un processus dePoisson.

Remarque 4.1.3. L'apparition de lois exponentielles n'est pas très surprenante.On rappelle qu'une loi exponentielle est dite sans mémoire, car sa fonction dehasard (la densité de Y ∼ Exp(λ) conditionnellement à Y ≥ y) est constante.En d'autre termes : la probabilité instantannée d'occurence d'un événement estconstante, ce qui est bien le comportement attendu pour un processus de Poisson.

La proposition ci-dessus est lié au paradoxe dit du temps d'attente : Pourune ligne de bus poissonienne , le temps de passage entre deux bus suit une loiExp(λ), d'espérance 1/λ. En revanche, si j'arrive à à une date arbitraire t > 0 àl'arrêt de bus, la durée entre le passage du bus précédent et le bus suivant est lasomme de deux variables exponentielles, soit une loi Gamma(2, λ) d'espérance2/λ. En d'autres termes, si un bus passe toutes les dix minutes (en moyenne),mon temps d'attente moyen est aussi de 10 minutes. Toute

4.1.4 Généralisation aux processus Markovien en temps

discret

Pour un processus de Poisson homogène d'intensité λ > 0, on a :

P(Nt+h = n+ 1|Nt = n) = λh+ o(h),

P(Nt+h = n|Nt = n) = 1− λh+ o(h),

et les autres valeurs n+ 2, . . . ont une probabilité en o(h). En d'autres termes,d'un point de vue innitésimal , (Nt) ressemble à une chaîne de Markov dont

Page 77: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

4.2. MOUVEMENT BROWNIEN 77

les seules transitions possibles sont n → n, et n → n + 1. Une généralisationnaturelle est de considérer un processus (Xt), à valeurs dans X ⊂ Z, permettantd'autres transitions : pour i, j ∈ X :

P(Xt+h = j|Xt = i) = A(i, j)h+ o(h), i 6= j,

P(Xt+h = i|Xt = i) = 1−

∑j 6=i

A(i, j)

h+ o(h).

On pose A(i, i) = −∑j 6=iA(i, j) : chaque ligne de la matrice A somme à 0.

(Comme pour P dans les chaînes de Markov, A est bien une matrice si l'espaced'état X est ni ; sinon c'est juste une application X × X → R.)

Dans le cas particulier où A(i, j) > 0 si et seulement si |i−j| ≤ 1, on parle deprocessus de vie et de mort. Le processus de Poisson est un cas particulier(processus de vie pur).

On admettra les propriétés suivantes, qui semblent intuitives, par analogieavec les propriétés correspondantes du processus de Poisson :

1. de tels processus existent.

2. Le temps passé dans un état i suit une loi exponentielle Exp(∑

j 6=iA(i, j)).

Une fois ce temps écoulé, on choisit un nouvel état j 6= i, avec probabilitéA(i, j)/

∑k 6=iA(i, k).

3. Si (Xt) admet une loi invariante, alors πA = 0.

4. La loi marginale de (Xt) est donnée par le vecteur p(t) = p(0) exp (At) .

Pour justier (informellement) la propriété 4, on peut écrire :

P(Xt+h = j) =∑i

P(Xt = i)P(Xt+h = j|Xt = i),

= P(Xt = j) 1 +A(i, i)h+∑i 6=j

P(Xt = i)A(i, j)h+ o(h),

doncP(Xt+h = j)− P(Xt = j)

h=∑i

P(Xt = i)A(i, j)

et passer à la limite h→ 0 :p′(t) = p(t)A

où p(t) est le vecteur des P(Xt = i). Cette équation justie aussi indirectementla propriété 3 : dans le régime stationnaire, p(t) = π, p′(t) = 0, donc πA = 0.

4.2 Mouvement brownien

4.2.1 Processus gaussiens

On appelle processus gaussien une variable aléatoire f à valeurs dansun espace de fonctions X → R (typiquement X = Rd) telle que, pour tout

Page 78: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

78 CHAPITRE 4. PROCESSUS EN TEMPS CONTINU

x1, . . . , xd ∈ X , d ≥ 1, le vecteur f(x1)...

f(xd)

suit une loi normale (multivariée de dimension d).

La théorie des processus gaussiens (notamment leur existence, la nature deleur support, etc) dépasse très largement le cadre de ce cours. On admettra doncque de tels processus existent, et qu'ils sont caractérisés entièrement par leursmoments d'ordre deux, dénis comme suit :

La fonction moyenne m : X → R : m(x) := E (f(x)). La fonction de covariance, C : X 2 → R, qui dénit C(x1, x2) := Cov(f(x1), f(x2)).

La fonction de covariance C est souvent appelé noyau (un terme polysémiqueen statistiques...). Cette fonction doit être choisie de manière à ce que, pourtous x1, . . . , xd, la matrice de covariance (C(xi, xj))i,j=1,...,d soit bien dénie

positive. Un notau couramment utilisé est le noyau dit Gaussien (ou squaredexponential) :

C(x1, x2) = c exp

−‖x1 − x2‖2

2`2

.

Les réalisations d'un processus avec un tel noyau sont très régulières (inni-ment dérivables). Ces processus sont beaucoup utilisés dans diérents domainedu machine learning, notamment en optimisation bayésienne et en apprentissagepar renforcement.

4.2.2 Mouvement brownien

Le mouvement brownien (ou processus de Wiener) est un processusen temps continu, noté classiquement (Wt)t≥0 ou simplement (Wt). Vu commeune fonction t→Wt, c'est un processus gaussien tel que :

W0 = 0 p.s. la fonction moyenne est nulle : E[Wt] = 0. la fonction de covariance est : C(s, t) := Cov(Ws,Wt) = σ2s ∧ t, pour

s, t ≥ 0 et un certain σ2 > 0.On déduit de la dernière propriété que ce processus est à accroissements indé-pendants. En eet, pour 0 ≤ s ≤ t :

Cov(Ws,Wt −Xs) = C(s, t)− C(s, s) = 0.

donc Xs et Xt −Xs sont non corrélés et donc indépendants (en tant que com-posantes d'un vecteur gaussien).

Comme pour le processus de Poisson, on peut utiliser cette propriété d'ac-croissements indépendants pour en déduire (informellement) que

(Wt) est Markovien : Wt = Ws + (Wt − Ws), donc Wt ne dépend de(Wu)u∈[0,s] que via Ws.

(Wt) est une martingale en temps continu : E(Wt|Ws) = Ws pour s ≤ t.

Page 79: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

4.2. MOUVEMENT BROWNIEN 79

On admet par ailleurs la propriété suivante.

Proposition 4.2.1. La trajectoire d'un mouvement brownien est p.s. une fonc-tion continue, non-dérivable.

Intuitivement :Wt+h −Wt ∼ N(0, h)

donc cette quantité tend bien vers 0 quand h→ 0 (continuité), mais à un tauxO(h1/2) trop lent pour en faire une fonction dérivable. On peut montrer plusprécisément que la trajectoire est α−Hölder pour tout α < 1/2. (Une fonctionα−Hölder f est telle que |f(x)− f(y)| ≤ C|x− y|α ; pour α = 1, f est Lipschitzet donc dérivable.)

4.2.3 Processus markovien en temps continu

On conclut ce chapitre par un aperçu de la théorie des processus Markoviens(homogènes) en temps continu.

En temps discret, une chaîne de Markov homogène est dénie via un noyauP (x, dy), qui donne la loi de Xt+1 sachant Xt. La loi de Xt+k sachant Xt estalors donnée par le noyau P k(x, dy). On a notamment :

P k+l(x, dz) =

∫y

P k(x, dy)P l(y, dz)

En temps continu, on est obligé de se donner une collection de noyaux detransition, (Ph)h≥0, qui dénit la loi de Xt+h sachant Xt. Par analogie avec letemps discret, on doit imposer la contrainte suivante :

Pg+h(x, dz) =

∫Pg(x, dy)Ph(y, dz).

Une collection de noyau de transition est appelé semi-groupe Markovien.On peut remarquer notamment que le semi-groupe markovien :

1. d'un processus de Weiner (de volatilité σ2 > 0) est tel que Ph(x, dy) estla loi N(x, σ2h) ;

2. d'un processus de Poisson (d'intensité constante λ > 0) est tel quePh(x, dy) est la loi Poisson(λh) translatée de x vers la droite.

Cependant, pour les processus à valeurs dans Z (comme le processus de Pois-son), il est plus commode de caractériser leur comportement via la notion degénérateur innitésimal, comme expliqué en Section 4.1.4.

Page 80: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

80 CHAPITRE 4. PROCESSUS EN TEMPS CONTINU

Page 81: Introduction aux processus stochastiques Notes de cours · Chapitre 3) On étudiera les martingales, c'est-à-dire la classe des processus à aleursv dans E= R véri ant la relation

Bibliographie

Baldi, P., Mazliak, L., and Priouret, P. (2002). Martingales and Markov chains.Chapman & Hall/CRC, Boca Raton, FL. Solved exercises and elements oftheory, Translated from the 1998 French original.

Brémaud, P. (1999). Markov chains, volume 31 of Texts in Applied Mathematics.Springer-Verlag, New York. Gibbs elds, Monte Carlo simulation, and queues.

Kingman, J. F. C. (1993). Poisson processes, volume 3 of Oxford Studies inProbability. The Clarendon Press, Oxford University Press, New York. OxfordScience Publications.

Lawler, G. F. (2006). Introduction to stochastic processes. Chapman &Hall/CRC, Boca Raton, FL, second edition.

Meyn, S. and Tweedie, R. L. (2009). Markov chains and stochastic stability.Cambridge University Press, Cambridge, second edition. With a prologue byPeter W. Glynn.

Shaw, L. P. and Shaw, L. F. (2019). The ying bomb and the actuary. Signi-cance, 16(5) :1217.

81