Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de...

34
Probabilités avancées Cours de Master Avancé 1, ENS Lyon Cours de Christophe Garban septembre-décembre 2014 Ces notes sont celles d’un cours de deuxième année donné à l’ENS Lyon en 2014. Elles ont été rédigées par P. UMBER (conditionnement et chaînes de Markov) et M. DUSSAULE (martingales). Les erreurs qui s’y trouvent ne sont aucunement du fait de C. Garban. D’autre part, même s’il s’agit essentiellement du cours de C. Garban, on pourra trouver des notes prises à partir d’autres cours, typiquement pour la démonstration de certains résultats que C. Garban n’a pas eu le temps de prouver. Ces autres notes proviennent principalement de [3]. D’ailleurs, selon les mots de l’enseignant, ce cours est très proche de [3]. Il en diffère cependant par les exemples et par quelques digressions. Ce cours, sobrement intitulé probabilités avancées, développe la théorie des chaînes de Markov et des martingales. Il s’agit donc plus spécifiquement d’un cours sur les processus aléatoires à temps discrets. On commencera par quelques rappels en théorie générale des probabilités, notamment sur les questions de conditionnement, qui interviendront tout au long du cours. Table des matières 1 Espérance conditionnelle 2 1.1 Préambule ............................................. 2 1.2 Espérance conditionnelle ..................................... 2 1.3 Propriétés plus spécifiques de l’espérance conditionnelle ................... 4 2 Chaînes de Markov 4 2.1 Définition et premières propriétés ................................ 4 2.2 Chaîne de Markov canonique et propriétés de Markov .................... 8 2.3 Classification des états ...................................... 11 2.4 Chaînes de Markov et mesures invariantes ........................... 14 3 Martingales 22 3.1 Martingales, sur-martingales, sous-martingales ........................ 22 3.2 Convergence(s) des martingales ................................. 25 3.3 Quelques résultats sur les temps d’arrêts ............................ 31 3.4 Martingales rétrogrades ..................................... 32 Intoduction Commençons ce cours par un exemple simple. Considérons la marche aléatoire d’un cavalier sur un échiquier, partant de la case en bas à gauche x 0 , et notons X n la variable aléatoire qui prend en compte la position du cavalier au temps n. Notons enfin T le premier temps de retour du cavalier en x o . Le but de l’excercice est de calculer l’espérance E[T ]. On peut montrer que cette espérance est finie et même calculer sa valeur : E[T ]= X n1 P(T = n)n = X npair P(T = n)n =2 1 6 + .. = 168. Nous verrons plus loin dans ce cours comment y arriver une fois les bons outils développés. L’idée est, comme en théorie ergodique, de considérer une moyenne temporelle que l’on veut réexprimer en moyenne spatiale, considérer une suite de mesures μ n et de considérer sa "limite" μ . L’objet de ce cours est plus 1

Transcript of Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de...

Page 1: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

Probabilités avancéesCours de Master Avancé 1, ENS Lyon

Cours de Christophe Garban

septembre-décembre 2014

Ces notes sont celles d’un cours de deuxième année donné à l’ENS Lyon en 2014. Elles ont été rédigéespar P. UMBER (conditionnement et chaînes de Markov) et M. DUSSAULE (martingales). Les erreursqui s’y trouvent ne sont aucunement du fait de C. Garban. D’autre part, même s’il s’agit essentiellementdu cours de C. Garban, on pourra trouver des notes prises à partir d’autres cours, typiquement pourla démonstration de certains résultats que C. Garban n’a pas eu le temps de prouver. Ces autres notesproviennent principalement de [3]. D’ailleurs, selon les mots de l’enseignant, ce cours est très proche de[3]. Il en diffère cependant par les exemples et par quelques digressions.

Ce cours, sobrement intitulé probabilités avancées, développe la théorie des chaînes de Markov et desmartingales. Il s’agit donc plus spécifiquement d’un cours sur les processus aléatoires à temps discrets.On commencera par quelques rappels en théorie générale des probabilités, notamment sur les questionsde conditionnement, qui interviendront tout au long du cours.

Table des matières1 Espérance conditionnelle 2

1.1 Préambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3 Propriétés plus spécifiques de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . 4

2 Chaînes de Markov 42.1 Définition et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Chaîne de Markov canonique et propriétés de Markov . . . . . . . . . . . . . . . . . . . . 82.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4 Chaînes de Markov et mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 Martingales 223.1 Martingales, sur-martingales, sous-martingales . . . . . . . . . . . . . . . . . . . . . . . . 223.2 Convergence(s) des martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Quelques résultats sur les temps d’arrêts . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.4 Martingales rétrogrades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

IntoductionCommençons ce cours par un exemple simple. Considérons la marche aléatoire d’un cavalier sur un

échiquier, partant de la case en bas à gauche x0, et notons Xn la variable aléatoire qui prend en comptela position du cavalier au temps n. Notons enfin T le premier temps de retour du cavalier en xo. Le butde l’excercice est de calculer l’espérance E[T ]. On peut montrer que cette espérance est finie et mêmecalculer sa valeur :

E[T ] =∑n≥1

P(T = n)n =∑npair

P(T = n)n = 21

6+ .. = 168.

Nous verrons plus loin dans ce cours comment y arriver une fois les bons outils développés. L’idée est,comme en théorie ergodique, de considérer une moyenne temporelle que l’on veut réexprimer en moyennespatiale, considérer une suite de mesures µn et de considérer sa "limite" µ∞. L’objet de ce cours est plus

1

Page 2: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

1 ESPÉRANCE CONDITIONNELLE 2

généralement l’étude de processus aléatoires, indéxés sur un ensemble dénombrable à valeur dans unespace mesurable (E, E).

Exemple. On a quelques exmples issus de la vie courante, comme le CAC (mais impossible à modéliser),le relevé d’un sismographe, le casino, qui peut être modélisé via une sur-martingale (que nous verronsdans la troisième partie de ce cours), le relevé d’une bouteille à la mer, les pages web internet, ou encorele mélange d’un jeu de cartes.

Exemple. On a aussi des exemples plus mathématiques, comme l’étude d’une suite de varaiables aléa-toires indépendantes, à veleur dans R et considérer la suite des sommes partielles, une marche aléatoiredans un graphe, dans un groupe, ou encore l’étude du processus de branchement de type Galton-Watson.

1 Espérance conditionnelle

1.1 PréambuleDéfinition 1.1.1. Soit (E, E) un espace mesurable. Une filtration de (E, E) est une suite croissante(Fn) de sous-tribus de E . L’espace (E, E , (Fn)) est appelé espace mesurable filtré et si P est uneprobabilité sur Ω, on dit que (Ω, E , (Fn),P) est une espace de probabilité filtré.

Exemple. On considère l’espace mesurable (E, E) = ([0, 1],B([0, 1])) que l’on muni de la filtrationdyadique donnée par F0 = ∅, [0, 1], F1 = ∅, [0, 1

2 ], [ 12 , 1], [0, 1] ...

1.2 Espérance conditionnelleOn fixe (Ω,F ,P) un espace de probabilité.

Théorème 1.2.1. Soient X une variable aléatoire dans L1(Ω,F ,P) et G une sous-tribu de F . Alors ilexiste une uique variable aléatoire Z dans L0(Ω,G,P), telle que Z est dans L1(Ω,G,P) et :

∀B ∈ G,E[X1B ] = E[Z1B ].

Z est appelée espérance conditionnelle de X sachant G et on la note E[X|G].

Remarque. De manière équivalente, E[X|G] est l’unique variable aléatoire dans L1(Ω,G,P) telle que, pourtout Y variable aléatoire G-mesurable bornée, E[XY ] = E[E[X|G]Y ].

Cette propriété est appelée propriété caractéristique de l’espérance conditionnelle. On noteraque l’espérance conditionnelle est une variable aléatoire, et que si X est déjà G-mesurable, alors on a larelation E[X|G] = X.

Définition 1.2.1. Avec les mêmes notations, si (Yi) est une famille de variables alétoires, on poseE[X|(Yi)] := E[X|σ((Yi))] .

On peut interpréter E[X|Y ] de la manière suivante : Si ω est un point de Ω, choisi au hasard, dontla seule information que l’on dispose est la valeur Y (ω), alors E[X|Y ](ω) est la valeur moyenne de X enprenant compte de l’information Y (ω) , comme déterminer la température moyenne d’un lieu en prenantcompte de son altitude.

Définition 1.2.2. Soit A ∈ F , on pose P(A|G) := E[1A|G] que l’on appelle probabilité conditionnellede A sachant G.

Exemple. Si Ω est la population Française et G est la tribu engendrée par l’ensemble B1 des personnesqui vivent en Île de France et B2 l’ensemble de celles qui vivent dans le Rhône, en notant T le tempsmoyen de transport par jour, alors E[T |G] = 1B12h+ 1B21h+ 1Ω−B1∪B215min.

Exemple. Si f est une fonction L1 sur ]0, 1], Gn est la filtration dyadique, et si l’on pose In,i :=] 1−i2n ,

i2n ],

alors E[f |Gn] =2n∑i=1

2n∫In,i

f 1In,i . Cela approxime la fonction f par des rectangles.

Pour pouvoir démontrer ce théorème, nous allons dans un premier temps démontrer une version L2

du théorème de l’espérance conditionnelle.

Page 3: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

1 ESPÉRANCE CONDITIONNELLE 3

Théorème 1.2.2. Soient X une variable aléatoire dans L2(Ω,F ,P) et G une sous-tribu de F . Alors ilexiste une unique variable aléatoire Z dans L2(Ω,G,P) et qui vérifie

∀Y ∈ L2(Ω,G,P),E[XY ] = E[ZY ].

On notera encore E[X|G] la variable Z. Si de plus X est positive, alors Z l’est aussi.

Démonstration. Commençons par montrer l’unicité. Si Z et Z ′ sont deux variables qui vérifient le théo-rème, alors, on pose B := Z > Z ′ ∈ G. On a E[X1B ] = E[Z1B ] = E[Z ′1B ] donc E[(Z−Z ′)1Z>Z′ ] = 0.Ainsi on a Z ≤ Z ′ presque sûrement. De même, Z ′ ≤ Z, donc Z = Z ′ presque sûrement. Pour l’exis-tence, on sait que L2 est un espace d’Hilbert, et L2(Ω,G,P) est un sous-espace fermé de L2(Ω,F ,P) carcomplet. Ainsi, on a la décomposition L2(Ω,F ,P) = L2(Ω,G,P)⊕L2(Ω,G,P)⊥. On note π la projectionorthogonale sur L2(Ω,G,P), et l’on pose Z := π(X). Soit Y ∈ L2(Ω,G,P), on a alors :

E[XY ] = 〈X,Y 〉= 〈π(X) + (X − π(X)), Y 〉= 〈π(X), Y 〉= E[ZY ]

Ceci montre l’existence. Démontrons la dernière proposition : Si P(E[Z|G] < 0) > 0, alors il existeε > 0 tel que P(E[Z|G] < −ε) > 0. On pose alors B := E[Z|G] < −ε qui est un élément de G. Alors0 < E[E[Z|G]1B ] = E[Z1B ] ≥ 0 ce qui est absurde, d’où le résultat.

On peut noter deux conséquences de ce théorème :— Si X ∈ L2(Ω,G,P), alors on a E[X|G] = X.— Si G1 ⊂ G2 sont deux sous-tribus de F , alors E[E[X|G2]|G1] = E[X|G1].Passons à présent à la preuve de la première version du théorème :

Démonstration. On prouve de la même manière que dans le cas L2 l’unicité de l’espérance conditionnelle.Intéressons-nous à l’existence : On suppose donc X ∈ L1(Ω,F ,P). Supposons de plus que X ≥ 0. Onpose Xn := X1X≤n. La suite (Xn) est croissante et chaque Xn est dans L2 car bornée et positive,donc E[Xn|G] est positive. On pose alors E[X|G] := lim

nE[Xn|G]. La variable E[X|G] est bien dans L1 car

(E[E[Xn|G]]) converge vers E[E[X|G]] par théorème de convergence monotone et E[E[Xn|G]] = E[Xn],avec (E[Xn]) qui converge vers E[X] par théorème de convergence monotone. De plus, Si B ∈ G , onpose Y := 1B , alors la suite (XnY ) est croissante et converge vers XY . De même, la suite (E[Xn|G]Y )est croissante et converge vers E[X|G]Y , on conclu donc en passant par l’espérance et en utilisant lethéorème de convergence monotone. Dans le cas général, lorsque X est non positif, on décompose X ensa partie positive et négative et on conclu par linéarité.

Proposition 1.2.3. L’espérance conditionnelle vérifie les propriété suivantes :— L’espérance conditionnelle est positive— L’espérance conditionnelle est linéaire— E[E[X|G]] = E[X]— |E[X|G]| ≤ E[|X||G]— Convergence monotone conditionnelle : Si (Xn) est une suite croissante de variables aléatoires

positives qui converge vers X, alors (E[Xn|G]) converge vers E[X|G].— Fatou conditionnelle : Si (Xn) est une suite de variables aléatoires positives, alors on a l’inégalité

E[lim inf Xn|G] ≤ lim inf E[Xn|G].— Jensen conditionnelle : Si φ est une fonction convexe positive, alors E[φ(X)|G] ≥ φ(E[X|G]).

Démonstration. Démontrons le quatrième point. On a :

|E[X|G]| = |E[X+|G]− E[X−|G]|≤ E[X+|G] + E[X−|G]

= E[|X||G].

Page 4: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 4

Démontrons le dernier point. On pose Eφ := (a, b) ∈ R2,∀x ∈ R, φ(x) ≥ ax+ b. Alors :

E[φ(X)|G] = E[ sup(a,b)∈Eφ∩Q

aX + b|G]

≥ sup(a,b)∈Eφ∩Q

E[aX + b|G]

= sup(a,b)∈Eφ∩Q

aE[X|G] + b

= φ(E[X|G]).

On considère la borne supérieure sur un ensemble dénombrable pour pouvoir sortir le sup de l’espé-rance conditionnelle.

1.3 Propriétés plus spécifiques de l’espérance conditionnelleProposition 1.3.1. — Soient X et Y deux variables aléatoires réelles telles que X et XY sont dans

L1 et Y est G-mesurable. Alors on a la propriété de factorisation suivante : E[XY |G] = Y E[X|G].— Si G1 ⊂ G2 sont deux sous-tribus de F , alors E[E[X|G2]|G1] = E[X|G1].

Démonstration. Pour le premier point, on peut supposer X et Y positive, et soit Z une variable aléatoirepositive G-mesurable. On a E[(E[X|G]Y )Z] = E[(E[X|G])Y Z] = E[XY Z] = E[E[XY |G]Z]. On a donc lerésultat. Le deuxième point se traite de manière analogue.

Proposition 1.3.2. Soit G1 et G2 deux sous-tribus de F . Alors : G1 et G2 sont indépendantes si etseulement si pour tout X variable aléatoire positive G1-mesurable, on a E[X|G2] = E[X].

Démonstration. On suppose G1 et G2 indépendantes. Soient B ∈ G1, A ∈ G2. On a

E[1B1A] = E[1A∩B ] = E[1A]E[1B ] = E[E[1A]1B ],

donc E[1B |G2] = E[1B ], puis l’égalité est encore vraie pour toute variable aléatoire positive.Réciproquement, si pour tout X variable aléatoire positive G1-mesurable, on a E[X|G2] = E[X],

considérons B ∈ G2, A ∈ G1. Par hyposthèse, on a P(A) = E[1A|G2], donc

P(A ∩B) = E[1A1B ] = E[E[1A|G2]1B ] = P(A)P(B).

Corollaire 1.3.3. Si X et Y sont deux variables aléatoires positives ou dans L1 alors X et Y sontindépendantes si et seulement si, pour toute fonction numérique h positive, on a E[h(X)|Y ] = E[h(X)].Ainsi, si X et Y sont indépendantes, avec X positive ou dans L1, alors E[X|Y ] = E[X]. Cette dernièreproposition n’est cependant pas une équivalence.

Notons pour terminer une expression de l’espérance conditionnelle dans le cas où Y est une variablealéatoire à valeur dans un ensemble E dénombrable et X une variable aléatoire dans L1. Alors on aE[X|Y ] = φ(Y ) où φ est une fonction de E dans R telle que, pour y ∈ E, φ(y) = 1

P(Y=y)E[X1Y=y] siP(Y = y) > 0 et prend une valeur quelconque sinon, E[X|Y ] étant de toute façon définie à un ensemblede mesure nulle près.

2 Chaînes de MarkovDans tout ce chapitre, E sera un ensemble fini ou dénombrable, dit espace d’états.

2.1 Définition et premières propriétésDéfinition 2.1.1. Une matrice de transition ou matrice stochastique est une matrice Q indexéesur E telle que : ∀x, y ∈ E,Q(x, y) ∈ [0, 1] et ∀x ∈ E,

∑y∈E

Q(x, y) = 1.

Page 5: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 5

Définition 2.1.2. Soient Q une matrice de transition et (Xn) un processus aléatoire. La suite (Xn) estune chaîne de Markov de matrice de transition Q si pour tout n et pour tous x0, .., xn ∈ E, siP(X0 = x0, .., Xn = xn) > 0, alors

∀y ∈ E,P(Xn+1 = y|X0 = x0, .., Xn = xn) = Q(xn, y).

Cette propriété est dite propriété de Markov. On parle aussi d’absence de mémoire. On montrefacilement que cette propriété est équivalente à la suivante :

pour tout n et pour tous x0, .., xn ∈ E,

P(X0 = x0, .., Xn = xn) = P(X0 = x0)Q(x0, x1)..Q(xn−1, xn).

Avec la seconde forme de la propriété de Markov, on voit qu’une chaîne de Markov de matrice detransition Q est entièrement déterminée par sa condition initiale, c’est-à-dire la donnée des P(X0 = x0).

Définition 2.1.3. Soit (Xn) une chaîne de Markov. On définit la loi initiale de la chaîne de Markovpar µ0 : x0 7−→ P(X0 = x0). Le couple (Q,µ0) est appelé mécanisme de transition. On pose aussiµn := PXn .

Exemple. Soit (Xn) une chaîne de Markov de matrice de transition Q. Si p ≥ 1 est un entier et si l’onpose Yn := Xnp, alors (Yn) définie une chaîne de Markov de matrice de transition Qp.

Remarque. On verra plus tard une manière canonique de construire une chaîne de Markov en se donnantun mécanisme de transition.

On considère à présent (Xn) une chaîne de Markov de matrice de transition Q sur l’espace E.

Proposition 2.1.1. — µn = µ0Qn

— Pour toute fonction positive bornée de E dans R, on a µn(f) = Eµ0[f(Xn)] = µ0Q

nf .

Remarque. On a utilisé dans la dernière proposition la notation naturelle matricielle où les mesures sontdes vecteurs lignes et les fonctions sont des vecteurs colonnes.

Démonstration. Démontrons par exemple la première proposition : soit y ∈ E. On a

µn(y) =∑x0∈E

P(X0 = x0, Xn = y)

=∑

x0,...,xn∈Exn=y

P(X0 = x0, .., Xn = xn = y)

=∑

x0,...,xn∈Exn=y

µ0(xo)Q(x0, x1)..Q(xn−1, y)

= µ0Qn(y).

Exemple. Considérons la chaîne de Markov à deux états a et b de matrice de transition définie par

Q =

Åε 1− ε

1− ε ε

ã, avec ε ∈]0, 1[. On pose µ0 := δa. On a alors µ1 = εδa + (1 − ε)δb. En itérant,

on peut montrer que (µn) converge en loi vers 12µa + 1

2µb. On remarque que pour ε = 0 il n’y a pasconvergence de la mesure.

Définition 2.1.4. Soit µ une mesure positive non nulle sur E, finie en chaque point. La mesure µ estdite invariante pour Q si µQ = µ.

Proposition 2.1.2. Soit (Q,µ0) un mécanisme de transition. On suppose qu’il existe une mesure deprobabilité π telle que la suite (µn) converge en loi vers π, alors π est une mesure invariante pour Q.

Démonstration. Soit f une fonction réelle bornée définie sur E, alors comme la suite (µn) converge en loivers π, µn(f) converge vers π(f). Par ailleurs, µn(f) = µ0Q

nf et µn+1(f) = µ0QnQf et Qf est bornée

car Q est une matrice stochastique, donc π(f) = π(Qf), donc π = πQ.

Remarque. Il se peut que Q admette une mesure invariante mais que le système ne converge pas verscette mesure.

Page 6: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 6

Exemple. — Si (Xn) est une suite de variables aléatoires indépendantes identiquement distribuéesde loi µ, alors (Xn) est une chaîne de Markov de matrice de transition définie par Q(x, y) = µ(y).

— Si G est un graphe connexe localement fini (non orienté), la marche aléatoire associée à G estdonnée par la matrice de transition

Q(x, y) =1

deg(x)1x∼y

où deg(x) est le nombre d’arrêtes qui partent de x et 1x∼y le lieu caractéristique des sommetsadjacents à x. Si le graphe est fini, on pose

µ(x) :=deg(x)∑

y∈Gdeg(y)

,

alors, on vérifie que µ est une mesure Q-invariante.— Soit G est un groupe de type fini, engendré par g1, ..gn. Si Γ est le graphe de Cayley associé à ce

système de générateurs, c’est-à-dire le graphe dont les sommets sont les points de G et les arrêtessont de la forme (g, sg) où g est dans le groupe et s est l’un des gi, alors la marche aléatoire surG associée à ce système de générateurs est la marche aléatoire sur le graphe Γ.

— On considère le processus de branchement de type Galton-Watson donné par

Zn+1 =

Zn∑i=1

ξn+1,i,

où les ξn,i sont des variables aléatoires indépendantes identiquement distribuées de loi µ sur E,avec ici E = N. Alors (Zn) est une chaîne de Markov sur N de matrice de transition

Q(x, y) = P(Zn+1 = y|Zn = x) = µ∗x(y) =∑

a1+..+ax=y

µ(a1)...µ(ax).

— On pose E = (N∗)2 et on considère la matrice de transition (Q((a, b), (a′, b′))) donnée par

Q((a, b), (a+ 1, b)) :=a

a+ b, Q((a, b), (a, b+ 1)) :=

b

a+ b.

On a ainsi défini le modèle de l’urne de Polya. On considère une urne remplie de boules de deuxcouleurs. À chaque étape, on prend une boule dans l’urne, que l’on remet et on ajoute une boulede la même couleur dans l’urne.

— On fixe N un entier non nul, on pose E = 0, .., N. On pose alors

Q(n, n+ 1) :=N − nN

, n < N

etQ(n, n− 1) :=

n

N, n > 0.

On parle ici d’urne de Ehrenfest. Si

µ(n) := 2−NÇN

n

å, alors µ est une mesure invariante.

Définition 2.1.5. Q est dite irréductible si

∀x, y ∈ E,∃k ≥ 1, Qk(x, y) > 0.

Exemple. Si E est l’ensemble des cases d’un échiquier, le mouvement d’un cavalier et d’une tour estirréductible mais celui du fou ne l’est pas.

Proposition 2.1.3. On suppose que Q est irréductible. Soit π une mesure Q-invariante. Alors π nes’annule pas.

Page 7: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 7

Démonstration. Comme π est non nulle par définition, considérons x ∈ E tel que π(x) > 0. Alors siy ∈ E, comme Q est irréductible, on peut considérer k tel que Qk(x, y) > 0. On a alors

π(y) =∑z∈E

π(z)Qk(z, y) ≥ π(x)Qk(x, y) > 0.

Définition 2.1.6. Soit x ∈ E, on pose Γ(x) := n ≥ 1, Qn(x, x) > 0.On pose aussi d(x) := pgcdΓ(x), avec la convention Γ(∅) = ∞. On dit que d(x) est la période

de x .

Proposition 2.1.4. On suppose que Q est irréductible. Alors ∃d ≥ 1,∀x ∈ E, d(x) = d. L’entier d estla période de la chaîne de Markov. Si d = 1, on dit que la chaîne de Markov est apériodique.

Démonstration. Soient x, y ∈ E. La chaîne étant irréductible, on peut choisir k, l tels que Qk(x, y) > 0et Ql(y, x) > 0. Alors m := k + l ∈ Γ(x) ∩ Γ(y), car on a les inégalités Qm(x, x) ≥ Qk(x, y)Ql(y, x) > 0et Qm(y, y) ≥ Ql(y, x)Qk(x, y) > 0. Ainsi, d(x)|m et d(y)|m. Par aileurs, si n ∈ Γ(x), alors

Qn+m(y, y) ≥ Ql(y, x)Qn(x, x)Qk(x, y) > 0,

donc n+m ∈ Γ(y). Ainsi, Γ(x) +m ⊂ Γ(y), donc Γ(x) ⊂ Γ(y)−m donc d(y)|d(x). De même, d(x)|d(y)donc d(x) = d(y).

On va s’intéresser à la convergence vers une mesure invariante dans la cas où E est fini.

Proposition 2.1.5. On suppose que E est fini. Alors Q admet une mesure invariante.

Démonstration. D’un point de vue matriciel, trouver une mesure invariante pour Q revient à trouver unvecteur propre à gauche de Q de valeur propre 1. On remarque que le vecteur colonne de taille n (oùn est le cardinal de E) qui n’a que des 1 est un vecteur propre à droite de Q car Q est une matricestochastique. Comme le spectre de Q est le même que Qt, on en déduit que Q admet un vecteur propreà gauche de valeur propre 1. Par ailleurs, on cherche un vecteur propre à coefficient positif de sommeégale à 1 pour avoir une mesure Q-invariante.

On pose ∆n−1 := x ∈ Rn, xi ≥ 0 etn∑i=1

xi = 1, qui est compact convexe non vide, et l’on définit la

fonction Φ : x ∈ ∆n−1 7→ xQ ∈ ∆n−1, alors Φ est continue, donc admet un point fixe dans ∆n−1 d’aprèsle théorème de point fixe de Brouwer, d’où le résultat.

Donnons une seconde preuve plus ergodique du résultat. Soit µ0 une mesure de probabilité sur E.

On pose µn := µ0Qn et πn :=

1

n

n∑i=0

µi. Comme ∆n−1 est compact, il existe une extractrice φ telle que

πφ(n) converge vers une mesure de probabilité π. Par ailleurs, πφ(n) = πφ(n) + 1φ(n)+1 (µφ(n)+1−µ0) donc,

par continuité de Φ, on a πQ = π.

Proposition 2.1.6. On suppose E fini. Alors le rayon spectral de Q est égal à 1.

Démonstration. On pose ‖x‖ := maxi|xi|. La norme subordonnée associée à cette norme sur les matrices

de taille n est‖M‖ = max

i

∑j

|Qi,j |.

Ainsi, comme Q est une matrice stochastique, on a ‖Qn‖ 1n = 1. Comme les normes subordonées sont des

normes d’algèbres, par le théorème du rayon spectral de Gelfand, on a ρ(Q) = 1.

On peut aussi utiliser le théorème de Perron Frobenius, qui sera admis ici, et qui donne un résultatplus précis :

Théorème 2.1.7. Soit A une matrice de taille n à coefficients positifs et irréductible. Alors il existeune valeur propre λ de A telle que λ = ρ(A). λ est dit valeur propre de Perron. De plus, λ est unevaleur propre simple, et admet un vecteur propre π > 0, et tout autre vecteur propre π′ > 0 de A estproportionnel à π. Si A est de période d, les seules valeurs propres µ de module égal à λ sont les e

2iπd λ

et elles sont toutes simples.

Page 8: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 8

On peut donc conclure que, si E est fini et si Q est irréductible, alors la chaîne de Markov admetune unique mesure invariante. On verra plus tard dans un cas plus général l’unicité de cette mesureinvariante. On a aussi une vitesse de convergence pour le cas apériodique :

Proposition 2.1.8. On suppose que E est fini et Q est irréductible apériodique.On pose α := sup|λ|, λ 6= 1, λ ∈ Sp(Q). Alors :— α < 1— ∀µ0,∀β > α,∀p ∈ [1; +∞],∃C, ‖µn − π‖p ≤ Cβn pour n assez grand, où π est l’unique mesure

invariante. Ainsi, on peut dire qu’il y a convergence exponentielle.

Démonstration. Le premier point est une conséquence du théorème de Perron-Frobenius. Pour le secondpoint, on note v le vecteur de Rn dont les coefficients sont tous 1. Comme les coefficients de π sonttous strictement positifs, π n’est pas dans v⊥, donc Rn = V ect(π)

⊕v⊥. On remarque que v⊥ est un

sous-espace stable à gauche de Q. En effet, si x ∈ v⊥, on a (xQ)v = x(Qv) = x · v = 0. Donc v⊥ est unsous-espace stable à droite de Qt, et comme Rn = V ect(π)

⊕v⊥, Q est équivalente à la matriceÅ

1 00 B

ã,

où B est une matrice carré de taille n− 1. Par le théorème de Perron Frobenius, le rayon spectral de Best α < 1.

À présent, on écrit µ0 = λπ + x avec x ∈ v⊥. On a µ0v = 1 = λπv = λ donc µ0 = π + x. Comme πest invariante, on a µn = π + xQn = π + x(Bt)n. Par ailleurs, par le théorème de Gelfand, on a

α = ρ(B) = ρ(Bt) = limn‖(Bt)n‖

1np ,

donc ‖µn − π‖p ≤ ‖x‖p‖(Bt)n‖p ≤ ‖x‖pβn pour n assez grand. Ainsi, C := ‖x‖p convient.

2.2 Chaîne de Markov canonique et propriétés de MarkovOn s’intéresse à présent au cas général où E est infini. Soit donc (Q,µ0) un mécanisme de transition

sur E.

Exemple. Il n’existe pas toujours de mesure invariante non nulle, comme par exemple dans le cas oùE = N et, pour n ≥ 0, Q(n, n+ 1) = 1.

Pour étudier ce cas général, on commence par construire un processus dit canonique qui réalise la loide la chaîne de Markov induite par (Q,µ0).

Théorème 2.2.1. On peut définir un processus aléatoire (Xn) sur un espace (Ω′,P′) qui réalise la loide la chaîne de Markov induite par (Q,µ0).

Démonstration. On pose Ω := [0, 1[ muni de la mesure de Lebesgue. Dans un premier temps, montronsqu’il existe une suite de variables aléatoires indépendantes identiquement distribuées de loi U([0, 1]). Soitω ∈ [0, 1[, alors on peut écrire

ω =∑n≥0

εn(ω)2−n−1,

où εn vaut 0 ou 1. Ainsi, on a la donné d’une suite (εn) de variables aléatoires indépendantes identiquementdistribuées telle que P(εn = 1) = P(εn = 0) = 1

2 . Soit φ : N×N→ N une bijection. On pose ηi,j := εφ(i,j)

etUi :=

∑j≥n

ηi,j2−j−1.

Alors (Ui) est une suite de variables aléatoires indépendantes identiquement distribuées de loi U([0, 1]).

En effet, si p ∈ N∗,p∑j=0

ηi,j2−j−1 a la même loi que

p∑j=0

εn2−j−1.

On note E = yii∈N∗ . Soit X ′0 la variable aléatoire à valeur dans E telle que PX′0 = µ0.On pose alors

X ′n+1 := yk sik−1∑j=1

Q(X ′n, yj) < Un+1 ≤k∑j=1

Q(X ′n, yj).

Page 9: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 9

On a alors :

P′(X ′n+1 = yk|X ′0 = x0, .., X′n = xn) = P′(

k−1∑j=1

Q(xn, yj) < Un+1 ≤k∑j=1

Q(xn, yj)|X ′0 = x0, .., X′n = xn)

= P′(k−1∑j=1

Q(xn, yj) < Un+1 ≤k∑j=1

Q(xn, yj)).

La dernière égalité a lieu car la famille (Ui) est indépendante.Ainsi, P′(X ′n+1 = yk|X ′0 = x0, .., X

′n = xn) = Q(xn, yk) car Un+1 est la loi uniforme sur [0, 1[ et que

k∑j=1

Q(xn, yj)−k−1∑j=1

Q(xn, yj) < Un+1 = Q(xn, yk).

On a donc le résultat.

Voyons à présent une seconde construction, dîte canonique. On pose Ω := EN et F := P(E)⊗N. Onnote Xn : Ω −→ E la n-ème projection canonique (on parle de processus des coordonnées). Onrappelle que F = σ(Xn|n ∈ N).

Théorème 2.2.2. Il existe une unique mesure de probabilité Pµ0 sur Ω telle que, sous Pµ0 , le processusdes coordonnées est une chaîne de Markov induite par (Q,µ0).

Démonstration. On reprend les notations de la première construction. On pose Φ : (Ω′,F ′,P′) −→ (Ω,F)définie par ω′ 7→ (X ′n(ω′))n∈N et l’on défini Pµ0

comme la mesure poussée en avant par Φ. CommeXn Φ = X ′n est mesurable, Φ est mesurable (conséquence de la tribu produit sur Ω). On a :

Pµ0(X0 = x0, .., Xn = xn) = P′(X ′0 = x0, .., X

′n = xn)

= P′(X ′0 = x0)Q(x0, x1)..Q(xn−1, xn)

= µ0(x0)Q(x0, x1)..Q(xn−1, xn),

ce qui montre l’existence. L’unicité est laissé en exercice.

Soit x ∈ E. Lorsque µ0 = δx, on note Px la mesure donnée par la construction qui précède. Si A estun évènement de Ω, alors Px(A) peut s’interpréter comme la probabilité que l’évènement A se réalise enpartant de l’état x. On remarque alors que :

— si y ∈ E, on a Px(Xn = y) = Qn(x, y)

— si µ est une mesure de probabilité sur E, on a Pµ =∑x∈E

µ(x)Px.

A présent, essayons de dégager les avantages de la chaîne de Markov canonique.

Définition 2.2.1. Soit k ∈ N. On pose θk : Ω −→ Ω défini par (ωi) 7→ (ωi+k) : opérateur detranslation ou shift.

Proposition 2.2.3. L’opérateur θk est mesurable.

Définition 2.2.2. On pose Fn := σ(X0, .., Xn). On dit que (Fn) est la filtration canonique sur Ω.

Définition 2.2.3. Soit G une application mesurable définie sur Ω à valeur dans [0,+∞] ou à valeurdans R et intégrable. On note Eµ[G] l’espérance de G calculée avec la probabilité Pµ, et l’on adopte lamême notation lorsqu’il s’agit d’une espérance conditionnelle. Plus généralement, on peut définir sur Ela fonction ϕG : x 7→ Ex[G]. On pose alors EXn [G] := ϕG(Xn), qui est une variable aléatoire à valeurdans [0,+∞] ou réelle, et qui s’interprète comme étant l’espérance de G en partant de l’état Xn.

Proposition 2.2.4. Propriété de Markov simple : Soit G application mesurable définie sur Ω à valeurdans [0,+∞] ou à valeur dans R et intégrable. Alors Eµ0 [G θn|Fn] = EXn [G]. Autrement dit, la loiconditionnelle de θn sachant Fn est la chaîne de Markov partant de Xn.

Page 10: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 10

Démonstration. Soit F : Ω −→ R une application Fn-mesurable, intégrable.On va montrer que Eµ0

[FG θn] = Eµ0[FEXn [G]].

Pour cela, on va regarder le cas où

F = 1X0=x0,..,Xn=xn

(F étant Fn-mesurable), etG = 1X0=y0,..,Xk=yk

où k ≥ 0 et x0, .., xn, y0, .., yk ∈ E ; on pourra alors conclure par linéarité et par argument de covergencemonotone. On peut aussi supposer, par linéarité, que µ0 = δx pour un certain x ∈ E.

D’une part, si y ∈ E, on a Ey[G = Py(X0 = x0, .., Xk = yk) = δy,y0Q(y0, y1)..Q(yk−1, yk).D’autre part, on a :

Eµ0[FG θn] = Pµ0

(X0 = x0, .., Xn = xn, Xn = y0, .., Xn+k = yk)

= δx,x0Q(x0, x1)..Q(xn−1, xn)δxn,y0Q(y0, y1)..Q(yk−1, yk)

= δx,x0Q(x0, x1)..Q(xn−1, xn)Exn [G]

= Eµ0[F ]Exn [G]

= Eµ0[FExn [G]].

On a ainsi le résultat.

On veut à présent généraliser cette propriété de Markov, non pas au temps n, mais à un tempsaléatoire.

Définition 2.2.4. Soit T : Ω −→ N (où N = N ∪ ∞). On dit que T est un temps d’arrêt associéà la filtration (Fn)n∈N si : ∀n ∈ N, T = n ∈ Fn.

On remarque que l’on peut changer l’évènement T = n de la définition par T ≤ n. De plus,l’évènement T = ∞ n’est pas à négliger. On peut écrire T = ∞ = (

⋃n∈NT = n)c. On peut aussi

remarquer que T ≥ n+ 1 ∈ Fn.

Exemple. — L’application constante T = k est une temps d’arrêt, pour k ∈ N.— Si A ⊂ E et N0 ∈ N, on pose TA := infn ≥ N0, Xn ∈ A, alors TA est un temps d’arrêt.— Si S et T sont des temps d’arrêt, alors T + S, T ∧ S et T ∨ S sont des temps d’arrêt.— Si (Tk) est une suite de temps d’arrêt, alors inf Tk, supTk, lim inf Tk et lim supTk sont des temps

d’arrêt.

Définition 2.2.5. Soit T un temps d’arrêt. On appelle tribu du passé jusqu’à l’instant T la tribu

FT := A ∈ F ,∀n ∈ N, A ∩ T = n ∈ Fn.

Proposition 2.2.5. Soit T un temps d’arrêt. Alors FT est une sous-tribu de F et FT = Fn si T = n.De plus, T =∞ ∈ FT .

Démonstration. La démonstration est laissée en exercice.

Proposition 2.2.6. Soit T et S deux temps d’arrêt. On suppose que S ≤ T . Alors FS est une sous-tribude FT .

Démonstration. Soit A ∈ FS et n ∈ N. On a A ∩ T = n =n⋃k=0

(A ∩ S = k) ∩ T = n ∈ Fn.

Théorème 2.2.7. Propriété de Markov forte : Soit T un temps d’arrêt et G une variable aléatoire réelleou positive, intégrable, définie sur Ω. Alors Eµ0

[1T<∞G θT |FT ] = 1T<∞EXT [G]

Démonstration. On remarque que XT est une application définie sur l’ensemble FT -mesurable T <∞.Ainsi, l’expression 1T<∞EXT [G] a bien un sens.

Soit F : Ω −→ R une application FT -mesurable intégrable.On veut montrer que Eµ0

[F1T<∞G θT ] = Eµ0[F1T<∞EXT [G]]. On a :

Page 11: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 11

Eµ0 [F1T<∞G θT ] =∑n

Eµ0 [F1T=nG θT ]

=∑n

Eµ0[F1T=nG θn] avec F1T=n ∈ Fn

=∑n

Eµ0[F1T=nEXn [G]] d’après la propriété de Markov faible

= Eµ0[F1T<∞EXT [G]]

2.3 Classification des étatsOn conserve les notations du paragraphe précédent. Le but de ce paragraphe est de classifier les états

d’une chaîne de Markov.

Définition 2.3.1. Soit x ∈ E. On pose

Nx :=∑n≥0

1Xn=x.

On dit que x est récurrent si Nx = ∞ presque sûrement pour Px. Si x n’est pas récurrent, on dit quex est transient ou transitoire.

Définition 2.3.2. On pose G : E×E −→ R+ définie par (x, y) 7→ Ex[Ny]. C’est lamatrice potentielleou fonction de x. Cette fonction compte le nombre de passage en y en partant de l’état x.

Proposition 2.3.1. Soit x, y ∈ E. Alors G(x, y) =∑n≥0

Qn(x, y).

Démonstration. On a

G(x, y) = Ex[Ny]

= Ex[∑n≥0

1Xn=x]

=∑n≥0

Px[Xn = y]

=∑n≥0

Qn(x, y).

Définition 2.3.3. Soit x ∈ E. On pose Tx,0 := 0 et pour k ≥ 1, Tx,k = Tx := infn > Tx,k−1, Xn = x,dit k-ème temps de retour en x. On note Tx,1 = Tx.

Proposition 2.3.2. — Les Tx,k sont des temps d’arrêt— On a FTx,0 ⊂ FTx,1 ⊂ .. ⊂ FTx,k ⊂ ..

Démonstration. Montrons, par exemple, que Tx est un temps d’arrêt. Soit n ≥ 0. On a

Tx = n = X1 = nc ∩ .. ∩ Xn−1 = nc ∩ Xn = n ∈ Fn.

Pour le second point de la proposition, il suffit d’utiliser la proposition 2.2.6.

Théorème 2.3.3. Soit x ∈ E. Alors G(x, x) = 1Px(Tx=∞) . De plus,

x est récurrent ⇔ Px(Tx <∞) = 1

⇔ G(x, x) =∞

Page 12: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 12

Démonstration. Soit k ≥ 0. On a :

Px(Nx ≥ k + 1) = Ex[1Tx<∞1Nx≥k θTx ]

= Ex[1Tx<∞EXTx [1Nx≥k]] d’après la propriété de Markov forte et car XTx = x

= Ex[1Tx<∞Px(Nx ≥ k)]

= Px(Tx <∞)Px(Nx ≥ k)

Ainsi, Px(Nx ≥ k) = Px(Tx <∞)k−1 car Px(Nx ≥ 1) = 1. De plus :

G(x, x) = Ex[Nx]

=∑k≥0

Px(Nx ≥ k)

=1

1− Px(Tx <∞)

=1

Px(Tx =∞)

En utilisant le fait que Px(Nx ≥ k) = Px(Tx < ∞)k−1, et l’égalité qui précède, on a alors leséquivalences.

Proposition 2.3.4. Soient x, y ∈ E avec x 6= y, alors G(x, y) = Px(Ty <∞)G(y, y)

Démonstration. On a :

G(x, y) = Ex[Ny]

= Ex[1Ty<∞Ny θTy ]

= Px(Ty <∞)Ey[Ny] d’après la propriété de Markov forte

Exemple. Considérons la marche aléatoire sur le groupe Zd associée au système de générateurs d∑i=1

εiei

où εi ∈ −1, 1. On a Q2k+1(0, 0) = 0 et Q2k(0, 0) = (2−2k(k2k

))d. On a donc :

G(0, 0) =∑k≥0

Q2k(0, 0)

=∑k≥0

(2−2k

Ç2k

k

å)d

Par ailleurs, on a :

2−2k

Ç2k

k

å∼ 1

22k

( 2ke )2k

√4πk

((ke )k√

2πk)2

∼…

1

πk

Ainsi, si d = 1, 2, alors tous les points sont récurrents, et si d ≥ 3, alors tous les points sont transients.

On note R l’ensemble des états récurrents.

Proposition 2.3.5. Soient x ∈ R et y ∈ E. On suppose que G(x, y) > 0. Alors y ∈ R, Py(Tx <∞) = 1et G(y, x) > 0. En particulier, si x ∈ R et y ∈ E −R, alors G(x, y) = 0.

Démonstration. On a

Page 13: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 13

0 = Px(Nx <∞)

≥ Px(Ty <∞, Tx θTy =∞)

= Px(1Ty<∞1Tx=∞ θTy )

= Px(1Ty<∞Py(Tx =∞)) d’après la propriété de Markov forte= Px(Ty <∞)Py(Tx =∞)

Comme G(x, y) > 0 et x est récurrent, Px(Ty <∞) > 0, donc Py(Tx =∞) = 0, donc Py(Tx <∞) = 1et G(y, x) = G(x, x) > 0.

Considérons à présent n1, n2 ≥ 1 tels que Qn1(x, y) > 0 et Qn2(y, x) > 0. Alors,

∀p ≥ 0, Qn1+n2+p(y, y) ≥ Qn2(y, x)Qp(x, x)Qn1(x, y)

. Ainsi,

G(y, y) ≥∑p≥0

Qn1+n2+p(y, y)

≥ Qn2(y, x)(∑p≥0

Qp(x, x))Qn1(x, y)

=∞.

Ceci montre que y est récurrent.

Théorème 2.3.6. Classification des étatsOn peut définir une partition R =

⊔i∈I

Ri telle que

— si x ∈ Ri et y ∈ E, alors Px(Ny =∞) = 1 si y ∈ Ri et Px(Ny = 0) = 1 si y /∈ Ri.— si x ∈ E − R et si l’on pose T := infn ≥ 0, Xn ∈ R, alors ou Px(T = ∞) = 1 et, dans ce cas,∀y ∈ E,Px(Ny <∞) = 1 ; ou Px(T <∞) > 0 et, dans ce cas, ∃j ∈ I,Px(∀n ≥ T,Xn ∈ Rj) > 0.

Les Ri sont appelées classes de récurrence.

Démonstration. Soit x, y ∈ R, on pose x ∼ y si G(x, y) > 0 et G(y, x) > 0. D’après la propositionprécédente, cela définit une relation d’équivalence sur R, ce qui induit une partition R =

⊔i∈I

Ri.

Soit x ∈ Ri. D’après ce qui précède, si y /∈ Ri, on a G(x, y) = 0, donc Px(Ny = 0) = 1. Siy ∈ Ri,Px(Ty <∞) = 1 d’après ce qui précède, et on a

Px(Ny =∞) = Ex(1Ty<∞1Ny=∞ θTy )

= Px(Ty <∞)Py(Ny =∞) d’après la propriété de Markov forte= 1.

Soit à présent x ∈ E −R. On suppose dans un premier temps Px(T =∞) = 1. On voit que T est untemps d’arrêt, car T = inf

x∈RTx. De plus :

Px(Ny =∞) = Px(1T<∞1Ny=∞ θT )

= Px(T <∞)PXT (Ny =∞) d’après le propriété de Markov forte= 0.

Ainsi, Px(Ny <∞) = 1.Supposons à présent Px(T <∞) > 0. On a alors

0 < Px(T <∞)

= Px( infy∈R

Ty <∞)

≤∑y∈R

Px(Ty <∞).

Page 14: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 14

Soit y ∈ R tel que Px(Ty <∞) > 0. Soit j ∈ I tel que y ∈ Rj . Alors Px(XT ∈ Rj) > 0. Soit enfin n ≥ T ,on a

Px(Xn+1 ∈ Rj) = Px(1T<∞1Xn∈Rj θT )

= Px(T <∞)PXT (Xn ∈ Rj) d’après la propriété de Markov forte.

On a alors le résultat.

Corollaire 2.3.7. On suppose que le chaîne est irréductible.— Ou bien tous les états sont récurrents, alors il n’existe qu’une seule clsse de récurrence et

∀x ∈ E,Px(∀y ∈ E,Ny =∞) = 1;

ou bien tous les états sont transients et

∀x ∈ E,Px(∀y ∈ E,Ny <∞) = 1.

— Si E est fini, on est dans le premier cas.

Démonstration. Le premier point est conséquence de ce qui précède et du fait qu’une union dénombrablede parties négligeables est aussi négligeable. Démontrons le deuxième point, et supposons donc E fini.On suppose par l’absurde que tous les états sont transients, et on considère x ∈ E. Alors, d’après ce quiprécède, Px(∀y ∈ E,Ny <∞) = 1, donc Px(

∑y∈E

Ny <∞) = 1 car E est fini. Par ailleurs, on a

∑y∈E

Ny =∑y∈E

∑n≥0

1Xn=y

=∑n≥0

∑y∈E

1Xn=y

=∞ , ce qui est absurde.

Définition 2.3.4. Lorsque l’on est dans le premier cas du corollaire précédent, on dit que la chaîne estrécurrente irréductible.

2.4 Chaînes de Markov et mesures invariantesOn conserve dans ce paragraphe les notations des paragraphes précédents. Nous allons dans un

premier temps donner une condition suffisante pour qu’il existe une mesure invariante.

Théorème 2.4.1. On suppose R 6= ∅ et on considère x ∈ R. Alors il existe une mesure µ invariantenon dégénérée, donnée par

µ(y) = Ex[

Tx−1∑k=0

1Xk=y].

De plus, le support de µ est la classe de récurrence de x.

Démonstration. Comme x est récurrent, on a

Px(Tx <∞) = 1,

donc la somme est bien définie. Soit y ∈ E. Remarquons que

Tx−1∑k=0

1Xk=y =

Tx∑k=1

1Xk=y.

En effet, si y 6= x et que l’on part de l’état x, on ne peut pas se trouver en y au temps 0 ni au temps Tx.Si y = x, on a

Px(X0 = x) = Px(XTx = x) = 1.

Montrons que µ est une mesure Q-invariante. Cela découle du calcul suivant.

Page 15: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 15

µ(y) = Ex[

Tx−1∑k=0

1Xk=y]

= Ex[

Tx∑k=1

1Xk=y]

=∑z∈E

Ex[

Tx∑k=1

1Xk=y,Xk−1=z]

=∑z∈E

∑k≥1

Ex[1Tx≥k1Xk−1=z1X1=y θk−1] où 1Tx≥k1Xk−1=z ∈ Fk−1

=∑z∈E

∑k≥1

Ex[1Tx≥k1Xk−1=zEXk−1[1X1 = y]] d’après la propriété de Markov faible

=∑z∈E

Ex[

Tx−1∑k=0

1Xk=z]Q(z, y) car 1Xk−1=zEXk−1[1X1 = y] = 1Xk−1=zPz(X1 = y) = 1Xk−1=zQ(z, y)

=∑z∈E

µ(z)Q(z, y).

Montrons à présent que µ(y) <∞. Remarquons que

1 = µ(x)

= µQn(x)

=∑z∈E

µ(z)Qn(z, x).

Comme x est récurrent, si G(x, y) > 0, alors G(y, x) > 0, donc ∃n ∈ N, Qn(y, x) > 0, ce qui montreque µ(y) < ∞ d’après ce qui précède. Si G(x, y) = Ex[Ny] = 0, alors µ(y) = 0. Montrons enfin ledernier point. Si y est dans la même classe de récurrence que x, alors on peut considérer m ∈ N tel queQm(x, y) > 0. Notons que µ(x) = 1. On a alors

µ(y) =∑z∈E

µ(z)Qm(z, y)

≥ Qm(x, y)

> 0.

Théorème 2.4.2. On suppose ici que la chaîne est récurrente irréductible. Alors il existe une uniquemesure invariante à constante positive non nulle près.

Démonstration. Soit x ∈ E = R. On note πx la mesure définie pour x dans le théorème précédent. Soit µune autre mesure invariante. Comme la chaîne est irréductible, la mesure est non nulle en chaque point.On peut donc supposer que µ(x) = 1. On va montrer que µ = πx, et donc dans un premier temps queµ ≥ πx, puis πx ≥ µ. Soit y ∈ E. On a

µ(y) =∑z1∈E

µ(z1)Q(z1, y)

= Q(x, y) +∑

z1∈E−x

µ(z1)Q(z1, y)

= Q(x, y) +∑z1 6=xz2∈E

µ(z2)Q(z2, z1)Q(z1, y)

= Q(x, y) +∑z1 6=x

Q(x, z1)Q(z1, y) +∑z1 6=xz2 6=x

µ(z2)Q(z2, z1)Q(z1, y).

Page 16: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 16

On remarque que

Q(x, y) +∑z1 6=x

Q(x, z1)Q(z1, y) = Ex[

2∧(Tx−1)∑k=0

1Xk=y].

Ainsi, par récurrence, on montre que

µ(y) = Ex[

p∧(Tx−1)∑k=0

1Xk=y] +∑zi 6=x

1≤i≤p

µ(zp)Q(zp, zp−1)..Q(z1, y).

Par suite, comme la chaîne est récurrente, Px(Tx <∞) = 1, donc µ(y) ≥ πx(y).Réciproquement, on a :

1 = µ(x)

=∑z∈E

µ(z)Q(z, x)

≥∑z∈E

πx(z)Q(z, x)

= πx(x)

= 1.

Ainsi, l’inégalité est une égalité, donc ∀z, µ(z) = πx(z), et donc µ = πx.

Exemple. Considérons la marche aléatoire sur Z2, on sait que la chaîne est récurrente irréductible, alorsµ :=

∑x∈Z2

δx est l’unique mesure invariante telle que µ(0) = 1.

Corollaire 2.4.3. On suppose que la chaîne est récurrente irréductible. On considère µ la mesure (donnéeà une constante près) du théorème précédent. Alors :

— Ou bien µ(E) <∞, alors il existe une unique mesure de probabilité invariante, et dans ce cas ona ∀x, y ∈ E,Ey[Tx] <∞ et µ(x) = 1

Ex[Tx]

— Ou bien µ(E) =∞, et dans ce cas ∀x ∈ E,Ex[Tx] =∞.Dans le premier cas, on dit que la chaîne est récurrente positive, et dans le second cas, que la chaîneest récurrente nulle. On remarque que si, de plus, E est fini, alors la chaine est récurrente positive.

Démonstration. Soit x ∈ E, on note πx la mesure invariante définie en x utilisée dans les théorèmesprécédents. On a :

πx(E) =∑y∈E

πx(y)

=∑y∈E

Ex[

Tx−1∑k=0

1Xk=y]

= Ex[

Tx−1∑k=0

1]

= Ex[Tx].

Ceci montre déjà le deuxième point. Pour le premier point, on pose µ := πxπx(E) , alors d’après le

théorème précédent, µ est l’unique mesure de probabilité Q-invariante sur E, et l’on a d’après ce quiprécède µ(x) = 1

Ex[Tx] . Enfin, si y ∈ E, on a Ey[Tx] ≤ Ex[Tx] <∞.

Exemple. Considérons la marche aléatoire du cavalier sur l’échiquier, la chaîne est récurrente positive,et la mesure de probabilité invariante est donnée par

π(x) =deg(x)∑y deg(y)

=deg(x)

336.

On note a la case en bas à gauche de l’échiquier, on a deg(a) = 2, donc d’après ce qui précède, on aEa[Ta] = 336

2 = 168 : le temps moyen de premier retour en a en partant de a est 168 coups.

Page 17: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 17

Théorème 2.4.4. On suppose que Q est irréductible et qu’il existe une mesure Q-invariante finie, alorsla chaîne est récurrente, et donc récurrente positive.

Démonstration. Il suffit de montrer que le chaîne est récurrente. On note µ une mesure finie Q-invariante,et on considère y ∈ E tel que µ(y) > 0. Comme la chaîne est irréductible, il suffit de montrer que y estrécurrent, c’est-à-dire que G(y, y) =∞. Soit x ∈ E. On a∑

n≥0

Qn(x, y) = G(x, y) ≤ G(y, y)

car G(x, y) = Px(Ty <∞)G(y, y).Ainsi, ∑

n≥0

µ(x)Qn(x, y) ≤ µ(x)G(y, y).

En sommant à présent sur x, on a ∑n≥0

µ(y) =∑n≥0

∑x∈E

µ(x)Qn(x, y)

≤ (∑x∈E

µ(x))G(y, y).

Ainsi, comme la mesure est finie, G(y, y) =∞, d’où le résultat.

Exemple. Considérons la chaîne suivante, dite "de vie ou de mort". Soit p ∈]0, 1[, q := 1−p. On supposeE = N, Q(0, 1) = 1, Q(k, k + 1) = p,Q(k, k − 1) = q pour k ≥ 1. La chaîne est alors irréductible et nonapériodique. On pose µ(0) := q et µ(k) := (pq )k−1 pour k ≥ 1, alors cette mesure est invariante. On atrois cas :

— si p < q, alors µ(N) <∞, donc la chaîne est récurrente, donc récurrente positive, et µ est l’uniquemesure invariante. On a alors E0[T0] = 1

q et Ek[Tk] = ( qp )k−1 pour k ≥ 1.— si p = q = 1

2 , alors Xn = |Zn| où (Zn) est la marche aléatoire simple sur Z, donc la chaîne estrécurrente, donc récurrente nulle.

— si p > q, on montre que la chaîne est transiente.

Intéressons-nous à présent au comportement asymptotique d’une mesure invariante.

Théorème 2.4.5. On suppose que le chaîne est récurrente irréductible, soit µ une mesure invariante,f, g : E −→ [0,+∞] mesurables, avec∫

fdµ <∞, 0 <

∫gdµ <∞.

Alors,

∀x ∈ E,Px(limn

∑nk=0 f(Xk)∑nk=0 g(Xk)

=

∫fdµ∫gdµ

) = 1.

Démonstration. Soit x ∈ E. Pour simplifier les notations, on pose Tn := Tx,n.Remarquon que Px(Tn <∞) = 1. En effet, soit k ≥ 0, on a

Px(Nx ≥ k + n) = Ex[1Tn<∞1Nx≥x θn]

= Ex[1Tn<∞EXTn [1Nx ≥ k]] par propriété de Markov faible= Px(Tn <∞)Px(Nx ≥ k).

Comme x est récurrent, Px(Nx =∞) = 1, donc Px(Tn <∞) = 1.

On pose alors Zk(f) :=

Tk+1−1∑n=Tk

f(Xn). Montrons que la suite (Zk(f)) est consituée de variables

indépendantes identiquement distribuées lorsque l’on munit Ω de la probabilité Px.Soient g0, g1, .. des fonctions mesurables bornées sur R+ à valeur dans R+. Il suffit de montrer que

∀k ≥ 0,Ex[k∏i=0

gi(Zi(f))] =k∏i=0

Ex[gi(Z0(f))].

Page 18: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 18

Montrons le par récurrence sur k. On suppose le résultat vrai au rang k − 1. Les variables Z0(f), ..,Zk−1(f) sont FTk -mesurables. En effet, si n ≤ k− 1, alors f(Xn) est Fn-mesurable, donc Fk-mesurable.Soit à présent B un borélien de R+ :

— si n = k − 1 et p ∈ N, on a

Zn(f)−1(B) ∩ Tk = p =⋃i<p

(Tk = p ∩ Tn = i ∩ (

p−1∑l=i

f(Xk))−1(B)) ∈ Fp.

— si n < k − 1 et p ∈ N, on a

Zn(f)−1(B) ∩ Tk = p =⋃

i<j<p

(Tk = p ∩ Tn = i ∩ Tn+1 = j ∩ (

j∑l=i

f(Xl))−1(B)) ∈ Fp.

Ainsi, si n ≤ k − 1, Zn(f) est FTk -mesurable.On remarque à présent que Zk(f) = Z0(f) θTk , donc, d’après la propriété forte de Markov, on peut

écrire

Ex[k∏i=0

gi(Zi(f))] = Ex[(k−1∏i=0

gi(Zi(f)))gk(Z0(f) θTk)]

= Ex[k−1∏i=0

gi(Zi(f))]Ex[gk(Z0(f))]

=k∏i=0

Ex[gi(Z0(f))] par hypothèse de récurrence .

Déterminons à présent leure espérance :

Ex[Z0(f)] = Ex[

Tx−1∑k=0

∑y∈E

f(y)1Xk=y]

=∑y∈E

f(y)πx(y)

=

∫Efdµ

µ(x).

Ainsi, (Zk(f)) est une suite de variables aléatoires indépendantes identiquement distribuées, doncd’après la loi forte des grands nombres,

1

n

n−1∑k=0

Zk(f) −→n→∞

∫Efdµ

µ(x),

où la convergence est presque sûre (pour Px).On pose à présent

Nx(n) :=∑k=1

n1Xk=x.

On a TNx(n) ≤ n < TNx(n)+1. On suppose Nx(n) ≥ 1. On a alors∑TNx(n)−1

k=0 f(Xk)

Nx(n)≤∑nk=0 f(Xk)

Nx(n)≤∑TNx(n)+1−1

k=0 f(Xk)

Nx(n)

donc∑Nx(n)−1j=0 Zj(f)

Nx(n)≤∑nk=0 f(Xk)

Nx(n)≤∑Nx(n)j=0 Zj(f)

Nx(n)

Ainsi,1

Nx(n)

n∑k=0

f(Xk) −→n→∞

∫Efdµ

µ(x),

Page 19: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 19

où la convergence est presque sûre (pour Px). De même,

1

Nx(n)

n∑k=0

g(Xk) −→n→∞

∫Egdµ

µ(x),

où la convergence est presque sûre (pour Px). Comme∫E

gdµ > 0,

on an∑k=0

g(Xk) > 0

pour n assez grand, et presque sûrement (pour Px), puis on a bien

Px(limn

∑nk=0 f(Xk)∑nk=0 g(Xk)

=

∫fdµ∫gdµ

) = 1.

Pour finir ce paragraphe, intéressons-nous à la problématique suivante : quelles hypothèses sur lachaîne de Markov peut-on faire pour que, partant d’une mesure de probabilité initiale µ0, la suite (µn)converge en loi vers une mesure de probabilité Q-invariante ? Pour répondre à cette question, nousallons définir sur l’ensemble des mesures de probabilité sur E une distance qui va traduire la notion deconvergence en loi.

Proposition 2.4.6. Soient µ et ν deux mesure de probabilité sur E. Alors,

supA⊂E

|µ(A)− ν(A)| = 1

2

∑x∈E|µ(x)− ν(x)|.

Démonstration. Soit A ⊂ E, on a µ(A) +µ(Ac) = 1 = ν(A) +ν(Ac), donc µ(A)−ν(A) = ν(Ac)−µ(Ac),on a donc

|µ(A)− ν(A)| = 1

2(|µ(A)− ν(A)|+ |µ(Ac)− ν(Ac)|)

≤ 1

2

∑x∈E|µ(x)− ν(x)|.

Réciproquement, on pose A := x ∈ E,µ(x) ≥ ν(x). On a alors

|µ(A)− ν(A)| = 1

2(|∑x∈A

µ(x)− ν(x)|+ |∑x∈Ac

ν(x)− µ(x)|)

=1

2

∑x∈A|µ(x)− ν(x)|.

Corollaire 2.4.7. On a

supA⊂E

|µ(A)− ν(A)| = maxA⊂E

|µ(A)− ν(A)|

=∑x∈E

µ(x)≥ν(x)

µ(x)− ν(x).

Définition 2.4.1. On posed(µ, ν) := sup

A⊂E|µ(A)− ν(A)|

. On appelle cette quantité distance en variation totale de µ et ν. En utilisant les différentesdéfinitions, il est facile de voir que l’on a bien une distance sur l’ensemble des mesures de probabilité surE.

Page 20: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 20

Proposition 2.4.8. La topologie induite par la distance en variation totale correspond à la convergenceen loi.

Démonstration. On considère des mesures de probabilité µn et µ sur E.On suppose que (µn(f)) converge vers µ(f) pour toute fonction f : E −→ R bornée. Si l’on choisit f

comme étant la fonction caractéristique en un point y ∈ E, on voit que ∀y ∈ E, limn µn(y) = µ(y). Soitε > 0. Comme µ est une mesure finie, il existe Aε ⊂ E un ensemble fini tel que µ(Acε) ≤ ε. Comme Aεest fini, d’après ce qui précède, on a pour n assez grand∑

x∈Aε

|µn(x)− µ(x)| ≤ ε.

Par ailleurs, en considérant la fonction caractéristique de Acε, on a pour n assez grand

µn(Acε) ≤ 2ε.

Ainsi, pour n assez grand, on a

d(µn, µ) ≤ 1

2(∑x∈Aε

|µn(x)− µ(x)|+∑x∈Acε

µn(x) + µ(x))

≤ 1

2ε+ µ(Acε) + µn(Acε)

≤ 1

2ε+ 3ε.

On a donc (µn) qui converge vers µ pour la distance en variation totale.Réciproquement, on suppose que (µn) converge vers µ pour la distance en variation totale, et soit

f : E −→ R une fonction bornée. On a alors :

|µn(f)− µ(f)| ≤∑x∈E|µn(x)− µ(x)||f(x)|

≤ 2‖f‖∞d(µn, µ).

Ainsi, (µn(f)) converge vers µ(f), et on a le résultat.

Définition 2.4.2. Soient µ et ν deux mesures de proababilité sur un espace de probabilité Ω. On appellecouplage de µ et ν le donnée d’une paire de variables aléatoires (X,Y ) à valeur dans Ω× Ω telle quela marginale de X est µ et la marginale de Y est ν

Exemple. Si µ a pour loi la densité f(x)dx et ν a pour loi la densité g(y)dy alors (X,Y ), de loi ladensité f(x)g(y)dxdy est un couplage de µ et ν.

Exemple. On peut considérer les couplages de trois Bernoulli suivants :— si Xi ∼ B( 1

2 ), alors (X1, X2, X3) en est un,— si X1 ∼ B( 1

2 ), alors (X1, X1, X1) en est un autre,— si X1, X2 ∼ B( 1

2 ), avec X1 et X2 indépendants, alors (X1, X2, X1X2) en est encore un autre.

Exemple. On peut considérer les couplages de deux Gaussiennes suivants : soit X,Y deux gaussiennesindépendantes identiquement distribuées, et a ∈ [−1, 1], alors (X,αX +

√1− α2Y ) est un couplage de

deux Gaussiennes.

Proposition 2.4.9. Soient µ, ν deux mesures de probabilité sur E. Alors,

d(µ, ν) = min(X,Y ) couplage de µ et ν

P(X 6= Y ).

Démonstration. Soit π un couplage de µ et ν et A ∈ E un évènement qui réalise d(µ, ν) dans la définitionde la distance. On a

d(µ, ν) = µ(A)− ν(A)

= P(X ∈ A)− P(Y ∈ A)

≤ P(X ∈ A, y /∈ A)

≤ P(X 6= Y )

Page 21: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

2 CHAÎNES DE MARKOV 21

Ainsi, on ad(µ, ν) ≤ min

(X,Y ) couplage de µ et νP(X 6= Y ).

Réciproquement, on posep :=

∑x∈E

µ(x) ∧ ν(x).

On a

p =∑x∈E

µ(x)≤ν(x)

µ(x) +∑x∈E

ν(x)≤µ(x)

ν(x)

=∑x∈E

µ(x)−∑x∈E

ν(x)≤µ(x)

(µ(x)− ν(x))

= 1− d(µ, ν).

On construit alors le couplage (X,Y ) de la façon suivante : avec probabilité p, on choisit aléatoirementX = Y = x suivant la loi µ(x)∧ν(x)

p , et avec probabilité 1 − p, on choisit aléatoirement X = xµ(x)−ν(x)1−p

si µ(x) < ν(x), et Y = xν(x)−µ(x)1−p si ν(x) > µ(x). Vérifions que l’on obtient un couplage de µ et ν. Soit

x ∈ E, alors,

P(X = x) = pµ(x) ∧ ν(x)

p+ (1− p)µ(x)− ν(x)

1− p1µ>ν

= µ(x).

De même, on a P(Y = y) = ν(y). Finalement, on a P(X 6= Y ) = 1 − p = d(µ, ν) ce qui montre lerésultat.

Nous arrivons enfin au résultat qui nous intéresse :

Théorème 2.4.10. Soit (Xn) une chaîne de Markov irréductible récurrente positive apériodique, onnote µ0 la mesure initiale. Alors (µn) converge en loi vers π où π est l’unique mesure de probabilitéQ-invariante.

Démonstration. On suppose dans un premier temps le résultat vrai pour les µ0 = δx, avec x ∈ E fixé.Dans ce cas, pour µ0 donné, on peut écrire E =

⋃Ek, union croissante, où Ek est fini. On a alors

∀k ∈ N, d(Qnµ0, Qnπ) ≤ 1

2

∑x∈Ek

µ0(x)d(Qnδx, Qnπ) +

1

2µ0(Eck),

donc lim supn d(Qnµ0, Qnπ) ≤ 1

2µ0(Eck) par hypothèse, puis on a bien (µn) qui converge vers π. Ainsi,on suppose par la suite que µ0 = δx pour x fixé. L’idée de la démonstration est de trouver un couplage(Xn, Yn) efficace, où (Xn) est une chaîne de Markov de matrice de transition Q partant de δx, et (Yn)partant de π. Pour réaliser un tel couplage, on considère dans un premier temps le couplage donné parla chaîne de Markov couplée (Xn, Yn) de matrice de transition Q((x1, y1), (x2, y2)) = Q(x1, x2)Q(y1, y2).

Montrons à présent que Q récurrente positive :— Soit x, y ∈ E. Alors : ∃n0,∀n ≥ n0, Q

n(x, y) > 0. En effet, comme la chaîne est irréductible, il suffitde traiter le cas où x = y. Comme la chaîne est apériodique, il existe n1,m1 avec n1 −m1 = 1et Qn1(x, x) > 0 et Qm1(x, x) > 0. Si m1 = 0, alors n0 = 0 convient. Si m1 ≥ 1, alors, pour0 ≤ j ≤ m1 − 1, on a Qm

21+j(x, x) = Qjn1+(m1−j)m1(x, x) > 0, donc n0 = m2

1 convient.— La matrice Q est irréductible. En effet, soit x1, x2, y1, y2 ∈ E. D’après ce qui précède, on peut

choisir n0 tel que, pour n ≥ n0, on a Qn(x1, x2) > 0 et Qn(y1, y2) > 0. Alors, pour n ≥ n0, on aQn((x1, y1)(x2, y2)) = Qn(x1, x2)Qn(y1, y2) > 0, ce qui montre que Q est irréductible.

— Pour conclure, on vérifie que π ⊗ π est une mesure invariante finie pour Q, ce qui montre que Qest récurrente positive.

En particulier, pour x, x0, y, y0 ∈ E, on a E(x,y)[T(x0,y0)] <∞.On pose T := inf

z∈ET(z,z) = inf

n∈N(Xn, Yn) ∈ ∆ où ∆ est la diagonale de E. Alors T est un temps d’arret

pour la chaîne de Markov (Xn, Yn). D’après ce qui précède, on a E(x,y)[T ] <∞, donc P(x,y)(T <∞) = 1.

Page 22: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 22

Ainsi, on peut poser Xn = Xn si n ≤ T , Xn = Yn si n > T et Yn = Yn. Montrons que (Xn, Yn) estun couplge de δx et π : soit x, y ∈ E, on a

Px(Xn = y) = Px(T > n, Xn = y) + Px(T ≤ n, Xn = y)

= Px(T > n,Xn = y) +n∑k=0

∑z∈E

Px(T = k,Xk = z, Yn = y)

= Px(T > n,Xn = y) +n∑k=0

∑z∈E

Ex[1T=k1Xk=z1Yn−k=y θk]

= Px(T > n,Xn = y) +n∑k=0

∑z∈E

Ex[1T=k1Xk=zEYk=z[Yn−k = y]] (Markov faible)

= Px(T > n,Xn = y) +n∑k=0

∑z∈E

Ex[1T=k1Xk=zEXk=z[Xn−k = y]]

= Px(T > n,Xn = y) + Px(T ≤ n,Xn = y) en effectuant le chemin inverse= Px(Xn = y).

Ainsi, d’après la proposition 2.4.9, on a

d(Qnδx, Qnπ) ≤ P(Xn 6= Yn)

= Px(T > n)

=∑y∈E

π(y)P(x,y)(T > n).

Comme le dernier membre de droite converge vers 0, on a le résultat.

3 MartingalesOn va étudier maintenant un autre processus aléatoire, à savoir les martingales. On commence par

étudier le paradoxe du singe savant. Considérons un alphabet fixé A,B, ..., Z et l’ensemble des motsE = A,B, ..., ZN. Supposons qu’un singe tape aléatoirement sur une machine à écrire avec les lettresde l’alphabet qu’on s’est donné. Alors le paradoxe énonce qu’à un moment donné, presque sûrement lesinge aura tapé l’intégralité des oeuvres de Victor Hugo. Si on note T le temps d’arrêt pour lequel le singemet un point final à son premier Les Misérables, la question qu’on se pose est de savoir que vaut E[T ]. Poursimplifier, dans la suite, on va plutôt étudier le temps d’arrêt pour lequel le singe écrit ABRACADABRA.On note T ce temps d’arrêt et on note T ′ celui correspondant au mot ABRACABRADA. Un deuxièmeobjectif est de comprendre la différence entre T et T ′ et entre E[T ] et E[T ′]. Pour étudier E[T ], on peutadopter deux points de vue, celui des chaînes de Markov, ou celui des martingales qu’on va développerà présent.

On conseille à nouveau le livre [1] comme référence pour cette partie. Un ouvrage très intéressantégalement est [4], dans lequel l’auteur utilise les martingales pour montrer beaucoup de résultats trèsgénéraux d’intégration.

3.1 Martingales, sur-martingales, sous-martingalesSoit (Xn) un processus aléatoire. On rappelle qu’une filtration est une suite de sous-tribus

F0 ⊂ ... ⊂ Fn ⊂ ...

Une filtration est dite adaptée si σ(X0, ..., Xn) ⊂ Fn.

Définition 3.1.1. Avec ces notations, on dit que (Xn) est une martingale si Xn est L1 et si

E[Xn+1|Fn] = Xn.

On dit que c’est une sur-martingale (respectivement une sous-martingale) si Xn est L1 et si

E[Xn+1|Fn] ≤ Xn

(respectivement E[Xn+1|Fn] ≥ Xn).

Page 23: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 23

On peut interpréter une martingale comme un jeu d’argent équitable. En effet, imaginons un jeu decasino et un joueur. On noteXn la quantité d’argent du joueur au temps n. La tribu Fn désigne ce que l’onsait au temps n, en particulier le résultat des parties précédentes. Alors, la propriété E[Xn+1|Fn] = Xn

s’interprète en disant que la moyenne des gains au temps n + 1, en sachant ce qui s’est passé est égaleà l’ensemble des gains au temps n. De même, une sur-martingale correspond à un jeu défavorable (cequi est plus susceptible d’arriver dans un casino) et avec la même interprétation, une sous-martingalecorrespond aux gains du casino.

L’exemple le plus simple de martingale est celui d’une martingale fermée. Si X est une variablealéatoire L1 et si Fn est une filtration, on pose Xn = [X|Fn]. Alors, la filtration Fn est adpatée auprocessus aléatoire (Xn) et pour cette filtration, Xn est une martingale. On dit que c’est une martingalefermée.

On rappelle que si (V,E) est un graphe, on peut définir un laplacien discret en posant

∆ϕ(x) =∑ ϕ(y)

deg(x)− ϕ(x),

où la somme est prise sur tous les voisins y de x (et deg(x) est le nombre de ces voisins) pour ϕ : V → Rune fonction. On dit alors qu’une fonction ϕ : V → R est harmonique (respectivement sous-harmonique,sur-harmonique) si pour tout x ∈ V,∆ϕ(x) = 0 (respectivement ∆ϕ(x) ≥ 0, ∆ϕ(x) ≤ 0). Pour unechaîne de Markov définie sur un graphe, de matrice de transition Q, on retrouve la condition déjà étudiéeQf = f . Le lien avec les martingales est le suivant. Si Xn est une marche aléatoire simple sur le graphe(V,E) et ϕ une fonction sur V , alors ϕ(Xn) est une martingale (respectivement sous-martingale, sur-martingale) si et seulement si φ est harmonique (respectivement sous-harmonique, sur-harmonique). Parexemple, la fonction x ∈ Zd 7→ ‖x‖2 ∈ R est sous-harmonique. Ainsi, si Xn est la marche aléatoire simplesur Zd, alors (‖Xn‖2) est une sous-martingale. En particulier, la marche aléatoire sur Zd s’éloigne de 0comme une sous-martingale.

Un autre exemple de martingale est donné par les marches aléatoires réelles. Soient Yi des variablesaléatoires indépendantes indexées par N. On suppose les Yi intégrables et d’espérance nulle. Alors enposant Fn la tribu engendrée par les variables Yi pour i variant de 1 à n, et en posant Xn =

∑ni=1 Yi,

on aE[Xn+1|Fn] = E[Xn + Yn+1|Fn] = Xn + E[Yn+1] = Xn.

On a donc une martingale. Si on avait supposé les espérances positives (respectivement négatives) onaurait obtenu une sous-martingale (respectivement sur-martingale).

Remarquons par ailleurs que si (Xn) est un processus aléatoire réel, alors (Xn) est une sur-martingalesi et seulement si (−Xn) est une sous-martingale.

Proposition 3.1.1. Soit (Xn) une suite de variables aléatoires L1. Alors (Xn) est une martingale si etseulement si pour tous entiers 0 ≤ n ≤ m, E[Xm|Fn] = Xn.

Démonstration. Le sens réciproque est clair, car il suffit de prendre n + 1 pour m. Pour le sens direct,cela résulte du calcul suivant :

E[Xm|Fn] = E[E[Xm|Fm−1]|Fn].

On procède alors par récurrence sur n ∈ N et par récurrence sur m ≥ n.

Comme conséquence immédiate, on a que l’espérance d’une martingale est constante. Une autreremarque que l’on peut faire est que si la martingale est définie sur un domaine de temps fini, alors c’estune martingale fermée. En effet, si n varie entre 0 et N et si E[Xn+1|Fn] = Xn, alors Xn = E[XN |Fn].

À noter qu’on a le même résultat pour les sur-martingales et les sous-martingales, en particulier,l’espérance d’une sur-martingale est décroissante. D’autre part, la croissances ou la décroissance nonpas des espérances mais du processus aléatoire lui-même donne des résultats réciproques. Explicitement,si (Xn) est un processus adapté à une filtration mesurée, intégrable et décroissant, alors (Xn) est unesur-martingale.

Proposition 3.1.2. Soit ϕ : R→ R∗ une fonction convexe. Alors si Xn est une martingale et si ϕ(Xn)est intégrable, ϕ(Xn) est une sous-martingale.

Démonstration. Par l’inégalité de Jensen conditionnelle, on obtient E[ϕ(Xn+1)|Fn] ≥ ϕ(E[Xn+1|Fn]) etcomme (Xn) est une martingale, E[ϕ(Xn+1)|Fn] ≥ ϕ(Xn).

Page 24: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 24

En particulier, en utilisant la convexité de x 7→ xp pour p ≥ 1, on en déduit que si (Xn) est unemartingale et si Xn ∈ Lp pour p ≥ 1, alors (|Xn|p) est une sous-martingale.

Donnons à présent un autre exemple de martingales. On rappelle la définition d’un processus debranchement. Soient ξn,j des variables aléatoires i.i.d. à valeurs dans N de loi µ. On définit les tribusF0 = (∅,Ω) et pour n ≥ 1, Fn = σ(ξi,j , j ∈ N, i ≤ n−1). On définit également par récurrence le processus(Xn) par

Xn+1 =

Xn∑k=1

ξn,k.

Alors, en calculant E[Xn+1|Fn], on obtient

E[Xn+1|Fn] = E[∞∑j=1

ξn,j1j≤Xn|Fn] =∞∑j=1

E[ξn,j1j≤Xn|Fn],

puis on constate qu’on peut sortir l’indicatrice, pour obtenir

E[Xn+1|Fn] =∞∑j=1

1j≤XnE[ξn,j |Fn] = Xnm

où on note m l’espérance commune des variables ξi,j . Si on pose Zn = Xnmn , on obtient que (Zn) est une

martingale.Donnons encore un autre exemple, celui des martingales produits. Soient Yn des variables aléatoire

indépendantes telles que E[Yn] = 1. On poseXn =∏ni=1 Yi et on considère la filtration mesurée canonique

Fn = σ(Y1, ..., Yn). Alors Xn est une martingale. En effet,

E[Xn+1|Fn] = E[n+1∏i=1

Yi|Fn] =n∏i=1

YiE[Yn+1|Fn] = Xn,

puisque par indépendance, E[Yn+1|Fn] = E[Yn+1] = 1.

Définition 3.1.2. Soit (Cn) un processus aléatoire réel et Fn une filtration mesurée. On dit que (Cn) estun processus prévisible si pour tout n ≥ 1, Cn est Fn−1-mesurable et si Cn est borné presque sûrement.

Définition 3.1.3. Soient Fn une filtration mesurée, (Xn) un processus adapté et (Cn) un processusprévisible. On définit la transformée de martingale de X par (Cn) comme étant le processus ((C ·X)n)défini ainsi :

— (C ·X)0 = 0,— (C ·X)n = C1(X1 −X0) + C2(X2 −X1) + ...+ Cn(Xn −Xn−1).

Proposition 3.1.3. Soient Fn une filtration mesurée, (Xn) un processus adapté et (Cn) un processusprévisible. Alors si (Xn) est une martingale, alors ((C ·X)n) est une martingale. Si (Xn) est une sur-martingale (respectivement une sous-martingale) et si Cn ≥ 0, alors ((C ·X)n) est une sur-martingale(respectivement une sous-martingale).

Démonstration. Par hypothèse, (Cn) est presque sûrement bornée, disons par une constante kn. Alors,si Xn est L1 pour tout n, on obtient |(C ·X)n| ≤ k1(|X1|+ |X0|)+ ...+kn(|Xn|+ |Xn−1|) donc ((C ·X)n)est aussi dans L1 pour tout n. D’autre part,

E[(C ·X)n+1|Fn] = (C ·X)n + E[Cn+1Xn+1|Fn]− Cn+1Xn

et par indépendance, on peut sortir le Cn+1 de l’espérance, de sorte qu’on obtient

E[(C ·X)n+1|Fn] = (C ·X)n + Cn+1E[Xn+1|Fn]− Cn+1Xn = (C ·X)n

Pour la deuxième partie de la proposition, on procède exactement de même.

Le théorème suivant est une motivation suffisante pour étudier les martingales.

Théorème 3.1.4. Soit (Xn) une martingale et T un temps d’arrêt associé à la filtration mesurée Fn,avec T <∞ presque sûrement. Alors E[XT ] = E[X0] dans chacune des quatre situations suivantes :

— T est borné,

Page 25: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 25

— (Xn) est uniformément bornée,— Il existe Y une variable aléatoire L1 telle que pour tout n, |Xn| ≤ Y ,— E[T ] <∞ et (|Xn −Xn−1|) est presque sûrement uniformément bornée.

Si on remplace martingale par sur-martingale, on obtient comme conséquence à l’une de ces quatreconditions E[XT ] ≤ E[X0].

Démonstration. Le point clé est que (Xn∧T ) est encore une martingale. En effet, si l’on note Cn = 1T≥n,alors (Cn) est un processus prévisible et Xn∧T = X0 + (C · X)n. Dans le cas où T est borné, disonsT ≤ N , on a donc XT = XN∧T , donc XT est intégrable et E[XT ] = E[XN∧T ] = E[X0∧T ] = E[X0]. Dansles situations où (Xn) est uniformément bornée ou bornée par une variable intégrable Y (conditions 2 et3), on conclut par convergence dominée. En effet, (Xn∧T ) converge presque sûrement vers XT puisqueT est presque sûrement borné. Le dernier cas est un peu plus technique. Supposons donc que E[T ] <∞et que (|Xn − Xn−1|) est uniformément borné presque sûrement. Notons K une borne presque sûrepour |Xn − Xn−1|. Alors |Xn∧T − X0| = |

∑n∧Tk=0 (Xk − Xk−1)| ≤ (n ∧ T )K ≤ TK. Ainsi, en notant

Y = |X0|+KT , on a |Xn∧T | ≤ Y , donc on peut à nouveau conclure par convergence dominée, puisqueY est une variable intégrable.

Exemple. On considère le problème de la ruine du joueur. Rappelons qu’une martingale correspondheuristiquement aux gains d’un joueur à un jeu équitable. Imaginons qu’un joueur s’arrête de jouerquand il est ruiné, i.e. on note τ le temps d’arrêt τ = infn,Xn = 0. Prenons en fait un problèmesimilaire, cette fois dans un tore. Soit (Xn) une martingale à valeurs dans 0, ..., N, typiquement unemarche aléatoire sur un tore (dans Z/NZ). On note τ = infn,Xn ∈ 0, N, alors Ek[Xτ ] = k et doncP[Xτ = N ] = k

N .

Revenons à présent à notre exemple initial, celui du singe savant. On rappelle qu’on note T le tempsd’arrêt pour lequel le singe écrit ABRACADABRA et T ′ celui pour lequel il écrit ABRACABRADA.On va définir une martingale pour déterminer E[T ]. L’idée est de considérer un jeu où le singe gagne25 euros lorsqu’il trouve la bonne lettre et perd 1 euro lorsqu’il se trompe (de sorte que l’espérance soitnulle). Puisque le singe tape aléatoirement et de manière uniforme, on dispose de variables i.i.d. Xk, oùXk ∈ A,B, ..., Z suit une loi uniforme. La variable Xk correspond à la k-ième lettre tapée par le singe.On pose, pour n ∈ N,

Mn =11∑j=1

26j1Xn−j+1=L1,...,Xn=Lj − n.

Si n ≤ j−1, on arrête l’indicatrice avant d’arriver à des variables Xl avec l < 0, c’est-à-dire, on considèreX1 = Lj−n+1, ..., Xn = Lj. La variable Mn définit ainsi une martingale. Heuristiquement, au temps n,on gagne 26 euros si on a écrit A, 262 si on a écrit RA, 263 pour BRA ... et on retranche n à cette somme.On retrouve bien que M1 est égal à 25 si le singe a trouvé la bonne lettre et −1 sinon. Ainsi, E[M1] = 0.On applique le théorème précédent pour obtenir que E[MT ] = E[M1] = 0. En effet, on peut borner E[T ].On considère le temps d’arrêt T ′′ pour lequel le singe écrit ABRACADABRA avec le A final sur unnuméro de lettre divisible par 11. Par définition, T ≤ T ′′. Puisqu’on a ainsi découpé les mots écrits parle singe en blocs de 11 lettres indépendants, T ′′ suit une loi géométrique et donc E[T ] ≤ 11x2611 < ∞.Ainsi, E[MT ] = 0. De même, E[MT ′ ] = 0. Or, MT = 2611 + 264 + 26 − T . En effet, quand on a luABRACADABRA, on a aussi recommencé à lire le mot avec le ABRA final et avec le A final. Ondéduit de tout ceci que E[T ] = 2611 + 264 + 26. Pour ABRACABRADA, on obtient E[T ′] = 2611 + 26seulement. Aussi étonnant que cela puisse paraître, on voit en moyenne plus rapidement un mot avecpeu de répétitions qu’un mot avec beaucoup de répétitions. Pour approfondir cette pensée, on pourraitcomparer ce phénomène au paradoxe de l’autobus.

3.2 Convergence(s) des martingalesDans cette partie on s’intéresse aux convergences presque sûres et dans L1. Les preuves s’appuieront

sur les inégalités de Doob, assez techniques, qu’on présente maintenant. On pourra consulter [2] à cepropos.

Si (un) est une suite réelle (déterministe, pour l’instant) et si a < b sont deux réels, on définit

S1 = infn ≥ 0, Xn ≤ a, T1 = infn ≥ S1, Xn ≥ b.

Puis par récurrence,

Sk+1 = infn ≥ Tk, Xn ≤ a, Tk+1 = infn ≥ Sk+1, Xn ≥ b.

Page 26: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 26

On définit alors

Un[a, b] = infk, Tk ≤ n, Tk+1 ≥ n =∞∑k=1

1Tk≤n,

qu’on interprète comme le nombre de montées de la suite (un) dans l’intervalle [a, b] avant le temps n.On définit également le nombre de montées dans l’intervalle [a, b]

U∞[a, b] =∞∑k=1

1Tk<∞.

Si (Xn) est maintenant un processus aléatoire adapté à une filtration Fn, on définit de même lesquantités Sk, Tk, Un et U∞. Ce sont des variables aléatoires. Les variables Sk et Tk sont des tempsd’arrêt et la variable Un est Fn-mesurable.

Lemme 3.2.1 (inégalité des montées de Doob). Soit (Xn) une sous-martingale et soient a < b deuxréels. On pose Un[a, b] le nombre de montées dans l’intervalle [a, b] avant le temps n de la suite (Xn).Alors,

∀n ≥ 1,E[Un[a, b]] ≤ 1

b− a(E[(Xn − a)+]− E[(X0 − a)+]

).

Démonstration. On abrège Un[a, b] en Un, de même pour les temps d’arrêts Tk et Sk. Définissons lavariable Cn =

∑∞k=1 1Sk<n≤Tk. Alors Cn ≤ 1. D’autre part,

Sk < n ≤ Tk = Sk ≤ n− 1 \ Tk ≤ n− 1,

donc Cn est Fn−1-mesurable et (Cn) est un processus prévisible. On note Yn = (Xn−a)+. C’est égalementune sous-martingale. Calculons (C · Y )n :

(C · Y )n =

Un∑k=1

(YTk − YSk) + 1SUn+1<n(Yn − YSUn+1) ≥

Un∑k=1

(YTk − YSk) ≥ Un(b− a)

de sorte que E[(C · Y )n] ≥ (b − a)E[Un]. On note C ′n = 1 − Cn. Alors (C ′n) est un processus prévisiblepositif et borné, donc (C ′ · Y )n) est une sous-martingale, donc

E[(C ′ · Y )n] ≥ E[(C ′ · Y )0] = 0.

Puisque (C · Y )n + (C ′ · Yn) = Yn − Y0, en sommant ces deux inégalités, on obtient

(b− a)E[Un] ≤ E[(C · Y )n + (C ′ · Y )n] ≤ E[Yn − Y0],

ce qui permet de conclure.

On peut maintenant en déduire le premier théorème de convergence des martingales :

Théorème 3.2.2. Soit (Xn) une sur-martingale. On suppose que supE[|Xn|] < ∞. Alors il existeune variable aléatoire L1 qu’on note X∞ telle que Xn converge presque sûrement vers X∞. D’autre part,E[|X∞|] ≤ supE[|Xn|] <∞.

Remarque. Le théorème reste vrai si on remplace sur-martingale par sous-martingale, puisque si (Xn)est une sous-martingale, (−Xn) est une sur-martingale et réciproquement.

Démonstration. Pour deux réels a < b on abrège U∞[a, b] en U∞. Par ce qui précède,

E[U∞] ≤ 1

b− a(|a|+ supE[|Xn|]) <∞,

donc U∞ < ∞ presque sûrement. D’autre part, Xn ne converge pas dans [−∞,∞] si et seulement si lalimite supérieure et la limite inférieure de Xn diffèrent si et seulement s’il existe deux rationnels a < btels que

lim inf(Xn) < a < b < lim sup(Xn)

Ainsi, Xn ne converge pas si et seulement s’il existe a < b tels que U∞ =∞. Ainsi l’évènement

Xn ne converge pas

Page 27: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 27

est inclus dans une réunion dénombrable d’évènements de mesure nulle, donc Xn converge presquesûrement. D’autre part, d’après le lemme de Fatou,

E[|X∞|] ≤ E[lim inf|Xn|] ≤ lim infE[|Xn|] <∞,

ce qui assure que X∞ est L1 et donne l’inégalité annoncée dans le théorème.

Remarquons à présent que si (Xn) est une sous-martingale et si supE[(Xn)+] <∞, alors on a aussique supE[|Xn|] < ∞. En effet, E[Xn] = E[(Xn)+] − E[(Xn)−] et d’autre part, E[Xn] ≥ E[X0], doncE[(Xk)−] ≤ supE[(Xn)+] − E[X0] et ce pour tout entier k. En particulier, une telle sous-martingaleconverge presque sûrement. Par conséquent, une sous-martingale négative converge presque sûrement etil en va de même pour une sur-martingale positive. On en déduit le théorème suivant.

Théorème 3.2.3. — Une martingale positive converge presque sûrement vers une variable aléatoireintégrable.

— Une sur-martingale positive converge presque sûrement vers une variable aléatoire intégrable.— Une sous-martingale négative converge presque sûrement vers une variable aléatoire intégrable.

Il découle également du lemme de Fatou conditionnel que si (Xn) est une sur-martingale positive outelle que supE[(Xn)−] <∞, alors en notant X∞ sa limite presque sûre, Xn ≥ E[X∞|Fn].

On peut en tirer une conséquence immédiate. On rappelle que si (Xn) est un processus de branchementde moyennem, alors (Xnmn ) est une martingale. Cette martingale est positive et on déduit de ce qui précèdeque (Xnmn ) converge presque sûrement vers une variable aléatoire intégrable X∞. Selon la position de mpar rapport à 1, on en déduit la survie ou l’extinction de (Xn).

Passons maintenant à l’étude de la convergence des martingales dans les espaces Lp. Commençonspar nous intéresser aux martingales L2.

Lemme 3.2.4. Soit (Xn) une martingale telle que Xn ∈ L2 pour tout n ∈ N, alors

E[X2n] = E[X2

0 ] +n∑k=1

E[(Xk)−Xk−1)2].

Démonstration. On constate que X2n+1 = (Xn+Xn+1−Xn)2 = X2

n+(Xn+1−Xn)2 +2Xn(Xn+1−Xn).Il suffit donc de prouver que E[Xn(Xn+1 −Xn)] = 0. Or la variable Xn(Xn+1 −Xn) est L1, on a doncE[Xn(Xn+1 −Xn)] = E[E[Xn(Xn+1 −Xn)|Fn]] = E[XnE[Xn+1 −Xn|Fn]] = 0.

On en déduit que si (Xn) est une martingale L2, alors (Xn) est bornée dans L2 si et seulement si lasérie

∑E[(Xn+1 −Xn)2] converge.

Théorème 3.2.5. Soit (Xn) une martingale L2. On suppose que supE[X2n] <∞. Alors (Xn) converge

vers une variable aléatoire X∞ dans L2.

Démonstration. Puisque (Xn) est une martingale bornée dans L2 donc dans L1, elle converge presquesûrement vers une variable X∞ ∈ L1. D’après le lemme précédent, on a

E[X2n+p −X2

n] =

n+p∑k=n+1

E[(Xk −Xk−1)2]

et puisque la série∑

E[(Xn+1 −Xn)2] converge, on obtient que (Xn) est une suite de Cauchy dans L2,ce qui assure que X∞ est L2 et qu’il y a convergence dans L2.

La convergence dans L1 est plus difficile à obtenir. Intéressons nous pour l’instant à la convergencedans Lp pour p > 1. On va généraliser le résultat qu’on vient de donner pour les martingales L2.

Lemme 3.2.6. Soit (Xn) une sous-martingale et soient S et T deux temps d’arrêts. On suppose queS ≤ T presque sûrement et que T est presque sûrement borné. Alors, E[XS ] ≤ E[XT ].

Démonstration. Puisque T est bornée presque sûrement, XS et XT sont dans L1. On réintroduit leprocessus (Cn) défini par Cn = 1S≤n−1−1T≤n−1. C’est un processus prévisible et si N est un entiertel que T ≤ N presque sûrement, alors (C ·X)N = XT −XS . Or (Xn) est une sous-martingale et (Cn)est un processus prévisible borné et positif, donc E[(C ·X)n] ≥ 0, i.e. E[XT ] ≥ E[XS ].

Page 28: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 28

Lemme 3.2.7 (inégalité maximale de Doob). Soit (Xn) une sous-martingale. Pour n ∈ N, on poseXn = sup0≤k≤nXk. Soit a > 0 un réel, alors aP(Xn ≥ a) ≤ E[Xn1Xn≥a].

Remarque. Notons qu’en particulier, aP(Xn ≥ a) ≤ E[X+n ] ≤ E[|Xn|]. C’est une généralisation de

l’inégalité de Markov.

Démonstration. Notons T = infn ≥ 0, Xn ≥ a. Puisque n et n ∧ T sont des temps d’arrêts bornés, onpeut appliquer le lemme précédent pour obtenir E[Xn∧T ] ≤ E[Xn]. Or, Xn∧T ≤ a1Xn≥a+Xn1Xn<a,donc E[Xn∧T ] ≥ aP(Xn ≥ a) + E[Xn1Xn<a]. Finalement, aP(Xn ≥ a) ≤ E[Xn(1− 1Xn<a].

Lemme 3.2.8. Soit (Xn) une sous-martingale positive. Alors, en notant Xn = sup0≤k≤nXk, pour toutentier n ≥ 0 et tout réel p > 1, E[X

p

n] ≤Ä

pp−1

äpE[Xp

n].

Démonstration. Rappelons que si Z est une variable aléatoire positive, alors

E[Z] =

∫ ∞0

P(Z ≥ x)dx = E[

∫ ∞0

1Z≥xdx] = E[

∫ Z

0

dx].

Par un changement de variable, on a donc

E[Zp] = E[p

∫ Z

0

xp−1dx] = p

∫ ∞0

xp−1P(Z ≥ x)dx.

On a utilisé deux fois le théorème de Fubini pour les fonctions positives. On obtient donc ici

E[Xp

n] = p

∫ ∞0

xp−1P(Xn ≥ x)dx ≤ p∫ ∞

0

xp−2E[Xn1Xn≥x]dx = pE[Xn(

∫ Xn

0

xp−2dx)],

en utilisant le lemme précédent pour la dernière inégalité. On en déduit (à nouveau à l’aide le théorèmede Fubini) que

E[Xp

n] ≤ pE[Xn(

∫ Xn

0

xp−2dx)] =p

p− 1E[(Xn)p−1Xn].

Notons q l’exposant conjugué de p, i.e. 1 = 1/p+ 1/q et pq = p+ q. Alors, à l’aide l’inégalité de Hölder,on obtient

E[Xp

n] ≤ p

p− 1E[X

p

n]1/qE[Xpn]1/p

et doncE[X

p

n]1/p ≤ p

p− 1E[Xp

n]1/p,

ce qui permet de conclure.

Remarque. Si (Yn) est une martingale, on note Yn = sup0≤k≤n|Yk|. Alors, en appliquant le lemmeprécédent à Xn = |Yn|, on obtient

E[Y pn ] ≤Å

p

p− 1

ãpE[|Yn|p].

On peut maintenant énoncer le théorème de convergence Lp.

Théorème 3.2.9. Soit (Xn) une martingale bornée dans Lp, p > 1. Alors il existe une variable aléatoireX∞ ∈ Lp telle que Xn converge presque sûrement et dans Lp vers X∞.

D’autre part, E[|X∞|p] = supE[|Xn|p]. Si on note X∞ = sup|Xn|, alors X∞ est également dans Lp

et E[|X∞|p] ≤Ä

pp−1

äpE[|X∞|p].

Enfin, Xn est une martingale fermée par X∞, i.e. Xn = E[X∞|Fn].

Démonstration. Puisque (Xn) est une martingale bornée dans Lp, donc dans L1, elle converge presquesûrement vers une variable X∞ ∈ L1. D’autre part, si on note Xn = sup0≤k≤n|Xk|, X∞ = limXn, doncpar convergence monotone Lp, on a X∞ ∈ Lp et Xn converge vers X∞ dans Lp. Ainsi, d’après le lemmeprécédent,

E[Xp∞] ≤

Åp

p− 1

ãpsupE[|Xn|p].

Page 29: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 29

Or, |Xn−X∞|p ≤ (|Xn|+|X∞|)p ≤ 2pXp∞. On en déduit donc que X∞ ∈ Lp, et par convergence dominée

Lp, que Xn converge vers X∞ dans Lp. On en déduit également que

E[|X∞|p] ≤Å

p

p− 1

ãpE[|X∞|p].

D’autre part, puisque |Xn|p est une sous-martingale, la suite (E[|Xn|p]) est croissante, donc parconvergence Lp, E[|Xp

∞] = lim|Xn| = sup|Xn|.Enfin, notons que l’application Y 7→ E[Y |Fn] 1-lipschitzienne dans L1. Ainsi,

E[|E[X∞|Fn]− E[Xm|Fn]|] ≤ ‖X∞ −Xm‖L1

et Xm converge vers X∞ dans Lp donc dans L1. Ainsi, E[Xm|Fn] converge vers E[X∞|Fn]. Or (Xn) estune martingale, donc Xn = E[Xm|Fn] pour m ≥ n+ 1. On obtient donc le dernier résultat du théorème,à savoir Xn = E[X∞|Fn].

Pour attaquer l’étude de la convergence L1 des martingales, on s’intéresse à présent à la conditiond’uniforme intégrabilité.

Définition 3.2.1. Soit Γ une partie de L1(Ω,F ,P). On dit que Γ est uniformément intégrable si pourtout réel ε > 0, il existe un réel K tel que pour toute variable aléatoire X ∈ Γ, E[|X|1|X|>K] ≤ ε.

C’est équivalent à demander que la limite pour k → ∞ de supX∈ΓE[|X|1|X|>k] soit nulle. Onremarque que si Γ est une partie de L1 uniformément bornée, au sens où il existe un réel K0 tel que pourtoute variable aléatoire X ∈ Γ, |X| ≤ K0 presque sûrement, alors Γ est uniformément intégrable.

Exemple. — L’exemple le plus simple est celui d’un singleton. Si X ∈ L1, alors X est unifor-mément intégrable. En effet, par convergence dominée, E[|X|1|X|>k] tend vers 0 lorsque k tendvers l’infini. De même, si Γ est finie, alors Γ est uniformément intégrable.

— Soit Y ∈ L1, alors l’ensemble X ∈ L1, |X| ≤ Y est uniformément intégrable.— Tout sous-ensemble borné de Lp est uniformément intégrable (exercice). Par sous-ensemble borné,

on entend de norme Lp bornée.

Lemme 3.2.10. Soit Γ une partie de L1(Ω,F ,P). On suppose qu’il existe une fonction φ : R+ → R+

telle que φ(x)x tend vers l’infini lorsque x tend vers l’infini et telle que supX∈ΓE[φ(|X|)] <∞. Alors Γ

est uniformément intégrable.

Démonstration. On note M < ∞ la borne supérieure de E[φ(|X|)] pour X ∈ Γ. Soit ε > 0, alors ilexiste K ∈ R tel que φ(x) ≥ M

ε × x pour x ≥ K. La variable aléatoire |X|1|X|>K est donc plus petiteque ε

M φ(|X|) et donc E[|X|1|X|>K] ≤ εME[φ(|X|)] ≤ ε pour X ∈ Γ, ce qui permet de conclure.

La caractérisation des parties uniformément intégrables suivante est bien utile.

Proposition 3.2.11. Soit Γ une partie bornée de L1, i.e. de norme L1 bornée. Alors Γ est uniformémentintégrable si et seulement si

∀ε > 0,∃δ > 0,∀A ∈ F ,P(A) < δ ⇒ supX∈ΓE[|X|1A] ≤ ε.

Démonstration. Soit Γ une partie bornée de L1. Supposons Γ uniformément intégrable. Soit ε > 0 etsoit a > 0 tel que supX∈ΓE[|X|1|X|>a] ≤ ε

2 . Posons δ = ε2a . Soit A ∈ F avec P(A) < δ. Alors

E[|X|1A] ≤ E[|X|1A∩|X|≤a] + E[|X|1A∩|X|>a] ≤ aP(A) + ε2 ≤ ε. Récriproquement, supposons la

propriété énoncée vérifiée. Alors, puisque Γ est borné dans L1, on dispose de C <∞ tel que C ≥ E[|X|]pour X ∈ Γ. Soit a > 0 et soit X ∈ Γ. Par l’inégalité de Markov, on a P(|X| ≥ a) ≤ C

a . Soit alors ε > 0

et δ comme dans la propriété énoncée. Alors pour a tel que Ca ≤ δ, on a E[|X|1|X|>a] ≤ ε et ce pour

tout X ∈ Γ, ce qui permet de conclure.

On remarque par ailleurs qu’une famille uniformément intégrable est une partie bornée de L1. Eneffet, il suffit de voir que E[|X|1|X|≥a] ≤ 1 pour un certain a et pour toutX dans la partie uniformémentintégrable. Les conséquences de cette proposition sont nombreuses. On va en particulier en déduire unecaractérisation de la convergence L1 des martingales.

Proposition 3.2.12. Soit X ∈ L1, alors Γ = E[X|G],G sous-tribu de F est une partie uniformémentintégrable de L1(Ω,F ,P).

Page 30: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 30

Démonstration. La partie Γ est bornée dans L1 puisque ‖E[X|G]‖L1 ≤ ‖X‖L1 pour toute sous-tribu Gde F . D’autre part, soit ε > 0 et soit a > 0, alors

E[|E[X|G]|1|E[XG]|>a] ≤ E[E[|X||G]1|E[X|G]|>a],

doncE[|E[X|G]|1|E[XG]|>a] ≤ E[|X|1|E[X|G]|>a].

Or, d’après l’inégalité de Markov,

P(|E[X|G]| > a) ≤ 1

aE[|E[X|G]|] ≤ 1

aE[E[|X||G]] =

1

aE[|X|].

Considérons un module d’uniforme intégrabilité δ pour la partie X et pour ε. Soit a > 0 suffisammentgrand pour que 1

aE[|X|] < δ. Alors P(|E[X|G]| > a) ≤ δ, donc

E[|E[X|G]|1|E[XG]|>a] ≤ E[|X|1|E[X|G]|>a] ≤ ε,

ce qui permet de conclure.

Proposition 3.2.13. Soit (Xn) un processus aléatoire avec Xn ∈ L1. On suppose que (Xn) convergeen probabilité vers une variable aléatoire X∞ ∈ L1. Alors (Xn) converge vers X∞ en norme L1 si etseulement si Xn est uniformément intégrable.

Démonstration. Supposons que (Xn) converge vers X∞ en norme L1. Soit ε > 0. Alors il existe N ∈ N telque pour n ≥ N , ‖Xn −XN‖L1 ≤ ε

2 . D’autre part, la famille Xn est bornée dans L1 et la famille finieX0, ..., XN est uniformément intégrable, donc par ce qui précède, il existe δ > 0 tel que si P(A) < δ,E[|Xk|1A] < ε

2 pour 0 ≤ k ≤ N . Enfin, en combinant les deux inégalités, on obtient pour n ≥ N ,E[|Xn|1A] ≤ E[|XN |1A] + E[|Xn −XN |] ≤ ε, ce qui permet de conclure.

Réciproquement, supposons que Xn soit uniformément intégrable. Alors Xn est bornée en normeL1, donc il en va de même pour la partie Xn−Xm. On en déduit que la partie Xn−Xm est elle aussiuniformément intégrable. Soit alors ε > 0. Il existe un réel K tel que E[|Xn −Xm|1|Xn−Xm|≥K] ≤ ε.Ainsi, on a la majoration suivante :

E[|Xn−Xm|] ≤ E[|Xn−Xm|1|Xn−Xm|≤ε]+E[|Xn−Xm|1ε≤|Xn−Xm|≤a]+E[|Xn−Xm|1a≤|Xn−Xm|].

Le premier et le dernier terme dans la somme à droite sont majorés eux-mêmes par ε. Quant à celui dumilieu, il est majoré par aP(|Xn − Xm| ≥ ε). Ce terme tend vers 0 quand n et m tendent vers l’infinid’après la convergence en probabilité de (Xn) vers X∞. On en déduit que la suite (Xn) est de Cauchydans L1, donc par complétude converge vers une variable aléatoire X ′∞. Enfin, nécessairement X ′∞ = X∞puisque la convergence L1 implique la convergence en probabilité (et que la topologie de la convergenceen probabilité est séparée).

Théorème 3.2.14. Soit (Xn) une martingale. Alors les conditions suivantes sont équivalentes :— Xn est uniformément intégrable,— (Xn) converge presque sûrement et dans L1 vers une variable aléatoire X∞ ∈ L1,— (Xn) converge dans L1 vers une variable aléatoire X∞ ∈ L1,— (Xn) converge dans L1 vers une variable aléatoire X∞ ∈ L1 et Xn = E[X∞|Fn].— (Xn) est fermée, i.e. il existe une variable aléatoire X∞ ∈ L1 telle que Xn = E[X∞|Fn].

Démonstration. Supposons que Xn est uniformément intégrable. Alors en particulier, Xn est bornéedans L1. Puisque c’est une martingale, (Xn) converge presque sûrement vers une variable aléatoire X∞qui est L1. En particulier, elle converge en probabilité vers X∞, donc d’après la proposition précédente,elle converge en norme L1. Réciproquement, si (Xn) converge en norme L1, alors Xn est uniformémentintégrable, toujours par la proposition précédente.

D’autre part, si (Xn) converge en norme L1, alors elle est de norme L1 bornée donc converge presquesûrement vers une variable X∞ ∈ L1. Les deux limites sont alors les mêmes, car la convergence L1

implique la convergence presque sûre le long d’une sous-suite. On a donc montré que les trois premièresassertions sont équivalentes.

Supposons à présent que (Xn) converge en norme L1 vers une variable aléatoireX∞. Pourm ≥ n deuxentiers, on a Xn = E[Xm|Fn]. Or, l’application Y 7→ E[Y |G] est une contraction dans l’espace L1. Enparticulier, c’est une application continue et donc E[Xm|Fn] converge vers E[X∞|Fn]. On a donc montré

Page 31: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 31

que les quatre premières assertions sont équivalentes. On a de plus montré que les quatres premièresassertions impliquent la dernière.

Enfin, supposons que (Xn) soit une martingale fermée. Alors, la famille Xn est une sous-famillede E[X|G],G sous-tribu de F donc est uniformément intégrable. Finalement, les cinq assertions sontéquivalentes.

3.3 Quelques résultats sur les temps d’arrêtsDans toute cette partie, si Fn est une filtration d’une tribu F , si (Xn) est un processus adapté à

valeurs réelles qui converge presque sûrement vers une variable aléatoire X∞ et si T est un temps d’arrêt,on note

XT :=∞∑n=0

1T=nXn + 1T=∞X∞.

Proposition 3.3.1. Avec ces notations, XT est FT -mesurable.

Démonstration. En effet, XT ∈ B∩T = n = Xn ∈ B∩T = n ∈ Fn pour B un borélien réel.

Théorème 3.3.2. Soit (Xn) une martingale uniformément intégrable et soient S et T deux temps d’arrêt.Alors,

— XT ∈ L1, XT = E[X∞|FT ] et E[|XT |] ≤ E[|X∞|],— ∀n ∈ N, E[XT ] = E[X∞] = E[Xn],— Si S ≤ T , alors XS = E[XT |FS ].

Démonstration. Tout d’abord, XT ∈ L1. En effet, puisque Xn est une martingale uniformément inté-grable, Xn = E[X∞|Fn]. Donc E[|Xn|] ≤ E[|X∞|] et donc E[|XT |] ≤ E[|X∞|] <∞.

Montrons alors que XT = E[X∞|FT ]. Soit A ∈ FT . Puisque XT et X∞ sont L1, les interversionssommes espérances qui vont suivre sont justifiées. On a

E[1AXT ] =∑n∈N

E[1A∩T=nXT ] + E[1A∩T=∞X∞] =∑n∈N

E[1A∩T=nE[X∞|Fn]] + E[1A∩T=∞X∞].

Or, par définition de FT , dans la somme, les événements A∩T = n sont Fn-mesurables. On en déduitque

E[1AXT ] =∑n∈N

E[E[1A∩T=nX∞|Fn]] + E[1A∩T=∞X∞] =∑

n∈N∪∞

E[1A∩T=nX∞] = E[1AX∞].

Ainsi, par définition de l’espérance conditionnelle, XT = E[X∞|FT ]. Le deuxième point est une consé-quence immédiate du premier. Enfin, le troisième point découle du faite que si S ≤ T , alors FS ⊂ FT .

On peut faire deux remarques à propos de ce théorème. Tout d’abord, dans le cas où (Xn) est unemartingale uniformément intégrable, puisque la limite X∞ est intégrable, la famille

XT , T est un temps d’arrêt

est uniformément intégrable, en tant que sous-famille de

E[X|G],G sous-tribu de F.

D’autre part, si (Xn) est une martingale, non nécessairement uniformément intégrable et que N est unentier fixé, alors (Xn∧N ) est une martingale uniformément intégrable sur laquelle on peut appliquer lethéorème.

Donnons à présent un deuxième résultat sur les temps d’arrêt.

Théorème 3.3.3. Soit (Xn) une sur-martingale et soit T un temps d’arrêt. Si (Xn) est positive ou biensi (Xn) est uniformément intégrable, alors XT est intégrable. D’autre part, si S ≤ T est un autre tempsd’arrêt, alors dans le cas où (Xn) est uniformément intégrable, on a XS ≥ E[XT |FS ] et dans le cas où(Xn) est positive, on a 1S<∞XS ≥ E[1T<∞XT |FS ].

Page 32: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 32

Démonstration. Plaçons tout d’abord dans le cas où (Xn) est une sur-martingale positive. Alors, parle lemme de Fatou, pour tout N ∈ N, on a E[XT ] ≤ lim inf E[XT∧k]. Puisque T ∧ k est un tempsborné, on obtient donc E[XT ] ≤ E[X0], donc XT est L1. Soit alors S ≤ T . On notera XS := 1S<∞XS

et XT := 1T<∞XT . On suppose dans un premier temps que T est presque sûrement borné, disonspar un entier N . On rappelle qu’on a montré que si (Xn) est une sous-martingale, S ≤ T deux tempsd’arrêts presque sûrement bornés, alors E[XS ] ≤ E[XT ]. On a donc ici ((Xn) est une sur-martingale)E[XS ] ≥ E[XT ]. Soit alors A ∈ FS . Puisque S ≤ T , A ∈ FT . On conditionne les temps d’arrêts par A.Explicitement, on définit SA(ω) = S(ω) si ω ∈ A et SA(ω) = N sinon. De même, on définit TA. PuisqueTA et SA sont aussi bornés par N , on obtient E[XSA ] ≥ E[XTA ], soit E[XS1A] ≥ E[XT1A].

À présent, si S ≤ T sont quelconques (non bornés), on pose Sk = S ∧ k, Tk = T ∧ k. Soit B ∈ FS , onpose A := B ∩ S ≤ k. Alors, par ce qui précède,

E[XSk ]1A] ≥ E[XTk1A] ≥ E[XTk1B∩T≤k].

En effet, T ≤ k ⊂ S ≤ k. Or, XSk = XS sur S ≤ k et de même pour T , donc on réécrit cettedernière inégalité

E[XS1B∩S≤k] ≥ E[XT1B∩T≤k].

Alors, par simple convergence dominée, en passant à la limite on obtient

E[XS1B∩S<∞] ≥ E[XT1B∩T<∞],

soitE[XS1B ] ≥ E[XT1B ].

Enfin, puisque B ∈ FS , E[XT1B ] = E[E[XT |FS ]1B ] et puisque XS est FS mesurable, on conclut de toutceci que XS ≥ E[XT |1B ], soit ce que l’on voulait démontrer.

Plaçons nous maintenant dans le cas où la famille Xn est uniformément intégrable. Dans ce cas,comme pour les martingales, on obtient que la famille est bornée dans L1 donc converge presque sûrement,donc en probabilité vers une variable X∞, donc converge dans L1 vers X∞. Puis, comme (Xn) est unesur-martingale, Xn ≥ E[Xm|Fn] pour m ≥ n, donc Xn ≥ E[X∞|Fn]. Posons alors Zn = E[X∞|Fn],de sorte que Yn := Xn − Zn soit une sur-martingale positive. Alors (Zn) est une martingale fermée quiconverge presque sûrement vers X∞, donc Yn converge presque sûrement vers Y∞ = 0. On note queYT = XT − ZT et que par le premier cas qu’on a traité, YT est L1. Puisqu’il en va de même de ZT (carZn est une martingale fermée), on obtient que XT est L1.

Supposons maintenant que S ≤ T sont deux temps d’arrêt. Alors (Yn) est une sur-martingale positiveet Y∞ = 0, donc les fonctions indicatrices des ensembles S <∞ et T <∞ sont superflues dans l’in-égalité 1S<∞YS ≥ E[1T<∞XT |FS qui provient du premier cas traité. En particulier, YS ≥ E[XT |FS ]et puisque (Zn) est une martingale fermée, ZS = E[ZT |FS ]. Ainsi, on obtient bien XS ≥ E[XT |FS ].

3.4 Martingales rétrogradesPassons maintenant à la dernière partie de ce cours qui concerne les martingales rétrogrades. Si F est

une tribu, une filtration rétrograde de F est une suite indexée par −N (Fn) où Fn est une sous-tribude F et pour tous n ≤ m ≤ 0, Fn ⊂ Fm. On pose dans ce cas F−∞ :=

⋂n∈−N

Fn. Soit (Xn) un processus

aléatoire indexé par −N. Il est dit adapté à la filtration rétrograde Fn siXn est Fn-mesurable. On dit alorsque (Xn) est une martingale rétrograde si Xn ∈ L1 et si pour tous n ≤ m ≤ 0, Xn = E[Xm|Fn]. Ondéfinit aussi exactement comme avant les sur-martingales rétrogrades et les sous-martingales rétrogrades.

Théorème 3.4.1. Soit (Xn) une sur-martingale rétrograde. On suppose que (Xn) est bornée dans L1.Alors, la famille (Xn) est uniformément intégrable. De plus, il existe une variable aléatoire X−∞ ∈ L1

telle que Xn converge presque sûrement et dans L1 vers X−∞ lorsque −n tend vers l’infini. Enfin, pourtout n ∈ −N, E[Xn|F−∞] ≤ X−∞.

Démonstration. Soit k ≥ 1 un entier positif fixé. On pose Xkm = X−k+m et Fkm = Fkm, pour m un entier

compris entre 0 et k. Si m > k, on pose Xkm = X0 et Fkm = F0. Alors (Xk

m)m∈N est une sur-martingalepour la filtration Fkm.

On va utiliser la méthode des montées de Doob pour montrer que (Xn) converge vers X−∞. Onreprend les mêmes notations qu’au début du paragraphe sur la convergence des martingales (3.2). Puisque(−Xk

m)m∈N est une sous-martingale, si a < b, on a

(b− a)E[Uk([a, b]] ≤ E[(−Xkk − a)+] = E[(−X0 − a)+] ≤ |a|+ E[|X0|].

Page 33: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

3 MARTINGALES 33

Or, on a que la limite de Uk[a, b], lorsque k tend vers l’infini, est

U [a, b] := supk ∈ N,∃m1 < n1 < ... < mk < nk ≤ 0,−Xmj ≤ a,−Xnj ≥ b, j ∈ 1, ..., k.

C’est le nombre total de montées de la suite (−Xn) le long de [a, b].Par convergence monotone, on a donc (b− a)E[U([a, b]] ≤ |a|+ E[|X0|] <∞. Donc, pour tout a < b,

N [a, b] est fini presque sûrement et donc Xn converge presque sûrement vers une variable aléatoire X−∞.D’autre part, le lemme de Fatou donne que X−∞ est L1.

On montre à présent que la famille est uniformément intégrable. Soit ε > 0. La suite (E[X−n])n∈N estcroissante et majorée (puisque Xn est bornée dans L1). Donc il existe k ≤ 0, tel que pour tout n ≤ k,E[Xn] ≤ E[Xk] + ε

2 . En tant que famille finie, Xk, ..., X0 est uniformément intégrable, donc il existea > 0 tel que pour tout k ≤ n ≤ 0, E[|Xn|1|Xn|>a] < ε. Choisissons, par uniforme intégrabilité de Xkun nombre δ > 0 tel que pour tout événement A ∈ F tel que P(A) < δ, E[|Xk|1A] < ε

2 . Soit alors n < k,on a

E[|Xn|1|Xn|>a] = E[Xn1Xn>a] + E[−Xn1Xn<−a] = E[Xn]− E[Xn1Xn≤a]− E[Xn1Xn<−a].

On introduit alors Xk :

E[|Xn|1|Xn|>a] ≤ E[Xk] +ε

2− E[E[Xk|Fn]1Xn≤a]− E[E[Xk|Fn]1Xn<−a].

Or, puisque Xn < −a et Xn ≤ a sont Fn-mesurables, on en déduit que

E[|Xn|1|Xn|>a] ≤ E[Xk]−E[Xk1Xn≤a]−E[Xk1Xn<−a]+ε

2= E[Xk1Xn>a]−E[Xk1Xn<−a]+

ε

2.

Donc finalement,E[|Xn|1|Xn|>a] ≤ E[|Xk|1|Xn|>a] +

ε

2.

Alors, en utilisant l’inégalité de Markov, P(|Xn| > a) ≤ Ca (où C est une borne pour les normes L1

de la famille (Xn) par exemple). Ainsi, en choisissant a tel que C < δa, on obtient que pour n < k,E[|Xn|1|Xn|<a] < ε, ce qui permet de conclure, puisque le cas n ≥ k est déjà réglé.

Puisque (Xn) et uniformément intégrable et que (Xn) converge presque sûrement vers X−∞, doncen particulier en probabilité, (Xn) converge en norme L1 vers X−∞.

Enfin, soient n ∈ −N et A ∈ F−∞. Alors, pourm ≤ n, E[Xn1A] ≤ E[E[Xm|Fn]1A] ≤ E[Xm1A]. DoncE[E[Xn|F−∞]1A] ≤ E[Xm1A]. Donc, E[E[Xn|F−∞]1A] ≤ E[X−∞1A]. Enfin, X−∞ est F−∞-mesurabledonc on obtient au final E[Xn|F∞] ≤ X−∞.

À noter que les martingales rétrogrades sont un outil puissant. On peut par exemple montrer la loiforte des grands nombres assez facilement (voir par exemple [3], fin du chapitre 12). On conseille lalecture de [4] pour beaucoup d’autres applications des martingales à la théorie des probabilités et à lathéorie de la mesure.

ConclusionOn a étudié dans ce cours deux type de processus aléatoires, les chaînes de Markov et les martingales.

Ces deux processus doivent être considérés comme complémentaires plutôt que distincts. On a vu àplusieurs reprises que l’on pouvait adopter différents points de vue pour traiter un problème "aléatoire".Typiquement, une marche aléatoire est une chaîne de Markov, mais on peut aussi la voir comme unemartingale, ce qui donne des informations sur sa convergence. Un autre exemple qu’on a traité dans lecours est celui du paradoxe du singe savant.

Les chaînes de Markov et les martingales sont deux pierres d’angles à la base de nombreuses théoriesprobabilistes. Ce sont également des outils puissants. Par exemple, les martingales donnent souvent desrésultats de convergence. À nouveau, on recommande chaudement la lecture de [4].

Une première suite logique pour ce cours serait une étude approfondie des marches aléatoires. On a vutrès brièvement qu’on pouvait considérer des marches aléatoires dans des groupes. Étudier ces marchesaléatoires donne bien souvent des informations sur le groupe lui-même. C’est un sujet très riche car ilmêle des problématiques géométriques, dynamiques et probabilistes entre autres.

Une autre suite logique, plus probabiliste, serait l’étude de processus aléatoires à temps continu. C’estpar exemple, dans [3], la suite des chapitres qui concernent les chaînes de Markov et les martingales. C’estégalement le cas de nombreuses autres références. On pourrait notamment s’intéresser au mouvementBrownien, dans l’étude duquel on retrouve les martingales.

Page 34: Probabilités avancées Cours de Master Avancé 1, ENS LyonExemple. Considérons la chaîne de Markov à deux états aet bde matrice de transition définie par Q= † 1 1 ‰, avec

RÉFÉRENCES 34

Références[1] Philippe Barbé et Michel Ledoux. Probabilités. EDP sciences, 2007.

[2] Joseph Doob. Stochastic processes. Wiley, 1953.

[3] Jean-François Le Gall. Intégrations, probabilités et processus aléatoires. https ://www.math.u-psud.fr/ jflegall/teaching.html. 2006.

[4] David Williams. Probability with martingales. Cambridge mathematical textbooks, 1991.