Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . ....

182
Université Rennes 2 Licence MASS 3 Espérance conditionnelle & Chaînes de Markov Arnaud Guyader

Transcript of Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . ....

Page 1: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Université Rennes 2Licence MASS 3

Espérance conditionnelle

&

Chaînes de Markov

Arnaud Guyader

Page 2: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .
Page 3: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Table des matières

1 Espérance conditionnelle 11.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Cas absolument continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.2 La régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4 Interprétation géométrique de l’espérance conditionnelle . . . . . . . . . . . . . . . 201.5 Espérance conditionnelle : le cas général . . . . . . . . . . . . . . . . . . . . . . . . 271.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 Vecteurs gaussiens et conditionnement 632.1 Rappels sur les vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.1.1 Variables gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632.1.2 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.2 Conditionnement des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . 782.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 782.2.2 Hyperplan de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 802.2.3 Espérance conditionnelle gaussienne . . . . . . . . . . . . . . . . . . . . . . 83

2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3 Chaînes de Markov 1133.1 Définition d’une chaîne de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 1133.2 Equations de Chapman-Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . 1153.3 Classification des états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1193.4 Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1233.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

A Annales 147

i

Page 4: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .
Page 5: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Chapitre 1

Espérance conditionnelle

Introduction

L’espérance conditionnelle est un outil d’usage constant en probabilités et statistiques. Néanmoins,sa définition dans le cas général n’est pas simple. C’est pourquoi ce chapitre présente l’idée parétapes et de façon intuitive : cas discret, cas absolument continu, interprétation géométrique dansL2 et enfin extension à L1.

1.1 Cas discret

On considère un couple aléatoire discret (X,Y ), c’est-à-dire une application mesurable

(X,Y ) :

(Ω,F ,P) → X × Y

ω 7→ (X(ω), Y (ω))

avec les ensembles X = (xi)i∈I et Y = (yj)j∈J au plus dénombrables (i.e. finis ou dénombrables).Autrement dit, les ensembles d’indices I et J sont au plus dénombrables : penser à des ensemblesfinis, à N, à Z. Pour calculer des quantités liées à ce couple aléatoire, il faut bien sûr connaître laprobabilité de tomber sur un couple (xi, yj). Nous adoptons la notation :

pij = P(X = xi, Y = yj).

La suite double (pij)i∈I,j∈J est appelée loi jointe du couple (X,Y ). Il est clair que :

0 ≤ pij ≤ 1∑i∈I,j∈J pij = 1

Exemple. On tire deux chiffres au hasard, indépendamment et de façon équiprobable entre 1 et3. Soit X le maximum des chiffres obtenus et Y la somme des chiffres obtenus. La loi jointe ducouple (X,Y ) se représente sous forme d’un tableau (voir figure 1.1).

Définition 1 (Lois marginales)Soit (X,Y ) un couple aléatoire. Les variables aléatoires X et Y sont dites marginales. La loi deX, dite loi marginale, est entièrement déterminée par les probabilités pi. de tomber sur les pointsxi :

pi. = P(X = xi) =∑

j∈JP(X = xi, Y = yj) =

j∈Jpij

De même pour la loi marginale de Y et les probabilités p.j de tomber sur les points yj :

p.j = P(Y = yj) =∑

i∈IP(X = xi, Y = yj) =

i∈Ipij

1

Page 6: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2 Chapitre 1. Espérance conditionnelle

1

2

3 0

0

Y

X2 3 4 5 6

0 0 0

0 0 0

0

1

9

1

9

2

9

2

9

2

9

1

9

Figure 1.1 – Loi jointe pour le max et la somme.

Exemple. Pour l’exemple précédent, on calcule aisément les lois marginales de X et Y : il suffitde sommer sur chaque ligne pour la loi de X et sur chaque colonne pour la loi de Y (voir figure1.1).

X

1

2

3

2 3 4 5 6 Y

19

29

39

49

59

Figure 1.2 – Loi jointe et lois marginales pour le max et la somme.

Achtung ! La connaissance des lois marginales ne suffit pas à déterminer la loi du couple (X,Y ).Autrement dit, on peut trouver deux couples (X1, Y1) et (X2, Y2) n’ayant pas même loi jointe, maistels que les lois de X1 et X2 soient égales, ainsi que les lois de Y1 et Y2 (cf. figure 1.3).

La situation agréable est celle où les variables marginales X et Y sont indépendantes. Celle-ci sevérifie facilement une fois connues la loi jointe et les lois marginales.

Proposition 1 (Lois marginales et indépendance)Les variables aléatoires marginales X et Y sont indépendantes si et seulement si :

∀(i, j) ∈ I × J P(X = xi, Y = yj) = P(X = xi)P(Y = yj),

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 7: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.1. Cas discret 3

1

1

2

3

2 3

0

0

0

0

0

1

4

1

4

1

4

1

4

1

1

2

3

2 3

1

8

1

8

1

8

1

8

1

16

1

16

1

16

1

16

1

4

X1

Y1 Y2

X2

Figure 1.3 – Mêmes lois marginales mais loi jointe différente.

c’est-à-dire avec nos notations : pij = pi.p.j.

Exemples :

1. Sur l’exemple précédent du max et de la somme, il est clair que X et Y ne sont pas indé-pendantes puisque par exemple :

p12 =1

96= p1. × p.2 =

1

9× 1

9=

1

81

2. Jeu de cartes : on tire une carte au hasard dans un jeu de 32 cartes. Le résultat de ce tirageest représenté par le couple aléatoire (X,Y ), où X est la couleur et Y la valeur. Autrementdit, X appartient à l’ensemble Pique, Cœur, Carreau, Trèfle et Y à l’ensemble 7, 8, 9, 10,Valet, Dame, Roi, As. Il est clair que :

∀(i, j) ∈ I × J P(X = xi, Y = yj) =1

32=

1

4× 1

8= P(X = xi)P(Y = yj),

donc X et Y sont indépendantes.

Remarque. Soit i ∈ I fixé. Notons qu’on peut avoir pij = 0, c’est-à-dire que l’événementX = xi, Y = yj ne se réalise jamais. Par contre, on exclut le cas où pi. = 0 : ceci signifie-rait que X ne prend jamais la valeur xi, auquel cas cette valeur n’aurait rien à faire dans X .

Puisque chacune des probabilités pi. est non nulle, on peut définir la probabilité conditionnelle deY = yj sachant X = xi par la formule :

pj|i = P(Y = yj|X = xi) =P(X = xi, Y = yj)

P(X = xi)=

pijpi.

Définition 2 (Probabilités conditionnelles)Soit xi ∈ X . La loi conditionnelle de Y sachant X = xi est la loi discrète prenant les valeurs yjavec les probabilités pj|i = P(Y = yj|X = xi).

Exemple : Lois de Poisson.Soit Y ∼ P(α) et Z ∼ P(β) deux variables aléatoires de Poisson indépendantes. On s’intéresse àleur somme X = Y + Z. X est bien sûr une variable aléatoire. On rappelle que Y suit une loi dePoisson de paramètre α si Y est à valeurs dans N, avec (voir aussi figure 1.4) :

∀n ∈ N P(Y = n) = e−ααn

n!.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 8: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

4 Chapitre 1. Espérance conditionnelle

0 1 2 3 4 5 6 7 8 9 10

0.00

0.04

0.08

0.12

0.16

0.20

0.24

0.28

0 4 8 12 16 20 24 28 32 36 40

0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

P(2) P(20)

Figure 1.4 – Lois de Poisson de paramètres 2 et 20.

1. Loi de X ?La variable aléatoire X est à valeurs dans N en tant que somme de variables aléatoires àvaleurs dans N. On commence par déterminer sa loi. Soit donc n ∈ N fixé, alors :

P(X = n) = P(Y + Z = n) = P

(n⋃

k=0

Y = k, Z = n− k)

=n∑

k=0

P(Y = k, Z = n− k).

Or Y et Z sont indépendantes, donc :

P(X = n) =

n∑

k=0

P(Y = k)P(Z = n−k) =

n∑

k=0

e−ααk

k!e−β βn−k

(n− k)!=

e−(α+β)

n!

n∑

k=0

(n

k

)αkβn−k,

et on reconnaît la formule du binôme :

P(X = n) = e−(α+β) (α+ β)n

n!.

C’est-à-dire que X suit une loi de Poisson de paramètre (α + β). Ce résultat se généralised’ailleurs sans problème : si les Xi ∼ P(λi) sont globalement indépendantes, alors leur sommeS suit encore une loi de Poisson :

S ∼ P(λ1 + · · ·+ λn).

D’un point de vue théorie de la mesure, on vient de montrer que le produit de convolutionde deux lois de Poisson est une loi de Poisson.

2. Loi de Y sachant X ?Soit n ∈ N, déterminons la loi de Y sachant X = n. Puisque X = Y + Z, il est clair que,sachant X = n, Y est à valeurs dans 0, 1, . . . , n. Soit donc k ∈ 0, 1, . . . , n :

P(Y = k|X = n) =P(Y = k,X = n)

P(X = n)=P(Y = k, Z = n− k)

P(X = n)=P(Y = k)P(Z = n− k)

P(X = n).

Et il suffit alors d’exprimer tout ceci grâce aux lois de Poisson, ce qui donne après simplifi-cations :

P(Y = k|X = n) =

(n

k

)(α

α+ β

)k ( β

α+ β

)n−k

.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 9: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.1. Cas discret 5

Ainsi, sachant X = n, Y suit une loi binômiale B(n, α

α+β

).

Revenons au cas général et supposons que Y soit intégrable. Si X est figée à xi, il est naturel deconsidérer la valeur moyenne de la variable aléatoire Y lorsque X = xi : c’est ce qu’on appellel’espérance conditionnelle de Y sachant X = xi. Elle s’écrit :

E[Y |X = xi] =∑

j∈Jpj|iyj

Or on sait que X prend la valeur X = xi avec la probabilité pi..

Définition 3 (Espérance conditionnelle)Supposons Y intégrable. La variable aléatoire qui prend les valeurs E[Y |X = xi] avec les probabilitéspi. est appelée espérance conditionnelle de Y sachant X et notée E[Y |X].

Nota Bene. Il faut noter qu’en général l’espérance conditionnelle E[Y |X] est une variable aléa-toire et non un nombre. On peut l’interpréter comme la valeur moyenne prise par Y lorsque l’onconnaît X. Elle pourra donc s’écrire comme une fonction de X.

Exemple. On reprend l’exemple précédent. L’espérance de Y sachant X = n est l’espérance d’uneloi binômiale B(n, α

α+β ). Donc pour tout n ≥ 0 :

E[Y |X = n] =αn

α+ β.

Puisque ceci est vrai pour tout entier naturel n, l’espérance conditionnelle de Y sachant X est :

E[Y |X] =αX

α+ β,

qui est bien une fonction de X, donc une variable aléatoire, et non un nombre.

Théorème 1 (Calcul d’espérance par conditionnement)Si Y est intégrable, alors la variable aléatoire E[Y |X] aussi et on a :

E[E[Y |X]] = E[Y ].

Exemple. Sur l’exemple précédent, les paramètres α et β étant des constantes, on peut écrire :

E[E[Y |X]] =α

α+ βE[X],

or l’espérance d’une loi de Poisson de paramètre (α+ β) est tout simplement (α+ β), donc :

E[E[Y |X]]α

α + β(α+ β) = α = E[Y ].

Preuve. C’est l’âne qui trotte :

E[E[Y |X]] =∑

i∈Ipi.E[Y |X = xi] =

i∈Ipi.

j∈Jpj|iyj

,

or pj|i =pijpi.

, donc :

E[E[Y |X]] =∑

i∈I

j∈Jpijyj

=

j∈J

(∑

i∈Ipij

)yj,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 10: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

6 Chapitre 1. Espérance conditionnelle

or, par définition, p.j =∑

i∈I pij , donc :

E[E[Y |X]] =∑

j∈Jp.jyj = E[Y ].

Remarque. Ce résultat permet souvent de calculer l’espérance de Y en deux étapes : on exprimed’abord E[Y |X] comme une fonction ϕ(X) de la variable aléatoire X. Puis, si cette fonction ϕ etla loi de X sont “assez simples”, on calcule E[ϕ(X)]. Voir par exemple les exercices ”Un dé et unepièce” et ”Somme aléatoire de variables aléatoires” en fin de chapitre.

On vient de dire que, dans le cas général, l’espérance conditionnelle E[Y |X] est une variable aléa-toire et pas un nombre. Il existe cependant un cas particulier : lorsque X et Y sont indépendantes.

Propriétés 1 (Espérance conditionnelle et indépendance)Si Y est intégrable, si X et Y sont indépendantes, alors la variable aléatoire E[Y |X] est constante,égale à E[Y ].

Preuve. Si X et Y sont indépendantes, alors pour tout couple (i, j) ∈ I × J :

pij = pi.p.j.

On en déduit que :∀(i, j) ∈ I × J pj|i = p.j,

donc pour tout xi ∈ X :

E[Y |X = xi] =∑

j∈Jpj|iyj =

j∈Jp.jyj = E[Y ],

or par définition E[Y |X] est la variable aléatoire qui prend les valeurs E[Y |X = xi] avec lesprobabilités pi.. On en déduit que E[Y |X] est la variable aléatoire constante égale à E[Y ].

Dans de nombreuses situations, on désire calculer la valeur moyenne prise par une fonction ducouple (X,Y ), c’est-à-dire :

E[h(X,Y )] =

Ωh(X,Y ) dP,

où h est une fonction de R2 dans R. Par exemple si on veut calculer la moyenne de la somme dedeux variables, ou la moyenne de leur produit.

Rappel : Théorème de transfertSous réserve d’intégrabilité, le théorème de transfert assure que l’espérance précédente s’écritcomme une somme double :

E[h(X,Y )] =∑

i∈I,j∈Jh(xi, yj)pij

Le cas simple est celui où, d’une, h se décompose en produit :

h(x, y) = f(x)g(y),

et, de deux, X et Y sont indépendantes. Dans ce cas, on a immédiatement :

E[h(X,Y )] =

(∑

i∈If(xi)pi.

)∑

j∈Jg(yj)p.j

= E[f(X)]E[g(Y )],

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 11: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.2. Cas absolument continu 7

c’est-à-dire qu’il suffit de calculer deux espérances discrètes classiques.

Dans le cas général, h ne se décompose pas aussi simplement et les variables X et Y ne sont pasindépendantes. Néanmoins, sous les hypothèses usuelles d’intégrabilité, on peut toujours écrire :

E[h(X,Y )] =∑

i∈I

j∈Jh(xi, yj)pj|i

pi. =

i∈IE[h(xi, Y )|X = xi]P(X = xi)

Ceci est une autre façon de dire que :

E[h(X,Y )] = E[E[h(X,Y )|X]]

où E[h(X,Y )|X] est la variable aléatoire qui prend les valeurs E[h(xi, Y )|X = xi] avec les proba-bilités pi.. On a ainsi ramené le calcul d’une somme double à deux calculs de sommes simples.

1.2 Cas absolument continu

Pour une variable aléatoire réelle X, les deux situations classiques sont les suivantes : X est dis-crète ou X est absolument continue, c’est-à-dire qu’elle admet une densité. Dans le paragrapheprécédent, on a vu le pendant d’une loi discrète pour un couple aléatoire. Etudions maintenantl’analogue d’une loi absolument continue pour un couple aléatoire (X,Y ) à valeurs dans R2 (ouun sous-ensemble de R2).

Par définition, la loi jointe PX,Y du couple est la mesure de probabilité sur (R2,B2) définie par :

∀B ∈ B2, PX,Y (B) = P((X,Y ) ∈ B),

que l’on peut voir comme la probabilité que le point aléatoire M de coordonnées (X,Y ) tombedans l’ensemble borélien B.

Définition 4 (Loi jointe absolument continue)On dit que la loi PX,Y est absolument continue 1 s’il existe une fonction mesurable f : (R2,B2) →(R,B) telle que :

∀B ∈ B2, PX,Y (B) =

∫∫

Bf(x, y) dx dy.

La fonction f est appelée densité de probabilité du couple (X,Y ). On la note parfois fX,Y .

Pour qu’une fonction f soit une densité de probabilité, il faut et il suffit qu’elle soit positive etintègre à 1 :

f(x, y) ≥ 0∫∫R

2 f(x, y) dx dy = 1

Remarque. En pratique, dans tout ce paragraphe, on peut faire le parallèle avec ce qui a été vudans le cas discret : il suffit de remplacer xi par x, yj par y, pij par f(x, y) et les sommes par desintégrales.

Exemple. On considère un couple (X,Y ) de densité :

f(x, y) = 2e−(x+y)10≤x≤y

1. sous-entendu : par rapport à la mesure de Lebesgue sur R2.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 12: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

8 Chapitre 1. Espérance conditionnelle

0

1

2

3

4

5

01

23

45

0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

x

z

y

Figure 1.5 – Représentation de la densité jointe f(x, y) = 2e−(x+y)10≤x≤y.

On vérifie que ceci définit bien une densité de probabilité sur R2. En effet, f est positive et par lethéorème de Fubini-Tonelli, on a pour le calcul de l’intégrale double :

R

2

f(x, y) dx dy =

∫ +∞

0

(∫ y

02e−(x+y) dx

)dy =

∫ +∞

0

(∫ +∞

x2e−(x+y) dy

)dx.

Prenons par exemple la première expression :

R

2

f(x, y) dx dy =

∫ +∞

02e−y

[−e−x

]y0dy =

∫ +∞

0(2e−y − 2e−2y) dy,

ce qui donne finalement :

R

2

f(x, y) dx dy =[−2e−y + e−2y

]+∞0

= 1.

La représentation de la densité f est donnée figure 1.5.

Comme dans le cas discret, on peut définir les lois des variables aléatoires marginales X et Y .

Proposition 2 (Lois marginales)Si le couple (X,Y ) est absolument continu, les variables marginales X et Y sont absolument conti-nues et la densité jointe f(x, y) détermine les densités marginales f(x) et f(y) :

f(x) = fX(x) =

R

f(x, y) dy & f(y) = fY (y) =

R

f(x, y) dx

Convention. Suivant le contexte, la densité marginale de X sera notée f(x) ou fX , mais rarementfX(x), qui est lourdingue. Idem pour Y .

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 13: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.2. Cas absolument continu 9

Exemple. Pour l’exemple précédent, on obtient (voir figure 1.6) :

f(x) = 2e−2x1[0,+∞[(x)

f(y) = 2e−y(1− e−y)1[0,+∞[(y)

Une fois connues les lois marginales, on peut effectuer les calculs usuels sur les variables aléa-toires absolument continues. Par exemple, sous réserve d’intégrabilité, l’espérance de X est alorssimplement :

E[X] =

R

xf(x) dx.

0 1 2 3 4 5 6

0.0

0.1

0.2

0.3

0.4

0.5

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

fX(x)

x y

fY (y)

Figure 1.6 – Représentation des densités marginales f(x) et f(y).

Chausse-trappe 2. Pour l’exemple précédent, puisque X suit une loi exponentielle E(2), on aE[X] = 1

2 . On rappelle au passage que si X ∼ E(λ), c’est-à-dire si X a pour densité :

f(x) = λe−λx1[0,+∞[(x),

alors E[X] = 1λ . Les Anglo-Saxons adoptent la convention inverse : pour eux, la variable aléatoire

T suit une loi exponentielle de paramètre θ si T a pour densité :

f(t) =1

θe−

tθ1[0,+∞[(t),

auquel cas on a bien sûr tout simplement E[T ] = θ. Lorsqu’on veut simuler des lois exponentiellesà l’aide d’un logiciel, il faut donc faire attention à la convention utilisée par celui-ci.

Dans le cas général, par définition, les variables aléatoires X et Y sont indépendantes si pour toutcouple de boréliens B et B′ de R, on a :

P(X ∈ B,Y ∈ B′) = P(X ∈ B)P(Y ∈ B′),

ou encore si pour toutes fonctions bornées (ou positives) g et h de R dans R :

E[g(X)h(Y )] = E[g(X)]E[h(Y )].

Si la loi jointe est absolument continue, l’indépendance se vérifie de façon simple.

2. Les cuistres écrivent plutôt “chausse-trape”, les deux orthographes étant acceptées.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 14: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

10 Chapitre 1. Espérance conditionnelle

Proposition 3 (Indépendance)Avec les notations précédentes, les variables aléatoires X et Y sont indépendantes si et seulementsi pour tout couple (x, y) ∈ R2 :

f(x, y) = f(x)f(y).

Exemple. Pour l’exemple précédent, X et Y ne sont pas indépendantes puisque :

f(0, 0) = 2 6= fX(0)fY (0) = 0.

Remarque. Le raisonnement sur les supports permet parfois de conclure rapidement à la non-indépendance. Le support de la loi de X est l’adhérence de l’endroit où X a des chances de tomber :

Supp(X) = Adhx ∈ R : f(x) 6= 0.

C’est généralement un intervalle fermé IX . On définit de même le support IY de la loi de Y . Maisalors, si X et Y sont indépendantes, le support du couple (X,Y ) est IX × IY , produit cartésien deIX par IY . C’est-à-dire, en général, un pavé (fermé) de R2. Donc si le support du couple (X,Y )n’est pas un pavé, X et Y ne sont pas indépendantes.

x

yy

x

Supp(X,Y )

Supp(X)×Supp(Y )

Figure 1.7 – Support du couple (X,Y ) (à gauche) et produit cartésien des supports de X et deY (à droite).

Exemple. Pour l’exemple précédent, le support de X est égal au support de Y , à savoir R+ =[0,+∞[. Donc si X et Y étaient indépendantes, le support du couple (X,Y ) serait le pavé R+×R+.Or le support de (X,Y ) est :

Supp(X,Y ) = (x, y) ∈ R2 : 0 ≤ x ≤ y 6= R+ ×R+,

donc X et Y ne sont pas indépendantes (voir figure 1.7).

On veut maintenant définir l’analogue des probabilités conditionnelles vues dans le cas discret.

Définition 5 (Lois conditionnelles)La densité conditionnelle de Y sachant X = x est :

f(y|x) = fY |X(y|x) =

f(x,y)f(x) si f(x) > 0

0 si f(x) = 0

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 15: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.2. Cas absolument continu 11

Interprétation graphique. Pour la représentation de la densité conditionnelle f(y|x0), il suffitde faire une coupe de la surface définie par la densité jointe f(x, y) par le plan d’équation x = x0.On obtient ainsi la fonction y 7→ f(x0, y) : au facteur de normalisation f(x0) près, ceci donne uneidée de la densité conditionnelle f(y|x0).

1

x

y

f(y|x)

Figure 1.8 – Densité conditionnelle f(y|x) = e−(y−x)1y≥x.

Exemple. Pour l’exemple précédent, pour tout x ≥ 0, on a :

f(y|x) = e−(y−x)1y≥x,

c’est-à-dire que, conditionnellement à X = x, Y suit une loi exponentielle de paramètre 1 transla-tée sur l’intervalle [x,+∞[. Ceci est illustré figure 1.8.

Ainsi définie, pour tout x ≥ 0, la fonction f(.|x) est une densité de probabilité, c’est-à-dire qu’elleest positive et somme à 1. Les relations déjà vues dans le cas discret entre marginales et condition-nelles sont encore valables : il suffit de remplacer les sommes discrètes par des intégrales. Ainsi ona par exemple :

f(y) =

R

f(y|x)f(x) dx.

De plus, si les variables aléatoires X et Y sont indépendantes, on a bien sûr fX|Y = fX etfY |X = fY .

On veut maintenant définir l’espérance conditionnelle. Pour x fixé, l’espérance conditionnelle deY sachant X = x est :

E[Y |X = x] =

R

yf(y|x) dy.

La fonctionϕ : x 7→ ϕ(x) = E[Y |X = x]

est une fonction réelle de la variable réelle. ϕ(X) est donc une variable aléatoire : c’est l’espéranceconditionnelle de Y sachant X.

Définition 6 (Espérance conditionnelle)La variable aléatoire qui prend les valeurs E[Y |X = x] avec la densité f(x) est appelée espéranceconditionnelle de Y sachant X et on la note E[Y |X].

Exemple. Pour l’exemple précédent, on obtient pour tout x ≥ 0 :

E[Y |X = x] = (x+ 1)1x≥0,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 16: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

12 Chapitre 1. Espérance conditionnelle

0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

Figure 1.9 – Densité de la variable aléatoire E[Y |X].

donc E[Y |X] = X + 1. Or on a vu que X ∼ E(2), donc la variable aléatoire E[Y |X] suit une loiexponentielle de paramètre 2 translatée sur l’intervalle [1,+∞[ (voir figure 1.9).

Propriétés 2 (Calcul d’espérance par conditionnement)Si Y est intégrable, alors la variable aléatoire E[Y |X] aussi et on a :

E[E[Y |X]] = E[Y ].

Preuve. La preuve est la même que dans le cas discret. La variable aléatoire E[Y |X] prend lesvaleurs E[Y |X = x] avec densité f(x), donc son espérance vaut :

E[E[Y |X]] =

R

E[Y |X = x]f(x) dx =

R

(∫

R

yf(y|x) dy)f(x) dx,

donc d’après le théorème de Fubini :

E[E[Y |X]] =

R

y

(∫

R

f(y|x)f(x) dx)

dy,

et puisque f(y) =∫R

f(y|x)f(x) dx, on retrouve bien :

E[E[Y |X]] =

R

yf(y) dy = E[Y ].

Exemple. Pour l’exemple précédent, on a obtenu E[Y |X] = X + 1, avec X ∼ E(2), d’où :

E[Y ] = E[X + 1] = E[X] + 1 =3

2,

résultat que l’on retrouve bien en considérant la loi marginale de Y :

E[Y ] =

R

yf(y) dy =

R

+

y(2e−y − 2e−2y) dy = 2− 1

2=

3

2.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 17: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.2. Cas absolument continu 13

Dans le cas général, on retrouve alors pour les couples absolument continus les propriétés vues pourles couples discrets. On commence par définir l’espérance conditionnelle d’un couple sachant l’unedes variables. Soit h : R2 → R une fonction, l’espérance mathématique de la variable aléatoireh(X,Y ) est définie si : ∫

R

2

|h(x, y)|f(x, y) dx dy < +∞,

auquel cas elle vaut :

E[h(X,Y )] =

R

2

h(x, y)f(x, y) dx dy,

que l’on peut encore écrire :

E[h(X,Y )] =

R

(∫

R

h(x, y)f(y|x) dy)f(x) dx.

La définition suivante est alors naturelle.

Définition 7 (Espérance conditionnelle d’un couple)L’espérance conditionnelle de h(X,Y ) sachant X = x est :

E[h(X,Y )|X = x] =

R

h(x, y)f(y|x) dy = E[h(x, Y )|X = x].

L’espérance conditionnelle de h(X,Y ) sachant X, notée E[h(X,Y )|X], est la variable aléatoire quiprend les valeurs E[h(x, Y )|X = x] avec la densité de probabilité f(x).

On peut alors énumérer différentes propriétés de l’espérance conditionnelle. Dans ce qui suit, on neconsidère que des “bonnes fonctions”, c’est-à-dire telles qu’on n’ait pas de problème d’intégrabilité.

Propriétés 3 (Propriétés de l’espérance conditionnelle)Sous réserve d’intégrabilité des variables aléatoires, on a les propriétés suivantes :

– Calcul d’espérance par conditionnement :

E[E[h(X,Y )|X]] =

R

E[h(x, Y )|X = x]f(x) dx = E[h(X,Y )].

– Indépendance : si X et Y sont indépendantes, alors E[g(Y )|X] = E[g(Y )]. En particulier,E[Y |X] = E[Y ].

– On a E[g(X)|X] = g(X). En particulier E[X|X] = X.– Linéarité :

E[αg(X) + βh(Y )|X] = αE[g(X)|X] + βE[h(Y )|X] = αg(X) + βE[h(Y )|X].

– Linéarité(bis) :

E[g(X)h(Y )|X] = g(X)E[h(Y )|X].

Preuve. Toutes les démonstrations se font sans difficulté en revenant à la définition de l’espéranceconditionnelle. Pour la première relation, il suffit par exemple de dire que :

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 18: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

14 Chapitre 1. Espérance conditionnelle

– La variable aléatoire E[h(X,Y )|X] prend les valeurs E[h(x, Y )|X = x] avec densité de probabilitéf(x). Donc son espérance vaut :

E[E[h(X,Y )|X]] =

R

E[h(x, Y )|X = x]f(x) dx.

Par ailleurs, on a pour tout réel x :

E[h(x, Y )|X = x] =

R

h(x, y)f(y|x) dy,

d’où il vient, puisque f(x, y) = f(y|x)f(x) :

E[E[h(X,Y )|X]] =

R

(∫

R

h(x, y)f(y|x) dy)f(x) dx =

R

2

h(x, y)f(x, y) dx dy,

et on reconnaît E[h(X,Y )].– Und so weiter...

Remarque. Tout comme l’espérance classique, l’espérance conditionnelle est linéaire. La dernièrepropriété est assez spectaculaire : du point de vue de l’espérance conditionnelle, toute fonction dela variable aléatoire X se comporte comme une constante, on peut donc la sortir du crochet.

1.3 Applications

Toute cette section est valable aussi bien dans le cas discret que dans le cas absolument continu.Ce n’est que par souci de simplification qu’on se place parfois dans l’une des deux situations.

1.3.1 Probabilités conditionnelles

Soit A un événement qui s’exprime en fonction de X et Y , par exemple :

A = X < Y = ω ∈ Ω : X(ω) < Y (ω).

On peut écrire sa probabilité comme l’espérance d’une indicatrice :

P(A) = E[1A] = E[1X<Y ] =∫

R

2

1x<y(x, y)f(x, y) dx dy,

or il est souvent plus facile de calculer cette quantité en commençant par geler l’une des variableset en intégrant par rapport à l’autre. C’est le principe du conditionnement.

Définition 8 (Probabilités conditionnelles)La probabilité conditionnelle de l’événement A sachant X = x est la quantité :

P(A|X = x) = E[1A|X = x] =

R

1A(x, y)f(y|x) dy.

La probabilité conditionnelle de A sachant X, notée P(A|X), est la variable aléatoire prenant lesvaleurs P(A|X = x) avec densité f(x).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 19: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.3. Applications 15

Remarque. Il faut noter que, tout comme l’espérance conditionnelle E[Y |X], la probabilité condi-tionnelle P(A|X) est une variable aléatoire.

D’après les résultats de la section précédente, on peut alors appliquer la technique de calcul d’es-pérance par conditionnement.

Proposition 4 (Calcul de probabilité par conditionnement)

P(A) =

R

P(A|X = x)f(x) dx.

Preuve. Il suffit d’appliquer le calcul d’espérance par conditionnement (propriétés 3) à la fonctionh(x, y) = 1(x,y)∈A.

Pour revenir à l’exemple initial, on a alors :

P(A|X = x) = P(1X<Y |X = x) = E[1X<Y |X = x] = E[1x<Y |X = x] = P(Y > x|X = x).

En particulier, si X et Y sont indépendantes : P(x < Y |X = x) = P(x < Y ).

Exemple. Soit X et Y deux variables aléatoires indépendantes, avec X ∼ E(λ) et Y ∼ E(µ). Onveut calculer la probabilité P(X < Y ). On écrit donc :

P(X < Y ) =

R

P(x < Y |X = x)f(x) dx =

R

+

P(x < Y |X = x)λe−λx dx.

Or on a par hypothèse d’indépendance :

P(x < Y |X = x) = P(x < Y ) = 1− FY (x) = e−µx.

D’où il vient :

P(X < Y ) =

R

+

λe−(λ+µ)x dx =λ

λ+ µ.

Ce type de résultat intervient constamment dans l’étude des processus markoviens de sauts (parexemple les files d’attente).

1.3.2 La régression

Approximation d’une variable aléatoire par une constante

Soit Y une variable aléatoire de carré intégrable. On veut approcher Y par une constante. Si ons’intéresse à l’erreur quadratique, la solution est donnée par l’espérance.

Proposition 5 (Approximation par une constante)Supposons Y telle que E[Y 2] < +∞. Parmi tous les réels a, la quantité E[(Y − a)2] est minimalelorsque a = E[Y ]. C’est-à-dire :

mina∈R

E[(Y − a)2] = E[(Y − E[Y ])2] = E[Y 2]− (E[Y ])2 = VarY.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 20: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

16 Chapitre 1. Espérance conditionnelle

Preuve. Notons m = E[Y ], alors pour tout réel a :

E[(Y − a)2] = E[((Y −m) + (m− a))2].

On utilise la linéarité de l’espérance :

E[(Y − a)2] = E[(Y −m)2] + 2(m− a)E[(Y −m)] + (m− a)2

Or E[(Y −m)] = 0 et par suite :

E[(Y − a)2] = E[(Y −m)2] + (m− a)2.

Cette quantité est minimale lorsque a = m = E[Y ].

Remarque. Si on considère l’erreur en norme L1, c’est-à-dire si on cherche le réel a tel que E|Y −a|soit minimale, on obtient non pas la moyenne de Y , mais sa médiane.

Rappel. Si Y admet un moment d’ordre 2, i.e. si E[Y 2] < +∞, alors Y admet un momentd’ordre 1, i.e. E|Y | < +∞. De manière générale, si Y admet un moment d’ordre p ∈ N∗, i.e. siE[|Y |p] < +∞, alors Y admet un moment d’ordre k pour tout k ∈ 1, . . . , p. Plus précisément,on a l’inégalité suivante entre moments :

1 ≤ p ≤ q ⇒ E [|Y p|]1p ≤ E [|Y q|]

1q .

Approximation d’une variable aléatoire par une droite

On considère un couple aléatoire (X,Y ), dont on connaît la loi jointe. On suppose que les variablesmarginales X et Y sont toutes deux de carré intégrable. Parler de la covariance du couple (X,Y )a alors un sens puisque :

∀ω ∈ Ω |X(ω)Y (ω)| ≤ 1

2(X2(ω) + Y 2(ω)),

ce qui implique en passant aux espérances :

E|XY | ≤ 1

2E[X2 + Y 2] =

1

2(E[X2] + E[Y 2]) < +∞.

Supposons qu’on observe des réalisations de la variable aléatoire X, mais pas celles de Y : pourchaque valeur x de X, on voudrait deviner la valeur y de Y . Ceci est impossible, puisque mêmesachant X = x, Y est aléatoire. On peut néanmoins chercher à faire l’erreur la plus petite possibleen moyenne.

Une idée simple est d’approcher Y par une fonction affine de X, c’est-à-dire chercher la variablealéatoire Y = aX + b la plus proche possible, en moyenne, de Y . Pour l’erreur quadratique, oncherche donc à minimiser :

E[(Y − (aX + b))2] = E[X2]a2 + 2E[X]ab+ b2 − 2E[XY ]a− 2E[Y ]b+ E[Y 2] = φ(a, b).

Cette fonction φ des deux variables a et b est en fait issue d’une forme quadratique définie positiveet atteint son minimum au point :

a = Cov(X,Y )

σ2(X)

b = E[Y ]− Cov(X,Y )σ2(X)

E[X]

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 21: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.3. Applications 17

comme le montre la factorisation de Gauss :

φ(a, b) = (b− (E[Y ]− E[X]a))2 +

(σ(X)a − Cov(X,Y )

σ(X)

)2

+ σ2(Y )− Cov2(X,Y )

σ2(X).

En notant ρ le coefficient de corrélation linéaire :

ρ =Cov(X,Y )

σ(X)σ(Y ),

l’erreur minimale moyenne, appelée erreur quadratique, est donc :

mina,b

E[(Y − (aX + b))2] = σ2(Y )(1− ρ2).

Noter que ceci suppose σ(X) 6= 0 : si σ(X) = 0, la variable aléatoire X est presque sûrementconstante, donc chercher à approcher Y par une fonction affine de X revient à approcher Y parune constante c. On a vu précédemment que le mieux est de prendre c = E[Y ].

On voit que l’erreur quadratique est d’autant plus faible que :

1. La valeur absolue |ρ| du coefficient de corrélation linéaire est proche de 1. En général, on saitsimplement que :

−1 ≤ ρ ≤ 1.

Lorsque ρ = 0, X et Y sont dits décorrélés et le mieux qu’on puisse faire est à nouveaud’approcher Y par sa moyenne E[Y ]. Lorsque ρ = ±1, X et Y sont liés par une relationaffine et l’erreur est nulle.

2. La variable Y est peu dispersée autour de sa moyenne.

∆a,b

Mi

xi

y

x

yi

Figure 1.10 – Droite de régression.

Remarque. En statistiques, c’est-à-dire dans la vraie vie, on ne connaît pas la loi du couple (X,Y ).On dispose simplement d’un nuage de points (xi, yi)1≤i≤n. Or, si on cherche la droite d’équationy = ax+ b qui minimise la somme des carrés :

n∑

i=1

(yi − (axi + b))2,

on retrouve la droite de régression ci-dessus en considérant les espérances, variances et covariancesempiriques (voir figure 1.10).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 22: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

18 Chapitre 1. Espérance conditionnelle

Approximation d’une variable aléatoire par une fonction

On reprend le problème précédent. On considère donc un couple aléatoire (X,Y ) dont on connaît laloi jointe, avec Y de carré intégrable. On suppose toujours qu’on n’observe que la variable aléatoireX et qu’on veut approcher au mieux la variable aléatoire Y . Par rapport à ce qui précède, on ne serestreint pas à une approximation de Y par une fonction affine de X : parmi toutes les fonctionspossibles, on cherche la fonction de X qui approche le mieux Y . On retrouve alors l’espéranceconditionnelle.

Définition 9 (Courbe de régression)La courbe x 7→ y = E[Y |X = x] est appelée courbe de régression de Y en X.

Par exemple, si X et Y sont indépendantes, la courbe de régression de Y en X est tout simplementla droite horizontale y = E[Y ].

Exemples.

1. On considère à nouveau le couple (X,Y ) de densité :

f(x, y) = 2e−(x+y)10≤x≤y

La fonction de régression de Y en X est la fonction :

u :

[0,+∞[ → R

x 7→ (x+ 1)

Sur cet exemple, on voit que la courbe de régression coïncide avec la droite de régression :ceci n’est pas vrai en général, comme le montre l’exemple suivant.

2. Soit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) =12

5y(2− y − x)1]0,1[2(x, y).

Quelques calculs permettent de montrer que pour tout x ∈]0, 1[ :

E[Y |X = x] =5− 4x

8− 6x.

La courbe de régression est donc un morceau d’hyperbole (voir figure 1.11).

La fonction de régression vérifie une propriété de minimalité souvent utilisée en statistiques. Onconsidère une fonction u : R→ R et la quantité :

E[(Y − u(X))2].

Cette quantité varie lorsque la fonction u varie. Quand est-elle minimale ? Ce genre de problème,dit de calcul des variations, est en général difficile : on cherche une fonction minimisant un certaincritère (et non un point de l’espace de dimension finie Rn comme en optimisation classique). Maisici tout est simple, au moins d’un point de vue théorique...

Théorème 2 (Espérance conditionnelle et régression)Supposons Y telle que E[Y 2] < +∞. Parmi toutes les fonctions u : R → R, l’erreur d’approxi-mation E[(Y − u(X))2] est minimale lorsque u est la fonction de régression x 7→ E[Y |X = x], i.e.lorsque u(X) = E[Y |X].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 23: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.3. Applications 19

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

y

x

Figure 1.11 – Courbe de régression y = 5−4x8−6x .

La preuve est calquée sur celle déjà vue pour l’approximation de Y par une constante.

Preuve. Notons m(X) = E[Y |X], alors pour toute fonction u : R→ R, on peut écrire :

E[(Y − u(X))2] = E[((Y −m(X)) + (m(X) − u(X)))2]

On utilise la linéarité de l’espérance :

E[(Y − u(X))2] = E[(Y −m(X))2] + 2E[(Y −m(X))(m(X) − u(X))] + E[(u(X)−m(X))2].

Or le calcul d’espérance par conditionnement assure que :

E[(Y −m(X))(m(X) − u(X))] = E[E[(Y −m(X))(m(X) − u(X))|X]],

et puisque m(X)− u(X) est une fonction de X, on sait que :

E[(Y −m(X))(m(X) − u(X))] = E[E[(Y −m(X))|X](m(X) − u(X))],

or par linéarité de l’espérance conditionnelle et puisque E[m(X)|X] = m(X) = E[Y |X], on endéduit que :

E[(Y −m(X))|X] = E[Y |X]− E[m(X)|X] = E[Y |X]−m(X) = 0.

On a donc obtenu :

E[(Y − u(X))2] = E[(Y −m(X))2] + E[(u(X) −m(X))2].

Cette quantité est minimale lorsque u(X) = E[Y |X].

On donne un nom au minimum obtenu.

Définition 10 (Erreur quadratique moyenne)La quantité

σ2 = minu

E[(Y − u(X))2] = E[(Y − E[Y |X])2]

est appelée l’erreur quadratique moyenne, ou la variance résiduelle, ou encore le résidu.

Nous allons voir que cette dernière approche peut s’interpréter géométriquement et fournir unereprésentation très commode de l’espérance conditionnelle.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 24: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

20 Chapitre 1. Espérance conditionnelle

1.4 Interprétation géométrique de l’espérance conditionnelle

Soit (Ω,F ,P) un espace probabilisé. On note L2(Ω,F ,P) ou plus simplement L2(Ω) l’ensembledes variables aléatoires X : Ω → R de carré intégrable, i.e. telles que :

E[X2] < +∞.

On convient de plus d’identifier deux variables aléatoires presque sûrement égales.

Propriétés 4 (Propriétés de L2(Ω))

– Si X et Y appartiennent à L2(Ω), alors XY est intégrable.– L2(Ω) est un espace vectoriel.

Preuve. On a déjà vu dans le paragraphe sur la régression que si X et Y sont de carré intégrable,la variable aléatoire XY est elle aussi intégrable. Alors si α et β sont deux scalaires, la variablealéatoire (αX + βY ) est dans L2(Ω) puisque :

(αX + βY )2 = α2X2 + 2αβXY + β2Y 2,

qui est une somme de variables aléatoires intégrables. Ceci fait de L2(Ω) un sous-espace vectorielde l’espace des variables aléatoires sur (Ω,F ,P).

A part dans le cas où l’espace Ω est fini, l’espace L2(Ω) est de dimension infinie. Nous allons main-tenant voir en quoi L2(Ω) “ressemble” à l’espace usuel Rn muni de la norme euclidienne. Rappelonsqu’un produit scalaire est une forme bilinéaire symétrique définie positive, dont on peut déduireune norme.

Proposition 6 (Le produit scalaire dans L2(Ω))

L’application

〈., .〉 :

L2(Ω)× L2(Ω) → R

(X,Y ) 7→ 〈X,Y 〉 = E[XY ]

est un produit scalaire sur L2(Ω). La norme associée est :

‖X‖ =√

E[X2].

Remarque. On écrit la norme ‖X‖ plutôt que ‖X‖2 afin de ne pas alourdir les notations.

Preuve. L’intégrabilité de XY a été vue ci-dessus donc l’application est bien définie sur l’espaceproduit L2(Ω)×L2(Ω). La bilinéarité et la symétrie sont évidentes. Soit maintenant X ∈ L2(Ω), ilest clair que 〈X,X〉 = E[X2] ≥ 0. Supposons que E[X2] = 0, alors par l’inégalité de Tchebychev,pour tout n ∈ N∗ :

P

(X ≥ 1

n

)≤ n2

E[X2] = 0,

d’où l’on déduit par sous-sigma-additivité d’une mesure de probabilité :

P(X > 0) = P

(+∞⋃

n=1

X ≥ 1

n

)≤

+∞∑

n=1

P

(X ≥ 1

n

)= 0,

c’est-à-dire que X est presque sûrement égale à 0. Puisqu’on a convenu au début de ce paragraphed’identifier deux variables presque sûrement égales, on a donc X = 0. Ainsi 〈., .〉 est bien une formebilinéaire symétrique définie positive, c’est-à-dire un produit scalaire.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 25: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.4. Interprétation géométrique de l’espérance conditionnelle 21

Dans ce cadre, dire que les variables aléatoires X et Y sont orthogonales pour le produit scalaire〈., .〉 signifie que E[XY ] = 0. Dans le cas de variables centrées, l’orthogonalité correspond donc àla non-corrélation. On récupère automatiquement les propriétés d’une norme issue d’un produitscalaire, vues en cours d’algèbre linéaire.

Propriétés 5 (Propriétés de la norme dans L2(Ω))

– Positivité : ‖X‖ ≥ 0 et ‖X‖ = 0 seulement pour X = 0.– Homogénéité : pour tout réel a, ‖aX‖ = |a|‖X‖.– Inégalité triangulaire : ‖X + Y ‖ ≤ ‖X‖ + ‖Y ‖.– Inégalité de Cauchy-Schwarz : 〈X,Y 〉 ≤ ‖X‖‖Y ‖.

La norme ‖.‖ permet de mesurer la distance entre deux variables aléatoires :

d(X,Y ) = ‖Y −X‖

On l’appelle la distance en moyenne quadratique entre X et Y . On peut alors associer à cettenorme la notion de convergence en moyenne quadratique : la suite de variables aléatoires (Xn)n≥0

converge en moyenne quadratique vers la variable aléatoire X et on note :

XnL2

−→ X

si limn→∞ ‖X −Xn‖ = 0, c’est-à-dire si

limn→∞

E[(X −Xn)2] = 0.

Nous donnons maintenant un résultat dû à F. Riesz et d’une grande importance théorique.

Théorème 3 (Espace de Hilbert)L’espace L2(Ω) est complet, c’est-à-dire que toute suite (Xn)n≥0 de L2(Ω) vérifiant le critère deCauchy converge en moyenne quadratique vers une variable aléatoire X de L2(Ω).

Comme en analyse, l’intérêt du critère de Cauchy dans un espace complet est de permettre demontrer la convergence d’une suite sans connaître sa limite.

Preuve. Soit (Xn)n≥0 une suite de Cauchy dans L2(Ω). Il existe donc une suite d’indices (nk)k≥0

telle que :

∀n ≥ nk, ∀p ≥ 0 ‖Xn+p −Xn‖ ≤ 1

2k.

En particulier, la suite de variables aléatoires (Yk)k≥0 définie par Y0 = Xn0 et :

∀k ≥ 1 Yk = Xnk−Xnk−1

est telle que :+∞∑

k=0

‖Yk‖ ≤ ‖Xn0‖++∞∑

k=0

1

2k= ‖Xn0‖+ 2 < +∞.

On va montrer que (Yk)k≥0 converge presque sûrement vers une variable aléatoire X. Considéronsla variable aléatoire Z définie pour tout ω ∈ Ω par :

Z(ω) = limK→+∞

ZK(ω) = limK→+∞

K∑

k=0

|Yk(ω)| =+∞∑

k=0

|Yk(ω)| ≤ +∞,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 26: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

22 Chapitre 1. Espérance conditionnelle

avec les variables aléatoires ZK définie pour tout ω ∈ Ω par :

ZK(ω) =

K∑

k=0

|Yk(ω)| < +∞.

Autrement dit, la suite croissante de variables aléatoires positives (ZK)K≥0 converge presque sûre-ment vers Z. Il en va de même de la suite (Z2

K)K≥0 vers Z2 et on peut donc appliquer le théorèmede Beppo Lévi :

E[Z2] = limK→+∞

E[Z2K ].

Mais par l’inégalité triangulaire on a aussi pour tout K ≥ 0 :

E[Z2K ] = ‖ZK‖2 ≤

(K∑

k=0

‖Yk‖)2

≤(

+∞∑

k=0

‖Yk‖)2

< +∞.

On en déduit que E[Z2] < +∞. Mais alors par Tchebychev, pour tout n ∈ N∗ :

P (Z ≥ n) ≤ E[Z2]

n2,

d’où l’on déduit par continuité monotone décroissante d’une mesure de probabilité :

P(Z = +∞) = P

(+∞⋂

n=1

Z ≥ n)

= limn→+∞

P (Z ≥ n) ,

ce qui donne :

P(Z = +∞) ≤ limn→+∞

E[Z2]

n2= 0,

c’est-à-dire que Z est presque sûrement finie. Puisqu’on convient de confondre deux variablesaléatoires presque sûrement égales, quitte à remplacer Z(ω) par 0 aux éventuels points ω où onaurait Z(ω) = +∞, on peut donc considérer que pour tout ω ∈ Ω, on a :

+∞∑

k=0

|Yk(ω)| < +∞.

En particulier, la série de variables aléatoires∑

k≥0 Yk est absolument convergente sur Ω, doncsimplement convergente, et il existe une variable aléatoire X finie sur Ω telle que pour tout ω ∈ Ω :

X(ω) =

+∞∑

k=0

Yk(ω).

La variable aléatoire X est de carré intégrable puisque par définition, pour tout ω ∈ Ω :

|X(ω)| ≤ Z(ω),

et on a prouvé ci-dessus que Z ∈ L2(Ω). Il reste à voir que :

∥∥∥∥∥X −K∑

k=0

Yk

∥∥∥∥∥ =

∥∥∥∥∥+∞∑

k=K+1

Yk

∥∥∥∥∥ ≤+∞∑

k=K+1

‖Yk‖ ≤ 1

2K−−−−−→K→+∞

0.

On revient enfin à la suite (Xn)n≥0. Pour tout n ≥ nK , on a par inégalité triangulaire :

‖X −Xn‖ ≤ ‖X −XnK‖+ ‖Xn −XnK

‖,

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 27: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.4. Interprétation géométrique de l’espérance conditionnelle 23

or il est clair que :

XnK=

K∑

k=0

Yk,

d’où il vient :

‖X −Xn‖ ≤ 1

2K+

1

2K=

1

2K−1−−−−−→K→+∞

0,

et la suite (Xn)n≥0 converge en moyenne quadratique vers la variable aléatoire X.

Remarque. Qu’a-t-on utilisé comme outils ? Beppo Lévi et la continuité monotone décroissante,or ceux-ci sont valables dans tout espace mesuré (Ω,F ,m). Ainsi, le résultat qu’on vient d’établirest en fait très général : on le retrouve par exemple dans l’espace classique d’intégration (R,B, λ)lorsqu’on considère les fonctions f de carré intégrable sur R. On le retrouve aussi dans l’espacedes suites (N,P(N), µ) muni de la mesure de comptage, autrement dit dans l’étude des sériesnumériques

∑n≥0 un telles que

∑+∞n=0 u

2n < +∞. Dans ce dernier espace, le produit scalaire est :

〈u, v〉 =+∞∑

n=0

unvn.

Un espace vectoriel ayant un produit scalaire et complet pour la norme induite par celui-ci est ap-pelé espace de Hilbert. Ces espaces jouissent de nombreuses propriétés. Celle qui suit est cruciale.

Y

H

πH(Y )

Y − πH(Y )

Figure 1.12 – Projeté orthogonal πH(Y ) de Y sur le sous-espace H.

Théorème 4 (Théorème de la projection orthogonale)Soit H un sous-espace fermé de L2(Ω). Pour tout Y de L2(Ω), il existe une unique variable aléatoirede H, notée πH(Y ), qui soit à plus courte distance de Y . On l’appelle le projeté orthogonal de Ysur H et elle est entièrement caractérisée par la double propriété :

πH(Y ) ∈ H

Y − πH(Y ) ⊥ H

L’application Y 7→ πH(Y ) est linéaire sur L2(Ω). De plus, πH(Y ) = Y ssi Y ∈ H, et ‖πH(Y )‖2 <‖Y ‖ si Y /∈ H (voir figure 1.12).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 28: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

24 Chapitre 1. Espérance conditionnelle

Preuve. Notons :d = inf

X∈Hd(X,Y ).

Rappelons l’identité du parallélogramme, valable dès qu’on considère un produit scalaire (cf. figure1.13) :

‖U + V ‖2 + ‖U − V ‖2 = 2(‖U‖2 + ‖V ‖2).En considérant deux variables aléatoires X1 et X2 de H, on l’applique à U = (X1 − Y ) et V =(X2 − Y ) :

4

∥∥∥∥X1 +X2

2− Y

∥∥∥∥2

+ ‖X1 −X2‖2 = 2(‖X1 − Y ‖2 + ‖X2 − Y ‖2).

Mais, puisque H est un sous-espace de L2(Ω), la variable aléatoire milieu (X1 +X2)/2 appartientà H et vérifie : ∥∥∥∥

X1 +X2

2− Y

∥∥∥∥ ≥ d,

d’où l’on déduit que pour tout couple (X1,X2) de H :

‖X1 −X2‖2 ≤ 2(‖X1 − Y ‖2 + ‖X2 − Y ‖2)− 4d2. (1.1)

Cette inégalité prouve que l’inf ne peut être atteint par deux éléments distincts X1 et X2 de H,sinon on aurait ‖X1 −X2‖2 < 0. Par définition d’une borne inf, il existe une suite (Xn) de H telleque :

limn→+∞

d(Xn, Y ) = d.

Si on applique l’inégalité 1.1, on obtient pour tout couple d’entiers naturels (n, p) :

U

VU − V

U + V

Figure 1.13 – Identité du parallélogramme : ‖U + V ‖2 + ‖U − V ‖2 = 2(‖U‖2 + ‖V ‖2).

‖Xn+p −Xn‖2 ≤ 2(‖Xn+p − Y ‖2 + ‖Xn − Y ‖2)− 4d2.

Pour n assez grand, cette quantité peut être rendue arbitrairement petite, indépendamment de p,ce qui prouve que (Xn) est une suite de Cauchy de H, sous-espace de L2(Ω). Par le théorème deRiesz, elle est donc convergente vers une variable aléatoire de L2(Ω). Mais puisque H est fermépar hypothèse, celle-ci appartient nécessairement à H : on la note πH(Y ) et on l’appelle le projetéorthogonal de Y sur H.Montrons que (Y − πH(Y )) est orthogonale à toute variable aléatoire X de H. Soit donc X ∈ H,alors pour tout réel α, on a aussi αX ∈ H et par définition de la borne inf, on a donc :

‖πH(Y ) + αX − Y ‖2 ≥ ‖πH(Y )− Y ‖2,

ce qui s’écrit en développant avec le produit scalaire :

∀α ∈ R ‖X‖2α2 + 2〈πH(Y )− Y, V 〉α ≥ 0.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 29: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.4. Interprétation géométrique de l’espérance conditionnelle 25

Ce trinôme en α ne peut être de signe constant que si 〈πH(Y )− Y, V 〉 = 0.Les deux propriétés

πH(Y ) ∈ HY − πH(Y ) ⊥ H

caractérisent bien πH(Y ), car si X est un autre élément de H ayant ces deux propriétés, alors(πH(Y ) − X) = (Y − πH(Y )) + (πH(Y ) − X) est dans H et orthogonal à tout élément de Hdonc à lui-même, donc c’est le vecteur nul. Cette caractérisation permet de voir facilement que laprojection πH est un opérateur linéaire. Par ailleurs, il est clair que si Y ∈ H, alors πH(Y ) = Y .Enfin, puisque (Y − πH(Y )) et πH(Y ) sont orthogonaux, la relation de Pythagore dans le trianglerectangle d’hypoténuse Y implique que ‖πH(Y )‖ < ‖Y ‖, sauf si Y = πH(Y ) ∈ H.

Remarque. Le théorème de projection est encore valable si on considère un ensemble convexefermé non vide C à la place du sous-espace vectoriel fermé H.

Considérons maintenant une variable aléatoire X. On lui associe :

L2(X)∆= u(X) avec u : R→ R borélienne telle que E[u2(X)] < +∞,

ensemble des variables aléatoires qui s’expriment comme fonctions de X et de carré intégrable. Ilest clair que L2(X) est un sous-espace de L2(Ω). On peut de plus montrer que c’est un sous-espacefermé de L2(Ω).

Lemme 1 (L2(X) sous-espace fermé de L2(Ω))

Soit X une variable aléatoire, alors l’espace L2(X) est un sous-espace fermé de l’espace L2(Ω) desvariables aléatoires de carré intégrable.

Preuve. Notons PX la probabilité image de la variable aléatoire X, c’est-à-dire la loi de probabilitédéfinie sur R muni de la tribu borélienne B par :

∀B ∈ B PX(B) = P(X ∈ B).

Ceci fait de (R,B,PX ) un espace probabilisé. Soit E = L2(R,B,PX) l’espace des variables aléa-toires de carré intégrable sur cet espace. Ce sont les fonctions f : R→ R boréliennes telles que :

R

f2(x)PX( dx) < +∞.

Mais par le théorème de transfert, ceci est équivalent à dire que :∫

Ωf2(X) dP = E[f2(X)] < +∞.

Autrement dit, l’application linéaire

Ψ :

E → L2(X)f 7→ f(X)

est un isomorphisme de E vers L2(X). De plus, toujours par le théorème de transfert, on a :

〈f, g〉E =

R

f(x)g(x)PX ( dx) = E[f(X)g(X)] = 〈f(X), g(X)〉L2(Ω),

donc Ψ conserve le produit scalaire. Finalement, Ψ est une isométrie. Mais par le théorème 3 onsait que E = L2(R,B,PX ) est un espace de Hilbert. En particulier E est fermé. Par l’isométrieΨ, cette propriété passe à L2(X), qui est donc bien un sous-espace fermé de L2(Ω).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 30: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

26 Chapitre 1. Espérance conditionnelle

Par suite on peut appliquer le résultat de projection orthogonale ci-dessus. Soit donc Y une autrevariable aléatoire de carré intégrable : il existe une unique variable aléatoire πL2(X)(Y ) dans lesous-espace L2(X) qui soit à plus courte distance de Y . Mais, dans les cas discret et continu,on a déjà traité ce problème dans le paragraphe sur la régression : c’est exactement l’espéranceconditionnelle de Y sachant X. C’est pourquoi il est naturel d’en partir comme définition.

Définition 11 (Espérance conditionnelle)Soit (X,Y ) un couple aléatoire, avec Y ∈ L2(Ω). L’espérance conditionnelle de Y sachant X,notée E[Y |X], est la projection orthogonale de Y sur le sous-espace L2(X) des variables aléatoiresfonctions de X et de carré intégrable.

Ainsi l’espérance conditionnelle de Y sachant X admet une interprétation géométrique très simple(cf. figure 1.14). Cette interprétation est fructueuse, car elle permet de retrouver sans effort cer-taines propriétés usuelles de l’espérance conditionnelle (un bête dessin et l’affaire est entendue).

Y

E[Y |X]

L2(X)

Figure 1.14 – L’espérance conditionnelle comme projection orthogonale.

Propriétés 6Soit (X,Y ) un couple aléatoire, avec Y ∈ L2(Ω).– Distance minimale : ∀Z ∈ L2(X), ‖Y − E[Y |X]‖ ≤ ‖Y − Z‖.– Orthogonalité : ∀Z ∈ L2(X), 〈Y − E[Y |X], Z〉 = 0.– Orthogonalité(bis) : ∀Z ∈ L2(X), 〈Y,Z〉 = 〈E[Y |X], Z〉.– Pythagore : ‖Y ‖2 = ‖E[Y |X]‖2 + ‖Y − E[Y |X]‖2.– Pythagore(bis) : ‖E[Y |X]‖ ≤ ‖Y ‖, avec égalité si et seulement si Y est une fonction de X.– Linéarité : Soit Y1 et Y2 de carrés intégrables, α et β deux réels, alors :

E[αY1 + βY2|X] = αE[Y1|X] + βE[Y2|X].

– Linéarité(bis) : si u : R→ R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X].– Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0.– Positivité(bis) : si Y1 et Y2 sont de carrés intégrables, avec Y1 ≤ Y2, alors E[Y1|X] ≤ E[Y2|X].– Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ].– Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ].

Remarques.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 31: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.5. Espérance conditionnelle : le cas général 27

1. Par commodité des notations, toutes les propriétés ont été énoncées en termes de produitsscalaires et de normes. Cependant, il faut savoir les lire aussi bien en termes d’espéranceset d’espérances conditionnelles. De même, chaque fois qu’on écrit Z ∈ L2(X), il faut lireZ = u(X), avec u(X) ∈ L2(Ω). Par exemple, la propriété d’orthogonalité(bis) s’écrit encore :pour toute fonction u telle que la variable aléatoire u(X) soit de carré intégrable, on a :

E[u(X)Y ] = E[u(X)E[Y |X]].

2. Le théorème de projection orthogonale permet de comprendre toutes les méthodes ditesde moindres carrés en statistiques. Dans ces applications, l’espace H est engendré par lesvariables observables (X1, . . . ,Xn), ou variables explicatives. Partant de celles-ci, on chercheà estimer (ou à expliquer) une autre variable Y , non observée. L’idée est de chercher unefonction f : Rn → R telle que la variable aléatoire f(X1, . . . ,Xn) approche le mieux possibleY . Les méthodes de moindres carrés sont basées sur la distance L2 : dans ce cas, ce qui aété vu ci-dessus se généralise sans problème et l’unique solution au problème est l’espéranceconditionnelle de Y sachant le n-uplet (X1, . . . ,Xn).

1.5 Espérance conditionnelle : le cas général

Soit (Ω,F ,P) un espace probabilisé. On note L1(Ω,F ,P), ou plus simplement L1(Ω), l’ensembledes variables aléatoires X : Ω → R intégrables, i.e. telles que :

E|X| < +∞,

en convenant toujours d’identifier deux variables aléatoires presque sûrement égales.

Dans l’étude des cas discret et continu, pour définir l’espérance conditionnelle de Y sachant X,on a vu qu’il suffisait de supposer Y intégrable. C’est pourquoi si on veut donner une définitiongénérale, l’interprétation géométrique de L2(Ω) n’est pas complètement satisfaisante. Néanmoins,c’est celle qu’il faudra garder en tête pour se souvenir de toutes les propriétés usuelles. Du reste,pour la définition qui suit, on part de la propriété de projection déjà vue.

Définition 12 (Espérance conditionnelle)Soit (X,Y ) un couple aléatoire, avec Y intégrable. L’espérance conditionnelle de Y sachant Xest l’unique variable aléatoire fonction de X, notée E[Y |X], telle que pour toute fonction bornéeu : R→ R, on ait :

E[u(X)Y ] = E[u(X)E[Y |X]].

Ainsi il existe une fonction ϕ : R → R mesurable telle que E[Y |X] = ϕ(X). On retrouve alorstoutes les propriétés vues ci-dessus non propres à l’espace L2(Ω).

Propriétés 7Soit (X,Y ) un couple aléatoire, avec Y ∈ L1(Ω).– Cas d’égalité : si Y = g(X) est fonction de X, alors E[Y |X] = Y . En particulier E[X|X] = X.– Linéarité : Soit Y1 et Y2 intégrables, α et β deux réels, alors :

E[αY1 + βY2|X] = αE[Y1|X] + βE[Y2|X]

– Linéarité(bis) : si u : R→ R est bornée, alors E[u(X)Y |X] = u(X)E[Y |X].– Positivité : Si Y ≥ 0, alors E[Y |X] ≥ 0.– Positivité(bis) : si Y1 et Y2 sont intégrables, avec Y1 ≤ Y2, alors E[Y1|X] ≤ E[Y2|X].– Calcul d’espérance par conditionnement : E[E[Y |X]] = E[Y ].– Espérance conditionnelle et indépendance : si X et Y sont indépendantes, alors E[Y |X] = E[Y ].

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 32: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

28 Chapitre 1. Espérance conditionnelle

1.6 Exercices

“Là où il y a une volonté, il y a un chemin.” Lénine.

Exercice 1.1 (Let’s make a deal)Vous participez à un jeu où l’on vous propose trois portes au choix. L’une des portes cache unevoiture à gagner, et chacune des deux autres une chèvre. Vous choisissez une porte, mais sansl’ouvrir ! L’animateur, qui sait où est la voiture, ouvre une autre porte, derrière laquelle se trouveune chèvre. Il vous donne maintenant la possibilité de vous en tenir à votre choix initial, ou dechanger de porte. Qu’avez-vous intérêt à faire ?Remarque : C’est un problème auquel étaient confrontés les invités du jeu télévisé ”Let’s make adeal” de Monty Hall (animateur et producteur américain), sauf que les lots de consolation n’étaientpas des chèvres.

CorrigéSupposons, sans perte de généralité, la configuration suivante : (V,C,C), c’est-à-dire que la voitureest derrière la porte 1, les chèvres derrière les portes 2 et 3. Le jeu se déroule alors comme suit :

1. Sans changement de porte :

(a) le spectateur choisit la porte 1, donc l’animateur ouvre indifféremment l’une des deuxautres portes, et le spectateur gagne.

(b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, et le spectateur perd.

(c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, et le spectateur perd.

2. Avec changement de porte :

(a) le spectateur choisit la porte 1, l’animateur ouvre indifféremment l’une des deux autresportes, le spectateur ouvre l’autre et perd.

(b) le spectateur choisit la porte 2, donc l’animateur ouvre la porte 3, le spectateur ouvrela porte 1 et gagne.

(c) le spectateur choisit la porte 3, donc l’animateur ouvre la porte 2, le spectateur ouvrela porte 1 et gagne.

Bilan des courses : s’il change de porte, il gagne 2 fois sur 3, sinon seulement 1 fois sur 3. Il vautdonc mieux changer de porte !

Exercice 1.2 (Le problème du dépistage)1. Soit (Ω,F ,P) un espace probabilisé. Soit (H1, . . . ,Hn) une partition de Ω en n événements

de probabilités non nulles. Soit A ∈ F tel que P(A) > 0. Rappeler la formule de Bayes(encore appelée formule de probabilité des causes, les Hi étant les causes possibles et A laconséquence).

2. Application : Test de dépistageUne maladie est présente dans la population, dans la proportion d’une personne malade sur1000. Un responsable d’un grand laboratoire pharmaceutique vient vous vanter son nouveautest de dépistage : si une personne est malade, le test est positif à 99%. Néanmoins, surune personne non malade, le test est positif à 0.2%. Ces chiffres ont l’air excellent, vous nepouvez qu’en convenir. Toutefois, ce qui vous intéresse, plus que les résultats présentés parle laboratoire, c’est la probabilité qu’une personne soit réellement malade lorsque son testest positif. Calculer cette probabilité.

Corrigé

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 33: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 29

1. Si (Ω,F ,P) est un espace probabilisé, (H1, . . . ,Hn) une partition de Ω en n événements deprobabilités non nulles et A ∈ F tel que P(A) > 0, la formule de Bayes (dite de probabilitédes causes) dit que pout tout j entre 1 et n :

P(Hj|A) =P(A|Hj)P(Hj)∑ni=1P(A|Hi)P(Hi)

.

2. Application : Test de dépistageSi on note A l’événement : “Le test est positif”, et H l’événement : “La personne est malade”,on cherche donc la probabilité P(H|A) et la formule de Bayes donne :

P(H|A) = P(A|H)P(H)

P(A|H)P(H) +P(A|H)P(H).

D’après l’énoncé, on a P(H) = 1/1000, P(A|H) = 0.99, P(A|H) = 0.002, les autresprobabilités intervenant dans la formule de Bayes s’en déduisant facilement. Ceci donneP(H|A) ≈ 1/3. Le test n’est donc pas si fiable que ça ! Il n’empêche qu’il peut servir, enpratique, à faire une première sélection avant d’effectuer un second test plus fiable (mais pluscoûteux) sur les patients pour lesquels ce premier test est positif.

Exercice 1.3 (Composition de familles)Une population est composée de familles de 0, 1, 2 ou 3 enfants. Il y a une famille sans enfant pour3 de 1 enfant, 4 de 2 enfants et 2 de 3 enfants. On suppose que les deux sexes sont équiprobableset qu’ils sont indépendants pour deux enfants différents.

1. Donner les probabilités de nombres d’enfants par famille p0, p1, p2, p3 .

2. On choisit une famille au hasard : quelle est la probabilité qu’il n’y ait aucun garçon ?

3. Toujours pour une famille choisie au hasard, quelle est la probabilité qu’elle ait 2 enfantssachant qu’elle n’a aucun garçon ?

Corrigé

1. On a d’après le texte : p1 = 3p0, p2 = 4p0 et p3 = 2p0. Puisque la somme des pi fait 1, on endéduit que :

p = [p0, p1, p2, p3] =

[1

10,3

10,4

10,2

10

].

2. Notons G l’événement : “Il y a au moins un garçon dans la famille.” On cherche donc P(G).Nous allons utiliser la formule des probabilités totales via la partition Ω = E0, E1, E2, E3suivant le nombre d’enfants par famille :

P(G) =

3∑

i=0

P(G|Ei)P(Ei) =

3∑

i=0

P(G|Ei)pi,

où il reste à voir que pour tout i on a P(G|Ei) = (1/2)i. Finalement on obtient P(G) = 3/8.

3. On cherche cette fois la probabilité P(E2|G), il suffit d’inverser le conditionnement :

P(E2|G) =P(G|E2)P(E2)

P(G).

D’après la question précédente, on sait que P(G) = 3/8, et d’après la première questionP(E2) = p2 = 4/10. On arrive donc à P(E2|G) = 4/15.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 34: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

30 Chapitre 1. Espérance conditionnelle

Exercice 1.4 (L’ivresse du gardien de nuit)Un gardien de nuit a 10 clés, dont une seule marche, pour ouvrir une porte. Il emploie deuxméthodes. Méthode A : à jeun, il retire du trousseau les clés déjà essayées ; méthode B : ivre, ilremet la clé dans le trousseau après chaque essai.

1. Méthode A : on appelle pn la probabilité qu’il faille n essais pour ouvrir la porte. Déterminerpn.

2. Méthode B : on appelle qn la probabilité qu’il faille n essais pour ouvrir la porte. Déterminerqn.

3. Le gardien est ivre un jour sur trois. Un jour, après avoir essayé 8 clés, le gardien n’a toujourspas ouvert la porte. Quelle est la probabilité qu’il soit ivre ?

Corrigé

1. Méthode A : on appelle pn la probabilité qu’il faille n essais pour ouvrir la porte. Puisqu’ilretire chaque clé après un essai infructueux, il est clair que n peut prendre les valeurs de 1à 10. On peut calculer les probabilités de proche en proche : la probabilité p1 est clairementp1 = 1/10. Pour qu’il ouvre la porte au deuxième essai, il faut qu’il se soit trompé au premier,ce qui arrive avec probabilité 9/10 et qu’il ait réussi au second, ce qui arrive avec probabilité1/9, donc à nouveau p2 = 1/10. En itérant ce raisonnement, on voit sans peine que pourtout n entre 1 et 10, pn = 1/10. Nous parlerons dans ce cas de loi uniforme sur l’ensemble1, . . . , 10.Remarque : on pouvait obtenir ce résultat par un autre raisonnement : les 10 clés du trousseauarrivent dans un certain ordre et il n’y aucune raison que la clé qui ouvre la porte soit à uneposition plutôt qu’à une autre, donc le nombre d’essais nécessaires pour ouvrir la porte estéquiréparti entre 1 et 10.

2. Méthode B : cette fois, le nombre n d’essais nécessaire peut prendre toute valeur de N∗.La probabilité q1 est à nouveau q1 = 1/10. Pour qu’il ouvre la porte au deuxième essai, ilfaut qu’il se soit trompé au premier, ce qui arrive avec probabilité 9/10, et qu’il ait réussi ausecond, ce qui arrive avec probabilité 1/10, donc q2 = 1/10×9/10. En itérant ce raisonnement,on voit que :

∀n ∈ N∗ qn =1

10

(9

10

)n−1

.

On dit dans ce cas que le nombre d’essais suit une loi géométrique de paramètre 1/10.

3. Notons N > 8 l’événement : “Après 8 essais, la porte n’est toujours pas ouverte” et,conformément à ce qui précède, A (resp. B) l’événement : “Le gardien est à jeun (resp.ivre).” Notons au passage que A = B. On cherche donc P(B|N > 8). On utilise la formulede Bayes :

P(B|N > 8) = P(N > 8|B)P(B)

P(N > 8|A)P(A) +P(N > 8|B)P(B).

Le texte nous apprend que P(B) = 1/3, donc P(A) = 2/3. Avec des notations naturelles, onobtient d’une part :

P(N > 8|B) =+∞∑

n=9

qn =1

10

+∞∑

n=9

(9

10

)n−1

=

(9

10

)8

,

puisqu’on a reconnu une série géométrique de raison 9/10. Plus simple encore :

P(N > 8|A) = p9 + p10 =2

10.

Il vient donc P(B|E8) ≈ 0, 518.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 35: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 31

Exercice 1.5 (Memento)1. On dit que la variable aléatoire discrète X suit une loi géométrique de paramètre p ∈]0, 1[ si

X est à valeurs dans N∗, avec P(X = k) = p(1− p)k−1. Soit n ∈ N, déterminer P(X > n).Montrer que X vérifie la propriété suivante, dite d’absence de mémoire :

∀(m,n) ∈ N2P(X > n+m | X > m) = P(X > n).

2. Rappeler la densité d’une loi exponentielle de paramètre λ > 0, ainsi que sa fonction derépartition. Montrer que X vérifie :

∀t ≥ 0, ∀s ≥ 0 P(X > t+ s | X > t) = P(X > s),

c’est-à-dire la propriété d’absence de mémoire.

3. Application : la durée de vie T en années d’une télévision suit une loi exponentielle demoyenne 8 ans. Vous possédez une telle télévision depuis 2 ans, quelle est la probabilité quesa durée de vie soit encore d’au moins 8 ans à partir de maintenant ?

Corrigé

1. Soit X ∼ G(p) loi géométrique de paramètre p ∈]0, 1[. On a :

P(X > n) =

+∞∑

k=n+1

P(X = k) =

+∞∑

k=n+1

p(1− p)k−1 = p

+∞∑

k=n+1

(1− p)k−1,

où l’on reconnaît une somme géométrique, donc :

P(X > n) = p(1− p)n

1− (1− p)= (1− p)n.

Par définition de la probabilité conditionnelle, on a alors ∀(m,n) ∈ N×N :

P(X > n+m|X > m) =P(X > n+m ∩ X > m)

P(X > m)=P(X > n+m)

P(X > m),

puisque l’événement X > n+m implique l’événement X > m. Grâce au calcul précédent,on a donc :

P(X > n+m|X > m) =(1− p)n+m

(1− p)m= (1− p)n = P(X > n).

2. Si la variable aléatoire X suit une loi exponentielle de paramètre λ, sa densité est :

f(x) = λe−λx1x≥0.

Sa fonction de répartition F vaut :

F (x) = (1− e−λx)1x≥0.

Pour tout s ≥ 0, on a donc :

P(X > s) = 1−P(X ≤ s) = 1− F (s) = e−λs.

D’autre part, par le même raisonnement qu’en question précédente, il vient pour tout couple(s, t) de réels positifs :

P(X > t+ s|X > t) =P(X > t+ s)

P(X > t)=

e−λ(t+s)

e−λt= e−λs = P(X > s),

donc la loi exponentielle n’a pas de mémoire.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 36: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

32 Chapitre 1. Espérance conditionnelle

3. Application : la probabilité cherchée s’écrit

P(X > 2 + 8|X > 2) = P(X > 8) = e−1 ≈ 0.37.

Exercice 1.6 (Loi de succession de Laplace)On dispose de (N + 1) urnes, numérotées de 0 à N . L’urne k contient k boules rouges et (N − k)boules blanches. On choisit une urne au hasard. Sans connaître son numéro, on en tire n fois desuite une boule, avec remise après chaque tirage.

1. Quelle est la probabilité que le tirage suivant donne encore une boule rouge sachant que, aucours des n premiers tirages, seules des boules rouges ont été tirées ? Indication : on pourranoter En (respectivement En+1) le fait de tirer n (respectivement (n+1)) boules rouges à lasuite et décomposer ces deux événements sur la partition (U0, . . . , UN ) formée par les urnes.

2. Calculer la limite de cette probabilité lorsque N tend vers l’infini. (Rappel sur les sommesde Riemann : si f est continue sur [0, 1], alors limn→∞

1n

∑nk=1 f(k/n) =

∫ 10 f(x)dx.)

Corrigé

1. La probabilité cherchée s’écrit, en suivant l’indication de l’énoncé :

pN = P(En+1|En) =P(En+1 ∩ En)

P(En)=P(En+1)

P(En),

la dernière égalité venant de ce que En+1 ⊆ En. Les deux termes se traitent alors de la mêmefaçon, en décomposant sur la partition U0, . . . , UN :

P(En) =N∑

k=0

P(En|Uk)P(Uk) =1

N + 1

N∑

k=0

P(En|Uk),

le terme 1N+1 venant de l’équiprobabilité pour le choix de l’urne dans laquelle on pioche. Il

reste à voir que si on pioche dans l’urne Uk, la probabilité de tirer 1 boule rouge est k/Ndonc la probabilité de tirer n boules rouges à la suite est (k/N)n. On a donc :

pN =1

N+1

∑Nk=0(k/N)n+1

1N+1

∑Nk=0(k/N)n

.

2. Pour trouver la limite de (pN ) lorsque le nombre N d’urnes tend vers l’infini, il suffit d’ap-pliquer le résultat sur les sommes de Riemann :

1

N + 1

N∑

k=0

(k/N)n =N

N + 1

(1

N

N∑

k=1

(k/N)n

)−−−−→N→∞

∫ 1

0xndx =

1

n+ 1.

On en déduit :

limN→∞

pN =n+ 1

n+ 2.

Exercice 1.7 (Transmission bruitée)Un message doit être transmis d’un point à un autre à travers N canaux successifs. Ce messagepeut prendre deux valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilitép ∈]0, 1[ d’être bruité, c’est-à-dire d’être transformé en son contraire, et (1 − p) d’être transmisfidèlement. Les canaux se comportent indépendamment les uns des autres.

1. Notons In l’événement : “en sortie de n-ème canal, le message est le même que celui transmisinitialement.” Exprimer P(In+1) en fonction de P(In) et de p.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 37: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 33

2. En notant pn = P(In), donner une relation de récurrence entre pn+1 et pn. Que vaut p1 ?

3. On considère une suite (un)n≥1 vérifiant la relation de récurrence :

un+1 = (1− 2p)un + p.

Une telle suite est dite arithmético-géométrique. Vérifier que la suite (vn)n≥1, définie parvn = un − 1

2 , est géométrique. En déduire vn en fonction de p et v1.

4. En déduire pn en fonction de p pour tout n ∈ 1, . . . , N.5. Que vaut limN→+∞ pN ? Qu’est-ce que ce résultat a d’étonnant à première vue ?

Corrigé

1. Pour que l’événement In+1 ait lieu, de deux choses l’une : ou bien In était réalisé et le messagea été bien transmis dans le (n + 1)-ème canal, ou bien In était réalisé et le message a étémal transmis dans le (n+ 1)-ème canal. C’est en fait la formule des probabilités totales quis’applique ici :

P(In+1) = P(In+1|In)P(In) +P(In+1|In)P(In),

c’est-à-dire :

P(In+1) = (1− p)P(In) + p(1−P(In)).

2. On a donc la relation de récurrence :

pn+1 = (1− p)pn + p(1− pn) = (1− 2p)pn + p.

La condition initiale est p1 = 1 − p, probabilité que le message n’ait pas été bruité dans lepremier canal.

3. On écrit :

vn+1 = un+1 −1

2= (1− 2p)un + p− 1

2,

et en remplaçant un par vn + 12 , il vient vn+1 = (1 − 2p)vn, donc la suite (vn)n≥1 est

géométrique de raison (1− 2p). On en déduit :

∀n ∈ 1, . . . , N vn = (1− 2p)n−1v1.

4. On a la même relation pour pn que pour un = vn + 12 et puisque p1 = (1− p), on en déduit

que :

∀n ∈ 1, . . . , N pn =1

2+

(1

2− p

)(1− 2p)n−1.

5. Pour déterminer limN→+∞ pN , on peut distinguer 3 cas :

(a) p = 0 : la transmission est fiable et on retrouve bien sûr pN = 1 pour tout N .

(b) p = 1 : chaque passage dans un canal change de façon certaine le message, donc pNdépend de la parité du nombre de canaux : p2N = 1 et p2N+1 = 0.

(c) 0 < p < 1 : contrairement aux deux situations précédentes, on est dans le cas d’un brui-tage aléatoire. On remarque que limN→+∞(1 − 2p)N−1 = 0 et limN→+∞ pN = 1

2 . Cecisignifie que dès que le nombre de canaux devient grand, on est incapable de retrouverle message initial de façon fiable : autant tirer à pile ou face ! C’est le fameux principedu téléphone arabe.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 38: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

34 Chapitre 1. Espérance conditionnelle

Exercice 1.8 (La roulette de la lose)Deux joueurs A et B jouent une succession de parties de pile ou face. A chaque coup, A a laprobabilité p ∈]0, 1[ de gagner, auquel cas B lui donne 1e, sinon le contraire. Les joueurs A et Bdisposent en début de partie de 50e chacun. La partie s’arrête lorsque l’un des deux est ruiné. Oncherche la probabilité que A finisse ruiné. Pour tout n ∈ 0, . . . , 100, on note pn la probabilitéque A finisse ruiné s’il commence avec ne et B avec (100 − n)e.

1. Que valent p0 et p100 ?

2. Notons Rn l’événement : “A finit ruiné en commençant avec ne”, c’est-à-dire que pn = P(Rn).Décomposer P(Rn) en conditionnant par le résultat de la première partie, de façon à obtenirune relation de récurrence entre pn+1, pn et pn−1.

3. On admet que la solution de cette équation est de la forme :

pn = α+ β

(1− p

p

)n

.

Déterminer α et β.

4. En déduire la probabilité que A finisse ruiné.

5. De passage à Dinard, vous rentrez au casino et jouez à la roulette : il y a 18 numéros rouges,18 numéros noirs et 1 numéro vert, le zéro. Vous jouez rouge pour 1e à chaque fois. Vouscommencez avec 50e et vous arrêtez si vous avez 100e ou si vous êtes ruiné. Pourquoi valait-ilmieux aller baguenauder sur les sentiers côtiers ce jour-là ?

6. Sachant que vous commencez avec 50e et que vous ne partirez que ruiné ou avec 100e enpoche, quelle tactique vaut-il mieux adapter pour maximiser vos chances de succès ?

CorrigéPour tout n ∈ 0, . . . , 100, on note pn la probabilité que A finisse ruiné s’il commence avec ne etB avec (100 − n)e.

1. On a bien sûr p0 = 1 et p100 = 0.

2. Supposons que A commence avec ne avec 0 < n < 100 : à la première partie, ou bien ilgagne (ce qui arrive avec probabilité p) et la probabilité qu’il se ruine ensuite devient pn+1,ou bien il perd (ce qui arrive avec probabilité (1− p)) et la probabilité qu’il se ruine ensuitedevient pn−1. La formule des probabilités totales s’écrit donc :

pn = p× pn+1 + (1− p)× pn−1.

3. Si pour tout n ∈ 0, . . . , 100, on admet que :

pn = α+ β

(1− p

p

)n

,

il nous reste simplement à déterminer α et β grâce aux conditions aux bords p0 = 1 etp100 = 0. Notons θ = 1−p

p afin d’alléger les notations. On a donc à résoudre le systèmelinéaire de deux équations à deux inconnues :

α+ β = 1

α+ βθ100 = 0⇐⇒

α = θ100

θ100−1

β = −1θ100−1

Ceci donne finalement :

∀n ∈ 0, . . . , 100 pn =θ100 − θn

θ100 − 1.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 39: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 35

4. La probabilité que A finisse ruiné en commençant avec 50e est donc p50 =θ100−θ50

θ100−1.

5. A la roulette, la probabilité de gain à chaque partie est p = 18/37, donc θ = 19/18, et laprobabilité de finir ruiné est : p50 ≈ 94%. Il valait mieux en effet aller se promener ce jour-là...

6. Tant qu’à être prêt à perdre 50e, le mieux (ou plutôt : le moins pire) est de les miser en uneseule fois. La probabilité de finir ruiné est alors simplement p = 18/37.

Exercice 1.9 (Un dé et une pièce)On lance un dé équilibré, puis une pièce de monnaie non biaisée un nombre de fois égal au résultatdu dé. Soit X le résultat du dé et Y le nombre de ”Pile” amenés par la pièce de monnaie.

1. Déterminer la loi jointe du couple (X,Y ).

2. Soit n ∈ 1, . . . , 6. Quelle est la loi de Y sachant X = n ?

3. En déduire E[Y |X = n], puis E[Y |X].

4. Calculer E[Y ].

Corrigé

1. Le couple (X,Y ) est à valeurs dans l’ensemble E défini comme suit :

E = (n, k) : 1 ≤ n ≤ 6, 0 ≤ k ≤ n.

Pour tout couple (n, k) de E, on a alors :

P((X,Y ) = (n, k)) = P(X = n)P(Y = k|X = n) =1

6×(nk

)

2n.

2. Soit n ∈ 1, . . . , 6, alors la loi de Y sachant X = n est la loi binomiale B(n, 1/2).3. On en déduit que E[Y |X = n] = n/2, et plus généralement E[Y |X] = X/2.

4. Il vient donc E[Y ] = E[E[Y |X]] = E[X/2] = E[X]/2. Or X suit une loi uniforme sur 1, . . . , 6donc E[X] = (1 + 6)/2 = 7/2. Finalement E[Y ] = 7/4.

Exercice 1.10 (Minimum et maximum)On tire deux variables U et V de façon indépendante et uniformément dans l’ensemble 1, 2, 3, 4, 5.On en déduit les variables aléatoires X = min(U, V ) et Y = max(U, V ).

1. Déterminer la loi jointe du couple (U, Y ).

2. Déterminer E[U |Y = n], pour n ∈ 1, 2, 3, 4, 5.3. En déduire E[U |Y ].

4. Déterminer E[Y |U ].

5. Déterminer de même E[U |X] et E[X|U ].

Corrigé

1. La loi jointe du couple (U, Y ) est donnée figure 1.15.

2. Soit n ∈ 1, 2, 3, 4, 5 fixé. Alors si Y = n, puisque Y est le maximum de U et V , il est clairque U peut prendre les valeurs de 1 à n. On a donc :

E[U |Y = n] = P(U = 1|Y = n) + 2P(U = 2|Y = n) + · · ·+ nP(U = n|Y = n).

Il reste à préciser les probabilités :

P(U = k|Y = n) =P(U = k, Y = n)

P(Y = n).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 40: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

36 Chapitre 1. Espérance conditionnelle

1

2

3 0

Y

0

0

54321

4

5

0

0

0

0

0

0 0

1/25 1/25 1/25 1/25 1/25

1/25

1/25

1/25

1/251/25

1/25

2/25

3/25

4/25

5/25

U

Figure 1.15 – Loi jointe pour le couple (U, Y ).

Puisqu’on connaît la loi jointe, il reste à préciser la loi marginale de Y , c’est-à-dire sommersur les colonnes dans le tableau de la question précédente. Ce qui donne :

P(Y = n) = P(U = 1, Y = n) + · · ·+P(U = n, Y = n) =1

25(n− 1) +

1

25n =

2n− 1

25.

Ainsi, on obtient pour la loi conditionnelle de U sachant Y :

P(U = k|Y = n) =

1/(2n − 1) si 1 ≤ k ≤ (n− 1)n/(2n− 1) si k = n

Au total, on obtient :

E[U |Y = n] = (1 + · · ·+ (n− 1))1

2n − 1+ n

n

2n− 1.

La première somme, entre parenthèses, est arithmétique de raison 1, donc :

1 + · · ·+ (n − 1) =n(n− 1)

2,

d’où finalement :

E[U |Y = n] =n(n− 1)

2(2n − 1)+

n2

2n − 1=

n(3n− 1)

2(2n − 1).

Remarque : quand vous arrivez ici, après quelques calculs, pensez à vérifier que la formulefonctionne, par exemple pour n = 1 et n = 2.

3. On en déduit que :

E[U |Y ] =Y (3Y − 1)

2(2Y − 1).

4. Pour déterminer E[Y |U ], on commence par calculer E[Y |U = n] pour tout n ∈ 1, 2, 3, 4, 5.Lorsque U vaut n, il est clair que Y peut prendre les valeurs n, . . . , 5. Comme ci-dessus,il faut donc commencer par préciser la loi marginale de U . Or U est obtenue en tirant unnombre au hasard entre 1 et 5, donc U suit une loi uniforme sur l’ensemble 1, 2, 3, 4, 5 :P(U = n) = 1

5 . On en déduit que :

P(Y = k|U = n) =

1/5 si (n+ 1) ≤ k ≤ 5n/5 si k = n

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 41: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 37

On en déduit l’espérance conditionnelle de Y sachant U = n :

E[Y |U = n] = nn

5+ ((n+ 1) + · · ·+ 5)

1

5.

On reconnaît à nouveau une somme arithmétique dans la parenthèse :

(n+ 1) + · · ·+ 5 =(n + 6)(5 − (n+ 1) + 1)

2=

(n+ 6)(5 − n)

2,

et finalement on obtient :

E[Y |U = n] =n2 − n+ 30

10.

Et l’espérance conditionnelle de Y sachant U est donc :

E[Y |U ] =U2 − U + 30

10.

1

2

3

54321

4

5

3/25

U

X

5/25

4/25

2/25

1/25

1/25

1/25

1/25

1/25

1/25

1/25

1/25

1/25

1/25

0 0 0

0 0

0

0

0

0

0

1/25

Figure 1.16 – Loi jointe pour le couple (U,X).

5. Pour déterminer E[U |X], on reprend pas à pas le raisonnement vu ci-dessus. La loi jointe ducouple aléatoire (U,X) est représentée figure 1.16. Pour tout n entre 1 et 5, on a cette fois :

E[U |X = n] = nP(U = n|X = n) + · · ·+ 5P(U = 5|X = n).

Pour la loi marginale de X, on a : P(X = n) = 11−2n25 . Ce qui donne pour la loi conditionnelle

de U sachant X = n :

P(U = k|X = n) =

1/(11 − 2n) si (n+ 1) ≤ k ≤ 5(6− n)/(11 − 2n) si k = n

On a donc :

E[U |X = n] = n6− n

11− 2n+ ((n + 1) = · · ·+ 5)

1

11 − 2n=

30 + 11n− 3n2

22− 4n.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 42: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

38 Chapitre 1. Espérance conditionnelle

Donc finalement :

E[U |X] =30 + 11X − 3X2

22− 4X.

Pour calculer l’espérance conditionnelle de X sachant U , on a deux possibilités : ou bien onreprend la méthode plan-plan ci-dessus, ou bien on pense à une ruse de sioux. Il suffit eneffet de remarquer, puisque l’espérance conditionnelle est linéaire, que :

E[X + Y |U ] = E[X|U ] + E[Y |U ],

or X + Y = U + V , puisque si X est égal à U , Y est égal à V et vice-versa. Donc :

E[X + Y |U ] = E[U + V |U ] = E[U |U ] + E[V |U ],

et on utilise les propriétés classiques de l’espérance conditionnelle : E[U |U ] = U d’une part,et E[V |U ] = E[V ] d’autre part, puisque U et V sont indépendantes. Si on fait les comptes,on a donc obtenu :

E[X|U ] = U + E[V ]− E[Y |U ].

Or E[V ] = 3 puisque V suit une loi uniforme et on a calculé E[Y |U ] ci-dessus. Finalement :

E[X|U ] =11U − U2

10,

et tout est dit.

Figure 1.17 – Tirage uniforme dans un triangle.

Exercice 1.11 (Des points dans N2)On tire un point de façon uniforme parmi ceux de la figure 1.17. Ceci donne un couple aléatoire(X,Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 1

15 , 1 ≤ j ≤ i ≤ 5.

1. Donner les lois marginales de X et de Y .

2. Soit j ∈ 1, . . . , 5 fixé : donner la loi conditionnelle de X sachant Y = j, c’est-à-direP(X = i|Y = j).

3. Calculer E[X|Y = j], en déduire E[X|Y ], puis E[X] en fonction de E[Y ].

4. Déterminer de même la loi conditionnelle de Y sachant X = i.

5. Calculer E[Y |X = i], en déduire E[Y |X], puis E[Y ] en fonction de E[X].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 43: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 39

6. Déduire des questions précédentes E[X] et E[Y ].

7. Généralisation : soit N ∈ N∗ fixé, reprendre les questions précédentes en remplaçant 5 parN (on ne demande pas le détail des calculs, uniquement les résultats).

CorrigéLe corrigé est donné en annexe (sujet de juin 2006).

Exercice 1.12 (Somme aléatoire de variables aléatoires)Soit (Xn)n≥1 une suite de variables aléatoires admettant la même espérance m = E[X1]. Soit Nune variable aléatoire à valeurs dansN∗ indépendante de la suite (Xn)n≥1. On pose Sn =

∑nk=1Xk.

On s’intéresse dans cet exercice à la variable aléatoire SN .

1. Si N ∼ G(1/2) et les variables Xn sont équiprobables sur 1, . . . , 6, donner une façon desimuler SN à l’aide d’un dé et d’une pièce.

2. Déterminer E[SN |N = n]. En déduire E[SN |N ].

3. Que vaut E[SN ] ?

4. Application : la fièvre acheteuse. Le nombre de clients se rendant dans un magasin donnédans l’espace d’une journée est une variable aléatoire de moyenne 50. La somme dépenséepar chacun des clients est aussi une variable aléatoire de moyenne 20e. Avec des hypothèsesraisonnables, quel est le chiffre d’affaires quotidien moyen du magasin ?

Corrigé

1. Tout d’abord, il suffit de lancer une pièce équilibrée et de compter le nombre de lancersnécessaires pour voir apparaître Pile. On appelle N ce nombre, on sait qu’il suit une loigéométrique de paramètre 1/2. Il suffit alors de lancer N fois un dé équilibré à 6 faces et defaire la somme des résultats obtenus pour obtenir SN .

2. Si N = n, alors :

SN = Sn = X1 + · · ·+Xn

est la somme de n variables de même moyenne m, donc :

E[SN |N = n] = nm.

On en déduit que :

E[SN |N ] = mN.

3. La technique de calcul d’espérance par conditionnement permet alors d’écrire que :

E[SN ] = E[E[SN |N ]] = mE[N ].

4. Application : la fièvre acheteuse. Le nombre de clients se rendant dans un magasin donnédans l’espace d’une journée est une variable aléatoire de moyenne 50. La somme dépenséepar chacun des clients est aussi une variable aléatoire de moyenne 20e. En supposant que ceque dépense chaque client (variable aléatoire Xi) est indépendant du nombre N de clients àpasser dans le magasin dans la journée, on en déduit que le chiffre d’affaires quotidien moyendu magasin est :

E[SN ] = 50× 20 = 1000e.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 44: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

40 Chapitre 1. Espérance conditionnelle

Exercice 1.13 (North by Northwest)Soit X et Y deux variables aléatoires discrètes à valeurs dans N. On suppose que X ∼ P(λ), loi dePoisson de paramètre λ > 0. On suppose que, pour tout entier n > 0, la loi de Y sachant X = nest la loi binômiale B(n, p) ; et que Y = 0 si X = 0.

1. Donner la loi jointe du couple aléatoire (X,Y ).

2. Montrer que Y suit une loi de Poisson de paramètre pλ.

3. Montrer que :

∀n ≥ k ≥ 0 P(X = n|Y = k) = e−(1−p)λ ((1 − p)λ)n−k

(n− k)!,

c’est-à-dire que, sachant Y = k, X suit une loi de Poisson translatée. En déduire E[X|Y = k]et de façon générale que : :

E[X|Y ] = Y + λ(1− p).

4. Application : à un embranchement routier, le nombre X de véhicules arrivant en une heuresuit une loi de Poisson P(100) (hypothèse courante dans ce genre de situation). Les véhiculesont alors le choix entre deux directions A ou B : ils choisissent A avec la même probabilité1/3, et ce de façon indépendante. Sachant qu’en une heure, on sait simplement que 100voitures ont pris la direction A, quel est le nombre moyen de voitures qui sont passées parl’embranchement ?

Corrigé

1. Le couple (X,Y ) est à valeurs dans l’ensemble E défini comme suit :

E = (n, k) : 0 ≤ k ≤ n.

Pour tout couple (n, k) de E, on a alors :

P((X,Y ) = (n, k)) = P(X = n)P(Y = k|X = n) = e−λλn

n!×(n

k

)pk(1− p)n−k,

quantité qui s’écrit encore, puisque n = k + (n− k) et λ = pλ+ (1− p)λ :

P((X,Y ) = (n, k)) = e−pλ (pλ)k

k!× e−(1−p)λ ((1− p)λ)n−k

(n− k)!.

2. La variable Y est à valeurs dans N et pour tout entier naturel k, on a :

P(Y = k) =+∞∑

n=k

P(X = n, Y = k) = e−pλ (pλ)k

k!× e−(1−p)λ

+∞∑

n=k

((1− p)λ)n−k

(n− k)!,

et l’on réindexe la somme pour reconnaître la série de l’exponentielle :

+∞∑

n=k

((1− p)λ)n−k

(n− k)!=

+∞∑

m=0

((1− p)λ)m

m!= e(1−p)λ.

Tout compte fait, pour tout entier naturel k :

P(Y = k) = e−pλ (pλ)k

k!.

En d’autres termes, Y suit une loi de Poisson de paramètre pλ.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 45: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 41

3. Pour n ≥ k ≥ 0, on peut alors écrire :

P(X = n|Y = k) =P(X = n, Y = k)

P(Y = k),

où numérateur et dénominateur ont été calculés dans les questions précédentes, ce qui permetd’aboutir à :

∀n ≥ k ≥ 0 P(X = n|Y = k) = e−(1−p)λ ((1 − p)λ)n−k

(n− k)!,

c’est-à-dire que, sachant Y = k, X suit en effet une loi de Poisson translatée. Pour en déduireE[X|Y = k] et pour reprendre la formule chère aux amateurs de westerns spaghettis, “Lemonde se divise en deux catégories : ceux qui ont le revolver chargé, et ceux qui creusent”,i.e. sans ou avec calculs. Optons pour la première option : lorsque Y = k, X suit une loi dePoisson de paramètre (1−p)λ translatée de k, c’est-à-dire que X−k suit exactement une loide Poisson de paramètre (1− p)λ. On en déduit que E[X − k|Y = k] = (1− p)λ, autrementdit E[X|Y = k] = k + (1− p)λ et plus généralement :

E[X|Y ] = Y + λ(1− p).

4. Nous sommes exactement dans le cadre d’application de ce qui précède, avec λ = 100, p = 1/3et k = 100. Le nombre moyen de voitures qui sont passées par l’embranchement vaut donc :

E[X|Y = 100] = 100 + (1− 1/3) × 100 ≈ 167.

Un raisonnement moisi serait le suivant : pour une voiture qui prend la direction A, deuxprennent la direction B, donc si on a vu passer 100 voitures en une heure partant versA, 200 voitures ont dû prendre la direction B, donc au total 300 ont dû se présenter àl’embranchement. Où est la faute ? Le fait que les choix de A ou B sont indépendants impliqueque l’information sur l’un n’apporte aucune information sur l’autre. Donc quel que soitle nombre de voitures partant vers A en une heure, le nombre moyen de voitures vers Best inchangé et vaut environ 67. Formellement, ceci peut se voir en utilisant les propriétésclassiques de l’espérance conditionnelle :

E[X|Y ] = E[Y + Z|Y ] = E[Y |Y ] + E[Z|Y ] = Y + E[Z],

où la relation E[Z|Y ] = E[Z] vient de l’indépendance de Y et Z.

Exercice 1.14 (Espérance d’une variable géométrique)Soit une urne contenant N boules noires et M boules blanches (N,M ≥ 1). On pose p = N

N+M .On effectue une suite de tirages avec remise et on désigne par T le nombre de tirages nécessairespour amener pour la première fois une boule noire.

1. Quelle est la loi de T ? Que vaut E[T ] ?

2. On calcule ici l’espérance de T par une autre méthode. On introduit une variable X quiprend la valeur 0 ou 1 selon que la première boule tirée est blanche ou noire.

(a) Déterminer E[T |X = 1].

(b) Déterminer E[T |X = 0] en fonction de E[T ].

(c) Via un calcul d’espérance par conditionnement, en déduire E[T ].

Corrigé

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 46: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

42 Chapitre 1. Espérance conditionnelle

1. La variable T est à valeurs dans N∗ et pour tout entier naturel non nul n, il faut (n − 1)échecs et finalement un succès pour que T vaille n. Puisque les tirages sont indépendants,ceci se traduit par

P(T = n) = p(1− p)n−1

On dit que T suit une loi géométrique de paramètre p et on note T ∼ G(p). Le cadre généralest le suivant : lors d’une expérience, un événement donné a la probabilité p de survenir ; sion répète cette expérience de façon indépendante jusqu’à ce que cet événement apparaisse, lenombre d’expériences nécessaires suit la loi géométrique de paramètre p. On prendra gardeau fait que le paramètre p de cette loi ne correspond pas à la raison de la suite des probabilités(P (T = n))n∈N∗ , lequel vaut (1− p).

Le calcul de l’espérance de T se fait alors comme suit :

E[T ] =

∞∑

n=1

np(1− p)n−1 = p

∞∑

n=1

n(1− p)n−1.

Il suffit alors de se souvenir de la somme d’une série géométrique et de dériver terme à termepour obtenir le résultat voulu :

1

1− x=

∞∑

n=0

xn ⇒ 1

(1− x)2=

∞∑

n=1

nxn−1 ⇒ 1

p2=

∞∑

n=1

n(1− p)n−1

ce qui donne E[T ] = 1/p. Interprétation élémentaire : plus l’événement d’intérêt est rare,autrement dit plus p est faible, et en moyenne plus il faut attendre pour le voir apparaître.

2. (a) Il est clair que E[T |X = 1] = 1.

(b) Si X = 0, la première boule tirée est blanche et on revient au point de départ (hormisqu’on a déjà fait un tirage), ce qui se traduit par E[T |X = 0] = 1 + E[T ].

(c) Tenant compte de ce que P(X = 0) = 1−P(X = 1) = 1− p, on peut alors écrire

E[T ] = E[E[T |X]] = E[T |X = 0]P(X = 0)+E[T |X = 1]P(X = 1) = (1+E[T ])(1−p)+p

ce qui conduit bien à E[T ] = 1/p.

Exercice 1.15 (Germinal revival)Un mineur est prisonnier dans un puits d’où partent trois tunnels. Le premier tunnel le mèneraità la sortie au bout de 3 heures de marche. Le second le ramènerait à son point de départ au boutde 5 heures de marche, de même que le troisième au bout de 7 heures. On suppose que les tunnelssont indiscernables et qu’à chaque fois qu’il est au point de départ, le mineur emprunte l’un destrois de façon équiprobable. On note T le nombre d’heures nécessaires pour sortir du puits. SoitX ∈ 1, 2, 3 le numéro du tunnel que le prisonnier choisit à sa première tentative. Reprendre leraisonnement de l’exercice 1.14 (partie 2.) pour calculer le temps moyen qu’il faut au mineur poursortir.

CorrigéEn s’inspirant de l’exercice 1.14, on obtient : E[T |X = 1] = 3, E[T |X = 2] = E[T ] + 5 etE[T |X = 3] = E[T ] + 7. Par ailleurs, le calcul d’espérance par conditionnement donne :

E[T ] = E[T |X = 1]P(X = 1) + E[T |X = 2]P(X = 2) + E[T |X = 3]P(X = 3).

Mais puisque le prisonnier choisit au hasard parmi les trois tunnels, on a :

P(X = 1) = P(X = 2) = P(X = 3) =1

3.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 47: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 43

Ainsi il vient :

E[T ] =1

3(3 + E[T ] + 5 + E[T ] + 7),

d’où l’on déduit :

E[T ] = 15.

Il faut en moyenne 15 heures au mineur pour sortir. Autant dire qu’il n’a pas le cul sorti des ronces...

Exercice 1.16 (Variable Y définie à partir de X)On considère une variable aléatoire X à valeurs dans N∗ et telle que :

∀i ∈ N∗P(X = i) =

2

3i.

Soit Y une variable aléatoire telle que, sachant X = i, la loi de Y est l’équiprobabilité sur i, i+1.1. Que vaut E[X] ?

2. Pour tout i ∈ N∗, déterminer E[Y |X = i]. En déduire E[Y |X], puis E[Y ].

3. Calculer la loi jointe du couple (X,Y ).

4. Déterminer la loi de Y .

5. Pour tout j ∈ N∗, déterminer E[X|Y = j]. En déduire E[X|Y ].

6. Calculer Cov(X,Y ).

Corrigé

1. On a vu que X suit une loi géométrique de paramètre 2/3 donc E[X] = 3/2.

2. Pour tout i ∈ N∗, on a vu que :

E[Y |X = i] =1

2(i+ (i+ 1)) =

2i+ 1

2.

On en déduit que

E[Y |X] =2X + 1

2,

et par suite

E[Y ] = E[E[Y |X]] =1

2(2E[X] + 1) = 2.

3. La loi jointe du couple (X,Y ) est très simple puisqu’on connaît marginale et conditionnelle.Pour tout i ∈ N∗, on a :

pi,j =

0 si j /∈ i, i + 113i

si j ∈ i, i + 1

4. La variable aléatoire Y est à valeurs dans N∗, avec

pj = P(Y = j) =

1/3 si j = 143j

si j ≥ 2

5. On commence par déterminer la loi conditionnelle de X sachant Y = j. Or si Y = 1, il estclair que X vaut 1, donc que E[X|Y = 1] = 1. Si Y = j > 1, alors X ne peut valoir que j ou(j − 1) et plus précisément :

P(X = j − 1|Y = j) =P(X = j − 1, Y = j)

P(Y = j)=

3

4,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 48: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

44 Chapitre 1. Espérance conditionnelle

et de même :

P(X = j|Y = j) =1

4,

d’où l’on déduit :

E[X|Y = j] =3(j − 1)

4+

j

4=

4j − 3

4

On est donc obligé de faire attention à la valeur 1 pour la variable aléatoire X :

E[X|Y ] = 1Y=1 +4Y − 3

41Y >1

6. On a enfin

Cov(X,Y ) = E[XY ]− E[X]E[Y ],

or on a déjà vu que E[X] = 3/2 et E[Y ] = 2 et

E[XY ] = E[E[XY |X]] = E[XE[Y |X]] = E

[X

2X + 1

2

]=

1

2(2E[X2] + E[X]).

Il reste à voir que E[X2] = VarX+(E[X])2, et à se souvenir (ou à recalculer) que la varianced’une loi géométrique de paramètre p est q/p2 (donc ici 3/4). On a donc :

E[XY ] =1

2

(2

(3

4+

9

4

)+

3

2

)=

15

4.

Finalement :

Cov(X,Y ) =15

4− 3 =

3

4.

Exercice 1.17 (Couple aléatoire)Rappels sur les séries entières : Pour tout x ∈ [−1, 1[, on a :

ln(1− x) = −+∞∑

n=1

xn

n,

Pour tout x ∈ [−1, 1[ et pour tout entier naturel k :

k!

(1− x)k+1=

+∞∑

n=0

(n+ k)!

n!xn.

On considère un couple aléatoire (X,Y ) à valeurs dans N2 \ (0, 0) dont la loi jointe est définiepar :

∀(i, j) ∈ N2 \ (0, 0) P(X = i, Y = j) =1

ln 2

(i+ j − 1)!

i!j!3i6j.

1. Calculer P(X = 0).

2. Pour tout i ∈ N∗, calculer P(X = i).

3. Déterminer la loi de Y conditionnellement à X = 0. Calculer E[Y |X = 0].

4. Pour tout i ∈ N∗, déterminer la loi de Y conditionnellement à X = i. Calculer E[Y |X = i].

5. En déduire E[Y |X].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 49: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 45

6. En déduire l’égalité suivante :

E[Y ]− 1

5E[X] =

1

5 ln 2.

Corrigé

1. Lorsque X = 0, Y peut prendre les valeurs 1, 2, etc. On a donc :

P(X = 0) =

+∞∑

j=1

P(X = 0, Y = j) =

+∞∑

j=1

1

ln 2

(j − 1)!

j!6j=

1

ln 2

+∞∑

j=1

1

j6j,

et il suffit alors d’appliquer la formule donnée en rappel pour obtenir :

P(X = 0) =ln 6− ln 5

ln 2.

2. Lorsque X = i > 0, Y peut prendre les valeurs 0, 1, 2, etc. On a cette fois :

P(X = i) =

+∞∑

j=0

1

ln 2

(i+ j − 1)!

i!j!3i6j=

1

ln 2

1

i!3i

+∞∑

j=0

(j + (i− 1))!

j!6j,

et on applique la formule du rappel :

P(X = i) =1

ln 2

1

i!3i(i− 1)!

6i

5i=

1

ln 2

2i

i5i.

3. Pour tout j > 0, on a donc :

P(Y = j|X = 0) =P(X = 0, Y = j)

P(X = 0)=

1

(ln 6− ln 5)j6j.

La valeur moyenne de Y sachant X = 0 est donc :

E[Y |X = 0] =+∞∑

j=1

jP(Y = j|X = 0) =1

ln 6− ln 5

+∞∑

j=1

1

6j,

et on reconnaît une série géométrique :

E[Y |X = 0] =1

5(ln 6− ln 5).

4. Soit i > 0 fixé. Pour tout j ≥ 0, on a :

P(Y = j|X = i) =P(X = i, Y = j)

P(X = i)=

(i+ j − 1)!5i

(i− 1)!j!6i+j.

D’où l’on déduit l’espérance conditionnelle de Y sachant X = i :

E[Y |X = i] =

+∞∑

j=0

jP(Y = j|X = i) =5i

(i− 1)!6i

+∞∑

j=1

((j − 1) + i)!

(j − 1)!

1

6j,

ce qui s’écrit encore :

E[Y |X = i] =5i

(i− 1)!6i+1

+∞∑

n=0

(n+ i)!

n!

1

6n,

c’est-à-dire, après simplifications :

E[Y |X = i] =i

5.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 50: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

46 Chapitre 1. Espérance conditionnelle

5. Pour l’expression de l’espérance conditionnelle de Y sachant X, il faut donc faire attentionà X = 0 :

E[Y |X] =1

5(ln 6− ln 5)1X=0 +

1

5X1X>0 =

1

5(ln 6− ln 5)1X=0 +

1

5X.

6. On en déduit l’espérance de Y en fonction de celle de X :

E[Y ] = E[E[Y |X]] =1

5(ln 6− ln 5)E[1X=0] +

1

5E[X].

La variable aléatoire 1X=0 est binaire, elle prend les valeurs 0 et 1 avec les probabilitésrespectives P(X > 0) et P(X = 0), donc son espérance est tout simplement :

E[1X=0] = 0×P(X > 0) + 1×P(X = 0) = P(X = 0) =ln 6− ln 5

ln 2.

On en déduit que :

E[Y ] =1

5 ln 2+

1

5E[X],

ce qui est bien le résultat voulu.Remarque. Une version plus générale de cet exercice se trouve dans l’ouvrage Toutes lesprobabilités et les statistiques, de Jacques Dauxois et Claudie Hassenforder, Ellipses, 2004.

Exercice 1.18 (Echauffement)On considère la fonction f définie sur R2 par :

f(x, y) = e−(x+y)1x≥0,y≥0

1. Vérifier que f est une densité sur R2.

2. Soit (X,Y ) un couple de densité f . Déterminer les marginales f(x) et f(y).

3. Calculer la covariance du couple (X,Y ).

Corrigé

1. Il est clair que f est une fonction positive. Par ailleurs, par le théorème de Fubini-Tonelli, lecalcul de son intégrale double sur R2 se fait sans problème :

∫∫

R

2

f(x, y) dx dy =

∫ +∞

0

(∫ +∞

0e−(x+y) dy

)dx = · · · = 1,

et f est bien une densité sur R2.

2. La densité f(x) de la variable aléatoire X s’obtient en intégrant par rapport à y :

f(x) =

R

f(x, y) dy = · · · = e−x1[0,+∞[(x).

On voit donc que X suit une loi exponentielle de paramètre 1, ce que l’on note : X ∼ E(1).Vu les rôles symétriques joués par X et Y , la variable aléatoire Y a la même loi : Y ∼ E(1).

3. On remarque que :∀(x, y) ∈ R2 f(x, y) = f(x)f(y),

donc X et Y sont indépendantes, donc leur covariance est nulle (rappelons que la réciproqueest fausse en général, sauf dans le cas des vecteurs gaussiens).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 51: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 47

Exercice 1.19 (Montée en puissance)Soit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) =1

ye−x

y−y1]0,+∞[2(x, y)

1. Déterminer la densité marginale f(y) de Y .

2. En déduire la densité conditionnelle f(x|y).3. Que vaut E[X|Y = y]. En déduire l’espérance conditionnelle de X sachant Y .

4. On considère cette fois : f(x, y) = 125 x(2− x− y)1]0,1[2(x, y). Montrer que

E[X|Y ] =5− 4Y

8− 6Y

Corrigé

1. La densité marginale de Y vaut :

f(y) =

∫ +∞

0

1

ye−x

y−y1]0,+∞[(y) dy,

ce qui donne après calculs :f(y) = e−y

1]0,+∞[(y),

c’est-à-dire que Y ∼ ε(1).

2. On en déduit la densité conditionnelle f(x|y). Pour tout y > 0 :

f(x|y) = f(x, y)

f(y)=

1

ye−

xy1]0,+∞[(x),

donc sachant Y = y, X ∼ ε(1/y).

3. On sait que si X ∼ ε(λ), alors E[X] = 1/λ. Or sachant Y = y, X ∼ ε(1/y), donc :

E[X|Y = y] = y,

et par suite : E[X|Y ] = Y .

4. On considère cette fois : f(x, y) = 125 x(2− x− y)1]0,1[2(x, y). Pour montrer que

E[X|Y ] =5− 4Y

8− 6Y,

il suffit d’appliquer la méthode usuelle. Si vous n’arrivez pas à ce résultat, c’est que vousavez fait une faute de calcul quelque part !

Exercice 1.20 (Mai 2007)Soit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) = cx(y − x)e−y10<x≤y.

1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler sonmoment d’ordre n, c’est-à-dire E[V n].

2. Déterminer c pour que f soit effectivement une densité.

3. Calculer f(x|y), densité conditionnelle de X sachant Y = y.

4. En déduire que E[X|Y ] = Y/2.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 52: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

48 Chapitre 1. Espérance conditionnelle

5. Calculer f(y|x), densité conditionnelle de Y sachant X = x.

6. En déduire que E[Y |X] = X + 2.

7. Déduire des questions 4 et 6 les quantités E[X] et E[Y ].

CorrigéCf. annales en fin de polycopié.

Exercice 1.21 (Mai 2008)On considère le couple aléatoire (X,Y ) de densité la fonction f définie sur R

2 par :

f(x, y) =

2 si 0 ≤ x ≤ y ≤ 10 sinon

1. Représenter f et vérifier qu’il s’agit bien d’une fonction de densité.

2. Les variables X et Y sont-elles indépendantes ?

3. Déterminer les lois marginales puis calculer E[X] et E[Y ].

4. Calculer les lois conditionnelles f(y|x) et f(x|y).5. Calculer E[X|Y ].

6. En utilisant le résultat précédent et la valeur de E[Y ] de la question 3, retrouver la valeurde E[X].

CorrigéCf. annales en fin de polycopié.

Exercice 1.22 (Changement de couple)On considère la fonction suivante :

f(x, y) = e−y10<x<y.

1. Vérifier que f(x, y) définit une densité de probabilité sur R2.

2. Calculer les densités marginales de X et Y . Les variables X et Y sont-elles indépendantes ?

3. Calculer E[X], E[Y ], Cov(X,Y ).

4. Déterminer la densité conditionnelle fY |X de Y sachant X = x. En déduire E[Y |X = x],puis l’espérance conditionnelle E[Y |X].

5. Déterminer de même E[X|Y ].

6. Déterminer la loi jointe fZ,T du couple (Z, T ) défini par :

Z = X + YT = Y −X

7. En déduire les densités marginales de Z et T .

CorrigéCet exercice est corrigé en annexe, sujet de juin 2005.

Exercice 1.23 (Jeu de fléchettes)Soit D le disque de centre (0, 0) et de rayon 1, (X,Y ) un point tiré uniformément dans D.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 53: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 49

1. Donner la densité f(x, y) du couple (X,Y ).

2. Déterminer les lois marginales de X et Y . En déduire E[X] et E[Y ].

3. Les variables X et Y sont-elles indépendantes ?

4. Calculer la covariance du couple (X,Y ).

5. Déterminer la fonction de répartition G(u), puis la densité g(u), de la variable aléatoireU = X2 + Y 2.

6. Calculer l’espérance de U . En déduire E[X2], E[Y 2], la variance de X et celle de Y .

7. Déterminer la densité conditionnelle f(.|x) de Y sachant X = x. Calculer E[Y 2|X = x], puisE[X2 + Y 2|X = x], puis E[X2 + Y 2|X].

8. Un tireur tire sur la cible D : la loi du point d’impact (X,Y ) sur la cible est uniforme. Aupoint d’impact est associée la distance au centre L =

√X2 + Y 2. Supposons qu’il tire n fois

de façons indépendantes : ceci donne un n-uplet (L1, . . . , Ln) de variables aléatoires. Soit0 < a ≤ 1 : calculer la probabilité que l’une au moins des fléchettes soit à distance inférieureà a du centre de la cible.

Corrigé

1. Puisque le point (X,Y ) est tiré uniformément dans le disque D, la densité f(x, y) du couple(X,Y ) est tout simplement l’indicatrice du disque divisé par la surface de ce disque. C’estla généralisation d’une loi uniforme sur un segment de R (indicatrice du segment divisé parsa longueur). Ainsi :

f(x, y) =1

π1D(x, y) =

1

π1x2+y2≤1(x, y).

2. Si x est fixé entre −1 et 1, y ne peut varier qu’entre −√1− x2 et +

√1− x2 (faire un dessin !).

On a alors :

f(x) =

∫ +√1−x2

−√1−x2

1

πdy =

2

π

√1− x21[−1,1](x).

Puisque l’abscisse X et l’ordonnée Y jouent des rôles symétriques, on a aussi :

f(y) =2

π

√1− y21[−1,1](y).

On en déduit :

E[X] =2

π

∫ 1

−1x√

1− x2 dx,

et il y a deux façons de voir les choses : ou bien on y va brutalement et on reconnaît àpeu de choses près la dérivée de (1 − x2)3/2. Ou bien on ruse on voit que c’est l’intégraled’une fonction impaire sur un domaine symétrique par rapport à 0, donc elle vaut 0 (faireun dessin). Ainsi E[X] = 0, ce qui n’est pas étonnant : on lance les fléchettes aussi bien dansles abscisses négatives que positives. Puisque Y a même loi que X, on a aussi E[Y ] = 0.

3. Les variables X et Y ne sont pas indépendantes, puisque le support de la loi du couple (X,Y )n’est pas un pavé, mais un disque. On peut aussi le voir en vérifiant que la loi jointe f(x, y)n’est pas égale au produit des marginales.

4. Par définition la covariance du couple (X,Y ) est :

cov(X,Y ) = E[XY ]− E[X]E[Y ] = E[XY ] =

∫∫

Dxyf(x, y) dx dy,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 54: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

50 Chapitre 1. Espérance conditionnelle

et par le théorème de Fubini (on intègre une fonction continue sur un domaine borné doncno souci) :

cov(X,Y ) =1

π

∫ +1

−1x

(∫ +√1−x2

−√1−x2

y dy

)dx = 0,

puisque pour tout x entre −1 et 1, le segment [−√1− x2,+

√1− x2] est symétrique par

rapport à 0 et la fonction y 7→ y est impaire. On en déduit que cov(X,Y ) = 0 alors que Xet Y ne sont pas indépendantes : Etonnov, niet ?

5. La variable aléatoire (X2 + Y 2) est à valeurs entre 0 et 1 et pour tout u ∈ [0, 1], on a :

G(u) = P(X2 + Y 2 ≤ u) = P(√

X2 + Y 2 ≤ √u),

or√X2 + Y 2 est la distance au centre d’un point M tiré au hasard dans le disque. La

probabilité que celle-ci soit plus petite que√u correspond donc au rapport des surfaces

entre le disque de centre O et de rayon√u et le disque D, c’est-à-dire que :

G(u) =

0 si u ≤ 0u si 0 ≤ u ≤ 11 si u ≥ 1

Autrement dit U suit une loi uniforme sur [0, 1], ce qu’on note U ∼ U[0,1]. On en déduit quesa densité est l’indicatrice du segment [0, 1] : g(u) = 1[0,1](u).

6. L’espérance de U vaut donc 1/2. Puisque X et Y ont même loi, on a E[X2] = E[Y 2], etpuisque U = (X2 + Y 2), on a :

E[U ] = E[X2] + E[Y 2] = 2E[X2] ⇒ E[X2] =1

2E[U ] =

1

4.

Les variances de X et Y sont identiques et :

Var(X) = E[X2]− E[X]2 = E[X2] =1

4.

7. La densité conditionnelle f(.|x) de Y sachant X = x est :

f(y|x) = 1

2√1− x2

1[−√1−x2,+

√1−x2](y).

On en déduit :

E[Y 2|X = x] =1

2√1− x2

∫ +√1−x2

−√1−x2

y2 dy =1− x2

3.

Mais alors :

E[X2 + Y 2|X = x] = E[X2|X = x] + E[Y 2|X = x] = x2 +1− x2

3=

2x2 + 1

3,

et de façon générale :

E[X2 + Y 2|X] =2X2 + 1

3.

8. La probabilité que l’une au moins des fléchettes soit à distance inférieure à a du centre de lacible est :

pa = P(min(L1, . . . , Ln) ≤ a) = 1−P(min(L1, . . . , Ln) > a) = 1−P(L1 > a, . . . , Ln > a),

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 55: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 51

or les variables aléatoires L1, . . . , Ln sont indépendantes et identiquement distribuées, donc :

P(L1 > a, . . . , Ln > a) = P(L1 > a)× · · · ×P(Ln > a) = P(L1 > a)n.

Mais on a alors :

P(L1 > a) = 1−P(L1 ≤ a) = 1−P(L21 ≤ a2) = 1−P(X2 +Y 2 ≤ a2) = 1−G(a2) = 1−a2.

Ainsi :

pa = 1− (1− a2)n.

Exercice 1.24 (Lois exponentielles)Soit X et Y deux variables aléatoires indépendantes suivant une loi exponentielle de même para-mètre λ > 0.

1. Quelle est la loi jointe fX,Y du couple (X,Y ) ?

2. Déterminer la loi jointe fV,W du couple (V,W ) défini par :

V = X + YW = X

3. En déduire la densité de V .

4. Calculer f(w|v). Quelle loi reconnaît-on ?

CorrigéVoir les annales, sujet de mai 2008.

Exercice 1.25 (Minimum de variables exponentielles)1. On considère deux variables aléatoires indépendantes X1 et X2 exponentielles de paramètres

respectifs λ1 et λ2. Soit Y = min(X1,X2) le minimum de ces deux variables. Montrer queY suit une loi exponentielle de paramètre (λ1 + λ2) (on pourra utiliser les fonctions derépartition).

2. Montrer que :

P(Y = X1) = P(X1 < X2) =λ1

λ1 + λ2.

Indication : on pourra calculer P(X1 < X2) en conditionnant par rapport à X2.

3. Deux guichets sont ouverts à une banque : le temps de service au premier (respectivementsecond) guichet suit une loi exponentielle de moyenne 20 (respectivement 30) minutes. Audeet Vincent sont convoqués à la banque pour s’expliquer sur leurs découverts respectifs : Audechoisit le guichet 1, Vincent le 2. Quelle est la probabilité que Aude sorte la première ?

4. En moyenne, combien de temps faut-il pour que les deux soient sortis ? Indication : le maxde deux nombres, c’est la somme moins le min.

Corrigé

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 56: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

52 Chapitre 1. Espérance conditionnelle

1. Notons FY la fonction de répartition de Y , alors :

FY (y) = P(Y ≤ y) = P(min(X1,X2) ≤ y) = 1− P (min(X1,X2) > y),

ce qui s’écrit encore :FY (y) = 1−P (X1 > y ∩ X2 > y) .

Or X1 et X2 sont indépendantes :

FY (y) = 1−P(X1 > y)P(X2 > y) = 1− e−λ1y1

R

+(y)e−λ2y1

R

+(y) = 1− e−(λ1+λ2)y1

R

+(y),

c’est-à-dire que Y ∼ E(λ1 + λ2).

2. On a :

P(Y = X1) = P(X1 < X2) =

∫ +∞

0P(X1 < X2|X2 = x)fX2(x) dx,

c’est-à-dire :

P(Y = X1) =

∫ +∞

0P(X1 < x|X2 = x)λ2e

−λ2x dx.

Mais puisque X1 et X2 sont indépendantes, le premier terme dans l’intégrale est simplement :

P(X1 < x|X2 = x) = P(X1 < x) = 1− e−λ1x,

d’où l’on déduit :

P(Y = X1) =

∫ +∞

0

(λ2e

−λ2x − λ2e−(λ1+λ2)x

)dx = 1− λ2

λ1 + λ2.

Finalement on a bien :

P(Y = X1) =λ1

λ1 + λ2.

3. Rappelons qu’une exponentielle de moyenne 20 a pour paramètre 1/20. La probabilité queAude sorte la première est donc tout simplement :

p =1/20

1/20 + 1/30=

3

5.

4. Soit Xa, respectivement Xv, le temps nécessaire pour que Aude, respectivement Vincent,sorte de la banque. On cherche donc à calculer E[max(Xa,Xv)]. Il suffit de remarquer que :

max(Xa,Xv) = Xa +Xv −min(Xa,Xv),

d’où par linéarité de l’espérance :

E[max(Xa,Xv)] = E[Xa] + E[Xv]− E[min(Xa,Xv)] = 20 + 30− 1

1/20 + 1/30= 38 min.

Exercice 1.26 (Variable Y définie à partir de X)Soit X une variable aléatoire de densité :

2

(ln 2)2ln(1 + x)

1 + x1[0,1](x)

Soit Y une variable aléatoire telle que la loi conditionnelle de Y sachant X = x est :

1

ln(1 + x)

1

1 + y1[0,x](y)

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 57: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 53

1. Donner la densité jointe du couple (X,Y ).

2. Les variables X et Y sont-elles indépendantes ?

3. Quelle est la loi de Y ? Loi conditionnelle de X sachant Y ?

4. Déterminer l’espérance conditionnelle E[X|Y ].

CorrigéCf. annales, sujet de juin 2006.

Exercice 1.27 (L’aiguille de Buffon)On suppose qu’on lance une aiguille de longueur unité sur un parquet dont les lames sont elles-mêmes de largeur unité. On voudrait calculer la probabilité p que l’aiguille soit à cheval sur deuxlames. On modélise le problème comme suit : la variable aléatoire X correspond à la distancedu milieu de l’aiguille au bord de lame le plus proche, la variable aléatoire T correspond à l’angleentre l’aiguille et l’axe des abscisses (cf. figure 1.18, à gauche). On suppose que X est uniformémentdistribuée sur [0, 1/2], T uniformément distribuée sur [−π/2, π/2], et que ces deux variables sontindépendantes.

TXR

Figure 1.18 – Modélisation de l’expérience de Buffon (à gauche) et solution diabolique (à droite).

1. Expliquer pourquoi la probabilité cherchée peut s’écrire :

p = P

(X ≤ 1

2| sinT |

).

2. Soit t ∈ [−π/2, π/2]. Que vaut P(X ≤ 12 | sin t|) ?

3. Grâce à un calcul de probabilité par conditionnement, en déduire que p = 2π .

4. Méthode heuristique : on jette un très grand nombre d’aiguilles sur le parquet, de sorte qu’ily en ait dans toutes les directions. On peut donc les mettre bout à bout de façon à formerun très grand cercle, de rayon R (cf. figure 1.18, à droite).

(a) Quel est approximativement le nombre N d’allumettes nécessaires pour former ce cercle ?

(b) Quel est approximativement le nombre Ni de lames de parquet intersectées par cesallumettes ?

(c) En faisant le rapport entre ces deux nombres, retrouver le résultat p = 2π .

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 58: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

54 Chapitre 1. Espérance conditionnelle

1. Puisque l’aiguille est de longueur unité, la distance verticale entre ses deux extrémités estégale à | sinT |. Dès lors, la distance verticale entre le milieu de l’aiguille et chacune de sesdeux extrémités vaut | sin T |/2. Pour que l’aiguille ne chevauche aucune lame, il faut et ilsuffit que ce nombre soit plus petit que la distance du milieu de l’aiguille au bord de lame leplus proche, notée X. Ainsi la probabilité cherchée s’écrit :

p = P

(X ≤ 1

2| sinT |

).

2. Soit t ∈ [−π/2, π/2]. Puisque X suit une loi uniforme sur [0, 1/2], il vient

P(X ≤ 1

2| sin t|) = | sin t|.

3. Grâce à un calcul de probabilité par conditionnement, en déduire que p = 2π .

4. Méthode heuristique : on jette un très grand nombre d’aiguilles sur le parquet, de sorte qu’ily en ait dans toutes les directions. On peut donc les mettre bout à bout de façon à formerun très grand cercle, de rayon R (cf. figure 1.18, à droite).

(a) Quel est approximativement le nombre N d’allumettes nécessaires pour former ce cercle ?

(b) Quel est approximativement le nombre Ni de lames de parquet intersectées par cesallumettes ?

(c) En faisant le rapport entre ces deux nombres, retrouver le résultat p = 2π .

Exercice 1.28 (Casser un bâton en trois)On casse un bâton en trois morceaux “au hasard” et on veut connaître la probabilité de pouvoirfaire un triangle avec ces trois morceaux. On suppose pour simplifier les calculs que le bâton estde longueur unité.

1. Si on considère trois bâtons de longueurs a, b et c, à quelles conditions sur ces trois nombrespeut-on construire un triangle avec ces trois bâtons ?

2. Première méthode : on tire uniformément entre 0 et 1 deux variables aléatoires indépendantesU et V . Représenter graphiquement, dans le carré [0, 1] × [0, 1] les couples admissibles. Endéduire que la probabilité cherchée vaut 1

4 .

3. Seconde méthode : on casse d’abord le bâton en deux morceaux (tirage d’une variable aléa-toire X uniforme sur [0, 1]), puis on choisit au hasard l’un des deux morceaux (pile ou facenon biaisé), puis on recasse ce morceau en deux (tirage d’une variable uniforme Y ). Déter-miner la densité, notée f(y|x), de Y sachant X = x. En déduire que la probabilité cherchéevaut ln 2− 1

2 ≈ 0.19.

4. Pourquoi ne trouve-t-on pas le même résultat ?

Corrigé

1. La condition générale pour qu’on puisse construire un triangle est qu’aucune des deux lon-gueurs ne soit supérieure à la somme des deux autres, ce qui donne un système de troisinéquations à satisfaire.

2. Les deux points U et V définissent les trois segments [0,min(U, V )], [min(U, V ),max(U, V )] et[max(U, V ), 1], de longueurs respectives min(U, V ), max(U, V )−min(U, V ) et 1−max(U, V ).D’après la question précédente, le système suivant doit alors être satisfait :

min(U, V ) ≤ (max(U, V )−min(U, V )) + (1−max(U, V ))max(U, V )−min(U, V ) ≤ min(U, V ) + (1−max(U, V ))1−max(U, V ) ≤ min(U, V ) + (max(U, V )−min(U, V ))

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 59: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 55

lequel est équivalent à :

min(U, V ) ≤ 1/2max(U, V )−min(U, V ) ≤ 1/2max(U, V ) ≥ 1/2

De par la symétrie des rôles joués par U et V , on peut supposer dans un premier tempsU ≤ V , c’est-à-dire se restreindre au triangle supérieur gauche du carré unité, étudier larégion admissible dans ce triangle, et la seconde région s’en déduira par symétrie par rapportà la droite u = v. Or si U ≤ V , le système ci-dessus devient

U ≤ 1/2V ≤ U + 1/2V ≥ 1/2

La région admissible est représentée figure 1.19. En cassant un bâton en trois morceaux de

1

1

U

V

Figure 1.19 – Région admissible.

cette façon, la probabilité qu’on puisse faire un triangle correspond exactement à la surfacede cette région, laquelle vaut 1/4.

3. Seconde méthode : on casse d’abord le bâton en deux morceaux (tirage d’une variable aléa-toire X uniforme sur [0, 1]), puis on choisit au hasard l’un des deux morceaux (pile ou facenon biaisé), puis on recasse ce morceau en deux (tirage d’une variable uniforme Y ). Déter-miner la densité, notée f(y|x), de Y sachant X = x. En déduire que la probabilité cherchéevaut ln 2− 1

2 ≈ 0.19.

4. Pourquoi ne trouve-t-on pas le même résultat ?

Exercice 1.29 (Triplet aléatoire)Soit (X,Y,Z) un triplet aléatoire. La loi marginale de X est donnée par :

f(x) =1

6x3e−x

1]0,+∞[(x).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 60: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

56 Chapitre 1. Espérance conditionnelle

La loi conditionnelle de Y sachant X = x est donnée par :

f(y|x) = 3y2

x31]0,x[(y).

La loi conditionnelle de Z sachant X = x et Y = y est donnée par :

f(z|x, y) = 2y − z

y21]0,y[(z).

1. Soit V ∼ E(λ). Donner pour tout n ∈ N : E[V n].

2. Représenter l’ensemble des valeurs prises par le triplet (X,Y,Z).

3. Déterminer la densité jointe f(x, y, z). En déduire la densité de Z.

4. Que vaut la densité jointe du couple (X,Y ) conditionnellement à Z = z ?

5. En déduire la densité de X sachant Z = z, notée f(x|z), puis E[X|Z].

6. Soit S = X + Y et T = X − Y . Déterminer la densité jointe fS,T du couple (S, T ). Quelleloi suit la variable aléatoire T ?

Exercice 1.30 (Couple mixte)On rappelle que si V ∼ E(α), on a : E[V n] = n!/αn. Soit alors (X,Y ) un couple de variablesaléatoires à valeurs dans N× [0,+∞[, tel que :– la loi marginale de Y est exponentielle de paramètre 1 ;– la loi conditionnelle de X sachant Y = λ est une loi de Poisson de paramètre λ.Puisque le couple n’est ni discret, ni absolument continu, on propose de noter p(n, λ) sa loi jointe,p(n) = P(X = n) la loi marginale de X, p(λ) la densité de Y , etc.

1. Déterminer la loi jointe du couple (X,Y ), c’est-à-dire p(n, λ).

2. Déterminer la loi marginale de X, c’est-à-dire p(n). Quel est le lien avec une loi géométriqueclassique ? Que vaut E[X] ?

3. Déterminer la densité conditionnelle de Y sachant X = n, c’est-à-dire p(λ|n).4. Déterminer l’espérance conditionnelle de Y sachant X = n, c’est-à-dire E[Y |X = n]. En

déduire E[Y |X].

5. Vérifier sur cet exemple la relation vue en cours dans les cas classiques :

E[Y ] = E[E[Y |X]].

Exercice 1.31 (Triplet exponentiel)Soit X1, X2 et X3 des variables i.i.d. de loi exponentielle de paramètre α. On pose :

Y1 = X2 −X1

Y2 = X3 −X1

On s’intéresse à la densité jointe du couple (Y1, Y2) sachant X1 = x1. Montrer que pour tout triplet(x1, y1, y2) de R3, on a :

f(y1, y2|x1) = α2e−α(2x1+y1+y2)1y1≥−x1,y2≥−x1.

Exercice 1.32 (Droite de régression en statistiques)On considère les tailles et poids de dix enfants de six ans :

Taille 121 123 108 118 111 109 114 103 110 115Poids 25 22 19 24 19 18 20 15 20 21

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 61: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 57

1. Calculer les espérances, variances et covariance empiriques pour cet échantillon.

2. Déterminer la droite de régression y = ax+ b.

3. Quelle est l’erreur quadratique moyenne pour cet échantillon ?

Exercice 1.33 (Droite de régression en probabilités)Soit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) =1

2πe−

2x2−2xy+y2

2

1. Montrer que X ∼ N (0, 1) et Y ∼ N (0, 2), lois normales centrées de variances respectives 1et 2.

2. Montrer que la covariance du couple (X,Y ) vaut 1.

3. En déduire l’équation de la droite de régression de Y en X : y = ax+ b.

4. Montrer que, sachant X = x, Y suit une loi normale N (x, 1). En déduire la courbe derégression : x 7→ E[Y |X = x].

5. Sachant X = x, on veut la probabilité que Y s’éloigne de ax + b de plus de une unité, i.e.calculer :

P(|Y − (aX + b)| > 1|X = x).

Indication : si V ∼ N (0, 1), alors P(|V | > 1) ≈ 0.32.

Exercice 1.34 (Droite de régression et courbe de régression)Soit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) =1

x√2π

e−12( y

2

x2−2y+x2+2x)

1x>0

1. Montrer que X ∼ E(1), loi exponentielle de paramètre 1.

2. Calculer f(y|x) pour montrer que, sachant X = x, Y suit une loi normale N (x2, x2).

3. En déduire la courbe de régression : x 7→ E[Y |X = x].

4. Sachant X = x, donner une zone de confiance à 95% pour Y .

5. Déterminer l’équation de la droite de régression de Y en X.

6. Représenter graphiquement les résultats.

Exercice 1.35 (Droite de régression et points aberrants)Douze personnes sont inscrites à une formation. Au début de la formation, ces stagiaires subissentune épreuve A notée sur 20. A la fin de la formation, elles subissent une épreuve B de niveauidentique. Les résultats sont donnés dans le tableau suivant :

Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19

1. Représenter le nuage de points. Déterminer la droite de régression. Calculer le coefficient decorrélation. Commenter.

2. Deux stagiaires semblent se distinguer des autres. Les supprimer 3 et déterminer la droite derégression sur les dix points restants. Calculer le coefficient de corrélation. Commenter.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 62: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

58 Chapitre 1. Espérance conditionnelle

4 6 8 10 12 14

68

1012

1416

18

Notes Epreuve A

Not

es E

preu

ve B

Figure 1.20 – Représentation des notes et droite de régression pour l’ensemble des 12 stagiaires.

Corrigé

1. Le nuage de points ainsi que la droite de régression sont représentés figure 1.20. On chercheà expliquer les notes à l’épreuve B, notées y1, . . . , y12 à partir des notes à l’épreuve A, notéesx1, . . . , x12. L’équation de la droite de régression est y = ax+ b, avec :

a =

∑12i=1(xi − x)(yi − y)∑12

i=1(xi − x)2≈ 0.11

rapport de la covariance empirique entre les notes à l’épreuve A et celles à l’épreuve B et dela variance empirique des notes à l’épreuve A. Pour l’ordonnée à l’origine, on a :

b = y − ax ≈ 12.0

Le coefficient de corrélation linéaire vaut :

ρ =

∑12i=1(xi − x)(yi − y)√∑12

i=1(xi − x)2√∑12

i=1(yi − y)2≈ 0.10

Le coefficient proche de 0 pourrait laisser penser qu’il n’y a pas une forte corrélation linéaireentre les notes à l’épreuve A et les notes à l’épreuve B. De fait, sur la figure 1.20, la droitede régression ne semble pas représenter correctement le nuage de points.

2. On élimine les notes des deux derniers stagiaires, c’est-à-dire les deux dernières colonnes dutableau. Le nuage de points ainsi que la droite de régression sont représentés figure 1.21.L’équation de la droite de régression est encore y = ax+ b, avec :

a =

∑10i=1(xi − x)(yi − y)∑10

i=1(xi − x)2≈ 0.90

3. “Je ne crois aux statistiques que lorsque je les ai moi-même falsifiées.” Winston Churchill.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 63: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 59

4 6 8 10 12

810

1214

1618

Notes Epreuve A

Not

es E

preu

ve B

Figure 1.21 – Représentation des notes et droite de régression pour les 10 premiers stagiaires.

rapport de la covariance empirique entre les notes à l’épreuve A et celles à l’épreuve B et dela variance empirique des notes à l’épreuve A. Pour l’ordonnée à l’origine, on a :

b = y − ax ≈ 5.5

Le coefficient de corrélation linéaire vaut :

ρ =

∑10i=1(xi − x)(yi − y)√∑10

i=1(xi − x)2√∑10

i=1(yi − y)2≈ 0.90

On obtient cette fois une forte corrélation linéaire puisque ρ est proche de 1. De même, sur lafigure 1.21, la droite de régression est tout à fait représentative du nuage de points. Ainsi lesnotes des 2 derniers individus suffisaient à masquer la forte corrélation linéaire et à faussercomplètement la régression linéaire pour expliquer la seconde note à partir de la première :ce sont ce qu’on appelle des individus aberrants. On trouvera la définition précise de cettenotion dans le livre de Pierre-André Cornillon et Eric Matzner-Løber [8], paragraphe 4.1.2.

Exercice 1.36 (Un peu de prédiction)Soit θ ∈ R∗ fixé. Soit (Zn)n≥0 une suite de variables aléatoires indépendantes centrées et de mêmevariance σ2. On construit à partir de (Zn)n≥0 la suite de variables aléatoires (Xn)n≥0 comme suit

X0 = Z0

Xn+1 = Zn+1 − θZn

1. Pourquoi les Xn sont-elles de carrés intégrables ?

2. Montrer que la projection de Xn+1 sur le sous-espace de L2 engendré par les (Xi)0≤i≤n, notédans le cours E[Xn+1|X0, . . . ,Xn], est :

Xn+1 = −n+1∑

j=1

θjXn+1−j

On l’appelle encore le prédicteur des moindres carrés de Xn+1.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 64: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

60 Chapitre 1. Espérance conditionnelle

3. Calculer l’erreur quadratique moyenne, encore appelée erreur de prédiction, c’est-à-dire :

E[(Xn+1 − Xn+1)2].

Exercice 1.37 (Un problème déterministe)Le but de l’exercice est de déterminer deux nombres réels a et b qui minimisent l’intégrale :

∫ 1

0(ex − ax− b)2 dx.

On utilise pour ce faire une interprétation stochastique du problème. Considérons l’espace proba-bilisé (Ω,F ,P) = ([0, 1],B[0,1], λ[0,1]). Dans ce contexte, une variable aléatoire est tout simplementune fonction borélienne f : [0, 1] → R. Si elle est intégrable sur [0, 1], son espérance est :

E[f ] =

∫ 1

0f(x) dx.

H = L2([0, 1],B[0,1], λ[0,1]) est donc l’espace des fonctions boréliennes de carrés intégrables surl’intervalle [0, 1]. Montrer que le problème de minimisation ci-dessus revient alors à déterminer unedroite de régression. En déduire a et b.

CorrigéSi on adopte les notations vues en régression dans le cours, la fonction identité x 7→ x correspondà la variable aléatoire X, tandis que la fonction x 7→ ex correspond à la variable aléatoire Y .

De façon générale, faire une régression linéaire de la variable aléatoire Y sur la variable aléatoireX, c’est chercher les deux réels a et b tels que l’erreur quadratique moyenne faite en approchantY par aX + b soit minimale. On veut donc trouver :

argmina,b

E[(Y − (aX + b))2

],

ce qui, transposé dans notre contexte, s’écrit encore :

argmina,b

∫ 1

0(ex − ax− b)2 dx.

Il nous suffit donc d’appliquer les formules habituelles donnant pente et ordonnée à l’origine enfonction des espérances, variances et covariance :

a = Cov(X,Y )

Var(X)

b = E[Y ]− aE[X]

Il reste à évaluer les quantités en jeu. L’espérance de X correspond à la valeur moyenne prise parla fonction identité sur [0, 1] :

E[X] =

∫ 1

0x dx =

1

2.

De même pour l’espérance de Y :

E[Y ] =

∫ 1

0ex dx = e− 1.

La variance de X est comme d’habitude :

Var(X) = E[X2]− E2[X],

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 65: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

1.6. Exercices 61

avec :

E[X2] =

∫ 1

0x2 dx =

1

3,

d’où finalement : Var(X) = 112 . De même, on a :

Cov(X,Y ) = E[XY ]− E[X]E[Y ].

Or les variables aléatoires X et Y sont liées par la relation Y = eX , donc :

E[XY ] = E[XeX

]=

∫ 1

0xex dx,

ce qui donne après une intégration par parties :

E[XY ] = 1 ⇒ Cov(X,Y ) =1

2(3− e).

On en déduit que les coefficients de la régression linéaire sont :

a = 6(3− e) ≈ 1.69.b = 2(2e− 5) ≈ 0.87.

Autrement dit, sur l’intervalle [0, 1], la meilleure approximation au sens de la norme L2 de lafonction x 7→ ex par une fonction affine est donnée par la droite (cf. figure 1.22) :

y = 6(3− e)x+ 2(2e − 5) ≈ 1.69x + 0.87.

0.8

1.0

2.8

...........................................................................

.....................................................................

.................................................................

.............................................................

.........................................................

.......................................................

....................................................

..................................................

...............................................

.............................................

...........................................

.........................................

........................................

......................................

.....................................

....................................

..................................

..................................

................................

................................

..............................

............................

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Figure 1.22 – Approximation en norme L2 de x 7→ ex par une fonction affine sur [0, 1].

Remarque. L’approche brutale consisterait à voir la quantité à optimiser comme une fonctiondes deux variables a et b :

Φ(a, b) =

∫ 1

0(ex − ax− b)2 dx,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 66: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

62 Chapitre 1. Espérance conditionnelle

ce qui donne après développement et calculs :

Φ(a, b) =a2

3+ b2 + ab− 2a+ 2(1− e)b+

1

2(e2 − 1).

On effectue une factorisation “à la Gauss” :

Φ(a, b) =(b−

(e− 1− a

2

))2+

1

12(a− 6(3− e))2 −

(7

2e2 − 20e +

57

2

).

Cette quantité est minimale lorsqu’on annule les 2 carrés, c’est-à-dire lorsque :

a = 6(3 − e)b = e− 1− a

2 = 2(2e − 5)

On retrouve le résultat précédent. Happy end !

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 67: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Chapitre 2

Vecteurs gaussiens et conditionnement

Introduction

Le calcul conditionnel s’exprime très simplement dans le cadre gaussien, puisque tout se ramèneà du calcul matriciel. C’est pourquoi on dit qu’on est dans un cadre linéaire. C’est ce qui devraitressortir de ce chapitre. Au préalable, il convient de faire quelques rappels sur les lois normalesuni- et multi-dimensionnelles.

2.1 Rappels sur les vecteurs gaussiens

2.1.1 Variables gaussiennes

Dans toute la suite, (Ω,F ,P) est un espace probabilisé.

−3 −2 −1 0 1 2 3 4 −7 −5 −3 −1 1 3 5 7 9−4

0.40

0.12

0.14

Figure 2.1 – Densités des lois normales N (0, 1) (à gauche) et N (2, 9) (à droite).

Définition 13 (Variable gaussienne)On dit que la variable aléatoire X : (Ω,F ,P) → (R,B) est gaussienne de moyenne m et de variance

63

Page 68: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

64 Chapitre 2. Vecteurs gaussiens et conditionnement

σ2 > 0 et on note X ∼ N (m,σ2), si X admet pour densité :

f(x) =1√2πσ2

e−(x−m)2

2σ2

Des exemples de courbes en cloches sont donnés figure 2.1.

Remarques.

– Supposons qu’on tire des nombres selon une loi normale N (m,σ2), par exemple avec un ordina-teur. Alors plus l’écart-type σ est faible et plus on a des chances d’obtenir des résultats autourde la moyenne m : 68% de tomber à distance inférieure ou égale à σ, 95% de tomber à distanceinférieure ou égale à 2σ, 99, 7% de tomber à distance inférieure ou égale à 3σ. Ceci est illustréfigure 2.2.

– La loi d’une variable gaussienne est complètement définie par la seule donnée de sa moyenne met de sa variance σ2.

– Si la variance σ2 est nulle, dire que X ∼ N (m, 0) signifie que la variable aléatoire X est (quasi-)déterministe : elle ne prend presque sûrement que la valeur m.

– Il y a un lien très simple entre la loi normale centrée réduite et toute autre loi normale, puisque :si X ∼ N (0, 1), alors Y = σX +m ∼ N (m,σ2). On verra que cette propriété admet une géné-ralisation vectorielle.

4−3 −2 −1−4 1 2 3

0.40

68%

99, 7%

95%

Figure 2.2 – Intervalles de confiance à 68%, 95% et 99, 7% pour une N (0, 1).

On rappelle que la fonction caractéristique d’une variable aléatoire X est la fonction

ΦX :

R → C

t 7→ ΦX(t) = E[eitX ]

Pour aller vite, la fonction caractéristique joue pour les variables aléatoires à densité le même rôleque la fonction génératrice des moments pour les variables discrètes, c’est-à-dire qu’il y a un lienentre les moments d’une variable aléatoire et les dérivées successives de sa fonction caractéristique.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 69: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 65

Si X admet des moments de tout ordre, alors ΦX est C∞ sur R et :

Φ(n)X (0) = inE[Xn].

Rappelons aussi que la loi d’une variable aléatoire est complètement caractérisée par sa fonctioncaractéristique (d’où son nom, la vie est bien faite...).

Proposition 7 (Fonction caractéristique d’une variable gaussienne)Si X ∼ N (m,σ2), sa fonction caractéristique est donnée pour tout réel t par :

ΦX(t) = eimt−σ2t2

2 .

Preuve. Soit X ∼ N (0, 1), alors sa fonction caractéristique est définie par :

ΦX(t) = E[eitX ] =

R

eitx1√2π

e−x2

2 dx,

quantité complexe qu’on peut décomposer en parties réelle et imaginaire :

ΦX(t) =

R

cos(tx)1√2π

e−x2

2 dx+ i

R

sin(tx)1√2π

e−x2

2 dx,

qu’on écrit plus simplement :

ΦX(t) =1√2π

(F (t) + iG(t)).

Ainsi définie, la fonction

F :

R → R

t 7→∫R

cos(tx)e−x2

2 dx

est une intégrale dépendant d’un paramètre. On peut donc lui appliquer la théorie de Lebesgue,en commençant par s’assurer qu’elle est bien définie pour tout réel t puisque :

∣∣∣∣∫

R

cos(tx)e−x2

2 dx

∣∣∣∣ ≤∫

R

∣∣∣∣cos(tx)e−x2

2 dx

∣∣∣∣ dx ≤∫

R

e−x2

2 dx =√2π.

On vérifie de même qu’elle est dérivable sur R, sa dérivée s’obtenant tout simplement en dérivantpar rapport à t sous le signe d’intégration :

∀t ∈ R F ′(t) = −∫

R

sin(tx)xe−x2

2 dx.

On effectue une intégration par parties :

F ′(t) =

[sin(tx)e−

x2

2

]+∞

−∞− t

R

cos(tx)e−x2

2 dx,

c’est-à-dire :∀t ∈ R F ′(t) = −tF (t),

équation différentielle linéaire du premier ordre, qui s’intègre sans problème :

F (t) = αe−t2

2 .

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 70: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

66 Chapitre 2. Vecteurs gaussiens et conditionnement

Et puisqu’on a la condition initiale :

F (0) =

R

cos(0x)e−x2

2 dx =√2π,

on en déduit que :

∀t ∈ R F (t) =√2π e−

t2

2 .

Par ailleurs, la fonction G est identiquement nulle, puisque :

G(t) =

R

sin(tx)e−x2

2 dx

est l’intégrale d’une fonction impaire sur un domaine symétrique par rapport à 0, donc vaut 0.Ainsi, lorsque X ∼ N (0, 1), sa fonction caractéristique est :

∀t ∈ R ΦX(t) = e−t2

2 .

Si maintenant on considère Y = σX +m, alors Y ∼ N (m,σ2) et sa fonction caractéristique est :

ΦY (t) = E[eit(σX+m)] = eimtE[ei(tσ)X ] = eimtΦX(σt),

et on peut se servir de ce qu’on vient de voir pour en déduire :

∀t ∈ R ΦY (t) = eimt−σ2t2

2 .

Exercice. A partir du développement en série entière de l’exponentielle (eu =∑+∞

n=0un

n! ), montrerque si X ∼ N (0, 1), alors ses moments sont donnés par :

E[X2n+1] = 0

E[X2n] = (2n)!2n n!

Via le théorème de Paul Lévy, les fonctions caractéristiques sont un outil efficace pour montrer laconvergence en loi d’une suite de variables aléatoires : il suffit de prouver la convergence simple dela suite des fonctions caractéristiques.

C’est d’ailleurs ainsi qu’on montre le résultat qui fait toute l’importance de la loi normale, à savoirle théorème central limite. En voici la version la plus simple : si (Xn)n≥1 est une suite de variablesaléatoires indépendantes et identiquement distribuées (en abrégé i.i.d.) de carré intégrable, alorsen notant Sn = X1 + · · ·+Xn, on a la convergence en loi vers la loi normale centrée réduite :

Sn − nE[X1]√n VarX1

L−−−−−→n→+∞

N (0, 1),

c’est-à-dire que pour tout intervalle (a, b) de R, on a :

P

(a ≤ Sn − nE[X1]√

n VarX1≤ b

)−−−−−→n→+∞

∫ b

a

1√2π

e−x2

2 dx.

Autrement dit, la somme d’un grand nombre de variables aléatoires i.i.d. se comporte comme uneloi normale. L’aspect remarquable de ce résultat tient bien sûr au fait que la loi commune des Xn

peut être n’importe quoi ! Celle-ci peut aussi bien être discrète qu’absolument continue, mixte ousingulière. La seule chose requise est l’existence du moment d’ordre 2.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 71: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 67

2.1.2 Vecteurs gaussiens

La définition d’un vecteur gaussien est a priori un peu tordue.

Définition 14 (Vecteur gaussien)On dit que le vecteur aléatoire 1 X = [X1, . . . ,Xd]

′ est un vecteur gaussien si pour tout d-uplet(α1, . . . , αd) de réels, la variable aléatoire α1X1 + · · · + αdXd est gaussienne.

En particulier, une variable aléatoire gaussienne est un vecteur gaussien de dimension 1. Parailleurs, il découle de la définition le résultat suivant.

Proposition 8 (Vecteur gaussien ⇒ Composantes gaussiennes)Si le vecteur aléatoire X = [X1, . . . ,Xd]

′ est un vecteur gaussien, alors chaque variable aléatoireXi est gaussienne.

Preuve. Si X = [X1, . . . ,Xd]′ est gaussien, alors en prenant α1 = 1 et αi = 0 pour tout i ≥ 2, on

en déduit que :

X1 =

d∑

i=1

αiXi

est gaussienne. Idem pour X2, . . . ,Xd.

La réciproque n’est pas vraie, comme le montre la situation suivante.

−3 −2 −1 0 1 2 3

0.0

0.5

1

t−t

F (−t)

F (t)

Figure 2.3 – Fonction de répartition F d’une loi normale N (0, 1) et relation : F (−t) = 1− F (t).

Remarque : Composantes gaussiennes ; Vecteur gaussien.Soit X ∼ N (0, 1) et ε une variable aléatoire indépendante de X et suivant une loi de Rademacher :elle prend les valeurs +1 et −1 de façon équiprobable. Considérons la nouvelle variable Y = εX

1. Dans tout le polycopié, le symbole ’ correspond à la transposition.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 72: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

68 Chapitre 2. Vecteurs gaussiens et conditionnement

et le vecteur aléatoire V = [X,Y ]′. La variable aléatoire Y est gaussienne, comme le montre safonction de répartition :

FY (u) = P(Y ≤ u) = P(εX ≤ u) = P(−X ≤ u|ε = −1)P(ε = −1) +P(X ≤ u|ε = 1)P(ε = 1),

expression qu’on peut simplifier grâce à l’indépendance de X et ε :

FY (u) =1

2(P(−X ≤ u) +P(X ≤ u)) =

1

2(P(X ≥ −u) +P(X ≤ u)),

et en notant FX la fonction de répartition d’une loi normale centrée réduite, c’est-à-dire :

FX(t) =

∫ t

−∞

1√2π

e−x2

2 dx,

on a donc :

FY (u) =1

2(1− FX(−u) + FX(u)) = FX(u),

la dernière égalité venant de la symétrie d’une loi normale centrée réduite par rapport à l’origine(voir figure 2.3) :

∀u ∈ R FX(−u) = 1− FX(u).

Ainsi Y suit une loi normale N (0, 1), tout comme X. Mais le vecteur V = [X,Y ]′ n’est pasgaussien, puisque si on considère la variable aléatoire Z = X + Y = (1 + ε)X, on a :

P(Z = 0) = P(1 + ε = 0) = P(ε = −1) =1

2,

ce qui est impossible pour une variable gaussienne ! En effet, cette probabilité vaut 0 pour touteloi gaussienne N (m,σ2), sauf si m = σ2 = 0, auquel cas elle vaut 1. A titre indicatif la fonctionde répartition de Z est donnée figure 2.4 : c’est un exemple de loi mixte.

−3 −2 −1 0 1 2 3

1.0

0.5

Figure 2.4 – Fonction de répartition de la variable aléatoire Z.

Il y a cependant une situation où les choses se passent bien.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 73: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 69

Proposition 9 (Composantes gaussiennes indépendantes ⇒ Vecteur gaussien)Soit (X1, . . . ,Xd) une suite indépendante de variables aléatoires. Le vecteur X = [X1, . . . ,Xd]

′ estgaussien si et seulement si pour tout i ∈ 1, . . . , d, la variable aléatoire Xi est gaussienne.

Preuve. Si les variables aléatoires gaussiennes Xi ∼ N (mi, σ2i ) sont gaussiennes et indépendantes,

alors la variable aléatoire :

Y = α1X1 + · · ·+ αdXd ∼ N(

d∑

i=1

αimi,

d∑

i=1

α2i σ

2i

).

Ceci se vérifie par exemple sans problème sur la fonction caractéristique de Y . Ainsi toute combi-naison linéaire des composantes Xi est une variable gaussienne et par suite X = [X1, . . . ,Xd]

′ estun vecteur gaussien.Comme on l’a vu en proposition 8, la réciproque est toujours vraie, que les composantes soientindépendantes ou non.

Prenons un vecteur aléatoire X = [X1, . . . ,Xd]′, non nécessairement gaussien, mais dont toutes les

composantes Xi admettent un moment d’ordre 2, ce qu’on note de façon naturelle X ∈ L2(Ω). Onpeut alors définir la moyenne m de ce vecteur par :

m = E[X] =

E[X1]...

E[Xd]

,

et sa matrice de covariance :

Γ = E[(X − E[X])(X − E[X])′],

encore appelée matrice de dispersion, de taille d× d, avec pour terme générique :

Γi,j = Cov(Xi,Xj).

On peut donner une propriété générale sur ces matrices de dispersion.

Proposition 10 (Matrice de covariance)Si elle existe, la matrice de covariance d’un vecteur aléatoire est symétrique réelle positive. Elle estdonc diagonalisable en base orthonormée :

Γ = P ′∆P,

avec P ′ = P−1 et ∆ = diagλ1, . . . , λd, les λi étant tous positifs ou nuls.

Achtung ! Quand on parle d’une matrice symétrique réelle S, dire qu’elle est positive ne signifiepas que ses coefficients sont positifs ! On entend par là que :

∀u ∈ Rd, u′Su ≥ 0.

On dit aussi que la forme quadratique associée est positive.

Preuve. L’aspect symétrique réel est clair par définition de la matrice de covariance. Il faut prouverque pour tout vecteur réel u = [u1, . . . , ud]

′, on a u′Γu ≥ 0. Or cette quantité vaut :

u′E[(X − E[X])(X − E[X])′]u = E[(u′(X − E[X]))((X − E[X])′u)] = E[(u′(X − E[X]))2] ≥ 0.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 74: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

70 Chapitre 2. Vecteurs gaussiens et conditionnement

Au passage, on a établi le résultat suivant, utile dans les applications.

Proposition 11 (Variance et matrice de dispersion)Soit X = [X1, . . . ,Xd]

′ un vecteur aléatoire de matrice de dispersion Γ. La variable aléatoireZ = α1X1 + · · ·+ αdXd = α′X a pour variance :

Var(Z) = α′Γα = [α1, . . . , αd]Γ

α1

.

.

.αd

.

Remarque. La matrice Γ n’est pas nécessairement définie positive. Par exemple, si X1 est unevariable aléatoire de variance 1, le vecteur X = [X1, 1 +X1]

′ a pour matrice de dispersion :

Γ =

[1 11 1

],

qui est clairement de rang 1. On voit que le vecteur aléatoire X, a priori à valeurs dans R2, neprend en fait ses valeurs que sur la droite d’équation y = 1+ x. Ceci est vrai de façon générale : Γest de rang strictement inférieur à d si et seulement si le vecteur aléatoire X ne prend ses valeursque dans un sous-espace affine de Rd.

Rappelons que si X est un vecteur aléatoire de dimension d, on peut définir sa fonction caracté-ristique comme suit

ΦX :

R

d → C

u = [u1, . . . , ud]′ 7→ ΦX(u) = E[ei〈u,X〉] = E[ei

∑dj=1 ujXj ]

Sans énumérer toutes les propriétés de la fonction caractéristique d’un vecteur aléatoire, disonssimplement que :– Comme en dimension 1, elle sert à démontrer la convergence en loi d’une suite de vecteurs

aléatoires (cf. infra la version vectorielle du théorème central limite).– Les variables aléatoires X1, . . . ,Xd sont indépendantes si et seulement si :

∀u ∈ Rd ΦX(u) =

d∏

j=1

ΦXj(uj).

De plus, tout comme en dimension 1, une loi gaussienne multidimensionnelle est complètementcaractérisée par la fonction caractéristique, laquelle ne fait intervenir que le vecteur moyenne et lamatrice de dispersion.

Proposition 12 (Fonction caractéristique d’un vecteur gaussien)Soit X un vecteur aléatoire de dimension d, de vecteur moyenne m et de matrice de covariance Γ,

alors X est gaussien si et seulement si sa fonction caractéristique s’écrit pour tout u ∈ Rd :

ΦX(u) = eiu′m− 1

2u′Γu

On note alors X ∼ Nd(m,Γ).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 75: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 71

Preuve. Supposons le vecteur X = [X1, . . . ,Xd]′ gaussien, de moyenne m et de matrice de cova-

riance Γ. Alors la variable aléatoire :

Y = u1X1 + · · ·+ udXd = u′X

est gaussienne, de moyenne :

µ = u1E[X1] + · · · + udE[Xd] = u′m,

et de variance (cf. proposition 11) :

σ2 = u′Γu.

On peut alors appliquer la Proposition 7 :

ΦY (t) = eiµt−σ2t2

2 = eiu′mt− 1

2u′Γut2 .

Et on conclut en remarquant que :

ΦX(u) = E[eiu′X ] = E[eiY ] = ΦY (1) = eiu

′m− 12u′Γu.

Réciproquement, supposons X = [X1, . . . ,Xd]′ vecteur aléatoire de moyenne m, de matrice de

covariance Γ et de fonction caractéristique :

ΦX(u) = eiu′m− 1

2u′Γu

La variable aléatoire :

Y = α1X1 + · · ·+ αdXd = α′X

a pour fonction caractéristique :

ΦY (t) = E[eitY ] = E[ei(tα)′X ] = ΦX(tα),

c’est-à-dire :

ΦY (t) = ei(tα)′m− 1

2(tα)′Γ(tα) = ei(α

′m)t− 12(α′Γα)t2 .

La Proposition 7 assure donc que Y est gaussienne et plus précisément :

Y ∼ N(α′m,α′Γα

).

Ainsi X est bien un vecteur aléatoire gaussien.

Les lois normales sont stables par transformation affine. Le résultat suivant, sur lequel on seraittenté de jeter un coup d’œil distrait, est d’utilité constante dans la manipulation des vecteursgaussiens.

Proposition 13 (Transformation affine)Si X est un vecteur gaussien d-dimensionnel, avec X ∼ Nd(m,Γ), si A ∈ Mk,d(R) et si B ∈Mk,1(R), alors le vecteur Y = AX +B est gaussien avec :

Y ∼ Nk(Am+B,AΓA′).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 76: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

72 Chapitre 2. Vecteurs gaussiens et conditionnement

Preuve. Il suffit d’utiliser la caractérisation par la fonction caractéristique ci-dessus. On a eneffet :

∀u ∈ Rk ΦY (u) = E[eiu′Y ] = E[eiu

′(AX+B)] = eiu′BE[ei(u

′A)X ],

c’est-à-dire :ΦY (u) = eiu

′BΦX(A′u) = eiu′(Am+B)− 1

2u′(AΓA′)u,

ce qui exactement dire que :Y ∼ Nk(Am+B,AΓA′).

Remarque. Il arrive souvent qu’un vecteur Y soit construit à partir d’un autre vecteur X par unetransformation affine. Si X est un vecteur gaussien, par exemple lorsqu’il est composé de variablesaléatoires gaussiennes indépendantes, ce résultat permet d’en déduire automatiquement le fait queY est aussi un vecteur gaussien. Voir les exercices de fin de chapitre : Processus autorégressif,Moyenne mobile.

Rappel. Soit X et Y deux variables aléatoires de carrés intégrables. On dit qu’elles sont noncorrélées si :

Cov(X,Y ) = 0,

ce qui équivaut à dire que : E[XY ] = E[X]E[Y ], ou encore que la matrice de covariance du vecteur[X,Y ]′ est diagonale. Ceci est bien sûr toujours vrai lorsqu’elles sont indépendantes, puisqu’alorson a plus généralement pour toutes “bonnes” fonctions f et g :

E[f(X)g(Y )] = E[f(X)]E[g(Y )].

La réciproque est fausse en général, comme le montre l’exemple suivant.

x

y

x

y = x2

y

Figure 2.5 – Supp(X,Y ) (à gauche) 6= Supp(X)× Supp(Y ) (à droite).

Exemple : Décorrélation ; IndépendanceSoit X ∼ N (0, 1) et Y = X2, donc E[Y ] = E[X2] = Var(X) = 1. X et Y sont bien décorréléespuisque E[X]E[Y ] = 0× 1 = 0 et :

E[XY ] = E[X3] = 0,

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 77: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 73

une loi gaussienne ayant tous ses moments d’ordres impairs nuls. Cependant X et Y ne sont pasindépendantes. Ceci est clair intuitivement puisque Y est une fonction déterministe de X. On peutaussi le justifier par l’espérance conditionnelle :

E[Y |X] = E[X2|X] = X2 6= E[Y ] = 1.

Une dernière façon de le voir est de remarquer que le support du vecteur aléatoire [X,Y ]′ est la pa-rabole y = x2 du plan et non le produit cartésienR×R+ des supports des variables (voir figure 2.5).

Dans le cas de vecteurs gaussiens, cependant, la décorrélation est équivalente à l’indépendance.

Proposition 14 (Indépendance ⇔ Décorrélation)Soit X = [X1, . . . ,Xd]

′ un vecteur aléatoire gaussien. Les variables aléatoires (X1, . . . ,Xd) sontindépendantes si et seulement si elles sont non corrélées, c’est-à-dire si et seulement si la matricede dispersion Γ est diagonale.

Preuve. Supposons X gaussien et de composantes indépendantes. Alors ces composantes sont afortiori non corrélées, c’est-à-dire :

∀(i, j) ∈ 1, . . . , d2 Cov(Xi,Xj) = 0,

et la matrice Γ est diagonale. Ceci est d’ailleurs toujours vrai, l’aspect gaussien de X n’est pasnécessaire.Réciproquement, supposons X gaussien et de matrice de covariance Γ diagonale :

Γ = diag(σ21 , . . . , σ

2d).

Si on note m = [m1, . . . ,md]′ la moyenne de X, celui-ci admet pour fonction caractéristique :

ΦX(u) = eiu′m− 1

2u′Γu,

qu’on peut factoriser en :

ΦX(u) =

d∏

j=1

ΦXj(uj),

où ΦXjest tout bonnement la fonction caractéristique de Xj :

∀j ∈ 1, . . . , d ΦXj(uj) = eimjuj−

σ2j u

2j

2 .

Ainsi la fonction caractéristique du vecteur X = [X1, . . . ,Xd]′ est le produit des fonctions carac-

téristiques de ses composantes Xj : c’est une caractérisation de l’indépendance des Xj.

Remarque. Pour pouvoir appliquer le critère d’indépendance ci-dessus, il faut que le vecteur soitgaussien : le fait que les composantes le soient n’est pas suffisant. Pour s’en convaincre, il suffitde revenir à l’exemple vu précédemment : X ∼ N (0, 1) et Y = εX, avec ε variable de Rademacherindépendante de X. On a vu que Y suit elle aussi une loi normale centrée réduite, donc les deuxvariables X et Y sont gaussiennes. De plus, puisque X et ε sont indépendantes, on a :

Cov(X,Y ) = E[XY ]− E[X]E[Y ] = E[εX2] = E[ε]E[X2] = 0,

la dernière égalité venant du fait que ε est centrée. Ainsi X et Y sont gaussiennes et décorrélées.Pourtant elles ne sont pas indépendantes : il appert qu’une fois connue la réalisation de X, Y ne

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 78: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

74 Chapitre 2. Vecteurs gaussiens et conditionnement

peut valoir que la même chose ou l’opposé. Plus rigoureusement, on peut à nouveau le justifier parles supports : le support du couple (X,Y ) est l’union des deux droites y = x et y = −x, tandisque le produit cartésien des supports de X et Y est le plan R2. Le problème, déjà constaté, vientde ce que le vecteur [X,Y ]′ n’est pas gaussien, bien que ses composantes le soient.

Etant donné un vecteur gaussien X = [X1, . . . ,Xd]′ de moyenne m et de matrice de covariance Γ

données, on peut toujours se ramener à un vecteur aléatoire dont les composantes sont indépen-dantes.

Proposition 15 (Changement de repère orthonormal)Soit X = [X1, . . . ,Xd]

′ un vecteur gaussien de moyenne m et de matrice de covariance Γ. Il existeP orthogonale telle que PΓP ′ = ∆ = diag(λ1, . . . , λd), avec les λj ≥ 0. Alors les composantesYj du vecteur aléatoire Y = P (X − m) sont des variables aléatoires gaussiennes indépendantescentrées de variances respectives λj .

Preuve. Puisque Γ est symétrique réelle positive, elle est diagonalisable en base orthonormée :Γ = P ′∆P , avec :

∆ = diag(λ1, . . . , λd),

où les λj sont les valeurs propres positives de Γ et P une matrice orthogonale. Si on considèremaintenant le nouveau vecteur aléatoire

Y = [Y1, . . . , Yd]′ = P (X −m) = PX − Pm,

c’est encore un vecteur gaussien, en tant que transformée affine d’un vecteur gaussien (Proposition13). Plus précisément, on sait que :

Y ∼ Nd(Pm− Pm,PΓP ′) = Nd(0,∆).

Ainsi le vecteur gaussien Y est centré et ses composantes sont indépendantes, puisque sa matricede dispersion est diagonale (Proposition 14).

Remarques :

1. La représentation de la densité de Y est bien plus simple que celle de X puisqu’on s’estramené à un produit de densités gaussiennes indépendantes : en dimension 2, on obtient doncune surface en cloche plus ou moins aplatie suivant la direction (cf. exercice Changement debase). La surface en cloche standard correspond à une loi centrée et de matrice de covarianceidentité (cf. figure 2.6).

2. Si λj = 0 pour un indice j, la loi du vecteur X est dégénérée. Et on a alors Yj = 0 presquesûrement (cf. exercice Problème de dégénérescence).

Applications.

1. Simulation : supposons qu’on ait à simuler un vecteur gaussien X = [X1, . . . ,Xd]′ de moyenne

m et de matrice de covariance Γ données. On dispose simplement d’un générateur de variablesnormales centrées réduites indépendantes (par exemple rnorm en R). On peut écrire commeci-dessus Γ = P ′∆P = A′A, avec A = P ′√∆P et :

√∆ = diag

(√λ1, . . . ,

√λd

).

Il suffit alors de simuler d variables i.i.d. Uj ∼ N (0, 1) et de considérer : X = AU +m. Lerésultat de transformation affine et le fait que la matrice de covariance de U soit l’identitéassurent que X a les propriétés requises.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 79: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 75

0.4

0.2

0.0

Z

−5

0

5Y

5

0

−5

X

Figure 2.6 – Densité d’un vecteur gaussien centré de matrice de dispersion identité.

2. Composantes principales : dans les applications, on a souvent à traiter des vecteurs gaussiensX = [X1, . . . ,Xd]

′ de très grande dimension d, mais dont les coordonnées présentent de trèsfortes corrélations entre elles. Dans ce cas, après transformation comme ci-dessus, le nombrede valeurs propres λj qui ne sont pas voisines de 0 est bien plus petit que d. Supposons que lesvaleurs propres soient rangées par ordre décroissant dans ∆. On se fixe alors un seuil ε > 0 :il y a dε valeurs propres λj > ε. On considère le nouveau vecteur aléatoire Y = [Y1, . . . , Yd]

défini par

Yj =

Yj si j ≤ dε0 sinon

et le vecteur X = P ′Y +m associé. Les vecteurs aléatoires X et Y sont les versions tronquéesde X et Y . L’erreur quadratique moyenne faite en remplaçant X par X est :

‖X − X‖2 = E[(X − X)′(X − X)] = E[(Y − Y )′(Y − Y )] = ‖Y − Y ‖2 =

d∑

j=dε+1

λj.

Il suffit de comparer cette erreur à la dispersion totale de X :

‖X −m‖2 = E[(X −m)′(X −m)] =d∑

j=1

λj ,

pour avoir une idée de la qualité de l’approximation, à savoir : X approche bien X si tantest que le rapport : ∑d

j=dε+1 λj∑d

j=1 λj

est petit. On dit alors qu’on a réduit X à ses composantes principales.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 80: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

76 Chapitre 2. Vecteurs gaussiens et conditionnement

La situation agréable pour un vecteur gaussien est celle où la matrice de covariance est inversible(i.e. définie positive). Il admet alors une densité dans Rd, que l’on peut facilement expliciter.

Proposition 16 (Densité d’un vecteur gaussien)Si X ∼ Nd(m,Γ), avec Γ inversible, alors X admet pour densité :

f(x) = f(x1, . . . , xd) =1

(2π)d/2√det Γ

e−12(x−m)′Γ−1(x−m).

Remarque. En dimension 1, la formule exprimant la densité d’une variable gaussienne en fonctionde la moyenne m et de la variance σ2 n’est valable que si σ2 est strictement positive, c’est-à-direinversible. Il n’est donc pas étonnant qu’on retrouve la même condition en dimension supérieure.

Preuve. On utilise la transformation affine du résultat précédent : Y = P (X −m), avec :

PΓP ′ = ∆ = diag(λ1, . . . , λd).

Dire que Γ est inversible équivaut à dire que les valeurs propres λj sont toutes strictement positives.Les composantes Y1, . . . , Yj sont indépendantes, avec Yj ∼ N (0, λj), donc Y admet pour densité :

fY (y) =d∏

j=1

fj(yj) =d∏

j=1

1√2πλj

e−

y2j2λj ,

qu’on peut encore écrire :

fY (y) =1

(2π)d/2√detΓ

e−12y′∆−1y.

Pour retrouver la densité de X, il suffit alors d’appliquer la formule de changement de variablepour le C1-difféomorphisme :

φ :

R

d → R

d

x 7→ y = P (x−m)

Ce qui donne :

fX(x) = fY (P (x−m)) |detJφ(x)| .Or φ est une transformation affine, donc :

∀x ∈ Rd Jφ(x) = P,

et puisque P est orthogonale :

∀x ∈ Rd |detJφ(x)| = 1.

On en déduit la densité du vecteur X :

f(x) =1

(2π)d/2√detΓ

e−12(x−m)′Γ−1(x−m).

Représentation. La figure 2.7 correspond à un vecteur gaussien [X,Y ]′ de moyenne m = [1, 2]′

et de matrice de dispersion :

Γ =

[1/√2 1

1 1/√2

].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 81: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.1. Rappels sur les vecteurs gaussiens 77

0.225

0.113

0.000

Z

−50

5Y

5

0

−5

X

Figure 2.7 – Densité d’un vecteur gaussien N2(m,Γ).

La densité correspondante est donc :

f(x, y) =1

π√2e−((x−1)2−

√2(x−1)(y−2)+(y−2)2)

Si Γ n’est pas inversible, on dit que la loi de X est dégénérée. Comme mentionné plus haut, cecisignifie que le vecteur aléatoire ne prend ses valeurs que dans un sous-espace affine de Rd (cf.exercice Problème de dégénérescence).

Exemple. Supposons que X1 ∼ N (0, 1), et considérons le vecteur gaussien X = [X1, 1 +X1]′. Sa

matrice de dispersion est de rang 1 :

Γ =

[1 11 1

],

On voit que le vecteur aléatoire X ne prend en fait ses valeurs que sur la droite d’équation y = 1+x,et non dans R2 tout entier. Ce vecteur n’admet donc pas de densité par rapport à la mesure deLebesgue de R2.

Enfin, on peut généraliser le théorème de la limite centrale aux vecteurs aléatoires. Le principe estrigoureusement le même qu’en dimension 1. On dit qu’une suite (Xn)n≥0 de vecteurs aléatoires deR

d converge en loi vers un vecteur gaussien X ∼ Nd(m,Γ) si pour tout borélien B ∈ Bd, on a :

P(Xn ∈ B) −−−−−→n→+∞

P(X ∈ B).

Comme en dimension 1, la convergence simple sur Rd de la suite des fonctions caractéristiques (Φn)vers la fonction caractéristique ΦX est souvent le moyen le plus simple de montrer la convergenceen loi.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 82: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

78 Chapitre 2. Vecteurs gaussiens et conditionnement

Théorème 5 (Théorème central limite)Soit (Xn)n≥1 ∈ L2(Ω) une suite de vecteurs aléatoires de Rd, indépendants et identiquement dis-tribués, avec pour moyenne m = E[X1] et matrice de dispersion Γ = E[(X1 −m)(X1 −m)′]. Alorsla suite de vecteurs aléatoires (Sn−nm√

n), où Sn = X1 + · · · + Xn, converge en loi vers un vecteur

gaussien centré de matrice de dispersion Γ. On note :

Sn − nm√n

L−−−−−→n→+∞

Nd(0,Γ).

Remarques.– Rappelons le point remarquable du théorème central limite : quelle que soit la loi des vecteurs

aléatoires Xn, on a convergence vers une loi gaussienne. C’est-à-dire que si n est assez grand, ona en gros :

L(Sn) ≈ N (nm,nΓ).

– Avec les hypothèses ci-dessus, on s’intéresse à la suite (Sn) des sommes partielles. La loi fortedes grands nombres dit que :

Sn

n

p.s.−−−−−→n→+∞

m.

C’est-a-dire qu’en première approximation, la somme de n vecteurs aléatoires i.i.d. de moyennem se comporte comme une suite déterministe de vecteurs : Sn ≈ nm. Question qui en découlenaturellement : quel est l’ordre de grandeur de l’erreur effectuée en remplaçant Sn par nm ?C’est à cette question que répond le théorème central limite : l’erreur faite en remplaçant lasomme partielle Sn par nm est de l’ordre de

√n. On peut donc voir la loi des grands nombres

et le théorème central limite comme le début du développement asymptotique de la somme Sn.– L’exercice Sauts de puce donne un exemple d’application de ce théorème.

2.2 Conditionnement des vecteurs gaussiens

2.2.1 Conditionnement pour un couple gaussien

Rappel du premier chapitre : soit (X,Y ) un couple aléatoire dont on connaît la loi jointe. Supposonsqu’on observe X = x et qu’on veuille en déduire une estimation de Y . Ceci signifie qu’on définitune fonction de R dans R qui à tout point x associe un point u(x). Si la qualité de l’approximationest mesurée par l’erreur quadratique moyenne, i.e. par la quantité :

E[(Y − u(X))2],

on a vu que le mieux à faire est de prendre pour u la fonction de régression de Y sur X, c’est-à-direla fonction qui à x associe E[Y |X = x]. D’après le théorème de projection, la variable aléatoireE[Y |X] est la fonction u(X) caractérisée par la double propriété 2 :

u(X) ∈ L2(X)

Y − u(X) ⊥ L2(X)

avec comme en chapitre 1 :

L2(X)∆= u(X) avec u : R 7→ R borélienne telle que E[u2(X)] < +∞.

Néanmoins, l’espérance conditionnelle n’est pas nécessairement un objet très simple à calculer ouà estimer. C’est pourquoi, faute de mieux, on se contente parfois de chercher à approcher au mieux

2. On rappelle que dans L2(Ω) : X ⊥ Y signifie que E[XY ] = 0.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 83: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.2. Conditionnement des vecteurs gaussiens 79

Y par une fonction affine de X : c’est ce qu’on appelle faire de la régression linéaire. Ce qu’on perden qualité d’approximation, on le gagne en commodité de résolution. La droite de régression estdonnée par : f(X) = aX + b, avec

a = Cov(X,Y )

Var(X)

b = E[Y ]− aE[X]

c’est-à-dire :

f(X) = E[Y ] +Cov(X,Y )

Var(X)(X − E[X]).

Nous allons voir que, dans le cas gaussien, ce procédé est complètement légitime : la fonction derégression est exactement la droite de régression !

Théorème 6 (Espérance conditionnelle ⇔ droite de régression)Si [X,Y ]′ est un vecteur gaussien, alors :

E[Y |X] = E[Y ] +Cov(X,Y )

Var(X)(X − E[X]).

Autrement dit, courbe de régression et droite de régression coïncident.

Preuve. Il suffit de prouver que la fonction u définie par :

u(X) = E[Y ] +Cov(X,Y )

Var(X)(X − E[X]),

vérifie bien la double propriété de caractérisation de l’espérance conditionnelle. Puisque X estgaussienne, elle est dans L2(Ω), et par suite u(X) = aX + b est dans L2(X). Il reste à prouver quela variable aléatoire (Y − u(X)) est orthogonale au sous-espace L2(X), c’est-à-dire orthogonale àtoute variable aléatoire f(X) fonction de X.On commence par montrer que (Y − u(X)) est indépendante de X. Puisque le vecteur [X,Y ]′ estgaussien et que :

[X

Y − u(X)

]=

[X

Y − (aX + b)

]=

[1 0−a 1

] [XY

]+

[0−b

]= A

[XY

]+B,

le vecteur [X,Y − u(X)]′ est gaussien aussi comme transformée affine d’un vecteur gaussien, doncmontrer l’indépendance de ses composantes revient à montrer leur décorrélation. Or :

Cov(X,Y − u(X)) = Cov(X,Y )− Cov(X,u(X)) = Cov(X,Y )− Cov(X, aX + b),

et par définition de a, on a :

Cov(X, aX + b) = Cov(X, aX) = aVar(X) = Cov(X,Y ),

de sorte qu’on a bien Cov(X,Y −u(X)) = 0, c’est-à-dire que X et (Y −u(X)) sont indépendantes.Mais si (Y − u(X)) est une variable aléatoire indépendante de X, elle est aussi indépendante detoute fonction f(X) de la variable X. Par suite :

〈f(X), Y − u(X)〉 = E[f(X)(Y − u(X))] = E[f(X)]E[Y − u(X)] = 0,

car (Y − u(X)) est centrée. Ainsi la seconde propriété de caractérisation de l’espérance condition-nelle est vérifiée et le théorème est prouvé.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 84: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

80 Chapitre 2. Vecteurs gaussiens et conditionnement

H = Vect(1, X)1

Y

E[Y ]

E[Y |X]

X − E[X]

Cov(X,Y )VarX

(X − E[X])

Figure 2.8 – E[Y |X] projeté orthogonal de Y sur la base orthogonale (1,X − E[X]).

Rappel. Dans un espace de Hilbert, le projeté orthogonal de Y sur un sous-espace vectorielH = Vect(e1, . . . , ed), avec les ei orthogonaux, est :

πH(Y ) =d∑

i=1

⟨Y,

ei‖ei‖

⟩ei‖ei‖

=d∑

i=1

〈Y, ei〉‖ei‖2

ei.

Interprétation géométrique. Dans le cas général, la variable aléatoire :

E[Y ] +Cov(X,Y )

Var(X)(X − E[X])

peut se voir comme la projection orthogonale de la variable aléatoire Y sur l’espace engendré parla variable aléatoire constante 1 (que nous appellerons Michel) et la variable aléatoire X. NotonsH = Vect(1,X) ce sous-espace vectoriel de L2(Ω). Une famille orthogonale est formée des deuxvecteurs 1 et X − E[X]. Appliquons le rappel ci-dessus (voir aussi figure 2.8). La projection de Ysur le premier vecteur donne :

E[Y · 1]E[12]

= E[Y ],

et la projection sur le second vecteur donne :

E[Y · (X − E[X])]

E[(X − E[X])2]=

Cov(X,Y )

Var(X).

Au total, on retrouve bien la droite de régression.

L’interprétation géométrique ci-dessus est toujours vraie. Dans le cas gaussien, on vient de plus devoir que la projection orthogonale de Y sur L2(X) est exactement la projection orthogonale surH = Vect(1,X).

2.2.2 Hyperplan de régression

On ne fait dans ce paragraphe aucune hypothèse de gaussianité. On suppose observer n variablesaléatoires X1, . . . ,Xn et on veut connaître la fonction affine des Xi, donc de la forme :

f(X1, . . . ,Xn) = b+ a1X1 + · · ·+ anXn,

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 85: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.2. Conditionnement des vecteurs gaussiens 81

qui approche le mieux la variable aléatoire Y au sens des moindres carrés, c’est-à-dire telle quel’erreur quadratique moyenne :

E[(Y − (b+ a1X1 + · · · + anXn))2]

soit minimale. Autrement dit, au lieu de chercher la droite de régression, on cherche l’hyperplande régression (voir figure 2.9 pour n = 2). Ceci revient à déterminer la projection πH(Y ) de Y surle sous-espace :

H = Vect(1,X1, . . . ,Xn),

engendré par la constante 1 et les variables aléatoires Xi.

Hypothèses :

– Notons X = [X1, . . . ,Xn]′ le vecteur formé des variables Xi. On suppose dans toute la suite que

la matrice de dispersion ΓX = E[(X − E[X])(X − E[X])′] est inversible.– Puisqu’on parle de projections et d’erreurs quadratiques, on suppose aussi que toutes les va-

riables aléatoires sont de carrés intégrables.

X1

X2

Y

y = b+ a1x1 + a2x2

Figure 2.9 – Interprétation graphique de l’hyperplan de régression.

Théorème 7 (Hyperplan de régression)La projection orthogonale de Y sur H est :

πH(Y ) = b+

n∑

i=1

ai(Xi − E[Xi]) = E[Y ] + ΓY,XΓ−1X (X − E[X]),

avec :

ΓY,X = E[(Y − E[Y ])(X − E[X])′] = [Cov(Y,X1), . . . ,Cov(Y,Xn)],

matrice ligne de covariance de la variable aléatoire Y et du vecteur aléatoire X.

Preuve. La projection orthogonale de Y sur H est de la forme :

πH(Y ) = b+n∑

i=1

aiXi.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 86: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

82 Chapitre 2. Vecteurs gaussiens et conditionnement

Dire que Y − πH(Y ) est orthogonal à H est équivalent à dire que Y − πH(Y ) est orthogonal àchacun des vecteurs qui engendrent H, c’est-à-dire : 1, X1, . . . , Xn.L’orthogonalité à 1 donne :

⟨Y − b−

n∑

i=1

aiXi, 1

⟩= E[Y ]− b−

n∑

i=1

aiE[Xi] = 0,

c’est-à-dire :

b = E[Y ]−n∑

i=1

aiE[Xi].

L’orthogonalité aux Xj donne les n équations :

⟨Y − b−

n∑

i=1

aiXi,Xj

⟩= 0 1 ≤ j ≤ n,

ce qui s’écrit encore :

⟨Y − E[Y ]−

n∑

i=1

ai(Xi − E[Xi]),Xj

⟩= 0 1 ≤ j ≤ n,

ou encore :⟨Y − E[Y ]−

n∑

i=1

ai(Xi − E[Xi]),Xj − E[Xj]

⟩= 0 1 ≤ j ≤ n.

Avec les notations de l’énoncé, ces n équations se résument sous forme matricielle à :

ΓY,X = [a1, . . . , an]ΓX ,

c’est-à-dire :

[a1, . . . , an] = ΓY,XΓ−1X .

En revenant à πH(Y ), ceci donne :

πH(Y ) = b+n∑

i=1

aiXi = E[Y ]− ΓY,XΓ−1X E[X] + ΓY,XΓ−1

X X,

c’est-à-dire :

πH(Y ) = E[Y ] + ΓY,XΓ−1X (X − E[X]).

Remarque. En prenant X = X1, on retrouve bien la droite de régression puisque ΓY,X =Cov(X,Y ) et ΓX = Var(X).

Corollaire 1 (Erreur quadratique moyenne)L’erreur quadratique moyenne dans l’approximation par l’hyperplan de régression, encore appeléevariance résiduelle ou résidu, est :

E[(Y − πH(Y ))2] = ΓY − ΓY,XΓ−1X ΓX,Y ,

avec ΓY = Var(Y ) et ΓX,Y = (ΓY,X)′.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 87: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.2. Conditionnement des vecteurs gaussiens 83

Preuve. Il suffit de l’écrire :

E[(Y − πH(Y ))2] = E[((Y − E[Y ])− ΓY,XΓ−1X (X − E[X]))2],

ce qui donne une combinaison de 3 termes. Le premier est simple :

E[(Y − E[Y ])2] = Var(Y ).

Le deuxième l’est un peu moins :

E[(Y − E[Y ])ΓY,XΓ−1X (X − E[X])] = ΓY,XΓ−1

X E[(Y − E[Y ])(X − E[X])] = ΓY,XΓ−1X ΓX,Y .

Et le troisième encore moins :

E[(ΓY,XΓ−1X (X − E[X]))2] = E[(ΓY,XΓ−1

X (X − E[X]))(ΓY,XΓ−1X (X − E[X]))′],

ce qui aboutit à :E[(ΓY,XΓ−1

X (X − E[X]))2] = ΓY,XΓ−1X ΓX,Y .

On remet tout bout à bout :

E[(Y − πH(Y ))2] = Var(Y )− 2ΓY,XΓ−1X ΓX,Y + ΓY,XΓ−1

X ΓX,Y = Var(Y )− ΓY,XΓ−1X ΓX,Y .

ΓX,YΓX

ΓY,X ΓY

X1

Xn

Y

=⇒ Γ =

Figure 2.10 – Les sous-matrices mises en jeu dans le calcul de E[Y |X].

Les matrices de covariance ΓX , ΓY,X , ΓY,X et ΓY peuvent se voir comme des sous-matrices de lamatrice de covariance globale Γ du vecteur [X,Y ]′ = [X1, . . . ,Xn, Y ]′. C’est ce que représente lafigure 2.10.

Remarque. On adopte dès à présent la notation ΓY pour la variance de la variable aléatoire Yen vue de la généralisation de fin de chapitre : lorsque Y ne sera plus une variable aléatoire, maisun vecteur aléatoire, cette formule sera encore valide.

2.2.3 Espérance conditionnelle gaussienne

On suppose maintenant le vecteur [X1, . . . ,Xn, Y ] gaussien. L’espérance conditionnelle de Y sa-chant X = [X1, . . . ,Xn]

′ est la projection orthogonale de Y sur l’espace des fonctions u(X) =u(X1, . . . ,Xn), avec u : Rn → R telle que E[u2(X)] < +∞. C’est la fonction qui minimise

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 88: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

84 Chapitre 2. Vecteurs gaussiens et conditionnement

E[(Y − u(X))2]. On a vu que pour un vecteur gaussien bidimensionnel [X,Y ]′, la droite de ré-gression coïncide avec la courbe de régression. Plus généralement, on montre que pour un vecteurgaussien [X1, . . . ,Xn, Y ], l’espérance conditionnelle coïncide avec la projection sur l’hyperplan derégression.

Théorème 8 (Espérance conditionnelle ⇔ Hyperplan de régression)Si [X1, . . . ,Xn, Y ]′ est un vecteur gaussien, alors :

E[Y |X] = E[Y |X1, . . . ,Xn] = E[Y ] + ΓY,XΓ−1X (X − E[X]),

Et la variance résiduelle vaut :

σ2 = E[(Y − E[Y |X])2] = ΓY − ΓY,XΓ−1X ΓX,Y .

Preuve. On pourrait la calquer sur celle vue pour la droite de régression. On adopte ici uneautre technique, basée sur la propriété de distance minimale vérifiée par l’espérance conditionnelle.Notons comme ci-dessus πH(Y ) la projection orthogonale de Y sur H = Vect(1,X1, . . . ,Xn), c’est-à-dire :

πH(Y ) = E[Y ] + ΓY,XΓ−1X (X − E[X]).

On a bien sûr πH(Y ) de la forme u(X) ci-dessus. De plus, dire que (Y −πH(Y )) est orthogonale ausous-espace H signifie que (Y − πH(Y )) est décorrélée des variables Xi (puisque (Y − πH(Y )) estcentrée). Mais puisque tout est gaussien, c’est exactement dire que (Y −πH(Y )) est indépendantedu vecteur X. Pour toute fonction u, on a donc :

E[(Y − u(X))2] = E[((Y − πH(Y )) + (πH(Y )− u(X)))2],

ce qui donne :

E[(Y − u(X))2] = E[(Y − πH(Y ))2] + 2E[(Y − πH(Y ))(πH(Y )− u(X))] + E[(πH(Y )− u(X))2].

Or on vient de voir que :E[(Y − πH(Y ))(πH(Y )− u(X))] = 0,

et le troisième terme est positif, donc pour toute fonction u, on a

E[(Y − u(X))2] ≥ E[(Y − πH(Y ))2].

Remarque. Le terme ΓY,XΓ−1X ΓX,Y correspond à la variance de la variable aléatoire E[Y |X] : il

est donc positif et par suite E[(Y −E[Y |X])2] ≤ ΓY . Ce qui est logique : il y a moins d’incertitudesur la variable Y lorsqu’on connaît X et qu’on prend cette information en compte.

On a obtenu la décomposition orthogonale (voir figure 2.11) :

Y = E[Y |X] +W = (E[Y ] + ΓY,XΓ−1X (X − E[X])) +W,

c’est-à-dire que W = Y − E[Y |X] est une variable aléatoire gaussienne indépendante des Xi. West centrée puisque E[E[Y |X]] = E[Y ] et, par le théorème de Pythagore, sa variance est la variancerésiduelle :

σ2 = ΓY − ΓY,XΓ−1X ΓX,Y .

En bref, on a : W ∼ N (0, σ2)W ⊥ X

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 89: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.2. Conditionnement des vecteurs gaussiens 85

H = Vect(1, X1, . . . , Xn)

Y

E[Y |X]

W

Figure 2.11 – Décomposition orthogonale : Y = E[Y |X] +W .

Application. Revenons à notre problème initial : on observe une réalisation X = x = (x1, . . . , xn)du vecteur aléatoire X et on voudrait en déduire une idée de Y . Puisque W est indépendantedes Xi, l’observation précédente n’a aucune conséquence sur la loi de W . Par contre, l’espéranceconditionnelle de Y sachant X est désormais fixée à :

E[Y |X = x] = E[Y ] + ΓY,XΓ−1X (x− E[X]),

qui est un réel et non plus une variable aléatoire. Mais alors la décomposition orthogonale de Ydevient :

Y = E[Y |X = x] +W

et on en déduit que, sachant X = x :

Y ∼ N (E[Y |X = x], σ2).

Si on se souvient qu’initialement Y ∼ N (E[Y ],ΓY ), on voit que la nouvelle loi de Y a une moyennedépendant de l’observation X = x (voir figure 2.12). La variance résiduelle σ2 est plus petite queVar(Y ), mais ne dépend que de la covariance des deux variables X et Y , pas de l’observation xproprement dite.

Cas particulier. Disons un mot du cas pathologique où la matrice de covariance ΓX des Xi

n’est pas inversible. Concrètement, ceci signifie que l’une au moins des composantes Xi peuts’exprimer linéairement en fonction des autres. Si on diagonalise la matrice de covariance en baseorthonormée, i.e. ΓX = P ′∆P , certains termes de la diagonale sont nuls. On note ∆+ la matricediagonale obtenue en inversant les éléments non nuls de ∆ (voir figure 2.13), alors :

Γ+X = P∆+P ′

est appelée pseudo-inverse de Moore-Penrose de ΓX (cf. cours d’algèbre linéaire). On montre alorsque tous les résultats obtenus pour l’espérance conditionnelle sont conservés en remplaçant Γ−1

X

par Γ+X . Par exemple :

E[Y |X] = E[Y ] + ΓY,XΓ+X(X − E[X]).

Généralisation. Si on suppose que le vecteur [X,Y ]′ = [X1, . . . ,Xn, Y1, . . . , Ym]′ est gaussien,toutes les formules et propriétés vues précédemment pour l’espérance conditionnelle passent sans

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 90: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

86 Chapitre 2. Vecteurs gaussiens et conditionnement

E[Y ] E[Y |X = x]

σ2

Var(Y )

Figure 2.12 – Loi de Y et loi de Y sachant X = x.

problème. L’espérance conditionnelle de Y sachant X est un vecteur aléatoire de taille m donnépar la formule :

E[Y |X] = E[Y ] + ΓY,XΓ+X(X − E[X]).

C’est un vecteur gaussien, en tant que transformée affine du vecteur gaussien X, dont la moyennevaut E[Y ] et la matrice de covariance : ΓY,XΓ+

XΓX,Y . Le vecteur

W = Y − E[Y |X]

est un vecteur gaussien centré de matrice de covariance : ΓY − ΓY,XΓ+XΓX,Y . Qui plus est, W est

indépendant de X.

∆ =

λ1

λr

0

0

λ2

0

0

∆+=

1λ1

1λ2

1λr

=⇒

Figure 2.13 – Matrice diagonale ∆ et sa pseudo-inverse de Moore-Penrose ∆+.

2.3 Exercices

“Tough ain’t enough.” Clint Eastwood, Million Dollar Baby.

Exercice 2.1 (Moments d’une loi normale)Pour tout n ∈ N, on note :

In =

∫ +∞

−∞xne−

x2

2 dx.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 91: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 87

1. Déterminer I0 et I1.

2. Montrer que, pour tout n ∈ N, on a : In+2 = (n + 1)In.

3. Donner alors I2n+1 pour tout n ∈ N. Pouvait-on prévoir ce résultat sans calculs ?

4. Déterminer I2n pour tout n ∈ N.

5. Soit X une variable aléatoire gaussienne de moyenne 1 et de variance unité. DéterminerE[X4].

Corrigé

1. I0 =√2π puisqu’on reconnaît la densité d’une loi normale centrée réduite. Pour I1, on a :

I1 =

∫ +∞

−∞xe−

x2

2 dx =

[−e−

x2

2

]+∞

−∞= 0.

2. Pour tout n ∈ N, on peut écrire :

In+2 =

∫ +∞

−∞xn+2e−

x2

2 dx =

∫ +∞

−∞(xn+1)(xe−

x2

2 ) dx,

et on effectue une intégration par parties :

In+2 =

[−xn+1e−

x2

2

]+∞

−∞+

∫ +∞

−∞(n+ 1)xne−

x2

2 dx = (n+ 1)In,

la dernière égalité venant du fait que l’exponentielle l’emporte sur la puissance :

limx→+∞

xn+1e−x2

2 = limx→−∞

xn+1e−x2

2 = 0.

3. Puisque I1 = 0, on en déduit que I3 = 0, puis que I5 = 0, et de proche en proche il estclair que I2n+1 = 0 pour tout n ∈ N. Ce résultat était d’ailleurs clair sans calculs puisqu’onintègre une fonction impaire sur un domaine symétrique par rapport à 0.

4. Pour les indices pairs, on a I2 = 1× I0 =√2π, puis I4 = 3× I2 = 3× 1× I0 = 3

√2π, et de

proche en proche :

I2n = (2n − 1)× (2n − 3)× · · · × 3× 1× I0 =(2n)!

2nn!

√2π.

5. Pour déterminer E[X4], il y a deux méthodes équivalentes.– Méthode analytique : on écrit l’espérance sous forme d’intégrale :

E[X4] =

∫ +∞

−∞

x4√2π

e−(x−1)2

2 dx,

et on effectue le changement de variable u = x− 1, ce qui donne :

E[X4] =

∫ +∞

−∞

(u+ 1)4√2π

e−u2

2 du.

On utilise la formule du binôme : (u+1)4 = u4+4u3 +6u2+4u+1, et on peut alors toutexprimer en fonction des In :

E[X4] =1√2π

(I4 + 4I3 + 6I2 + 4I1 + I0) = 10.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 92: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

88 Chapitre 2. Vecteurs gaussiens et conditionnement

– Méthode probabiliste : l’idée est la même, puisqu’on sait que si X ∼ N (1, 1), alors Y =X−1 ∼ N (0, 1). Donc, par les calculs faits avant, on sait que E[Y ] = E[Y 3] = 0, E[Y 2] = 1et E[Y 4] = 3. Or on a : E[X4] = E[(Y + 1)4] = E[Y 4] + 4E[Y 3] + 6E[Y 2] + 4E[Y ] + 1 =3 + 6 + 1 = 10.

Exercice 2.2 (Queue de la gaussienne)On appelle fonction de Marcum, ou queue de la gaussienne, la fonction définie pour tout réel xpar :

Q(x) =1√2π

∫ +∞

xe−

t2

2 dt.

1. Soit X une variable aléatoire qui suit une loi normale centrée réduite N (0, 1). Représenter ladensité de X, puis Q(x) sur ce même dessin. Soit F la fonction de répartition de X : donnerla relation entre F (x) et Q(x).

2. Soit x > 0 fixé. Dans l’intégrale définissant Q(x), effectuer le changement de variable t = x+uet, tenant compte de e−ux ≤ 1, montrer qu’on a :

Q(x) ≤ 1

2e−

x2

2 .

3. Pour t ≥ x > 0, montrer que :1 + 1

t2

1 + 1x2

≤ 1 ≤ t

x.

4. En déduire que :

1

(1 + 1x2 )

√2π

∫ +∞

x

(1 +

1

t2

)e−

t2

2 dt ≤ Q(x) ≤ 1

x√2π

∫ +∞

xte−

t2

2 dt.

5. Calculer la dérivée de 1t e

− t2

2 . En déduire que, pour tout x > 0, on a :

1

(1 + 1x2 )x

√2π

e−x2

2 ≤ Q(x) ≤ 1

x√2π

e−x2

2 .

6. En déduire un équivalent de Q(x) en +∞.

7. Application : en communications numériques, pour une modulation binaire, les symbolestransmis valent ±√

Eb, où Eb est appelée énergie moyenne par bit. Quand il transite par uncanal à bruit gaussien, le signal reçu en sortie Y est égal à la somme du symbole d’entrée etd’une variable aléatoire indépendante B ∼ N (0, N0

2 ), où N0 est appelé puissance moyennedu bruit.

(a) Supposons que le symbole d’entrée soit +√Eb. Donner la loi de Y en fonction de Eb et

N0. Même question si le symbole d’entrée est −√Eb.

(b) On reçoit y ∈ R en sortie de canal, mais on ignore ce qu’était le symbole d’entrée :quelle règle simple proposez-vous pour décider si en entrée le symbole émis était apriori équiprobablement +

√Eb ou −√

Eb ?

(c) Montrer que la probabilité d’erreur Pe faite avec cette règle de décision est :

Pe = Q

(√2Eb

N0

).

La quantité Eb

N0est appelée rapport signal à bruit et intervient très souvent en commu-

nications numériques (on l’exprime usuellement en décibels).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 93: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 89

Corrigé

1. Pour tout réel x, on a F (x) = 1−Q(x).

2. Soit x > 0 fixé. Le changement de variable t = x + u et le fait que e−ux ≤ 1 pour x et upositifs donne

Q(x) =1√2π

∫ +∞

0e−

(x+u)2

2 du = e−x2

2 · 1√2π

∫ +∞

0e−uxe−

u2

2 du ≤ e−x2

2 · 1√2π

∫ +∞

0e−

u2

2 du

et on aura reconnu la densité de la gaussienne standard

1√2π

∫ +∞

0e−

u2

2 du =1

2

(1√2π

∫ +∞

−∞e−

u2

2 du

)=

1

2

ce qui donne bien pour tout x positif

Q(x) ≤ 1

2e−

x2

2 .

3. Pour t ≥ x > 0, on a

1 +1

t2≤ 1 +

1

x2⇒ 1 + 1

t2

1 + 1x2

≤ 1

L’inégalité de droite est encore plus évidente.

4. On en déduit alors

1

(1 + 1x2 )

√2π

∫ +∞

x

(1 +

1

t2

)e−

t2

2 dt ≤ 1√2π

∫ +∞

x1× e−

t2

2 dt ≤ 1

x√2π

∫ +∞

xte−

t2

2 dt

5. Pour tout réel non nul t (1

te−

t2

2

)′= −

(1 +

1

t2

)e−

t2

2

Ainsi ∫ +∞

x

(1 +

1

t2

)e−

t2

2 dt =

[−1

te−

t2

2

]+∞

x

=1

xe−

x2

2

et l’inégalité de gauche est acquise. Celle de droite est encore plus simple puisque

∫ +∞

xte−

t2

2 dt =

[−e−

t2

2

]+∞

x

= e−x2

2

Au total, on a bien montré que pour tout x > 0

1

(1 + 1x2 )x

√2π

e−x2

2 ≤ Q(x) ≤ 1

x√2π

e−x2

2 .

6. Cet encadrement permet de voir que

Q(x)

1x√2πe−

x2

2

−−−−→x→+∞

1

d’où un équivalent très simple de Q(x) lorsque x tend vers +∞ :

Q(x) ∼ 1

x√2π

e−x2

2

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 94: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

90 Chapitre 2. Vecteurs gaussiens et conditionnement

7. Application

(a) Si le symbole d’entrée est +√Eb (respectivement −√

Eb), alors Y ∼ N (+√Eb,

N02 )

(respectivement Y ∼ N (−√Eb,

N02 )). De façon générale, Y = X + B où B est le

bruit additif, supposé gaussien centré de variance N0/2 et indépendant de X, variablealéatoire binaire correspondant au symbole d’entrée.

(b) Intuitivement, on se dit que le symbole d’entrée était plus vraisemblablement +√Eb

(respectivement −√Eb) si la sortie y est positive (respectivement négative). Cette

règle est en effet la bonne si les symboles d’entrée sont équiprobables, c’est-à-dire siP(X = +

√Eb) = P(X = +

√Eb) = 1/2. Il suffit de comparer les probabilités condi-

tionnelles pour s’en convaincre. Il convient juste d’adapter la formule de Bayes et celledes probabilités totales au cas d’un cocktail entre loi discrète et loi à densité, ce quidonne ici :

P(X = +√

Eb|y) =f(y|X = +

√Eb)P(X = +

√Eb)

f(y)

d’où

P(X = +√

Eb|y) =f(y|X = +

√Eb)P(X = +

√Eb)

f(y|X = +√Eb)P(X = +

√Eb) + f(y|X = −√

Eb)P(X = −√Eb)

Il reste à tenir compte du fait que les symboles d’entrée sont équiprobables et desdensités respectives de la réponse Y connaissant X pour obtenir

P(X = +√

Eb|y) =e− (y−

√Eb)

2

N0

e− (y−

√Eb)

2

N0 + e− (y+

√Eb)

2

N0

=1

1 + e−4

√Eb

N0y

(2.1)

On en déduit automatiquement :

P(X = −√

Eb|y) = 1−P(X = +√Eb|y) =

e−4

√Eb

N0y

1 + e−4

√Eb

N0y

et par suiteP(X = +

√Eb|y)

P(X = −√Eb|y)

= e4

√Eb

N0y

de sorte que ce rapport est supérieur à 1 si et seulement si y est positif, et la règle dedécision au maximum de vraisemblance correspond bien à la règle intuititive donnéeci-dessus.Remarque : si les symboles d’entrée ne sont pas équiprobables, il faut en tenir comptedans la règle de décision. Supposons par exemple que P(X = +

√Eb) = 3/4, alors

l’équation (2.1) devient

P(X = +√

Eb|y) =3

3 + e−4

√Eb

N0y

etP(X = +

√Eb|y)

P(X = −√Eb|y)

= 3 e4

√Eb

N0y

Ainsi on décide que le symbole d’entrée était X = +√Eb si

3 e4

√Eb

N0y> 1 ⇔ y > τ =

− ln 3

4× N0√

Eb

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 95: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 91

Ces résultats admettent une interprétation graphique très simple : les points d’abscisses0 et τ sont les points d’intersection des fonctions y 7→ f(y|X = +

√Eb)P(X = +

√Eb)

et y 7→ f(y|X = −√Eb)P(X = −√

Eb) respectivement lorsque P(X = +√Eb) = 1/2 et

P(X = +√Eb) = 3/4 (voir figure 2.14 dans le cas où N0 =

√Eb = 1, d’où en particulier

τ = − ln 3/4 ≈ −0.27).

Figure 2.14 – Fonctions y 7→ f(y|X = +√Eb)P(X = +

√Eb) et y 7→ f(y|X = −√

Eb)P(X =−√

Eb) lorsque P(X = +√Eb) = 1/2 (à gauche) et P(X = +

√Eb) = 3/4 (à droite).

(c) Dans le cas où les symboles d’entrée sont équiprobables, la probabilité d’erreur Pe estégale à la somme de la probabilité de décider +

√Eb alors que le symbole d’entrée était

−√Eb et vice-versa :

Pe = P(Y > 0|X = −√

Eb)P(X = −√

Eb) +P(Y < 0|X = +√Eb)P(X = +

√Eb)

et par symétrie des rôles, en notant toujours B le bruit additif :

Pe = P(B >√

Eb) = P

(B√N0/2

>

√Eb√N0/2

)= Q

(√2Eb

N0

).

Exercice 2.3 (Entropie d’une variable aléatoire)Si X est une variable aléatoire réelle admettant une densité f , on appelle entropie de X la quantité(si elle est définie) :

h(X) = E[− ln f(X)] = −∫ +∞

−∞f(x) ln f(x) dx.

Grosso modo, l’entropie d’une variable aléatoire mesure le degré d’incertitude qu’on a sur l’issued’un tirage de cette variable aléatoire.

1. Supposons que X ∼ N (0, 1), loi normale centrée réduite. Montrer qu’elle a pour entropie :

h(X) =1

2(1 + ln(2π)).

2. Supposons que X ∼ N (m,σ2). Montrer qu’elle a pour entropie : h(X) = 12 (1 + ln(2πσ2)).

Ainsi, au moins pour les lois normales, l’entropie est d’autant plus grande que la variance estgrande. On va montrer dans la suite que, parmi les variables aléatoires de variance donnée,celles qui ont la plus grande entropie sont celles qui suivent une loi normale.

3. Soit donc X1 ∼ N (0, σ2), dont la densité est notée ϕ, et X2 une variable aléatoire centréede densité f et de variance σ2, c’est-à-dire que :

∫ +∞

−∞x2f(x) dx = σ2.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 96: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

92 Chapitre 2. Vecteurs gaussiens et conditionnement

On suppose pour simplifier que f est strictement positive sur R.

(a) Vérifier que (sous réserve d’existence des intégrales) :

h(X2) =

∫ +∞

−∞f(x) ln

ϕ(x)

f(x)dx−

∫ +∞

−∞f(x) lnϕ(x) dx.

(b) Montrer que pour tout x > 0, log x ≤ x− 1. En déduire que :∫ +∞

−∞f(x) ln

ϕ(x)

f(x)dx ≤ 0.

(c) Montrer que :

−∫ +∞

−∞f(x) lnϕ(x) dx =

1

2(1 + ln(2πσ2)).

(d) En déduire que h(X2) ≤ h(X1).

Corrigé

1. Si X ∼ N (0, 1), alors son entropie s’écrit

h(X) = −∫ +∞

−∞

e−x2

2√2π

ln

e−

x2

2√2π

dx =

ln(2π)

2

∫ +∞

−∞

e−x2

2√2π

dx+1

2

∫ +∞

−∞x2

e−x2

2√2π

dx

or ∫ +∞

−∞

e−x2

2√2π

dx = 1 et

∫ +∞

−∞x2

e−x2

2√2π

dx = E[X2] = Var(X) = 1

d’où en effet

h(X) =1

2(1 + ln(2π)).

2. Le même calcul que ci-dessus montre que si X ∼ N (m,σ2), alors elle a pour entropie :h(X) = 1

2(1 + log(2πσ2)).

3. Soit donc X1 ∼ N (0, σ2), dont la densité est notée ϕ, et X2 une variable aléatoire centréede densité f et de variance σ2, c’est-à-dire que :

∫ +∞

−∞x2f(x) dx = σ2.

On suppose pour simplifier que f est strictement positive sur R.

(a) Sous réserve d’existence des intégrales, par définition de l’entropie

h(X2) = −∫ +∞

−∞f(x) ln f(x) dx =

∫ +∞

−∞f(x)

(ln

ϕ(x)

f(x)− lnϕ(x)

)dx

ce qui donne bien

h(X2) =

∫ +∞

−∞f(x) ln

ϕ(x)

f(x)dx−

∫ +∞

−∞f(x) lnϕ(x) dx.

(b) Pour montrer que pour tout x > 0, lnx ≤ x − 1, il suffit par exemple d’étudier lafonction g : x 7→ x−1− lnx sur ]0,+∞[. Sa dérivée est g′(x) = 1−1/x, qui est négativesur ]0, 1] et positive sur [1,+∞[. Son minimum est donc g(1) = 0, autrement dit g estbien positive sur son domaine de définition. On en déduit que :∫ +∞

−∞f(x) log

ϕ(x)

f(x)dx ≤

∫ +∞

−∞f(x)

(ϕ(x)

f(x)− 1

)dx =

∫ +∞

−∞ϕ(x) dx −

∫ +∞

−∞f(x) dx

or f et ϕ étant toutes deux des densités, elles intègrent à 1 et le majorant vaut bien 0.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 97: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 93

(c) On a alors

−∫ +∞

−∞f(x) lnϕ(x) dx = −

∫ +∞

−∞f(x) ln

e−

x2

2√2π

dx

qui se calcule sans difficultés

−∫ +∞

−∞f(x) lnϕ(x) dx =

ln(2π)

2

∫ +∞

−∞f(x) dx+

1

2

∫ +∞

−∞x2f(x) dx

en ayant en tête que

∫ +∞

−∞f(x) dx = 1 et

∫ +∞

−∞x2f(x) dx = E[X2

2 ] = Var(X2) = σ2

Au total on a bien

−∫ +∞

−∞f(x) logϕ(x) dx =

1

2(1 + ln(2πσ2)).

(d) Des trois questions précédentes et du calcul de l’entropie pour une variable gaussienneX1 ∼ N (0, σ2), on déduit que

h(X2) ≤1

2(1 + ln(2πσ2)) = h(X1),

c’est-à-dire que, à variance donnée, c’est la loi normale qui réalise le maximum de l’en-tropie.

Exercice 2.4 (Changement de base)Soit [X,Y ]′ un vecteur gaussien de moyenne m = [1, 2]′ et de matrice de covariance :

Γ =

[3 11 3

]

1. Vérifier que Γ est bien une matrice de covariance.

2. Diagonaliser Γ en base orthonormée, c’est-à-dire écrire une décomposition : Γ = P ′∆P , avecP matrice orthogonale et ∆ diagonale.

3. Représenter la fonction

f :

R

2 → R

(u, v) 7→ f(u, v) = 14π

√2e−

12(u

2

4+ v2

2)

4. En déduire la représentation de la densité du vecteur aléatoire [X,Y ]′.

Exercice 2.5 (Problème de dégénérescence)Soit [X,Y ]′ un vecteur gaussien de moyenne m = [0, 1]′ et de matrice de covariance :

Γ =

[1 −2−2 4

]

1. Vérifier que Γ est bien une matrice de covariance.

2. Diagonaliser Γ.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 98: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

94 Chapitre 2. Vecteurs gaussiens et conditionnement

3. Montrer que le vecteur [X,Y ]′ ne prend ses valeurs que sur une droite de R2, c’est-à-direqu’il existe deux réels α et β tels que : Y = αX + β (on pourra chercher α et β tels queVar(Y − (αX + β)) = 0). Comment le vecteur se distribue-t-il sur cette droite ?

4. Généralisation : soit X = [X1, . . . ,Xd]′ un vecteur aléatoire, non nécessairement gaussien,

de moyenne m et de matrice de covariance Γ. Supposons Γ non inversible. Montrer que levecteur aléatoire X ne prend ses valeurs que dans un sous-espace affine de Rd. Quelle est,en fonction du spectre de Γ, la dimension de ce sous-espace affine ?

5. Exemple : montrer que le vecteur aléatoire X de moyenne m = [7, 0, 1]′ et de matrice dedispersion :

Γ =

7 2 52 4 −25 −2 7

appartient à un plan de R3 que l’on précisera.

Exercice 2.6 (Vecteur gaussien tridimensionnel)Soit V = [X,Y,Z]′ un vecteur gaussien de moyenne m = [1, 0, 3]′ et de matrice de covariance :

Γ =

4 −2 −2−2 4 −2−2 −2 6

1. Quelle est la fonction caractéristique de V ?

2. Quelles sont les lois marginales ?

3. Déterminer les lois des couples (X,Y ), (X,Z) et (Y,Z).

4. Est-ce que deux composantes de V sont indépendantes ?

5. V admet-il une densité ? Si oui, la calculer.

6. Mêmes questions avec V de moyenne m comme ci-dessus et matrice de covariance :

Γ =

4 2 02 1 00 0 2

Exercice 2.7 (Exercice de maniement)Soit U1, U2 et U3 variables aléatoires indépendantes gaussiennes centrées de variances non nulleségales à v1, v2 et v3. On considère le vecteur aléatoire [X,Y ]′ défini par :

X = U1 + U2

Y = U2 + U3

1. Quelles sont les lois de X et Y ?

2. Montrer qu’on peut trouver une combinaison linéaire non nulle de U1, U2 et U3 qui soitindépendante de X et de Y .

3. Donner le coefficient de corrélation linéaire ρ du couple (X,Y ), ainsi que la matrice dedispersion Γ.

4. On note σ2X et σ2

Y les variances respectives de X et Y . Montrer que [X,Y ]′ admet une densitéet la préciser en fonction de ρ, σX et σY .

5. Mêmes questions si on pose Y = U2 − U3.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 99: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 95

Exercice 2.8 (Probabilité d’un quadrant)On considère un vecteur gaussien centré [X,Y ]′ de matrice de dispersion :

Γ =

[1 ρρ 1

]

On suppose dans un premier temps que −1 < ρ < 1.

1. Diagonaliser la matrice de dispersion sous la forme Γ = P∆P ′. Préciser√∆−1.

2. On veut calculer P(X ≥ 0, Y ≥ 0). Exprimer cette probabilité via une intégrale double.

3. Effectuer le changement de variables

[uv

]=

√∆−1P ′

[xy

],

puis un changement en coordonnées polaires pour montrer que :

P(X ≥ 0, Y ≥ 0) =1

πarctan

√1 + ρ

1− ρ.

4. En déduire l’expression équivalente :

P(X ≥ 0, Y ≥ 0) =1

4+

1

2πarcsin ρ.

5. Vérifier que cette formule est encore valable pour ρ = ±1.

Corrigé

1. On obtient Γ = P∆P ′, avec :

P =1√2

[1 11 −1

]∆ =

[1 + ρ 00 1− ρ

].

Une racine carrée de l’inverse de ∆ est donc :

√∆−1 =

[1√1+ρ

0

0 1√1−ρ

].

2. La probabilité P(X ≥ 0, Y ≥ 0) est la probabilité que le point aléatoire (X,Y ) tombe dansle quadrant R+ ×R+, c’est-à-dire :

P(X ≥ 0, Y ≥ 0) =

∫∫

R

+×R+

f(x, y) dx dy =

∫∫

R

+×R+

1

2π√

1− ρ2e−

12[x,y]Γ−1[x,y]′ dx dy.

On peut encore l’écrire :

P(X ≥ 0, Y ≥ 0) =

∫∫

R

+×R+

1

2π√

1− ρ2e−x2+y2−2ρxy

2(1−ρ2) dx dy,

mais c’est la forme matricielle de la densité qui va nous servir dans la suite.

3. Le changement de variables ϕ : (x, y) 7→ (u, v) défini par :

[uv

]=

√∆−1P ′

[xy

]⇔

u = (x+ y)/

√2(1 + ρ)

v = (x− y)/√

2(1− ρ)

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 100: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

96 Chapitre 2. Vecteurs gaussiens et conditionnement

a pour réciproque : x = (u

√1 + ρ+ v

√1− ρ)/

√2

y = (u√1 + ρ− v

√1− ρ)/

√2

donc :

P(X ≥ 0, Y ≥ 0) =

∫∫

Df(ϕ−1(u, v))

∣∣Jϕ−1(u, v)∣∣ du dv.

Or [x, y]′ = P√∆[u, v]′ et par ailleurs Γ−1 = P∆−1P ′, donc :

f(x, y) =1

2π√

1− ρ2e−

12[x,y]Γ−1[x,y]′ =

1

2π√

1− ρ2e−

12[u,v]

√∆P ′Γ−1P

√∆[u,v]′ ,

et le produit matriciel se simplifie, pour donner :

f(x, y) = f(ϕ−1(u, v)) =1

2π√

1− ρ2e−

u2+v2

2 .

Par ailleurs, l’application ϕ−1 étant linéaire, son jacobien est tout simplement la matriceJϕ−1(u, v) = P

√∆, donc :

∣∣Jϕ−1(u, v)∣∣ = |det

√∆| =

√1− ρ2.

Enfin, pour les nouvelles coordonnées u et v, le domaine d’intérêt s’écrit :

D =

(u, v) ∈ R2 : u ≥ 0, −u

√1 + ρ

1− ρ≤ v ≤ u

√1 + ρ

1− ρ

.

Finalement, on a obtenu :

P(X ≥ 0, Y ≥ 0) =

∫∫

D

1

2πe−

u2+v2

2 du dv.

Le changement en coordonnées polaires est alors complètement naturel :

P(X ≥ 0, Y ≥ 0) =

∫∫

D′

1

2πe−

r2

2 r dr dθ,

avec pour domaine d’intégration (voir aussi figure 2.15) :

D′ =

(r, θ) : r ≥ 0, − arctan

√1 + ρ

1− ρ≤ θ ≤ arctan

√1 + ρ

1− ρ

.

Ceci donne finalement :

P(X ≥ 0, Y ≥ 0) =1

πarctan

√1 + ρ

1− ρ

[−e−

r2

2

]+∞

0

=1

πarctan

√1 + ρ

1− ρ.

4. Pour vérifier qu’on a de façon équivalente P(X ≥ 0, Y ≥ 0) = 14 + 1

2π arcsin ρ, il suffit demontrer que :

∀ρ ∈]− 1, 1[1

πarctan

√1 + ρ

1− ρ=

1

4+

1

2πarcsin ρ.

Ceci peut se faire en montrant tout d’abord que les deux fonctions ont même dérivée :(1

πarctan

√1 + ρ

1− ρ

)′=

1

2π√

1− ρ2=

(1

4+

1

2πarcsin ρ

)′,

et en vérifiant ensuite que leurs valeurs en un point de l’intervalle ] − 1, 1[ coïncident, parexemple en 0 :

1

πarctan

√1 + 0

1− 0=

1

4=

1

4+

1

2πarcsin 0.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 101: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 97

5. Si ρ = 1, alors Γ n’est pas inversible et on a plus précisément :

Var(X − Y ) = [1,−1]Γ

[1−1

]= 0,

c’est-à-dire que Y = X presque sûrement. Dans ce cas, puisqu’on sait de plus que X suitune loi normale centrée réduite, la probabilité cherchée est très simple :

P(X ≥ 0, Y ≥ 0) = P(X ≥ 0) =1

2,

qui est bien égal à 14 +

12π arcsin 1. Si ρ = −1, alors on montre cette fois que Y = −X presque

sûrement, donc :

P(X ≥ 0, Y ≥ 0) = P(X ≥ 0,X ≤ 0) = P(X = 0) = 0,

qui est bien égal à 14 +

12π arcsin(−1). Donc la formule est encore vraie en ±1.

u

v

v = u√

1+ρ

1−ρ

v = −u√

1+ρ

1−ρ

θ = arctan√

1+ρ

1−ρ

Figure 2.15 – Changement de variables en polaires.

Exercice 2.9 (Variations sur la sphère unité)Soit [X,Y,Z]′ un vecteur gaussien centré de matrice de dispersion :

Γ =

1 0√

23

0 1 1√3√

23

1√3

1

1. Pour tout triplet (α, β, γ) de R3, déterminer la loi de la variable aléatoire αX + βY + γZ.

2. Déterminer le noyau de Γ. Existe-t-il (α, β, γ) de R3\(0, 0, 0) tel que Var(αX+βY +γZ) =0 ?

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 102: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

98 Chapitre 2. Vecteurs gaussiens et conditionnement

3. La loi du vecteur aléatoire [X,Y,Z]′ admet-elle une densité ?

4. Entre quelles valeurs varie Var(αX + βY + γZ) = 0 lorsque (α, β, γ) décrit la sphère unité,i.e. α2 + β2 + γ2 = 1 ? Indication : on pourra diagonaliser Γ.

5. On note U = 1√3X −

√23Y et V = 1√

3X + 1√

6Y + 1√

2Z. Quelle est la loi du vecteur aléatoire

[U, V ]′ ?

Exercice 2.10 (Processus autorégressif)Rappel : on peut montrer qu’une suite de variables aléatoires gaussiennes Xn ∼ N (mn, σ

2n)

converge en loi si et seulement si les suites (mn) et (σ2n) sont toutes deux convergentes. Si m

et σ2 sont les limites respectives, alors la loi limite est la loi normale N (m,σ2).Soit (εn)n≥1 une suite de variables aléatoires i.i.d. de loi N (0, σ2), avec σ2 > 0 et θ un paramètreréel. On considère la suite (Xn)n≥1 définie par :

X1 = ε1

Xn+1 = θXn + εn+1

1. Quelle est la loi de Xn ? Pour quelles valeurs de θ a-t-on convergence en loi ? Préciser alorsla loi limite.

2. Calculer la covariance de Xn et Xn+k.

3. Quelle est la loi du vecteur aléatoire [X1, . . . ,Xn]′ ?

4. Exprimer la densité du vecteur [ε1, . . . , εn]′. Grâce à la formule de changement de variable,

en déduire celle du vecteur [X1, . . . ,Xn]′.

5. Déterminer l’estimateur du maximum de vraisemblance de (θ, σ2) basé sur l’observation del’échantillon (X1, . . . ,Xn).

Corrigé

1. On a pour tout n ≥ 1 :

Xn = εn + θεn−1 + · · · + θn−1ε1 =n∑

k=1

θn−kεk.

La variable Xn est la somme de (n − 1) variables gaussiennes indépendantes, donc elle suitune loi normale N (mn, σ

2n), avec bien sûr mn = 0 et :

σ2n =

n∑

k=1

θ2(n−k)σ2 =

nσ2 si |θ| = 11−θ2n

1−θ2σ2 si |θ| 6= 1

D’après le rappel de l’énoncé, il y a donc convergence en loi de la suite (Xn) si et seulementsi |θ| < 1, auquel cas on a :

XnL−−−−−→

n→+∞N(0,

σ2

1− θ2

).

2. On a pour tout k ≥ 0 :

Xn+k = εn+k + θεn+k−1 + · · ·+ θk−1εn+1 + θkXn = Wk + θkXn,

avec Wk indépendante de Xn. On en déduit la covariance entre Xn et Xn+k :

Cov(Xn,Xn+k) = Cov(Xn,Wk + θkXn) = θkVar(Xn) =

nθkσ2 si |θ| = 11−θ2n

1−θ2θkσ2 si |θ| 6= 1

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 103: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 99

3. On peut écrire :

X1

.

.

.Xn

= A

ε1...εn

,

avec A matrice triangulaire inférieure formée de 1 sur la diagonale, de θ sur la premièresous-diagonale, de θ2 sur la deuxième sous-diagonale, ..., le coefficient An,1 valant θn−1.Puisque [ε1, . . . , εn]

′ est un vecteur gaussien, [X1, . . . ,Xn]′ l’est aussi. La matrice de disper-

sion de [ε1, . . . , εn]′ étant égale à σ2In, on a :

X1

.

.

.Xn

∼ N (0, σ2AA′).

4. Puisque ses composantes sont indépendantes, le vecteur [ε1, . . . , εn]′ a pour densité :

g(ǫ1, . . . , ǫn) =1

(2πσ2)n2

e−1

2σ2 (ǫ21+···+ǫ2n)

et on peut appliquer la formule de changement de variable à la bijection :

ǫ1 = x1ǫ2 = x2 − θx1... = ...ǫn = xn − θxn−1

La densité du vecteur [X1, . . . ,Xn]′ est donc :

f(x1, . . . , xn) = g(x1, x2 − θx1, . . . , xn − θxn−1)∣∣det(A−1)

∣∣ .

Mais puisque detA = 1, il en va de même pour A−1 et :

f(x1, . . . , xn) =1

(2πσ2)n2

e−1

2σ2 (x21+(x2−θx1)2+···+(xn−θxn−1)2).

5. On suppose donc observer un échantillon (x1, . . . , xn) du processus (X1, . . . ,Xn) et on veuten déduire une estimation au maximum de vraisemblance du couple (θ, σ2). On admet quecette solution existe et est unique. Il suffit alors pour la trouver d’écrire la log-vraisemblancedu couple (θ, σ2) :

L(θ, σ2) = ln f(x1, . . . , xn) = −n

2ln(2πσ2)− 1

2σ2(x21 + (x2 − θx1)

2 + · · ·+ (xn − θxn−1)2),

dont on cherche le point critique. On obtient pour dérivées partielles :

∂L

∂θ=

1

σ2

n−1∑

k=1

xk(xk+1 − θxk)

∂L

∂σ2= − n

2σ2+

1

2σ4(x21 + (x2 − θx1)

2 + · · ·+ (xn − θxn−1)2)

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 104: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

100 Chapitre 2. Vecteurs gaussiens et conditionnement

L’annulation de la première dérivée partielle donne l’estimateur de θ au maximum de vraisem-blance :

θ =

∑n−1k=1 xkxk+1∑n−1

k=1 x2k

.

D’où l’on déduit celui de σ2, via l’annulation de la seconde dérivée partielle :

σ2 =1

n

n−1∑

k=0

(xk+1 − θxk)2,

avec la convention x0 = 0.

Exercice 2.11 (Moyenne mobile)Soit (εn)n≥1 une suite de variables aléatoires i.i.d. de loi N (0, σ2), et θ un paramètre réel. Onconsidère la suite (Xn)n≥1 définie par

X1 = ε1

Xn+1 = θεn + εn+1

1. Soit X = [X1, . . . ,Xn]′. Pourquoi X est-il un vecteur gaussien ?

2. Déterminer la moyenne et la matrice de dispersion de X.

3. Justifier le fait que X admet une densité et la préciser.

Exercice 2.12 (Sauts de puce)Dans le plan, une puce part de l’origine O = A0 et saute à chaque instant. De l’instant 1 à l’instantn, ses points de chute successifs sont notés A1, . . . , An. Chaque saut a la même amplitude unité :AjAj+1 = 1 pour tout indice j. La direction de chaque saut suit une loi uniforme sur [0, 2π].

1. Soit V = [cosU, sinU ]′ un vecteur aléatoire, avec U qui suit une loi uniforme sur [0, 2π].Déterminer espérance et matrice de covariance de V .

2. Ecrire Sn =−−→OAn comme une somme de vecteurs aléatoires indépendants et identiquement

distribués. Que dire de la convergence en loi de la suite (Sn/√n) ?

3. Soit maintenant [X,Y ]′ un vecteur gaussien centré de matrice de covariance identité. Consi-dérons le vecteur aléatoire [R,Θ]′ correspondant en coordonnées polaires. Déterminer sadensité jointe grâce à la formule de changement de variables. En déduire que R et Θ sontindépendantes.

4. En calculant par exemple sa fonction de répartition, montrer que la variable aléatoire R2,carré de la distance à l’origine, suit une loi exponentielle : R2 ∼ E(12).

5. Pour notre puce, en déduire qu’au bout de n sauts le carré de sa distance à l’origine suit “àpeu près” une loi exponentielle de moyenne n.

CorrigéDes exemples de trajectoires de la puce sont donnés figure 2.16.

1. Pour le vecteur moyenne, on a :

E[cosU ] =1

∫ 2π

0cos u du =

1

2π[sinu]2π0 = 0.

Et on trouve de la même façon E[sinU ] = 0. Ainsi V est centré :

E[V ] =

[E[cosU ]E[sinU ]

]=

[00

],

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 105: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 101

−1.8−1.4−1.0−0.6−0.2 0.2 0.6 1.0 1.4−0.7

−0.3

0.1

0.5

0.9

1.3

1.7

2.1

−12 −10 −8 −6 −4 −2 0 2 4−12

−10

−8

−6

−4

−2

0

2

−1 3 7 11 15 19 23 27 31−60

−50

−40

−30

−20

−10

0

10

Figure 2.16 – Exemples de trajectoires de la puce pour 10, 100 et 1000 sauts.

ce qui est évident puisque la puce ne privilégie aucune direction dans ses sauts. Pour lamatrice de dispersion, on a :

Var(cosU) = E[cos2 U ] =1

∫ 2π

0cos2 u du =

1

[u+

1

2sin(2u)

]2π

0

=1

2.

De même :

Var(sinU) = E[sin2 U ] = E[1− cos2 U ] = 1− E[cos2 U ] = 1−Var(cosU) =1

2.

Pour la covariance entre abscisse et ordonnée :

Cov(cosU, sinU) = E[cosU sinU ] =1

∫ 2π

0cos u sinu du = −1

4[cos 2u]2π0 = 0,

c’est-à-dire qu’abscisse et ordonnée de V sont décorrélées (mais clairement pas indépendantes,puisque la valeur de l’abscisse ne laisse plus le choix qu’entre deux valeurs possibles pourl’ordonnée). Ainsi le vecteur aléatoire centré V a pour matrice de covariance :

Γ =

[1/2 00 1/2

].

2. La relation de Chasles donne la décomposition :

Sn =−−→OAn =

−−→OA1 +

−−−→A1A2 + · · ·+−−−−−→

An−1An = V1 + · · · + Vn,

avec les Vk i.i.d. de même loi que le vecteur V de la question précédente. Le théorème centrallimite nous apprend donc que :

Sn − nE[V ]√n

=Sn√n

L−−−−−→n→+∞

N (0,Γ) = N([

00

],

[1/2 00 1/2

]).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 106: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

102 Chapitre 2. Vecteurs gaussiens et conditionnement

3. Le changement de variables en polaires s’écrit :

x = r cos θy = r sin θ

Puisque le vecteur [X,Y ]′ a pour densité :

f(x, y) =1

2πe−

x2+y2

2 ,

on en déduit que [R,Θ]′ a pour densité :

g(r, θ) =r

2πe−

r2

21[0,+∞[(r)1[0,2π](θ).

La densité de R est alors :

g(r) =

∫ 2π

0g(r, θ) dθ = re−

r2

21[0,+∞[(r).

Quant à celle de Θ, on obtient :

g(θ) =

∫ +∞

0g(r, θ) dr =

1

2π1[0,2π](θ)

[e−

r2

2

]+∞

0

=1

2π1[0,2π](θ),

c’est-à-dire que Θ suit une loi uniforme sur [0, 2π]. Ainsi on a pour tout couple (r, θ) ∈[0,+∞[×[0, 2π] :

g(r, θ) = g(r)× g(θ),

donc les variables aléatoires R et Θ sont indépendantes.

4. Soit F la fonction de répartition de R2. Bien sûr F (t) = 0 si t < 0, et pour tout t ≥ 0 on a :

F (t) = P(R2 ≤ t) = P(R ≤√t) =

∫ √t

0g(r) dr =

[e−

r2

2

]√t

0

= 1− e−t2 ,

où l’on reconnaît la fonction de répartition d’une loi exponentielle : R2 ∼ E(12).5. Notons Xn et Yn les coordonnées aléatoires du point terminal An. Le carré de la distance à

l’origine de la puce au bout de n sauts est donc OA2n = X2

n + Y 2n , avec

−−→OAn = Sn qui suit à

peu près une loi normale N (0, nΓ). C’est encore dire que, à peu de choses près :

√2

nSn =

√2

n

[Xn

Yn

]∼ N

([00

],

[1 00 1

]).

Mais alors d’après la question précédente on a, toujours à peu de choses près :

2

n(X2

n + Y 2n ) ∼ E(1

2),

c’est-à-dire que le carré de la distance à l’origine suit à peu près une loi exponentielle deparamètre 1

n .

Exercice 2.13 (Vecteur gaussien bidimensionnel)On considère un vecteur gaussien [X,Y ]′ de moyenne m = [1,−1]′ et de matrice de covariance :

Γ =

[1 11 4

]

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 107: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 103

1. Ecrire la densité du vecteur [X,Y ]′.

2. Quelle est la loi de X ? de Y ? de X + Y ?

3. Déterminer l’espérance conditionnelle E[X|Y ]. Quelle est sa loi ?

CorrigéCf. sujet de juin 2005 en annexe.

Exercice 2.14 (Conditionnement d’une variable par un couple)Soit [X,Y,Z]′ un vecteur gaussien centré de matrice de covariance :

Γ =

4 1 21 9 −32 −3 4

1. Calculer E[X|Y,Z], l’espérance conditionnelle de X sachant le couple (Y,Z).

2. Vérifier sur cet exemple que X − E[X|Y,Z] est indépendant de (Y,Z).

3. Calculer E[(X − E[X|Y,Z])2|Y,Z].

4. Quelle est la loi de X sachant (Y,Z) ?

Corrigé

1. La formule de conditionnement pour un vecteur gaussien centré donne :

E[X|Y,Z] = ΓX,(Y,Z)Γ−1(Y,Z)

[YZ

]= [1, 2]

[9 −3−3 4

]−1 [YZ

],

c’est-à-dire :

E[X|Y,Z] =1

27(10Y + 21Z).

2. On a donc X−E[X|Y,Z] = X− 127 (10Y +21Z). Le vecteur [X−E[X|Y,Z], Y, Z]′ est gaussien

car obtenu par transformation linéaire d’un vecteur gaussien. Pour montrer que sa premièrecomposante est indépendante des deux dernières, il suffit donc de vérifier que les covariancessont nulles :

Cov(X − E[X|Y,Z], Y ) = E[(X − E[X|Y,Z])Y ] = E

[(X − 1

27(10Y + 21Z)

)Y

],

c’est-à-dire en développant :

Cov(X − E[X|Y,Z], Y ) = E[XY ]− 10

27E[Y 2]− 7

9E[Y Z] = 1− 10

27× 9− 7

9× (−3) = 0.

On vérifie de la même façon que Cov(X − E[X|Y,Z], Z) = 0.

3. Première méthode (brutale, pour ceux qui ne connaissent pas leur cours) : puisque la variablealéatoire (X−E[X|Y,Z]) est indépendante du couple (Y,Z), il en va de même pour la variablealéatoire (X − E[X|Y,Z])2. De ce fait, on a :

E[(X − E[X|Y,Z])2|Y,Z] = E[(X − E[X|Y,Z])2] = E

[(X − 1

27(10Y + 21Z)

)2],

et il suffit alors de développer le carré :

E[(X−E[X|Y,Z])2|Y,Z] = E[X2]+100

272E[Y 2]+

49

81E[Z2]− 20

27E[XY ]+

420

272E[Y Z]− 42

27E[XZ],

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 108: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

104 Chapitre 2. Vecteurs gaussiens et conditionnement

ce qui donne au total :

E[(X − E[X|Y,Z])2|Y,Z] =56

27.

Seconde méthode (érudite, pour ceux qui connaissent leur cours) : la quantité cherchée estexactement la variance résiduelle, ou résidu quadratique, ou résidu, donné par la formule :

σ2 = ΓX − ΓX,(Y,Z)Γ−1(Y,Z)Γ(Y,Z),X = 4− [1, 2]

[9 −3−3 4

]−1 [12

]=

56

27.

Etonnov, niet ?

4. On sait qu’on a la décomposition en somme de variables indépendantes :

X = E[X|Y,Z] + (X − E[X|Y,Z]) = E[X|Y,Z] + T =1

27(10Y + 21Z) + T,

avec T indépendante du couple (Y,Z) et de loi N (0, σ2). Donc sachant Y = y et Z = z, ona simplement X = 1

27 (10y + 21z) + T , c’est-à-dire que :

X ∼ N(

1

27(10y + 21z),

56

27

).

Exercice 2.15 (Mai 2007)Soit V = [X,Y ]′ un vecteur gaussien centré de matrice de covariance :

Γ =

[σ2X rσXσY

rσXσY σ2Y

].

1. Rappeler à quelle condition V admet une densité f(x, y) et dans ce cas donner sa formuleen fonction de σX , σY et r. On suppose cette condition vérifiée dans toute la suite.

2. Donner l’expression de l’espérance conditionnelle E[Y |X] en fonction de σX , σY et r.

3. On considère un vecteur V = [X,Y ]′ ayant pour densité :

∀(x, y) ∈ R2 f(x, y) =1

4πe−

x2

8− 5y2

8+xy

4

(a) Déterminer sa matrice de covariance Γ.

(b) Sachant x = 1, quelle est la loi de Y ?

(c) Sachant x = 1, en déduire un intervalle dans lequel se situe Y avec 95% de chances.

CorrigéCf. corrigé du sujet de mai 2007 en annexe.

Exercice 2.16 (Covariances identiques)Soit [X,Y,Z]′ un vecteur gaussien centré tel que les variances soient égales à 1 et les covarianceségales à 1/2.

1. Calculer E[Z|X,Y ].

2. Calculer E[Z|X + Y ]. Faire un dessin pour expliquer le lien entre ce résultat et le résultatprécédent.

3. Sachant X = x, quelle est la loi de Y ?

4. En déduire E[Y 2|X = x], puis E[Y 2|X].

5. Grâce à la méthode de conditionnement, calculer alors E[X2Y 2].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 109: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 105

6. Déterminer de même E[X2Y 4].

7. Généralisation : on suppose que les covariances valent a ∈] − 1/2, 1[. Vérifier qu’on définitbien ainsi une matrice de covariance. Que deviennent les résultats précédents ?

Corrigé

1. Pour calculer E[Z|X,Y ], on applique la formule de conditionnement :

E[Z|X,Y ] = ΓZ,(X,Y )Γ−1(X,Y )

[XY

]=

[1

2,1

2

] [1 1/21/2 1

]−1 [XY

]=

1

3(X + Y ).

2. Puisque le couple (T,Z) = (X + Y,Z) est gaussien, on peut calculer E[Z|X + Y ] grâce à laformule de régression classique :

E[Z|X + Y ] = E[Z|T ] = Cov(Z, T )

Var(T )T.

Or :

Cov(Z, T ) = Cov(Z,X + Y ) = E[Z(X + Y )] = E[ZX] + E[ZY ] = 1,

et :

Var(T ) = Var(X + Y ) = Var(X) + 2Cov(X,Y ) + Var(Y ) = 3.

Finalement :

E[Z|X + Y ] =1

3(X + Y ) = E[Z|X,Y ].

On pouvait s’en douter sans calculs : la valeur moyenne prise par la variable aléatoire Zlorsqu’on connaît à la fois X et Y ne dépend que de la somme (X + Y ). De ce fait, la valeurmoyenne prise par la variable aléatoire Z lorsqu’on connaît simplement la somme (X+Y ) vaêtre égale à celle trouvée précédemment. Ceci vient du fait que Z a la même covariance avecX qu’avec Y . Faire un dessin pour expliquer le lien entre ce résultat et le résultat précédent.

3. On a la décomposition orthogonale :

Y = E[Y |X] + (Y − E[Y |X]) = E[Y |X] +W,

avec :

E[Y |X] =Cov(X,Y )

Var(X)X =

X

2,

et la variable résiduelle W qui est indépendante de X qui suit une loi N (0, σ2), avec lerésidu :

σ2 = Var(Y )− Cov(X,Y )2

Var(X)=

3

4.

Ainsi, lorsque X = x, on a :

Y ∼ N(x

2,3

4

).

4. Sachant X = x, on a vu que Y suit une loi normale. Or, de façon générale, lorsque V ∼N (m,σ2), on a : E[V 2] = m2 + s2, donc ici :

E[Y 2|X = x] =x2 + 3

4,

et plus généralement : E[Y 2|X] = X2+34 .

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 110: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

106 Chapitre 2. Vecteurs gaussiens et conditionnement

5. Par les propriétés classiques de l’espérance conditionnelle, on a alors :

E[X2Y 2] = E[E[X2Y 2|X]] = E[X2E[Y 2|X]] =

1

4E[X4 + 3X2].

Or X suit une loi normale centrée réduite, loi dont on connaît tous les moments, en particulierE[X4] = 3. Ainsi E[X2Y 2] = 3

2 .

6. On applique la même technique, mais en inversant les rôles joués par X et Y : ceci évite d’avoirà calculer E[Y 4|X]. Puisque X et Y sont interchangeables, il est clair que E[X2|Y ] = Y 2+3

4 .Ainsi :

E[X2Y 4] = E[E[X2Y 4|Y ]] = E

[Y 4

(Y 2 + 3

4

)]=

1

4E[Y 6 + 3Y 4].

Or le moment d’ordre 6 d’une loi normale centrée réduite vaut 15, donc E[X2Y 4] = 6.

7. Généralisation : on suppose que les covariances valent a ∈]−1/2, 1[. Vérifier qu’on définit bienainsi une matrice de covariance. Que deviennent les résultats précédents ? Ils se généralisent...

Exercice 2.17 (Vecteur gaussien tridimensionnel)On considère un vecteur gaussien [X,Y,Z]′ centré et de matrice de covariance :

Γ =

2 1 11 2 11 1 2

1. Donner l’espérance conditionnelle E[X|Y,Z].

2. Quelle est la loi de Z sachant X = 1 et Y = 2 ?

3. Déterminer l’espérance conditionnelle du vecteur [X,Y ]′ sachant Z, notée E[X,Y |Z].

4. Quelle est la loi du vecteur [X,Y ]′ sachant Z = 1 ?

5. On pose alors :

U = −X + Y + ZV = X − Y + ZW = X + Y − Z

Pourquoi le vecteur aléatoire [U, V,W ]′ est-il gaussien ?

6. Quelles sont les lois de U , de V , de W ?

7. Déterminer la moyenne et la matrice de covariance de [U, V,W ]′. Qu’en déduire sur la corré-lation de U , V et W ?

CorrigéLe corrigé de cet exercice est donné en annexe, sujet de juin 2005.

Exercice 2.18 (Variance conditionnelle)Soit [X1,X2]

′ un vecteur gaussien centré de matrice de covariance :

Γ =

[3 −1−1 2

]

1. Déterminer l’espérance conditionnelle E[X1|X2].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 111: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 107

2. Si [X,Y ]′ est un vecteur aléatoire (non nécessairement gaussien), avec Y de carré intégrable,on définit la variance conditionnelle de Y sachant X, notée Var[Y |X], comme la variablealéatoire :

Var[Y |X] = E[(Y − E[Y |X])2|X].

Montrer que dans notre situation, on a :

Var[X1|X2] = E[X21 ]− E[(E[X1|X2])

2].

3. En déduire la variance conditionnelle Var[X1|X2].

4. Vérifier que : Var[X1|X2 = 0] 6= E[(X1 − E[X1|X2 = 0])2].

Exercice 2.19 (Un été 2006)On considère un vecteur gaussien V = [X,Y,Z]T de moyenne m = [1,−1, 1]′ et de matrice decovariance :

Γ =

1 1 11 2 21 2 3

1. Quelle est la loi du vecteur [X,Y ]′ ? Donner sa densité.

2. Déterminer l’équation de la droite de régression de Y en X. Préciser le résidu quadratique.

3. Donner une variable aléatoire U = αX + βY + γ qui soit indépendante de X.

4. Quelle est la fonction caractéristique du vecteur V ?

5. Donner l’expression de E[Z|X,Y ], espérance conditionnelle de Z sachant (X,Y ) ?

6. En déduire une variable aléatoire T = aX + bY + cZ + d qui soit indépendante de X et Y .Préciser la variance de T .

7. On observe Y = 1 et Z = 2. Quelle est la loi de la variable aléatoire X sachant ces données ?

CorrigéCf. sujet de juin 2006 en annexe.

Exercice 2.20 (Statistique bayésienne)Soit (X,M) un couple aléatoire dont la loi jointe est telle que : M suit une loi normale N (0, τ2).Sachant M = m, X suit une loi normale N (m,σ2).

1. Calculer E[X|M ].

2. Montrer que la densité conditionnelle de M sachant X = x peut s’écrire :

f(m|x) = cxe−

(x−m)2

2σ2

√2πσ2

e−m2

2θ2√2πθ2

,

où cx est une constante ne dépendant que de x.

3. En déduire que, sachant X = x, M ∼ N (σ20

σ2x, σ20), avec σ2

0 = σ2θ2

σ2+θ2.

4. Comparer σ20 à σ2. Calculer E[M |X].

5. Par la même méthode que ci-dessus, montrer que X ∼ N (0, σ2 + θ2).

6. Via le calcul de la densité jointe, montrer que (X,M) est un vecteur aléatoire gaussien, donton précisera moyenne et matrice de dispersion.

Corrigé succinct

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 112: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

108 Chapitre 2. Vecteurs gaussiens et conditionnement

1. D’après l’énoncé, on a : E[X|M = m] = m, donc de façon générale E[X|M ] = M .

2. On cherche à déterminer la densité conditionnelle f(m|x). La formule de Bayes donne :

f(m|x) = f(m,x)

f(x)=

f(x|m)f(m)

f(x).

Or x est fixé, donc on peut considérer f(x) comme une constante cx. La connaissance desdensités du numérateur permet d’écrire :

f(m|x) = cxe−

(x−m)2

2σ2

√2πσ2

e−m2

2θ2√2πθ2

.

3. Après calculs, on trouve que ceci est la densité d’une variable aléatoire gaussienne N (σ20

σ2x, σ20),

avec :

σ20 =

σ2θ2

σ2 + θ2≤ σ2.

4. On a :

σ20 =

σ2

1 + θ2

σ2

≤ σ2.

Pour tout x, on a donc : E[M |X = x] =σ20

σ2x. On en déduit que :

E[M |X] =σ20

σ2X.

5. On cherche la densité f de X. Le même type de calcul que précédemment montre que X suitune loi gaussienne N (0, σ2 + θ2).

6. On cherche la densité fX,M du couple (X,M). On trouve que c’est une densité gaussiennede moyenne (0, 0) et de matrice de covariance Γ, avec :

Γ =

[σ2 + θ2 θ2

θ2 θ2

].

Exercice 2.21 (Espérance conditionnelle et indépendance)On considère trois variables aléatoires U , V et W indépendantes et suivant la même loi normalecentrée réduite N (0, 1).

1. On définit le vecteur aléatoire [X1,X2,X3]′ comme suit :

X1 = UX2 = U + VX3 = U + V +W

(a) Quelle est la loi du vecteur [X1,X2,X3]′ ?

(b) Déterminer E[X3|X1,X2]. Comparer à E[X3|X2].

(c) Expliquer le résultat de la question précédente par un dessin.

(d) Soit [X,Y,Z] un vecteur aléatoire. Commenter l’affirmation :

E[Z|X,Y ] = E[Z|Y ] ⇒ Z est indépendante de X.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 113: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 109

2. On définit cette fois le vecteur aléatoire [X1,X2,X3]′ comme suit :

X1 = UX2 = U + VX3 = V

(a) Quelle est la loi du vecteur [X1,X2,X3]′ ?

(b) Déterminer E[X3|X1,X2]. Comparer à E[X3|X2].

(c) Expliquer le résultat de la question précédente par un dessin.

(d) Soit [X,Y,Z] un vecteur aléatoire. Commenter l’affirmation :

Z est indépendante de X ⇒ E[Z|X,Y ] = E[Z|Y ].

CorrigéCet exercice est corrigé en annexe, sujet de mai 2007.

Exercice 2.22 (Régression linéaire vs. Espérance conditionnelle)Soit [X,Y,Z]′ un vecteur gaussien centré de matrice de covariance :

Γ =

1 0.4 0.80.4 1 0.60.8 0.6 1

1. Quelle est la loi du vecteur [Y,Z]′ sachant X = x ?

2. Déterminer la variable aléatoire E[Z|X,Y ] et la loi de Z sachant (X,Y ) = (x, y).

3. Etablir qu’il existe une variable aléatoire U combinaison linéaire de X et Z qui n’est pascorrélée avec Z.

4. Que dire de E[UZ2] ? En déduire que E[XZ2] = 0.

5. Prouver de même que E[Y Z2] = 0.

6. Soit T = 3X +5Y +2Z. Quelle est la régression linéaire T de T sur (X,Y ) ? Quel est l’écartquadratique entre T et T , c’est-à-dire E[(T − T )2] ?

7. Quelle est l’espérance conditionnelle T = E[T |X,Y ] ? Ecart quadratique entre T et T ?

8. Soit S = 3X+5Y +2Z2. Quelle est la régression linéaire S de S sur (X,Y ) ? Ecart quadratiqueentre S et S ?

9. Quelle est l’espérance conditionnelle S = E[S|X,Y ] ? Ecart quadratique entre S et S ?

10. Comparer les écarts quadratiques des deux questions précédentes.

Exercice 2.23 (Un hiver 2001)Soit [X1,X2,X3]

′ un vecteur gaussien centré de matrice de covariance :

Γ =

1 0 −10 3 0−1 0 5

1. Quelle est la loi du vecteur aléatoire [X1,X3]′ sachant X2 = 1 ?

2. Trouver les variables aléatoires E[X2|X1,X3] et E[X1|X2,X3].

3. Quelle est la loi de X1 conditionnée par X2 = 7 et X3 = 11 ?

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 114: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

110 Chapitre 2. Vecteurs gaussiens et conditionnement

4. Déterminer E[X21 |X2,X3] et vérifier que E[X2

1 |X2,X3] = E[X21 |X3].

5. Soit Y = 3X1 + 2X2 +X3. Que vaut E[Y |X2,X3] ? Quel est l’écart quadratique entre Y etE[Y |X2,X3], c’est-à-dire E[(Y − E[Y |X2,X3])

2] ?

6. Mêmes questions avec Z = 3X21 + 2X2 +X3.

Exercice 2.24 (Un hiver 2002)Soit [X,Y,Z]′ un vecteur gaussien centré de matrice de covariance :

Γ =

4 −1 −2−1 3 3−2 3 4

1. Déterminer f(Y,Z) = E[X|Y,Z].

2. Calculer E[(X − f(Y,Z))2|Y,Z] et E[X2|Y,Z].

3. Quelle est la loi conditionnelle de X sachant (Y,Z) = (y, z).

4. Déterminer E[3X + Y Z|Y,Z], E[Y X2 − exp(Z)|Y,Z], E[X/(1 + Y 2)|Y,Z], ainsi que E[(X +Y )3|Y,Z].

5. Déterminer E[Y |Z] et E[Z|Y ]. En déduire E[XY Z].

6. Déterminer E[Z2|Y ]. En déduire E[XY Z2].

Exercice 2.25 (Un printemps 2008)Soit X = [X1,X2,X3]

′ un vecteur gaussien centré et de matrice de covariance :

Γ =

4 1 −11 2 0−1 0 1

.

1. Quelles sont les lois marginales de X ?

2. Certaines composantes de X sont-elles indépendantes deux à deux ? Si oui, lesquelles ?Certaines composantes de X sont-elles orthogonales deux à deux ? Si oui, lesquelles ?

3. Quelle est la loi de (X1,X2) ?

4. Sans calcul, déterminer E[X2|X3] et E[(X2 − E[X2|X3])2].

5. Calculer E[X1|X3] et E[(X1 − E[X1|X3])2].

6. Calculer E[X1|X2,X3] et E[(X1 − E[X1|X2,X3])2].

7. Quelle est la loi de X1 sachant (X2 = x2,X3 = x3) ?

8. On pose S = E[X21 |X2,X3] et S le résultat de la régression linéaire de X2

1 sur (X2,X3).Justifier que E[(X2

1 − S)2] ≤ E[(X21 − S)2].

CorrigéCete exercice est corrigé en annexe, sujet de mai 2008.

Exercice 2.26 (Observations bruitées)On considère une variable aléatoire X ∼ N (0, σ2), de variance σ2 connue. On dispose pour X den observations Y1, . . . , Yn bruitées, c’est-à-dire que :

∀i ∈ 1, . . . , n Yi = X + εi.

Les variables aléatoires εi sont indépendantes, identiquement distribuées suivant une loi N (0, τ2),et indépendantes de X. On suppose de plus la variance τ2 du bruit d’observation connue. On veutdéduire de Y1, . . . , Yn une estimation de X.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 115: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

2.3. Exercices 111

1. Expliquer pourquoi le vecteur [X,Y ]′ = [X,Y1, . . . , Yn]′ est gaussien.

2. Calculer Cov(X,Yi), Var(Yi) et Cov(Yi, Yj).

3. Déterminer la matrice de covariance ΓY de [Y1, . . . , Yn]′. Déterminer son inverse (on pourra :

soit inverser un système linéaire ; soit la chercher sous la même forme que ΓY , c’est-à-diretermes diagonaux égaux, termes hors-diagonal égaux).

4. On note Xn = E[X|Y ] l’estimateur des moindres carrés de X sachant Y . Déduire des ques-tions précédentes que :

Xn =σ2

nσ2 + τ2(Y1 + · · ·+ Yn).

5. Déterminer la variance résiduelle

σ2n = E[(X − Xn)

2].

La comparer à la variance initiale σ2 de la variable aléatoire X.

6. En déduire que :

XnL2

−−−−−→n→+∞

X.

7. Supposons X = x fixé. On dispose donc des observations Y1, . . . , Yn, avec Yi = x+ εi. Quelleest la loi de Xn sachant X = x ?

8. Justifier le fait que :Xn

p.s.−−−−−→n→+∞

x.

“Vous savez, les gens normaux n’ont rien d’exceptionnel...”Jackie Berroyer, dans un film de Laurence Ferreira-Barbosa (1993).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 116: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .
Page 117: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Chapitre 3

Chaînes de Markov

Introduction

Un modèle dynamique pour lequel le futur dépend de l’état présent et du hasard est appelé unechaîne de Markov : c’est un modèle simple pour représenter un phénomène aléatoire évoluant aucours du temps. Il est néanmoins efficace dans de nombreuses applications : sciences de la vie(génétique, modèles d’épidémie), finance (les cours de la bourse), théorie du signal (problèmes defiltrage, de prédiction), traitement d’image, traitement de la parole, informatique (files d’attentedans les réseaux), etc. On se contente ici d’étudier les chaînes de Markov en temps discret età espace d’états fini. Le cours est en grande partie tiré du chapitre 1 du livre de Rick Durrett,Essentials of Stochastic Processes [3].

3.1 Définition d’une chaîne de Markov

Soit (Xn)n≥0 une suite de variables aléatoires à valeurs dans un ensemble E supposé fini, typique-ment E = 1, 2, . . . ,M. E est appelé l’espace d’états.

Définition 15 (Chaîne de Markov)(Xn)n≥0 est une chaîne de Markov si pour tout n ≥ 1 et toute suite (i0, i1, . . . , in−1, i, j) de E, ona l’égalité suivante :

P(Xn+1 = j|X0 = i0, . . . ,Xn−1 = in−1,Xn = i) = P(Xn+1 = j|Xn = i).

Remarque. Ceci suppose bien sûr que le membre de gauche a un sens, c’est-à-dire que :

P(X0 = i0, . . . ,Xn−1 = in−1,Xn = i) > 0.

Autrement dit, sachant le présent, le futur est indépendant du passé. Ou encore : étant donnél’état présent, toute information sur le passé est inutile pour prévoir l’état futur. A priori, rienne dit que la probabilité précédente est indépendante de l’instant n. C’est pourtant une situationfréquente et c’est l’hypothèse, dite d’homogénéité, que nous faisons désormais.

Définition 16 (Homogénéité)Une chaîne de Markov est dite homogène dans le temps si la probabilité précédente ne dépend pasde n. On appelle alors probabilité de transition de l’état i vers l’état j la quantité :

pij = P(Xn+1 = j|Xn = i) = P(X1 = j|X0 = i).

On appelle matrice de transition de la chaîne la matrice P = [pij ]1≤i,j≤M de taille M ×M .

113

Page 118: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

114 Chapitre 3. Chaînes de Markov

La connaissance de la loi initiale, c’est-à-dire des P(X0 = i) pour tout i ∈ 1, . . . ,M, et des proba-bilités de transition permet d’écrire très simplement la loi jointe du vecteur aléatoire (X0, . . . ,Xn),puisque :

P(X0 = i0,X1 = i1, . . . ,Xn = in) = P(X0 = i0)P(X1 = i1|X0 = i0)...P(Xn = in|Xn−1 = in−1)= P(X0 = i0)pi0i1 . . . pin−1in

On peut énoncer quelques résultats très simples sur les matrices de transition.

Propriétés 8 (Matrice de transition)Toute matrice de transition vérifie les propriétés suivantes.

– Encadrement des coefficients :

∀(i, j) ∈ 1, . . . ,M2, 0 ≤ pij ≤ 1.

– Somme par ligne : pour tout i ∈ 1, . . . ,M, on a :

M∑

j=1

pij = 1.

– Spectre : P admet la valeur propre 1, le vecteur e = [1, . . . , 1]′ étant un vecteur propre associé.

Preuve. Soit P = [pij ]1≤i,j≤M une matrice de transition.

– Pour tout couple (i, j), la quantité pi,j est une probabilité, donc elle est bien comprise entre 0et 1.

– Pour tout indice i ∈ 1, . . . ,M :

M∑

j=1

pij =1

P(Xn = i)

M∑

j=1

P(Xn+1 = j,Xn = i) =P(Xn+1 ∈ 1, . . . ,M,Xn = i)

P(Xn = i),

c’est-à-dire :M∑

j=1

pij =P(Xn = i)

P(Xn = i)= 1.

– En notant e = [1, . . . , 1]′, on a donc :

Pe =

∑Mj=1 p1j...∑M

j=1 pMj

=

1...1

= e,

donc e est un vecteur propre pour la valeur propre 1.

On appelle encore matrice stochastique, ou matrice markovienne, toute matrice vérifiant les deuxpremières propriétés (elle vérifie alors aussi la dernière).

Remarque. Le sous-espace propre associé à la valeur propre 1 n’est pas nécessairement de di-mension égale à 1. Pour preuve l’exemple trivial de la matrice identité : noter que cet exemple

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 119: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.2. Equations de Chapman-Kolmogorov 115

correspondrait à une chaîne qui ne change jamais d’état, il ne présente donc pas un grand intérêt....Exemple moins trivial, prendre pour matrice de transition :

P =

0 1 0 01 0 0 00 0 0 10 0 1 0

.

C’est bien une matrice de transition donc e est vecteur propre pour la valeur propre 1. Mais onvoit que le vecteur v = [1, 1, 0, 0]′ est un autre vecteur propre associé à 1. Noter que cette chaînea elle aussi un comportement déterministe : si on connaît l’état à un instant, on le connaît à tousles instants suivants.

A toute chaîne de Markov peut être associé un graphe de transition de la façon suivante : lessommets du graphe sont les états 1, . . . ,M de la chaîne et il existe un arc, étiqueté pij, de i versj si pij > 0. Cette construction est commode lorsque la matrice P est très creuse. Autrement ditlorsque d’un état on ne peut transiter que vers un petit nombre d’états.

0 1

12

23

13

12

Figure 3.1 – Graphe de transition de la ligne téléphonique.

Exemple : la ligne téléphoniqueOn considère une ligne de téléphone. L’état Xn de cette ligne à l’étape n est 0 si elle est libre et 1si elle occupée. Entre deux instants successifs, il y a une probabilité 1/2 pour qu’un appel arrive.Si la ligne est occupée et qu’un appel arrive, cet appel est perdu. La probabilité pour que la lignese libère entre l’instant n et l’instant (n + 1) est 1/3. Le graphe de transition de cette chaîne deMarkov est donné figure 3.1. La matrice de transition est la suivante :

P =

[1/2 1/21/3 2/3

].

3.2 Equations de Chapman-Kolmogorov

Les probabilités de transition en n étapes sont en fait complètement déterminées par les probabi-lités de transition en un coup, c’est-à-dire par la matrice de transition. Ceci est explicité par leséquations de Chapman-Kolmogorov, que nous allons voir maintenant.

Notation. La probabilité d’aller de l’état i à l’état j en n coups est notée :

p(n)ij = P(Xn = j|X0 = i),

et la matrice de transition en n coups est notée :

P (n) =[p(n)ij

]1≤i,j≤M

.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 120: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

116 Chapitre 3. Chaînes de Markov

On adopte aussi la convention P (0) = IM , matrice identité de taille M .

Proposition 17 (Equations de Chapman-Kolmogorov)Pour tout n ≥ 0, la matrice de transition en n coups est la puissance nème de la matrice detransition de la chaîne, c’est-à-dire :

P (n) = Pn.

Preuve. Par récurrence sur n. P (0) = IM = P 0. Pour n ≥ 0, on suppose que P (n) = Pn et onveut montrer que P (n+1) = Pn+1, c’est-à-dire que :

∀ 1 ≤ i, j ≤ M p(n+1)ij = (Pn+1)(i, j).

Or on écrit :

p(n+1)ij = P(Xn+1 = j|X0 = i) =

∑Mk=1P(Xn+1 = j,Xn = k|X0 = i)

=∑M

k=1P(Xn+1 = j|Xn = k,X0 = i) ·P(Xn = k|X0 = i),

mais par la propriété de Markov, on a :

P(Xn+1 = j|Xn = k,X0 = i) = P(Xn+1 = j|Xn = k),

donc :p(n+1)ij =

∑Mk=1P(Xn+1 = j|Xn = k) ·P(Xn = k|X0 = i)

=∑M

k=1 p(n)ik · pkj,

ce qui exactement dire que d’un point de vue matriciel :

P (n+1) = P (n) · P.

Or par hypothèse, on sait que P (n) = Pn, donc la récurrence passe.

Remarque. On en déduit que pour tout couple d’entiers naturels (m,n) :

P (m+n) = Pm+n = Pm · Pn = P (m) · P (n).

C’est plutôt cette équation qu’on appelle relation de Chapman-Kolmogorov. Ce qu’on traduitcomme suit : aller de i à j en (m+ n) pas, c’est aller de i à un certain k en m pas et de k à j enn pas.

Notation. Tout comme les transitions de la chaîne, la position initiale X0 peut être aléatoire. Onconvient de noter la loi de X0 comme un vecteur ligne de taille M :

µ = [µ1, . . . , µM ] = [P(X0 = 1), . . . ,P(X0 = M)] .

De même, on notera en vecteur ligne la loi de Xn :

P(Xn) = [P(Xn = 1), . . . ,P(Xn = M)] .

Corollaire 2 (Loi marginale de la chaîne)Soit (Xn) une chaîne de Markov de loi initiale µ et de matrice de transition P , alors pour toutentier naturel n, la loi de Xn est :

P(Xn) = µPn.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 121: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.2. Equations de Chapman-Kolmogorov 117

Preuve. Pour tout j ∈ 1, . . . ,M, on a :

P(Xn = j) =M∑

i=1

P(Xn = j,X0 = i) =M∑

i=1

P(X0 = i) ·P(Xn = j|X0 = i),

donc avec les notations adoptées :

P(Xn = j) =M∑

i=1

µiP(n)ij =

M∑

i=1

µiPnij ,

c’est-à-dire : P(Xn) = µPn.

Rappel. Pour une suite de variables aléatoires (Xn)n≥0 à valeurs dans un ensemble fini E =1, . . . ,M, la loi de Xn est simplement le vecteur ligne P(Xn) = [P(Xn = 1), . . . ,P(Xn = M)].La convergence en loi correspond donc simplement à la convergence de ce vecteur de taille M ,c’est-à-dire à la convergence de chacune de ses M composantes. Puisque P(Xn) = µPn, une condi-tion suffisante pour la convergence en loi de (Xn) est donc la convergence de la suite (Pn)n≥0 despuissances de la matrice P .

Exemple : La ligne téléphoniqueOn note encore µ = [µ0, µ1] la loi initiale, probabilités que la ligne soit initialement libre ouoccupée. La matrice de transition est :

P =

[1/2 1/21/3 2/3

].

Pour étudier les puissances successives de P , l’idée naturelle est de la diagonaliser. On obtient pourvaleurs propres 1 (on le savait déjà) et 1/6, vecteurs propres associés [1, 1]′ et [−1/2, 1/3]′. On endéduit la matrice de passage :

Q =

[1 −1/21 1/3

],

ainsi que son inverse :

Q−1 =

[2/5 3/5−6/5 6/5

].

En notant ∆ la matrice diagonale de coefficients 1 et 1/6, on a donc :

∆n −−−→n→∞

∆∞ =

[1 00 0

],

d’où on déduit :

Pn −−−→n→∞

P∞ =

[2/5 3/52/5 3/5

].

Ainsi, quelle que soit la loi initiale µ, on a convergence en loi :

P(Xn) = µPn −−−→n→∞

µ∞ =

[2

5,3

5

].

Interprétation : au bout d’un certain temps (histoire d’oublier la condition initiale), on regardel’état de la ligne. Il y a deux chances sur cinq pour qu’elle soit libre et trois chances sur cinq pourqu’elle soit occupée.

Remarques.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 122: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

118 Chapitre 3. Chaînes de Markov

0 1

α

β

1− β1− α

Figure 3.2 – Graphe de transition pour une chaîne à deux états.

1. Une autre méthode pour étudier les puissances de P sur cet exemple très simple est de noterque P = I −A, avec A2 = 5

6A, et d’appliquer la formule du binôme.

2. On peut généraliser le résultat précédent (voir figure 3.2). Si on considère la matrice detransition :

P =

[1− α αβ 1− β

],

avec 0 < α+ β < 2, on a :

Pn −−−→n→∞

P∞ =

α+βα

α+ββ

α+βα

α+β

].

En particulier, quelle que soit loi initiale µ, on a convergence en loi de (Xn) vers le vecteur

de probabilité[

βα+β ,

αα+β

].

3. Si on se place dans le cas particulier α = β = 1, on n’a pas convergence de la suite despuissances de la matrice de transition P , puisque pour tout n ≥ 0 :

P 2n = I2P 2n+1 = P

Et, à part dans le cas particulier où µ = [1/2, 1/2], on n’a pas convergence en loi de (Xn).Ceci vient du phénomène de périodicité de la chaîne, nous y reviendrons plus tard.

Il est important de voir dès maintenant que, même lorsque la suite (Pn) converge, la convergencede la loi de Xn vers une loi indépendante de la condition initiale n’est pas vraie pour toutes leschaînes de Markov.

10 2 3 4

Figure 3.3 – Graphe de transition de la ruine du joueur.

Exemple : la ruine du joueurA joue contre B une suite de pile ou face non biaisés et indépendants. La somme de leurs fortunesest de 4e. A chaque partie, le joueur qui gagne reçoit 1e. Le jeu s’arrête lorsque l’un des deuxjoueurs est ruiné. L’état Xn de la chaîne est la fortune de A à l’étape n, donc Xn ∈ 0, 1, 2, 3, 4.Son graphe de transition est représenté figure 3.3 et la matrice de transition est :

P =

1 0 0 0 01/2 0 1/2 0 00 1/2 0 1/2 00 0 1/2 0 1/20 0 0 0 1

.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 123: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.3. Classification des états 119

On vérifie que :

Pn −−−→n→∞

P∞ =

1 0 0 0 03/4 0 0 0 1/41/2 0 0 0 1/21/4 0 0 0 3/40 0 0 0 1

.

Et on voit que si la loi initiale est µ = [µ0, . . . , µ4], alors la loi asymptotique est :

µ∞ =

[µ0 +

3

4µ1 +

1

2µ2 +

1

4µ3, 0, 0, 0,

1

4µ1 +

1

2µ2 +

3

4µ3 + µ4

].

Au final, l’un des deux joueurs sera ruiné, et ce avec une probabilité qui dépend de la répartitioninitiale des 4e. Par exemple si A part avec 1e, alors il a trois chances sur quatre de finir ruiné,tandis que s’il part avec 2e, il n’a qu’une chance sur deux de finir ruiné. Le graphe de transitionpour P∞ est donné figure 3.4. Le problème ici vient de l’existence de plusieurs classes de récurrence,sujet sur lequel nous reviendrons par la suite.

10 2 3 4

1/41/2

3/4

Figure 3.4 – Transitions en temps infini pour la ruine du joueur.

Définition 17 (Etat absorbant)On appelle état absorbant tout état tel que : une fois dans cet état, la chaîne y reste. Autrementdit, l’état i est absorbant si pii = 1.

Exemple. Dans le modèle de la ruine du joueur, les états 0 et 4 sont absorbants.

3.3 Classification des états

Beaucoup de chaînes ont la propriété suivante : d’une part, la loi de Xn tend vers une limite ;d’autre part, celle-ci est indépendante de la loi initiale µ. C’est par exemple le cas pour la lignetéléphonique, mais pas pour la ruine du joueur. On dit qu’elles sont ergodiques. Pour pouvoir lescaractériser, il faut commencer par différencier les états que la chaîne peut visiter une infinité defois (dits récurrents) de ceux qui ne peuvent l’être qu’un nombre fini de fois (dits transitoires).

Définition 18 (Etats communicants)On dit que i communique avec j et on note i → j s’il existe une suite d’indices i0 = i, i1, . . . , in = jtelle que :

∀k ∈ 0, . . . , n − 1 pik,ik+1> 0.

Autrement dit, sur le graphe de transition, on peut aller de i à j en un certain nombre d’étapes.

Remarques.– i → j ssi il existe n > 0 tel que : (Pn)ij = P(Xn = j|X0 = i) > 0.– La communication entre états est une relation transitive : si i → j et j → k, alors i → k.– Si i ne communique pas avec j, on note i 9 j.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 124: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

120 Chapitre 3. Chaînes de Markov

Supposons que la chaîne soit initialement dans l’état i et notons :

Ti = minn ≥ 1 : Xn = i,

l’instant de premier retour dans cet état. Ti est une variable aléatoire à valeurs dans N∗ ∪ +∞,car il se peut qu’on ne revienne jamais, auquel cas Ti = +∞. On introduit donc :

ri = P(Ti < +∞|X0 = i).

Définition 19 (Etats transitoires, états récurrents)Avec les notations précédentes, on dit que l’état i est :– transitoire si ri < 1 ;– récurrent si ri = 1.

Problème de cette définition : en général, on ne sait pas calculer ri. Heureusement, il y a une fa-çon commode de reconnaître un état transitoire sur le graphe de transition d’une chaîne de Markov.

Proposition 18 (Transience et communication)Soit i ∈ 1, . . . ,M. S’il existe j tel que i → j, mais j 9 i, alors i est transitoire.

Preuve. Supposons i pour lequel il existe un état j tel que i → j, mais j 9 i. Notons m =minn ∈ N, (Pn)ij > 0. Ainsi il existe des états k1, . . . , km−1 tels que

Pik1 . . . Pkm−1j > 0,

ces états étant tous distincts de i, sans quoi m ne serait pas minimal. Dès lors, puisque la probabilitéde revenir en i une fois l’état j atteint est nulle, on a :

ri ≤ 1− Pik1 . . . Pkm−1j < 1.

2 4

75 3

1 6

Figure 3.5 – Une chaîne à 7 états.

Exemple. On considère la chaîne à 7 états de la figure 3.5. 2 → 1, mais 1 9 2, donc 2 est tran-sitoire. 3 → 4, mais 4 9 3, donc 3 est transitoire. Il reste deux ensembles : 1, 5 et 4, 6, 7, àl’intérieur desquels il y a communication.

Définition 20 (Ensemble clos, ensemble irréductible)– Un sous-ensemble A de E est clos, ou fermé, s’il est impossible d’en sortir :

∀i ∈ A, ∀j ∈ A pij=0

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 125: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.3. Classification des états 121

– Un sous-ensemble B de E est irréductible si tous ses états communiquent :

∀(i, j) ∈ B ×B i → j

Exemple. Dans l’exemple de chaîne à 7 états ci-dessus, l’ensemble 1, 5 est fermé, l’ensemble4, 6, 7 aussi. Mais alors 1, 4, 5, 6, 7 aussi, ainsi que 1, 2, 3, 4, 5, 6, 7. Ces deux derniers exemplesne semblent pas bien pertinents, d’où la notion d’irréductibilité pour préciser les choses : les en-sembles 1, 2, 3, 5, 6, 1, 5 et 4, 6, 7 sont irréductibles. Cette fois, ce sont les cinqpremiers ensembles qui ne semblent pas pertinents. La proposition suivante précise cette intuition.

Proposition 19 (Fermé + Irréductible ⇒ Récurrents)Si un ensemble est fermé et irréductible, tous ses états sont récurrents.

Exemple. Les seuls ensembles à la fois fermés et irréductibles sont 1, 5 et 4, 6, 7. De ce fait,les états 1, 4, 5, 6 et 7 sont récurrents.

Preuve (heuristique). Elle se fait en deux étapes :– La première consiste à remarquer que des états communicants sont de même nature : si i est

récurrent et si i → j, alors j est récurrent. Intuitivement : partons de j, alors on est sûr depasser par i au bout d’un temps fini, sinon on aurait une contradiction avec le fait que i estrécurrent et communique avec j. Or, chaque fois que la chaîne passe par i, elle a une probabiliténon nulle d’aller vers j. Mais puisqu’elle passe une infinité de fois par i (état récurrent), il estcertain qu’elle finira bien par passer par j. En clair, partant de j, on est sûr d’y revenir en untemps fini.

– Dans un second temps, il reste à voir que dans un ensemble fermé, il y a au moins un étatrécurrent. En effet, la chaîne va passer un temps infini dans cet ensemble, qui est de taille finie.Donc si elle passait un temps fini en chaque sommet, on aboutirait à une contradiction.

On peut alors classer tous les états d’une chaîne de Markov.

Théorème 9 (Partition de l’ensemble des états)Soit E l’espace d’états, alors on peut partitionner E comme suit :

E = T ∪R1 ∪ · · · ∪Rk,

où T est l’ensemble des états transients et les Ri sont des classes de récurrence, c’est-à-dire desensembles fermés et irréductibles d’états récurrents.

Preuve. Soit l’ensemble :T = i ∈ E : ∃j ∈ E, i → j, j 9 i.

Alors tout état i de E est transient d’après ce qui a été vu plus haut. Montrons maintenant quetout état i de E \ T est récurrent : soit i ∈ E \ T et

Ci = j ∈ E : i → j

Ci est clos puisque, pour tout j ∈ Ci, si j → k, alors par transitivité i → k donc k ∈ Ci ; ainsi,partant de Ci, on ne peut sortir. Par ailleurs, i n’étant pas transitoire, pour tout j ∈ Ci, on aaussi j → i. Ainsi, si j et k appartiennent à Ci, j → i et i → k, donc j → k : tous les états deCi communiquent et Ci est un ensemble clos et irréductible. Ci est donc une classe de récurrence.Notons R1 = Ci. Si E = T ∪R1, la messe est dite. Sinon, on prend i′ ∈ E \ (T ∪R1) et on itère leraisonnement. Puisque E est fini, on aboutira bien à un nombre fini de classes de récurrence.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 126: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

122 Chapitre 3. Chaînes de Markov

Exemple. Toujours dans le même exemple, on a ainsi la partition (cf. figure 3.6) :

E = T ∪R1 ∪R2 = 2, 3 ∪ 1, 5 ∪ 4, 6, 7.

2 4

75 3

1 6

R1 T R2

Figure 3.6 – Partition de E pour la chaîne à 7 états.

Le cas confortable, et très fréquent, est celui où l’espace d’états n’est formé que d’une classe derécurrence.

Définition 21 (Chaîne irréductible)Si E = R1 n’est formé que d’une classe de récurrence, on dit que la chaîne est irréductible.

Sur le graphe de transition, ceci signifie qu’on peut aller de n’importe quel sommet à n’importequel autre en un certain nombre d’étapes. En théorie des graphes, c’est ce qu’on appelle un grapheorienté fortement connexe.

Exemple. Si α et β sont strictement positifs, la chaîne à deux états est irréductible.

Un cadre un peu plus général pour lequel les théorèmes asymptotiques du paragraphe suivants’appliqueront est celui où on a éventuellement, en plus, des états transitoires.

Définition 22 (Chaîne indécomposable)Si E = T ∪ R1 est formé d’états transitoires et d’une seule classe de récurrence, on dit que lachaîne est indécomposable.

Exemples.

– Si α > 0, mais β = 0, la chaîne à deux états est indécomposable.– La chaîne de la ruine du joueur n’est ni irréductible, ni indécomposable, puisqu’elle a deux classes

de récurrence :

E = T ∪R1 ∪R2 = 1, 2, 3 ∪ 0 ∪ 4.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 127: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.4. Comportement asymptotique 123

3.4 Comportement asymptotique

Le but de ce paragraphe est de faire le distinguo entre les différentes situations possibles pour laconvergence en loi d’une chaîne de Markov. On applique la notion d’irréductibilité du paragrapheprécédent. Il faut de plus préciser le phénomène de périodicité que l’on peut rencontrer dans cer-tains modèles.

0 1 2 3

1

1

2/3 1/3

1/3 2/3

Figure 3.7 – Graphe de transition pour le modèle d’Ehrenfest.

Exemples.

1. La ligne téléphonique : si 0 < α, β < 1, on a convergence de la suite des puissances dematrices de transition (Pn) vers une matrice P∞ dont toutes les lignes sont les mêmes. Ceciassure la convergence en loi de la chaîne (Xn). De plus, la loi de (Xn) converge vers une loi deprobabilité indépendante de la loi initiale de la chaîne. C’est la situation la plus confortable.

2. La ruine du joueur : on a encore convergence de la suite (Pn) vers une matrice P∞. Ceciimplique qu’on a ici encore convergence en loi de la chaîne (Xn). Néanmoins, puisque toutesles lignes de P∞ ne sont pas égales, la loi limite de (Xn) dépend de la loi initiale de la chaîne.

3. Modèle d’Ehrenfest : on considère deux urnes A et B, contenant N boules à elles deux,numérotées de 1 à N . A chaque instant, on choisit un numéro i ∈ 1, . . . , N de façonéquiprobable et on change d’urne à la boule numéro i. L’état Xn de la chaîne est le nombrede boules à l’instant n dans l’urne A. Par exemple, avec N = 3 boules (voir figure 3.7),on vérifie qu’on n’a pas convergence de la suite (Pn), mais qu’on a convergence des deuxsous-suites (P 2n) et (P 2n+1). Plus précisément, si on note Q∞ et R∞ les limites respectivesde ces sous-suites, on a (voir aussi la figure 3.8) :

P 2n −−−−−→n→+∞

Q∞ =

1/4 0 3/4 00 3/4 0 1/4

1/4 0 3/4 00 3/4 0 1/4

et :

P 2n+1 −−−−−→n→+∞

R∞ =

0 3/4 0 1/41/4 0 3/4 00 3/4 0 1/41/4 0 3/4 0

Ceci n’est pas étonnant : le nombre de boules dans une urne change de parité à chaqueopération, donc on ne peut avoir convergence de (Pn). De même, la loi de Xn dépend de laparité de n, donc il n’y aura pas convergence en loi dans le cas général (i.e. sauf pour deslois initiales particulières).

Définition 23 (Période d’un état)La période di de l’état i est le plus grand entier naturel divisant tout nombre n tel que Pn(i, i) > 0.C’est-à-dire en notant Zi = n ≥ 1 : Pn(i, i) > 0, on a :

di = pgcd(Zi).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 128: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

124 Chapitre 3. Chaînes de Markov

Transitions paires Transitions impaires

0 1 2 3 0 1 2 3

Figure 3.8 – Graphes de transition de P 2n et de P 2n+1 pour le modèle d’Ehrenfest.

Si di = 1, on dit que i est apériodique. Si tous les états sont apériodiques, on dit que la chaîne estapériodique.

Exemples.

1. La ligne téléphonique : si 0 < α, β < 1, les deux états sont apériodiques.

2. La ruine du joueur : les états 0 et N sont apériodiques, tous les autres sont de période 2.

3. Modèle d’Ehrenfest : tous les états sont de période 2.

Remarque. La périodicité est un phénomène théoriquement possible, mais très rare en pratique.

Propriétés 9 (Autour de la périodicité)– Si pii > 0, alors i est apériodique.– Si i est apériodique, alors il existe n0 ∈ N tel que :

∀n ≥ n0 n ∈ Zi.

– Si i et j communiquent, alors i et j ont même période.– Si la chaîne est irréductible, tous les états ont même période.

Preuve.– Il est clair que si on peut boucler sur l’état i, alors :

Zi = n ≥ 1 : Pn(i, i) > 0 = N∗,

donc di = pgcd(Zi) = 1.– Puisque i est apériodique, il existe des entiers n1, . . . , nk dans Zi dont le plus grand commun

diviseur est 1. Mais alors le théorème de Bezout assure qu’il existe des entiers relatifs α1, . . . , αk

tels que :

α1n1 + · · · + αknk = 1.

En notant α+ = sup(α, 0) et α− = sup(−α, 0), on a donc :

k∑

i=1

α+i ni = 1 +

k∑

i=1

α−i ni.

Les deux sommes ci-dessus sont dans Zi comme sommes d’éléments de Zi et puisque Zi eststable pour l’addition. Si on note :

N =k∑

i=1

α−i ni,

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 129: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.4. Comportement asymptotique 125

on en déduit que les deux entiers positifs consécutifs N et (N +1) sont dans Zi. Montrons alorsque tout entier n tel que n ≥ N2 − 1 est dans Zi. On effectue la division euclidienne de n parN :

n = qN + r avec r < N.

Puisque n ≥ N2 − 1, on a q ≥ r et on peut écrire q = r + r′, d’où :

n = r′N + r(N + 1) ⇒ n ∈ Zi,

puisque N et (N + 1) sont dans Zi.– Supposons que i et j communiquent, que i a pour période d et j pour période d′ < d. Puisque i

et j communiquent, il existe deux entiers k et m tels que :

(P k)ij > 0 et (Pm)ji > 0.

Puisque la probabilité de revenir en i en (k +m) étapes vérifie l’inégalité :

(P k+m)ii ≥ (P k)ij(Pm)ji > 0,

on en déduit que (k+m) ∈ Zi. Mais puisque i a pour période d, il s’ensuit que d divise (k+m).Par ailleurs, pour tout entier l de Zj, c’est-à-dire tel que (P l)jj > 0, on a :

(P k+l+m)ii ≥ (P k)ij(Pl)jj(P

m)ji > 0,

de sorte que d divise (k+ l+m). Mais puisqu’on vient de dire que d divise (k+m), on en déduitque d divise aussi l. Or ceci est vrai pour tout entier l de Zj, donc par définition du plus grandcommun diviseur, on en déduit que d divise d′. Ceci contredit le fait que d′ < d.

– Ce point découle directement du précédent.

Remarque. S’il existe n0 > 0 tel que P(Xn0 = i|X0 = i) > 0 et P(Xn0+1 = i|X0 = i) > 0, l’étati est apériodique.

21 3

4 5 6

1/2

1/2

Figure 3.9 – Triangle et carré.

Exemple : triangle et carré.On considère l’exemple de la figure 3.9. Pour l’état 2, on a Z2 = 3, 4, 6, 7, . . . donc d2 = 1.La chaîne étant irréductible, on en déduit que tous les états sont apériodiques : cette chaîne estapériodique.

Si on revient aux exemples du début de paragraphe, on voit que la situation où tout se passe bienest celle de la ligne téléphonique, à la fois irréductible et apériodique. C’est ce que nous allonspréciser maintenant.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 130: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

126 Chapitre 3. Chaînes de Markov

Définition 24 (Loi stationnaire)Un vecteur de probabilité ligne π est une loi stationnaire, ou invariante, ou d’équilibre, d’une chaînede Markov de matrice de transition P si : πP = π.

Le vecteur de probabilité π est stationnaire si c’est un vecteur propre “à gauche” de la matrice detransition P pour la valeur propre 1.

Exemple. Pour la chaîne d’Ehrenfest à 3 boules, on cherche donc π = [π0, . . . , π3] tel que :

πP = π∑3

i=0 πi = 1

Après calculs, on obtient :

π =

[1

8,3

8,3

8,1

8

],

c’est-à-dire que la loi stationnaire correspond à une loi binomiale B(3, 12). De façon générale, pour

le modèle d’Ehrenfest à M boules, on montre qu’il y a une unique loi stationnaire π ∼ B(M, 12

).

Lemme 2Si X0 ∼ π, alors pour tout n ≥ 0 : Xn ∼ π.

Preuve. On sait que si P(X0) = µ, alors P(Xn) = µPn. Si X0 ∼ π, on a donc :

P(Xn) = πPn = (πP )Pn−1 = πPn−1 = · · · = π.

En physique, la loi stationnaire correspond à l’état d’équilibre pour le système.

Propriétés 10 (Existence d’une loi stationnaire)Pour toute matrice de transition P , il existe (au moins) une loi stationnaire π.

Preuve. Soit p0 un vecteur de probabilité ligne de taille M . On considère la suite (pn) définie par :

pn =1

n+ 1

n∑

i=0

p0Pi.

L’ensemble P des lois de probabilités sur un ensemble à M éléments s’écrit :

P = p ∈ RM+ : p1 + · · · + pM = 1.

C’est un compact de RM (fermé et borné), donc de toute suite d’éléments de P on peut extraireune sous-suite convergente dans P. Notons donc (pnk

)k≥0 une telle sous-suite et π sa probabilitélimite. On veut montrer que π est une loi stationnaire pour P . Il suffit de remarquer que :

pnkP = pnk

+p0P

nk+1 − p0nk + 1

,

et de passer à la limite lorsque k tend vers l’infini pour obtenir :

πP = π.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 131: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.4. Comportement asymptotique 127

Remarque. On a vu au début du chapitre que 1 est valeur propre de P , donc c’est aussi unevaleur propre de P ′. Ainsi il existe un vecteur colonne v non nul tel que P ′v = v, ce qui équivautà dire que v′P = v′. Ce qui est moins évident, c’est de montrer qu’il existe un vecteur propre quisoit un vecteur de probabilité.

Proposition 20 (Loi stationnaire et états transitoires)Si π est une loi stationnaire d’une chaîne de Markov, alors pour tout état i transitoire, on a πi = 0.

Preuve. On montre la contraposée, à savoir : πj > 0 implique j récurrent. Soit donc j un état telque πj > 0. Soit Nj le nombre de visites à l’état j, c’est-à-dire :

Nj =

+∞∑

n=1

1Xn=j,

de sorte que :

E[Nj |X0 = i] =

+∞∑

n=1

P(Xn = j|X0 = i) =

+∞∑

n=1

(Pn)ij .

On en déduit que :M∑

i=1

πiE[Nj |X0 = i] =

M∑

i=1

πi

(+∞∑

n=1

(Pn)ij

),

et tout étant positif, on peut intervertir les ordres de sommation :

M∑

i=1

πiE[Nj |X0 = i] =+∞∑

n=1

(M∑

i=1

πi(Pn)ij

),

mais puisque πPn = π, cette dernière expression se simplifie :

M∑

i=1

πiE[Nj|X0 = i] =+∞∑

n=1

πj = +∞.

Soit maintenant T kj la date de k-ème visite à l’état j :

T kj = minn > T k−1

j : Xn = j,

avec bien sûr pour initialisation T 0j = 0. Alors de la propriété de Markov on déduit que pour

effectuer k visites à l’état j partant à l’instant 0 de l’état i, il faut commencer par aller de l’état ià l’état j, ce qui arrive avec probabilité rij, puis boucler (k− 1) fois sur l’état j, ce qui arrive avecprobabilité rk−1

j . Autrement dit :

P(T kj < +∞|X0 = i) = rijr

k−1j .

Rappelons que si une variable aléatoire X est à valeurs dans N, son espérance peut s’écrire sousla forme :

E[X] =

+∞∑

k=1

P(X ≥ k),

résultat que l’on applique à la variable aléatoire Nj :

E[Nj |X0 = i] =+∞∑

k=1

P(Nj ≥ k|X0 = i).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 132: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

128 Chapitre 3. Chaînes de Markov

Or P(Nj ≥ k|X0 = i) = P(T kj < +∞|X0 = i), donc :

E[Nj|X0 = i] =

+∞∑

k=1

rijrk−1j =

rij1− rj

,

avec la convention 1/(1 − rj) = +∞ si rj = 1. On en déduit :

M∑

i=1

πiE[Nj|X0 = i] =

M∑

i=1

πirij

1− rj≤

M∑

i=1

πi1

1− rj=

1

1− rj.

Si on rapproche les deux résultats obtenus, on a donc :

1

1− rj≥ +∞,

c’est-à-dire que rj = 1, et l’état j est récurrent.

La loi stationnaire π n’est pas nécessairement unique, comme le montre l’exemple d’une chaîne deMarkov à deux états de matrice de transition P = I. Pour avoir unicité de la loi stationnaire, ilne faut avoir qu’une classe de récurrence.

Proposition 21 (Irréductibilité ⇒ Unicité de la loi stationnaire)Si la chaîne est irréductible, alors la loi stationnaire π est unique. De plus πi > 0 pour tout état ide E.

Preuve. Soit π une loi stationnaire d’une chaîne de Markov irréductible. On commence par prouverque toutes les coordonnées de π sont strictement positives. Puisque π est un vecteur de probabilité,il est clair qu’il existe un état i tel que πi > 0. Soit alors j un autre état : étant donné que la chaîneest irréductible, il existe k tel que (P k)ij > 0. On utilise alors la stationnarité de π, qui impliqueen particulier πP k = π :

πj =M∑

l=1

πl(Pk)lj ≥ πi(P

k)ij > 0.

Passons à l’unicité de π. On sait qu’il existe une loi stationnaire par la proposition 10. Pour montrerqu’elle est unique, il suffit de prouver que le sous-espace propre associé à la valeur propre 1 est dedimension 1 pour P ′. Mais puisqu’une matrice et sa transposée ont mêmes valeurs propres avecmêmes ordres de multiplicité, et qu’on sait que le vecteur constant e = [1, . . . , 1]′ vérifie Pe = e, ilnous suffit de montrer que tout vecteur f = [f1, . . . , fM ]′ vérifiant Pf = f est constant, c’est-à-direbrièvement :

Pf = f ⇒ f1 = · · · = fM .

Si u et v sont deux vecteurs (colonnes), on convient de noter uv le vecteur défini par :

∀i ∈ 1, . . . ,M (uv)i = uivi,

et u2 le vecteur colonne uu. Introduisons l’opérateur Γ :

Γ :

R

M → R

M

f 7→ Γ(f) = f2 − 2f(Pf) + P (f2)

On vérifie que :

∀i ∈ 1, . . . ,M Γ(f)i =M∑

j=1

Pij(fi − fj)2 ≥ 0 (+)

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 133: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.4. Comportement asymptotique 129

Par ailleurs, puisque π est stationnaire, on a πP (f2) = π(f2), donc :

πΓ(f) = 2(π(f2)− πf(Pf)) = 2π(f(f − Pf)).

Donc si f est un vecteur propre de P pour la valeur propre 1, on déduit de l’équation ci-dessusque :

πΓ(f) = 2π(f(f − Pf)) = 0,

mais on a aussi simplement :

πΓ(f) =

M∑

i=1

πiΓ(f)i,

avec Γ(f)i ≥ 0 pour tout i d’après ci-dessus, et πi > 0 puisque la chaîne est irréductible. On déduitdes deux dernières équations que :

∀i ∈ 1, . . . ,M Γ(f)i = 0

Et, à nouveau grâce à (+), on conclut que si Pij > 0, alors fi = fj . Et puisque la chaîne estirréductible, on en déduit de proche en proche que :

∀(i, j) ∈ 1, . . . ,M2 fi = fj,

ce qui finit la démonstration.

Exemple. Pour le modèle de ruine du joueur, si on cherche à résoudre le système d’équationsπP = π, on obtient une infinité de vecteurs de probabilités solutions, tous ceux de la forme :

π = [p, 0, 0, 0, 1 − p],

avec p loisible entre 0 et 1. Ceci est bien sûr dû au fait que la chaîne n’est pas irréductible : il y adeux classes de récurrence correspondant aux deux états absorbants. Remarquons néanmoins quetout vecteur de probabilité solution est nul sur les états récurrents 1, 2 et 3, comme annoncé enproposition 20.

Remarque. En fait, ce résultat est encore vrai si on suppose seulement que la chaîne est indécom-posable. Dans ce cas, on a vu que l’unique loi stationnaire π vaut 0 sur tous les états transients.Ceci permet de gagner du temps dans la résolution du système linéaire πP = π.

Même si la loi stationnaire π est unique, on n’est pas assuré de la convergence de la loi de Xn

vers π : les phénomènes de périodicité peuvent poser problème, comme on l’a vu dans le modèled’Ehrenfest.

Théorème 10 (Convergence en loi)Si la chaîne est irréductible et apériodique, de loi stationnaire π, alors :

∀(i, j) ∈ 1, . . . ,M p(n)ij −−−→

n→∞πj

En particulier, pour toute loi initiale µ, la loi de Xn converge vers π :

P(Xn) = µPn −−−→n→∞

π

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 134: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

130 Chapitre 3. Chaînes de Markov

Remarque. Une autre façon d’exprimer le résultat ci-dessus est de dire que la suite de matrices(Pn) converge vers une matrice Π dont toutes les lignes sont égales à π :

Pn −−−−−→n→+∞

Π =

π...π

=

π1 . . . πM...

π1 . . . πM

.

Preuve. Soit S = E × E et la probabilité de transition p sur S comme suit :

p((i1, i2), (j1, j2)) = pi1j1pi2j2 .

En d’autres termes, on introduit une chaîne de Markov à deux coordonnées, chacune se déplaçantindépendamment suivant la dynamique donnée par P . On commence par vérifier que cette nouvellechaîne est irréductible. Puisque P l’est, il existe deux entiers k et l tels que :

(P k)i1j1 > 0 et (P l)i2j2 > 0.

Puisque j1 et j2 sont apériodiques, alors par le deuxième point des propriétés 9, on sait que pourm assez grand on a :

(P l+m)j1j1 > 0 et (P k+m)j2j2 > 0,

On écrit alors :p(k+l+m)((i1, i2), (j1, j2)) = (P k+l+m)i1j1(P

k+l+m)i2j2 .

de sorte que :

p(k+l+m)((i1, i2), (j1, j2)) = (P k)i1j1(Pl+m)j1j1(P

l)i2j2(Pk+m)j2j2 > 0,

et la chaîne p est donc irréductible.On vérifie alors facilement que l’unique loi stationnaire de p est π × π. Soit (Xn, Yn) la chaîne surS, soit T le premier instant auquel les deux coordonnées sont égales :

T = minn ≥ 0 : Xn = Yn,

et soit Vii l’instant de première visite de l’état (i, i) :

Vii = minn ≥ 0 : Xn = Yn = i.

Puisque P est irréductible, on a Vii < +∞ presque sûrement et puisque T ≤ Vii, on en déduit queT est fini presque sûrement.On veut maintenant prouver que sur l’événement T ≤ n, Xn et Yn ont même loi. Pour cela onécrit :

P(Xn = j, T ≤ n) =n∑

m=1

M∑

i=1

P(T = m,Xm = i,Xn = j)

que l’on simplifie grâce à la propriété de Markov :

P(Xn = j, T ≤ n) =

n∑

m=1

M∑

i=1

P(Xn = j|Xm = i)P(T = m,Xm = i).

Par définition de T et puisque Xn et Yn ont même dynamique :

P(Xn = j, T ≤ n) =n∑

m=1

M∑

i=1

P(Yn = j|Ym = i)P(T = m,Ym = i),

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 135: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.4. Comportement asymptotique 131

et en remontant les équations avec Y au lieu de X, on arrive donc à :

P(Xn = j, T ≤ n) = P(Yn = j, T ≤ n).

On a alors :

P(Xn = j) = P(Xn = j, T ≤ n) +P(Xn = j, T > n) = P(Yn = j, T ≤ n) +P(Xn = j, T > n),

ce qui se majore facilement :

P(Xn = j) ≤ P(Yn = j) +P(Xn = j, T > n).

De façon symétrique on a :

P(Yn = j) ≤ P(Xn = j) +P(Yn = j, T > n).

Mais puisque le maximum de deux nombres positifs est inférieur à leur somme, on a alors :

|P(Xn = j) −P(Yn = j)| ≤ P(Xn = j, T > n) +P(Yn = j, T > n),

et en sommant sur j :M∑

j=1

|P(Xn = j) −P(Yn = j)| ≤ 2P(T > n).

Si on considère comme conditions initiales X0 = x et Y0 ∼ π, il vient :

M∑

j=1

|P(Xn = j|X0 = x)− πj| ≤ 2P(T > n).

Mais puisque T est presque sûrement finie, on a :

P(T > n) −−−−−→n→+∞

0,

d’où on déduit :M∑

j=1

|P(Xn = j|X0 = x)− πj| −−−−−→n→+∞

0,

donc a fortiori :∀(i, j) ∈ 1, . . . ,M p

(n)ij −−−→

n→∞πj,

et la convergence en loi est prouvée.

Rappel. Soit (Xn) une suite de variables aléatoires i.i.d. à valeurs dans l’espace d’états fini1, . . . ,M et de loi commune π, alors pour toute fonction f : 1, . . . ,M → R, on a :

1

n

n∑

k=1

f(Xk)p.s.−−−→

n→∞

M∑

i=1

fiπi

C’est ce qu’on appelle la loi forte des grands nombres. On montre (mais nous l’admettrons...) quececi est encore vrai pour des variables qui ne sont plus indépendantes, mais à dépendance marko-vienne, si tant est que la loi π soit définie de façon unique !

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 136: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

132 Chapitre 3. Chaînes de Markov

Théorème 11 (Loi forte des grands nombres)Soit (Xn) irréductible de loi stationnaire π, soit f : E → R une fonction, alors :

1

n

n∑

k=1

f(Xk)p.s.−−−→

n→∞

M∑

i=1

fiπi

Remarque. Ainsi, la loi des grands nombres est vérifiée sous des hypothèses moins fortes que laconvergence en loi. Ceci n’est pas étonnant car il y a un phénomène de moyennisation sur l’en-semble d’une trajectoire, qui fait que l’éventuelle périodicité de la chaîne n’est pas gênante.

La loi des grands nombres nous renseigne en particulier sur le temps relatif passé par une trajec-toire de la chaîne dans chacun des états et donne une interprétation simple de la loi d’équilibre π.

Corollaire 3 (Temps moyen dans chaque état)Soit (Xn) irréductible de loi stationnaire π, alors le temps relatif passé par une trajectoire de lachaîne dans l’état i converge presque sûrement vers πi :

1

n

n∑

k=1

1Xk=ip.s.−−−→

n→∞πi

Preuve. Il suffit d’appliquer la loi forte des grands nombres à la fonction

f :

E → R

x 7→ 1x=i

Sa moyenne sous π vaut bien sûr πi et la somme :

1

n

n∑

k=1

1Xk=i

compte le nombre de passages de la chaîne par l’état i sur le nombre total d’étapes : quantité quel’on peut interpréter comme le temps relatif passé dans l’état i entre les dates 1 et n.

Exemples.

1. Dans le modèle de la ligne téléphonique, sur un intervalle de temps assez long, celle-ci estdonc occupée les trois cinquièmes du temps.

2. Dans le modèle d’Ehrenfest à 3 boules, il y a 1 ou 2 boules dans l’urne A les trois quarts dutemps.

3. Pour le modèle d’Ehrenfest à M boules, on a vu que la loi stationnaire π est une loi binomialeB(M, 12

). Donc, si M est grand, π se comporte à peu de choses près comme un loi normale :

π ≈ N(M

2,M

4

).

La moyenne du nombre de boules dans l’urne A est M/2, c’était intuitivement évident puis-qu’il n’y aucune dissymétrie entre les deux urnes. De plus, la proportion du temps passéeavec un nombre de boules compris entre M/2 −

√M et M/2 +

√M est de l’ordre de 95%.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 137: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 133

Application. Si on considère M = 10000 dans le modèle d’Ehrenfest et qu’on observe le compor-tement de la chaîne sur une longue période de temps, il y aura en gros entre 4900 et 5100 boulesdans les deux urnes pendant 95% du temps. Considérer de grandes valeurs pour M n’est pas farfelupuisqu’Ehrenfest a développé son modèle pour la physique statistique, les boules correspondant àdes molécules, donc en très grand nombre.

Remarque : Chaîne indécomposable.Les résultats asymptotiques (convergence en loi et loi des grands nombres) sont encore vérifiés sion suppose seulement la chaîne indécomposable. Pour la convergence en loi, aucune hypothèse depériodicité n’est requise sur les états transients, car de toute façon la chaîne va les quitter au boutd’un certain temps. Résultat que l’on retrouve dans la loi des grands nombres : puisque πi = 0pour tout état transitoire, le temps relatif passé par la chaîne dans l’état i tend vers zéro avec n.

“En résumé, j’aimerais avoir un message un peu positif à vous transmettre...Je n’en ai pas. Est-ce que deux messages négatifs, ça vous irait ?” Woody Allen.

3.5 Exercices

Exercice 3.1 (Lancers de pièce)On lance une pièce équilibrée : les résultats des lancers sont des variables aléatoires indépendantesY0, Y1, . . . à valeurs 0 ou 1. Pour tout n ≥ 1, on note Xn = Yn + Yn−1.

1. Calculer P(X3 = 0|X1 = 0,X2 = 1) et P(X3 = 0|X2 = 1).

2. Est-ce que (Xn) est une chaîne de Markov ?

Corrigé

1. Si X1 = 0 et X2 = 1, ceci signifie que Y0 = Y1 = 0 et Y2 = 1, auquel cas X3 ∈ 1, 2, doncP(X3 = 0|X1 = 0,X2 = 1) = 0. Par contre

P(X3 = 0|X2 = 1) =P(Y3 = 0, Y2 = 0, Y1 = 1)

P(X2 = 1)=

(1/2)3

1/2=

1

4.

2. L’exemple ci-dessus montre que (Xn) n’est pas une chaîne de Markov.

Les situations des exercices suivants sont modélisées par des chaînes de Markov. Donner danschaque cas la matrice et le graphe de transition associés.

Exercice 3.2 (Le rat et le labyrinthe)Un rat se déplace dans un labyrinthe qui comporte neuf compartiments (voir figure 3.10). A chaqueétape, il change de compartiment. Lorsqu’il est dans un compartiment à k portes, il choisit l’unede ces k portes de façon équiprobable. Xn est le numéro du compartiment dans lequel se trouve lerat à l’étape n.

Exercice 3.3 (La roulette de la lose)On joue à la roulette : il y a 18 numéros rouges, 18 numéros noirs et 1 vert, le numéro zéro. Onjoue rouge pour 1e à chaque fois. On commence avec 50e et on s’arrête si on a 100e ou si on estruiné. Xn est notre fortune après n coups.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 138: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

134 Chapitre 3. Chaînes de Markov

1

4 5 6

7 8 9

2 3

Figure 3.10 – Labyrinthe

Exercice 3.4 (Gare au gorille)Un zoo a reçu six gorilles, trois mâles et trois femelles répartis au hasard en deux cages de troissinges. Le directeur presbyte, incapable de discerner les sexes, décide de favoriser leur reproductionen permutant chaque semaine deux pensionnaires pris au hasard, un dans chaque cage. Xn est lenombre de guenons présentes la semaine n dans la première cage.

Exercice 3.5 (Modèle de diffusion d’Ehrenfest)On considère deux urnes A et B, contenant N boules à elles deux, numérotées de 1 à N . A chaqueinstant, on choisit un numéro i ∈ 1, . . . , N de façon équiprobable et on change d’urne à la boulenuméro i. L’état Xn de la chaîne est le nombre de boules à l’instant n dans l’urne A.

Exercice 3.6 (Singin’ in the rain)Un employé se rend chaque matin à pied de son appartement à son bureau et fait le contraire lesoir. Il dispose en tout de 3 parapluies, certains chez lui, les autres au bureau. A Rennes, ville peuensoleillée, il pleut 2 fois sur 3 lorsqu’il fait le trajet, et ce indépendamment du passé. Xn est lenombre de parapluies à son domicile lorsqu’il le quitte le matin.

Exercice 3.7 (La Suisse (son chocolat, ses banques, son temps mesuré))Un magasin suisse vend des horloges : pour des raisons de place, il ne peut pas en stocker plus de3. Le gérant a constaté que, en une journée, les probabilités de demande de 0, 1, 2 ou au moins 3horloges sont respectivement :

p = [p0, p1, p2, p≥3] = [0.3, 0.4, 0.2, 0.1].

Chaque soir, il peut en commander à nouveau, qui seront disponibles en magasin le lendemainmatin. On dit que l’Helvète applique une méthode (i, j)0≤i<j≤3 s’il passe commande lorsqu’à lafermeture il lui reste un nombre inférieur ou égal à i en stock afin d’en avoir j en magasin le matinsuivant. Xn est le nombre d’horloges dans le magasin le soir à la fermeture.

1. Méthode (2, 3) : donner la matrice de transition.

2. Mêmes questions avec les méthodes (1, 3) et (0, 3).

Corrigé

1. La méthode (2, 3) signifie que chaque matin, à l’ouverture, le magasin a refait son stock,donc il y a 3 horloges au début de la journée. Le soir, il peut en rester 0, 1, 2 ou 3 suivantles demandes de la journée et conformément aux probabilités de l’énoncé. Autrement ditXn ∈ 0, 1, 2, 3 et toutes les les lignes de la matrice de transition P sont identiques dans cecas, à savoir :

P =

0.1 0.2 0.4 0.30.1 0.2 0.4 0.30.1 0.2 0.4 0.30.1 0.2 0.4 0.3

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 139: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 135

2. Traitons maintenant le cas des deux autres méthodes.

(a) Méthode (1, 3) : dans cette éventualité, le gérant repasse commande le soir dès lors qu’illui reste strictement moins de 2 horloges en stock le soir. Nous avons donc toujoursXn ∈ 0, 1, 2, 3, mais cette fois les lignes de la matrice de transition P ne sont pastoutes identiques :

P =

0.1 0.2 0.4 0.30.1 0.2 0.4 0.30.3 0.4 0.3 00.1 0.2 0.4 0.3

(b) Méthode (0, 3) : cette fois, le gérant ne repasse commande le soir que s’il ne lui resteplus rien en magasin. La matrice de transition P s’écrit donc :

P =

0.1 0.2 0.4 0.30.7 0.3 0 00.3 0.4 0.3 00.1 0.2 0.4 0.3

Exercice 3.8 (Un jeudi soir rue Saint-Michel)Un étudiant rennais, passablement enivré après moult boissons frelatées, part d’un point d’origineet à chaque instant avance d’une unité avec probabilité p et recule avec probabilité (1− p). L’étatXn de la chaîne est l’abscisse de l’ivrogne à l’étape n. Remarque : ce modèle est appelé marchealéatoire sur Z. Par rapport aux situations précédentes, l’espace d’états est infini. L’étude théo-rique des chaînes de Markov à espace d’états infini est plus délicate, nous ne la verrons pas en cours.

Exercice 3.9 (Collections et problèmes de caries)1. Soit T une variable aléatoire géométrique de paramètre p ∈]0, 1[, c’est-à-dire que T est à

valeurs dans N∗ et pour tout k ∈ N∗ : P(T = k) = p(1 − p)k−1. Déterminer l’espérance deT .

2. Un enfant collectionne des images. Son album comporte N images. Chaque jour, il achète unetablette de chocolat, dans laquelle il y a une image. Soit Xn le nombre d’images distinctesdont dispose l’enfant au soir du jour n, avec la convention X0 = 0. Donner matrice et graphede transition de (Xn).

3. Pour i ∈ 1, . . . , N, soit Ti la variable aléatoire définie par :

Ti = minn ≥ 1 | Xn = i

Que signifie concrètement Ti ? Et (Ti+1 − Ti) ? Donner la loi de (Ti+1 − Ti), c’est-à-dire :

∀k ∈ N∗P(Ti+1 − Ti = k).

4. En déduire E[Ti+1 −Ti], puis E[TN ] et enfin un équivalent de E[TN ] (rappel : 1+1/2+ · · ·+1/N ∼ lnN). Interpréter. Déterminer approximativement le nombre de tablettes de chocolatqu’il devra manger s’il veut compléter son album de 100 images 1.

5. Application : on lance un dé à six faces jusqu’à ce qu’on ait vu les six numéros sortir. Combiende fois en moyenne va-t-il falloir lancer le dé ?

Corrigé

1. On trouvera plus d’informations sur ce thème dans le livre de Gilles Pagès et Claude Bouzitat [6].

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 140: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

136 Chapitre 3. Chaînes de Markov

1. On a :

E[T ] =

+∞∑

k=1

kP(T = k) =

+∞∑

k=1

kp(1− p)k−1 = p

+∞∑

k=1

k(1− p)k−1.

On reconnaît une série entière de type∑

kxk−1, dérivée terme à terme de la série entière∑xk. Or la dérivée de 1

1−x est 1(1−x)2

, donc :

E[T ] = p · 1

(1− (1− p))2=

1

p.

2. Pour tout n ≥ 1, Xn est donc compris entre 1 et N et on a bien sûr X1 = 1. Dans la matricede transition, de taille N , seules la diagonale et la surdiagonale ne sont pas nulles, avec

P (i, i) = i

N

P (i, i+ 1) = N−iN

Tous les états sont transitoires, sauf l’état N, qui est absorbant. La seule loi stationnaire

1 N2

Figure 3.11 – Graphe de transition pour la collection d’images.

est donc déterministe : c’est π = [0, . . . , 0, 1], ce qu’on vérifie sans problème par la résolutiondu système πP = π.

3. Ti correspond au nombre de jours nécessaires pour avoir i images distinctes. (Ti+1 − Ti) estle nombre de jours nécessaire pour obtenir une (i+1)-ème nouvelle image. Si au jour n on ai images, la probabilité de ne pas en avoir de nouvelle le jour suivant est i

N , celle d’en avoirune nouvelle étant N−i

N . La probabilité P(Ti+1−Ti = k) est la probabilité de ne pas avoir denouvelle image pendant (k − 1) jours et d’en avoir une nouvelle le k-ème jour. On a donc :

P(Ti+1 − Ti = k) =N − i

N

(i

N

)k−1

.

Autrement dit (Ti+1 − Ti) suit une loi géométrique de paramètre N−iN .

4. La première question donne alors : E[Ti+1 − Ti] =N

N−i . Par linéarité de l’espérance :

E[TN ] = E[TN − TN−1] + · · ·+ E[T2 − T1] + E[T1],

or il est clair que T1 = 1, donc E[T1] = 1. Ainsi :

E[TN ] =

N−1∑

i=0

N

N − i= N

N∑

k=1

1

k∼ N lnN.

En moyenne, il faut donc environ N lnN jours à l’enfant pour compléter son album. S’il y a100 images dans l’album, il faut environ 100 ln(100) ≈ 460 jours pour le compléter 2.

2. Le résultat exact est : 100(

1 + 12+ · · ·+ 1

100

)

≈ 519. L’approximation par l’équivalent donne donc une erreurrelative d’environ 10%.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 141: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 137

5. Application : on lance un dé à six faces jusqu’à ce qu’on ait vu les six numéros sortir. Leproblème est rigoureusement le même. Le nombre moyen de lancers nécessaires est donc :

E[T ] = E[T6] = 6

(1 +

1

2+

1

3+

1

4+

1

5+

1

6

)≈ 14, 7.

Exercice 3.10 (Flash-back)On revient sur certains exercices déjà vus : le labyrinthe, la roulette, les gorilles priapiques, lemodèle d’Ehrenfest, les parapluies, les horloges, la collection.

1. La chaîne est-elle irréductible ? indécomposable ?

2. Déterminer la (ou les) loi(s) stationnaire(s).

3. Pour les chaînes irréductibles, préciser la périodicité.

Exercice 3.11 (Classification d’états)On considère la matrice de transition suivante :

P =

.4 .3 .3 0 00 .5 0 .5 0.5 0 .5 0 00 .5 0 .5 00 .3 0 .3 .4

1. Quels sont les états récurrents, quels sont les états transitoires ?

2. Déterminer la (ou les) loi(s) stationnaire(s).

Corrigé

1. On a 1 → 2, mais 2 9 1, donc 1 est transient. De même 3 → 2, mais 2 9 3. De même 5 → 2,mais 2 9 5. Par contre, on a 2 → 4 et 4 → 2. Ainsi, il y trois états transitoires, T = 1, 3, 5,et une unique classe de récurrence, R1 = 2, 4.

2. Il n’y a qu’une classe de récurrence donc la chaîne est irréductible et il y a unicité de la loistationnaire π = [π1, π2, π3, π4, π5]. On a alors sans calcul : π1 = π3 = π5 = 0. Il reste àrésoudre le système πP = π avec les deux équations restantes : ceci donne π2 = π4 = 1/2.

Exercice 3.12 (Trafic routier)Sur une route, en moyenne, trois camions sur quatre sont suivis par une voiture, tandis que seuleune voiture sur cinq est suivie par un camion. Déterminer les proportions de voitures et de camionssur cette route.

CorrigéSi on se place à un endroit donné de la route, on note (Xn) la chaîne de Markov à deux valeurs :Xn = 1 si le n-ème véhicule qu’on voit passer est une voiture, Xn = 2 si c’est un camion. Leshypothèses donnent alors la matrice de transition suivante :

P =

[4/5 1/53/4 1/4

]

Cette chaîne est clairement irréductible. On détermine sa loi stationnaire en résolvant le systèmeπP = π, ce qui donne :

π =

[15

19,4

19

].

Ceci correspond aux proportions respectives de voitures et de camions sur cette route.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 142: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

138 Chapitre 3. Chaînes de Markov

Exercice 3.13 (Mujeres al borde de un ataque de nervios)Un jour donné, Aude est soit énervée , soit grognon, soit de bonne humeur. Si elle est énervéeaujourd’hui, elle sera énervée ou grognon ou de bonne humeur demain avec probabilités 0.7, 0.2et 0.1 respectivement. Si elle est grognon aujourd’hui, elle sera énervée ou grognon ou de bonnehumeur demain avec probabilités 0.4, 0.3 et 0.3 respectivement. Si elle est de bonne humeur au-jourd’hui, elle sera énervée ou grognon ou de bonne humeur demain avec probabilités 0.2, 0.4 et 0.4respectivement. En moyenne, combien de jours par an Aude est-elle énervée ? Connaissant Aude,ce modèle vous semble-t-il réaliste ?

Exercice 3.14 (Boules et urnes)On considère 4 boules numérotées de 1 à 4, réparties en deux urnes A et B. A chaque instant, ontire un nombre k au hasard entre 1 et 4, on enlève la boule numéro k de l’urne dans laquelle ellese trouve et on la remet au hasard dans l’une des deux urnes. On note Xn le nombre de boulesdans l’urne A à l’instant n.

1. Donner la matrice et le graphe de transition de (Xn).

2. La chaîne est-elle irréductible ? apériodique ?

3. Loi(s) stationnaire(s) ?

4. On commence avec l’urne A vide. Au bout d’un temps supposé assez grand, on observe lenombre de boules dans l’urne A. Quelle est (à peu de choses près) la probabilité que cenombre soit pair ?

5. On commence avec l’urne A pleine. On observe une réalisation (X0,X1, . . . ,Xn, . . . ) de lachaîne. Quelle est la proportion du temps où il y a strictement moins de boules dans A quedans B ?

6. Généraliser l’étude précédente avec M boules numérotées de 1 à M .

CorrigéCet exercice est corrigé en annexe, sujet de juin 2005.

Exercice 3.15 (Changements de signes)On considère la chaîne de Markov (Xn) à valeurs dans −N, . . . ,N\0, définie pour tout n ≥ 1par : Xn = −signe(Xn−1)Zn, où les Zn sont indépendantes et identiquement distribuées de loiuniforme sur l’ensemble 1, . . . , N et avec la convention : signe(x) = 1 si x > 0, et signe(x) = −1si x < 0.

1. Donner la matrice de transition P de cette chaîne. Déterminer Pn selon la parité de n.

2. La chaîne est-elle irréductible ? apériodique ?

3. Déterminer la loi stationnaire π de la chaîne. Comparer à limn→∞ Pn.

Corrigé

1. P est une matrice de taille 2N . Soit J la matrice carrée de taille N ne comportant que des 1,[0] la matrice carrée de taille N ne comportant que des 0. Alors P se décrit très simplementpar blocs :

P =1

N

[[0] JJ [0]

].

Puisque J2 = N · J , on a pour tout n ≥ 1 : Jn = Nn−1J . Le calcul des puissances de P sefait très simplement par blocs et on obtient pour tout n ≥ 1 : P 2n = P et

P 2n+1 =1

N

[J [0][0] J

].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 143: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 139

2. Tous les états communiquent donc la chaîne est irréductible. Tous les états sont clairementde période 2.

3. La chaîne étant irréductible, elle admet une unique loi stationnaire π, solution de πP = π.La résolution du système donne la loi uniforme sur les 2N états :

π =

[1

2N, . . . ,

1

2N

].

On n’a pas limn→∞ Pn = Π, où Π serait la matrice aux lignes identiques, toutes égales à π.Ceci vient du fait que la chaîne n’est pas apériodique.

Exercice 3.16 (Bistochasticité et Monopoly)1. On dit qu’une matrice de transition (ou matrice stochastique) P est bistochastique si la

somme de chaque colonne est aussi égale à 1. Soit (Xn) une chaîne de Markov ayant une tellematrice comme matrice de transition : vérifier que la loi uniforme est une loi stationnaire decette chaîne.

2. Un jeu du genre Monopoly a dix cases (voir figure 3.12 à droite). On part de la case 0 et onlance un dé équilibré à six faces pour avancer le pion. Xn est la position du pion après len-ème lancer.

(a) Déterminer la matrice de transition de la chaîne de Markov (Xn).

(b) La chaîne est-elle irréductible ? apériodique ?

(c) Déterminer la (ou les) loi(s) stationnaire(s).

D

C

A

0 9 8 7

6

5432

1

B

Figure 3.12 – Tétraèdre et Monopoly

Exercice 3.17 (Le scarabée)Un scarabée se déplace sur les arêtes d’un tétraèdre régulier (voir figure 3.12 à gauche). Quel quesoit le sommet où il se trouve à un instant donné, il choisit au hasard et de façon équiprobable lesommet vers lequel il va se diriger. Il lui faut une unité de temps pour l’atteindre. On suppose deplus que le scarabée se déplace en continu, c’est-à-dire qu’il ne s’arrête jamais en un sommet. Xn

est la position du scarabée à l’instant n.

1. Déterminer la matrice de transition de la chaîne de Markov (Xn). Loi(s) stationnaire(s) ?

2. A-t-on convergence en loi de (Xn) ?

3. Le scarabée paye 1e chaque fois qu’il passe au sommet A, 2e chaque fois qu’il passe ausommet B, 3e chaque fois qu’il passe au sommet C, 4e chaque fois qu’il passe au sommetD. Soit CN le coût de sa trajectoire jusqu’à l’instant N . Que dire de la convergence de CN

N ?

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 144: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

140 Chapitre 3. Chaînes de Markov

4. Supposons maintenant qu’en chaque sommet, le scarabée reste sur place avec probabilité7/10 et parte vers chacun des autres sommets avec probabilité 1/10. Que deviennent lesrésultats précédents ?

Corrigé

1. La matrice de transition P de la chaîne de Markov (Xn) a des coefficients 1/3 partout saufsur sa diagonale. Cette chaîne est une marche aléatoire sur un graphe connexe, et l’unique loistationnaire est la loi uniforme π = [0.25, 0.25, 0.25, 0.25]. Ceci n’est pas étonnant puisqu’onpeut tout aussi bien remarquer que la matrice P est bistochastique.

2. Partant du sommet A, on peut y revenir en 2 coups, 3 coups, 4 coups, etc. Donc A estapériodique. Puisque tous les sommets communiquent, ils sont tous apériodiques et la chaîneest apériodique. On a donc convergence de la loi de (Xn) vers π.

3. Par contre, on a le théorème ergodique, i.e. la convergence presque sûre de la suite de variablesaléatoires (CN

N ) vers le coût moyen, à savoir 1+2+3+44 = 2.5 e.

4. La chaîne est bistochastique donc la loi stationnaire est toujours la loi uniforme π. On n’aplus de périodicité, donc il y a convergence en loi : la loi de Xn tend vers π. A fortiori, on ala loi des grands nombres.

Exercice 3.18 (Le coup du parapluie)Un employé lambda, appelons le Franz Kafka, se rend chaque matin de son appartement à sonbureau et fait le contraire le soir. Il dispose en tout de 3 parapluies, certains chez lui, les autres aubureau. A Prague, ville peu ensoleillée au delà du raisonnable, il pleut 2 fois sur 3 lorsqu’il fait letrajet, et ce indépendamment du passé. Soit Xn le nombre de parapluies à son domicile lorsqu’ille quitte le matin.

1. Déterminer la matrice de transition de la chaîne de Markov associée.

2. Quelle est la proportion du temps où Kafka est mouillé ?

3. Généraliser avec n parapluies.

Corrigé

1. La chaîne de Markov associée a pour matrice de transition :

P =

1/3 2/3 0 02/9 5/9 2/9 00 2/9 5/9 2/90 0 2/9 7/9

2. Après calculs, l’unique loi stationnaire est :

π = [1

10,3

10,3

10,3

10].

Sur un trajet du matin, Kafka est mouillé s’il n’a aucun parapluie chez lui et qu’il pleut :ceci arrive avec probabilité : 1

10 × 23 = 1

15 . Sur un trajet du soir, il est mouillé s’il n’a aucunparapluie au bureau (i.e. ils étaient tous au domicile le matin et il faisait beau le matin) etqu’il pleut : ceci arrive avec probabilité : 3

10 × 13 × 2

3 = 115 . Que ce soit le matin ou le soir,

Kafka est mouillé une fois sur quinze.

3. La généralisation avec n parapluies ne pose pas problème : les lignes de la matrice de tran-sition sont les mêmes que ci-dessus. La loi stationnaire est cette fois

π = [1

3n + 1,

3

3n+ 1, . . . ,

3

3n+ 1].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 145: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 141

Et que ce soit à l’aller ou au retour, Kafka est mouillé avec probabilité 29n+3 .

Exercice 3.19 (Modèle épidémiologique)On considère l’évolution d’un virus dans une population de taille N . Au jour n, il y a Xn individusinfectés et Sn = (N−Xn) individus sains. Le jour suivant, les Xn individus précédemment infectéssont sains, mais chacun des Sn individus précédemment sains a eu une probabilité p de rencontrerchacun des In infectés de la veille et donc de contracter l’infection, toutes ces rencontres étantindépendantes l’une de l’autre. Il est clair que si personne n’est infecté, il en sera de même lelendemain. Le paramètre p est appelé taux de contact infectieux.

1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieuxest p = 1/3.

(a) Donner matrice et graphe de transition de la chaîne de Markov (Xn).

(b) La chaîne est-elle irréductible ? indécomposable ?

(c) Déterminer la (ou les) loi(s) stationnaire(s). Interpréter.

2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieuxest le paramètre p ∈]0, 1[. En notant q = (1 − p), donner le graphe de transition. Loi(s)stationnaire(s) ?

3. On suppose maintenant une population de N individus, avec taux de contact infectieuxp ∈]0, 1[. Justifier le fait que (Xn) admet pour probabilités de transition :

pij =

(N − i

j

)(1− qi)qi(N−i−j)

1i+j≤N.

CorrigéLe corrigé est donné en annexe, sujet de juin 2006.

Exercice 3.20 (Pile ou Face)On joue une suite infinie de Pile ou Face non biaisés : ceci fournit une suite de variables aléatoires(Xn)n≥0 indépendantes et identiquement distribuées avec P(Xn = P ) = P(Xn = F ) = 1/2.A partir de cette suite on considère la chaîne de Markov (Yn)n≥1 définie par : Y1 = (X0,X1),Y2 = (X1,X2), et de façon générale Yn = (Xn−1,Xn) pour tout n ≥ 1. Cette chaîne est donc àvaleurs dans l’espace d’états :

E = E1, E2, E3, E4 = (P,F ), (F,F ), (F,P ), (P,P ).

1. Donner la matrice et le graphe de transition de (Yn).

2. La chaîne est-elle irréductible, apériodique ?

3. Loi(s) stationnaire(s) ?

4. Retrouver le résultat de la question précédente en calculant directement la loi de Yn :

P(Yn) = [P(Yn = E1),P(Yn = E2),P(Yn = E3),P(Yn = E4)] .

CorrigéLe corrigé est donné en annexe, sujet de mai 2007.

Exercice 3.21 (Mai 2008)Soit l’espace d’états E = 1, 2, 3, 4 d’une chaîne de Markov homogène.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 146: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

142 Chapitre 3. Chaînes de Markov

1. Compléter la matrice suivante pour qu’elle soit une matrice de transition :

P =

. 12 0 0

. 23 0 0

0 . 12

12

14 . 0 1

2

2. Représenter le graphe associé.

3. La chaîne est-elle irréductible ? Indécomposable ?

4. Déterminer la (ou les) loi(s) stationnaire(s).

5. On considère qu’au temps 0, on est dans l’état 3. Pour un grand nombre d’unité de tempsn, quelles sont les probabilités qu’on soit dans chacun des quatre états ?

CorrigéLe corrigé est donné en annexe, sujet de mai 2008.

Exercice 3.22 (Et les Athéniens s’atteignirent)On reprend le problème de transmission bruitée vu au premier chapitre (exercice 1.7) : un messagedoit être transmis d’un point successivement à travers N canaux. Ce message peut prendre deuxvaleurs, 0 ou 1. Durant le passage par un canal, le message a la probabilité p ∈]0, 1[ d’être bruité, i.e.d’être transformé en son contraire, et (1−p) d’être transmis fidèlement. Les canaux se comportentindépendamment les uns des autres. Pour tout n ∈ 1, . . . , N, notons pn la probabilité qu’ensortie de ne canal, le message soit le même que celui transmis initialement.

1. Modéliser le problème par une chaîne de Markov à deux états, de matrice de transition P .

2. Montrer que (Pn) converge vers une matrice P∞ que l’on précisera.

3. En déduire limn→+∞ pn.

Exercice 3.23 (Simulation d’une chaîne de Markov)On veut simuler les déplacements d’un scarabée sur les sommets d’un tétraèdre ABCD et étudierla chaîne de Markov associée (voir exercice 3.17). On rappelle que Xn correspond à la position duscarabée à l’étape n. On suppose que le scarabée part du sommet A. Quel que soit le sommet oùil se trouve à un instant donné, il choisit au hasard de façon équiprobable de se diriger vers l’undes trois autres sommets.

1. Simuler une trajectoire X0, . . . ,X1000 du scarabée à l’aide de la fonction sample. Vérifier surcet exemple la loi des grands nombres, c’est-à-dire que le scarabée passe à peu près un quartdu temps en chaque sommet.

2. On veut observer la convergence en loi, c’est-à-dire vérifier que :

P(Xn) = [P(Xn = A),P(Xn = B),P(Xn = C),P(Xn = D)] −−−−−→n→+∞

π =

[1

4,1

4,1

4,1

4

].

Etudier la position du scarabée pour n = 50.

3. On considère maintenant que les déplacements du scarabée sont régis par la matrice detransition :

P =

0 2/3 0 1/31/3 0 2/3 00 1/3 0 2/3

2/3 0 1/3 0

.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 147: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 143

(a) Vérifier la loi des grands nombres.

(b) Que dire de la convergence en loi ?

4. Tirer au hasard une matrice de transition P à l’aide de la fonction runif. Vérifier que laloi des grands nombres et la convergence en loi permettent de trouver un même vecteurprobabilité ligne π. Retrouver précisément cette loi d’équilibre grâce à la fonction eigen eten utilisant sa propriété caractéristique : π est un vecteur propre à gauche de P associé à lavaleur propre 1.

0.00

0.05

0.10

0.15

0.20

0.25

A B C D

Figure 3.13 – Fréquences empiriques pour une seule trajectoire de longueur 1000.

CorrigéLes simulations sont effectuées à l’aide du logiciel R.

1. Le résultat est représenté figure 3.13.

P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition.

mu0=c(1,0,0,0) # le scarabée part du sommet A.

n0=1001 # le scarabée marche de l’instant 0 à l’instant n0-1.

x=numeric(n0)

x[1]=sample(1:4,1,prob=mu0)

for (i in 1:(n0-1))x[i+1]=sample(1:4,1,prob=P[x[i],])

plot(table(x)/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences empi-

riques’)

2. Le résultat est représenté figure 3.14.

P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition.

mu0=c(1,0,0,0) # le scarabée part du sommet A.

n0=51 # le scarabée marche de l’instant 0 à l’instant n0-1.

ns=1000 # on simule ns trajectoires du scarabée.

S=matrix(0,nrow=ns,ncol=n0)

for (j in (1:ns))

S[j,1]=sample(1:4,1,prob=mu0)

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 148: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

144 Chapitre 3. Chaînes de Markov

0.00

0.05

0.10

0.15

0.20

0.25

A B C D

Figure 3.14 – Fréquences empiriques à la date 50 pour 1000 trajectoires.

for (i in 1:(n0-1))S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])

plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences

empiriques’)

3. (a) Le résultat est représenté figure 3.15. La chaîne étant irréductible et la matrice detransition bistochastique, la seule loi d’équilibre est à nouveau la loi π uniforme sur lesquatre états.

P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE)

mu0=c(1,0,0,0)

n0=1001

x=numeric(n0)

x[1]=sample(1:4,1,prob=mu0)

for (i in 1:(n0-1))x[i+1]=sample(1:4,1,prob=P[x[i],])

plot(table(x)/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences

empiriques’)

(b) Le résultat est représenté figure 3.16. La chaîne étant périodique, de période 2, le sca-rabée ne peut être qu’au sommet A ou C après un nombre pair de déplacements. Onvoit donc que la loi des grands nombres s’applique, mais pas la convergence en loi.

P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE)

mu0=c(1,0,0,0)

n0=51

ns=1000

S=matrix(0,nrow=ns,ncol=n0)

for (j in (1:ns))

S[j,1]=sample(1:4,1,prob=mu0)

for (i in 1:(n0-1))S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])

plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences

empiriques’)

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 149: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

3.5. Exercices 145

0.00

0.05

0.10

0.15

0.20

0.25

A B C D

Figure 3.15 – Fréquences empiriques pour une seule trajectoire de longueur 1000.

0.0

0.1

0.2

0.3

0.4

0.5

A C

Figure 3.16 – Fréquences empiriques à la date 50 pour 1000 trajectoires.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 150: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

146 Chapitre 3. Chaînes de Markov

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

A B C D A AB BC CD D

Figure 3.17 – Loi stationnaire obtenue de 3 façons : convergence en loi (à gauche), loi des grandsnombres (au centre), vecteur propre principal (à droite).

4. Le résultat est représenté figure 3.17. Si on tire une matrice au hasard, on est sûr d’obtenirune chaîne irréductible et apériodique. La convergence en loi comme la loi des grands nombrespermettent donc de retrouver la loi stationnaire théorique.

P=matrix(runif(16),4,4)

P=P/(rowSums(P)%*%t(rep(1,4)))

vp=as.numeric(eigen(t(P))$vectors[,1])

vp=vp/(sum(vp))

mu0=c(1,0,0,0)

n0=1001

ns=1000

S=matrix(0,nrow=ns,ncol=n0)

for (j in (1:ns))

S[j,1]=sample(1:4,1,prob=mu0)

for (i in 1:(n0-1))S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])

m=matrix(1:3,nrow=1,ncol=3)

layout(m)

plot(table(S[,n0])/ns,type=’h’,xlab=’position du scarabee’,ylab=’frequences

empiriques’)

plot(table(S[1,])/n0,type=’h’,xlab=’position du scarabee’,ylab=’frequences

empiriques’)

plot(vp,type=’h’,xlab=’position du scarabee’,ylab=’probabilité théorique’)

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 151: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Annexe A

Annales

Université de Rennes 2Licence MASS 3Arnaud Guyader

Mercredi 8 Juin 2005Durée : 2 heures

Calculatrice autorisée

Examen de Probabilités

I. Couple aléatoire (6 points)On considère la fonction suivante :

f(x, y) = e−y10<x<y.

1. Vérifier que f(x, y) définit une densité de probabilité sur R2.

2. Calculer les densités marginales f(x) et f(y) de X et Y . Les variables X et Y sont-ellesindépendantes ?

3. Calculer E[X], E[Y ], Cov(X,Y ).

4. Déterminer la densité conditionnelle f(y|x) de Y sachant X = x. En déduire E[Y |X = x],puis l’espérance conditionnelle E[Y |X].

5. Déterminer de même E[X|Y ].

6. On considère le couple aléatoire (Z, T ) défini par

Z = X + YT = Y −X

Déterminer la loi jointe fZ,T (z, t) du couple (Z, T ).

7. En déduire les densités marginales de Z et T .

147

Page 152: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

148 Annexe A. Annales

II. Vecteur gaussien bidimensionnel (4 points)On considère un vecteur gaussien [X,Y ]′ de moyenne m = [1,−1]′ et de matrice de covariance :

Γ =

[1 11 4

]

1. Ecrire la densité du vecteur [X,Y ]′.

2. Quelle est la loi de X ? de Y ? de X + Y ?

3. Déterminer l’espérance conditionnelle E[X|Y ]. Quelle est sa loi ?

III. Vecteur gaussien tridimensionnel (6 points)On considère un vecteur gaussien [X,Y,Z]′ centré et de matrice de covariance :

Γ =

2 1 11 2 11 1 2

1. Donner l’espérance conditionnelle E[X|Y,Z].

2. Quelle est la loi de Z sachant X = 1 et Y = 2 ?

3. Déterminer l’espérance conditionnelle du vecteur [X,Y ]′ sachant Z, notée E[X,Y |Z].

4. Quelle est la loi du vecteur [X,Y ]′ sachant Z = 1 ?

5. On pose alors :

U = −X + Y + ZV = X − Y + ZW = X + Y − Z

Pourquoi le vecteur aléatoire [U, V,W ]′ est-il gaussien ?

6. Quelles sont les lois de U , de V , de W ?

7. Déterminer la moyenne et la matrice de covariance de [U, V,W ]′. Qu’en déduire sur la corré-lation de U , V et W ?

IV. Chaîne de Markov (4 points)On considère 4 boules numérotées de 1 à 4, réparties en deux urnes A et B. A chaque instant, ontire un nombre k au hasard entre 1 et 4, on enlève la boule numéro k de l’urne dans laquelle ellese trouve et on la remet au hasard dans l’une des deux urnes. On note Xn le nombre de boulesdans l’urne A à l’instant n.

1. Justifier par une phrase le fait que (Xn) est une chaîne de Markov.

2. Donner la matrice et le graphe de transition de (Xn).

3. La chaîne est-elle irréductible ? apériodique ?

4. Loi(s) stationnaire(s) ?

5. On commence avec l’urne A vide. Au bout d’un temps supposé assez grand, on observe lenombre de boules dans l’urne A. Quelle est (à peu de choses près) la probabilité que cenombre soit pair ?

6. On commence avec l’urne A pleine. On observe une réalisation (X0,X1, . . . ,Xn, . . . ) de lachaîne. Quelle est la proportion du temps où il y a strictement moins de boules dans l’urneA que dans l’urne B ?

7. Bonus : Généraliser l’étude précédente avec M boules numérotées de 1 à M .

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 153: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

149

Université de Rennes 2Licence MASS 3Arnaud Guyader

Mercredi 8 Juin 2005Durée : 2 heures

Calculatrice autorisée

Examen de Probabilités

Corrigé

I. Couple aléatoireOn considère la fonction suivante :

f(x, y) = e−y10<x<y.

1. f(x, y) est mesurable positive et on vérifie sans problème que son intégrale sur R2 vaut 1.Donc f(x, y) définit bien une densité de probabilité sur R2.

2. Pour les densités marginales, on obtient f(x) = e−x1]0,+∞[(x), c’est-à-dire que X suit une

loi exponentielle E(1). De même, on trouve :

f(y) = ye−y1]0,+∞[(y).

Les variables X et Y ne sont pas indépendantes puisque :

f(x, y) 6= f(x)f(y).

On pouvait l’affirmer dès le début puisque le support de la loi jointe n’est pas un produitd’intervalles.

3. Rappelons que si V ∼ E(1), alors :E[V n] = n!

On a donc : E[X] = 1. De même : E[Y ] = E[V 2] = 2! = 2. Pour la covariance :

Cov(X,Y ) = E[XY ]− E[X]E[Y ] = E[XY ]− 2.

Or :

E[XY ] =

∫∫

R

2

xyf(x, y) dx dy =1

2

∫ +∞

0y3e−y dy =

1

2E[V 3] = 3,

d’où l’on déduit : Cov(X,Y ) = 1.

4. La densité conditionnelle f(y|x) de Y sachant X = x vaut par définition pour tout x > 0 :

f(y|x) = f(x, y)

f(x)= ex−y

1x<y.

C’est donc une loi exponentielle translatée. Son espérance vaut :

E[Y |X = x] =

∫ +∞

xyex−y dy = x+ 1.

De façon générale, on a donc :E[Y |X] = X + 1.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 154: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

150 Annexe A. Annales

5. De même, on a successivement :

f(x|y) = 1

y10<x<y.

C’est donc une loi uniforme sur [0, y]. Sa moyenne vaut :

E[X|Y = y] =y

2,

et de façon générale :

E[X|Y ] =Y

2.

6. On définit naturellement le C1− difféomorphisme entre ouverts de R2

ϕ :

U → V

(x, y) 7→ (z, t) = (x+ y, y − x)

avec U = (x, y) ∈ R2 : 0 < x < y et V = (z, t) ∈ R2 : 0 < t < z. Le théorème dechangement de variable donne alors pour la densité du couple aléatoire (Z, T ) :

fZ,T (z, t) = fX,Y (ϕ−1(z, t)) · |Jϕ−1(z, t)|.

Quelques calculs donnent :

fZ,T (z, t) =1

2e−

12(z+t)

10<t<z.

7. Les densités marginales sont :

fZ(z) = e−z21z>0 − e−z

1z>0.

et :

fT (t) = e−t1t>0,

c’est-à-dire que T ∼ E(1).

II. Vecteur gaussien bidimensionnelOn considère un vecteur gaussien [X,Y ]′ de moyenne m = [1,−1]′ et de matrice de covariance :

Γ =

[1 11 4

]

1. La densité du vecteur [X,Y ]′ est :

f(x, y) =1

2π√3e−

16(4(x−1)2−2(x−1)(y+1)+(y+1)2

2. X ∼ N (1, 1), Y ∼ N (−1, 4). Enfin X + Y ∼ N (0, 7), car E[X + Y ] = E[X] + E[Y ] et :

Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X,Y ).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 155: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

151

3. Pour déterminer l’espérance conditionnelle E[X|Y ], on utilise la formule générale du condi-tionnement gaussien :

E[X|Y ] = E[X] +Cov(X,Y )

Var(Y )(Y − E[Y ]),

ce qui donne ici : E[X|Y ] = 1 + 14 (Y + 1). Puisque Y ∼ N (−1, 4), on a :

E[X|Y ] ∼ N (1,1

4).

III. Vecteur gaussien tridimensionnelOn considère un vecteur gaussien [X,Y,Z]′ centré et de matrice de covariance :

Γ =

2 1 11 2 11 1 2

1. L’espérance conditionnelle de X sachant (Y,Z) est :

E[X|Y,Z] = ΓX,(Y,Z)Γ−1Y,Z [Y,Z]′ =

1

3(Y + Z).

2. On a la décomposition orthogonale :

Z = E[Z|X,Y ] + (Z − E[Z|X,Y ]) = E[Z|X,Y ] +W =1

3(X + Y ) +W,

avec W indépendante du couple (X,Y ). Quant à sa loi : W ∼ N (0, σ2), avec σ2 variancerésiduelle donnée par :

σ2 = ΓZ − ΓZ,(X,Y )Γ−1X,Y Γ(X,Y ),Z =

4

3

Il suit que, sachant X = 1 et Y = 2, Z ∼ N (1, 43 )

3. L’espérance conditionnelle E[X,Y |Z] est donnée par la formule de projection :

E[X,Y |Z] = Γ(X,Y ),ZΓ−1Z Z = [Z/2, Z/2]′ .

Autrement dit, c’est tout simplement le vecteur [E[X|Z],E[Y |Z]]′.

4. On a comme ci-dessus la décomposition orthogonale :

[X,Y ]′ = E[X,Y |Z] + ([X,Y ]′ − E[X,Y |Z]) = [Z/2, Z/2]′ +W,

avec W vecteur gaussien indépendant de Z, et plus précisément W ∼ N ([0, 0]′,ΓW ), avec :

ΓW = ΓX,Y − Γ(X,Y ),ZΓ−1Z ΓZ,(X,Y ) =

[3/2 1/21/2 3/2

]

5. On pose alors

U = −X + Y + ZV = X − Y + ZW = X + Y − Z

Le vecteur aléatoire [U, V,W ]′ est gaussien, puisque c’est l’image du vecteur gaussien [X,Y,Z]′

par une application linéaire. Si on note :

A =

−1 1 11 −1 11 1 −1

,

on a [U, V,W ]′ = A[X,Y,Z]′

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 156: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

152 Annexe A. Annales

6. Les variables U , V et W sont donc gaussiennes. Par symétrie, elles suivent la même loiN (0, 4). La variance s’obtient par exemple via la formule :

Var(U) = Var(X) + Var(Y ) + Var(Z)− 2Cov(X,Y )− 2Cov(X,Z) + 2Cov(Y,Z).

7. Le vecteur gaussien [U, V,W ]′ est centré et sa matrice de covariance est :

Γ2 = AΓA′ =

4 0 00 4 00 0 4

.

Cette matrice est diagonale, ce qui est dans le cas gaussien une condition nécessaire et suffi-sante d’indépendance des variables U , V et W .

IV. Chaîne de MarkovOn considère 4 boules numérotées de 1 à 4, réparties en deux urnes A et B. A chaque instant, ontire un nombre k au hasard entre 1 et 4, on enlève la boule numéro k de l’urne dans laquelle ellese trouve et on la remet au hasard dans l’une des deux urnes. On note Xn le nombre de boulesdans l’urne A à l’instant n.

1. L’opération effectuée à chaque étape est aléatoire, mais ne dépend que de la compositionprésente des urnes, indépendamment de ce qui s’est passé au préalable. Ceci fait de (Xn) unechaîne de Markov.

2. La variable aléatoire Xn est à valeurs dans 0, 1, 2, 3, 4. Sa matrice de transition est :

P =

1/2 1/2 0 0 01/8 1/2 3/8 0 00 1/4 1/2 1/4 00 0 3/8 1/2 1/80 0 0 1/2 1/2

.

Le graphe de transition est donné figure A.1.

10 2 3 4

Figure A.1 – Graphe de transition de la chaîne de Markov (Xn).

3. On peut passer de tout état à tout autre donc la chaîne est irréductible. Par ailleurs on peutboucler sur chaque état, donc elle est apériodique.

4. L’irréductibilité de la chaîne entraîne l’existence d’une unique loi stationnaire π, c’est-à-direun vecteur ligne :

π = [π0, π1, π2, π3, π4],

avec les πi compris entre 0 et 1 et sommant à 1. On la détermine en résolvant le systèmed’équations πP = π. Après quelques calculs, on obtient :

π =

[1

16,4

16,6

16,4

16,1

16

].

On peut noter que de façon générale :

∀i ∈ 0, 1, 2, 3, 4 πi =

(4

i

)(1

2

)i(1

2

)4−i

,

c’est-à-dire que le nombre de boules dans l’urne A suit une loi binômiale B(4, 12).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 157: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

153

5. Le théorème de convergence en loi pour les chaînes de Markov irréductibles et apériodiquesassure que la loi de Xn tend vers la loi π, indépendamment de la répartition initiale entreles deux urnes. La probabilité que le nombre de boules dans l’urne A soit pair à l’instant nest donc :

P(Xn ∈ 0, 2, 4) −−−→n→∞

π0 + π2 + π4 =1

2.

6. La loi forte des grands nombres pour les chaînes de Markov irréductibles assure que laproportion du temps où il y a moins de boules dans l’urne A que dans l’urne B tend vers laprobabilité que ceci arrive pour la loi π. C’est-à-dire qu’ on a la convergence presque sûre :

1

n+ 1

n∑

k=0

10,1(Xk)p.s.−−−→

n→∞π0 + π1 =

5

16.

7. La généralisation avec M boules est directe : la chaîne est encore irréductible et apériodique,d’unique loi stationnaire π ∼ B(M, 12 ).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 158: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

154 Annexe A. Annales

Université de Rennes 2Licence MASS 3Arnaud Guyader

Jeudi 8 Juin 2006Durée : 2 heures

Aucun document autorisé

Examen de Probabilités

I. Variable Y définie à partir de X (3 points)Soit X une variable aléatoire de densité :

2

(ln 2)2ln(1 + x)

1 + x1[0,1](x)

Soit Y une variable aléatoire telle que la loi conditionnelle de Y sachant X = x est :

1

ln(1 + x)

1

1 + y1[0,x](y)

1. Donner la densité jointe du couple (X,Y ).

2. Quelle est la densité de Y ? Densité conditionnelle de X sachant Y ?

3. Les variables X et Y sont-elles indépendantes ?

4. Déterminer l’espérance conditionnelle E[X|Y ].

Figure A.2 – Tirage uniforme dans un triangle.

II. Couple aléatoire discret (6 points)On tire un point de façon uniforme parmi ceux de la figure A.3. Ceci donne un couple aléatoire(X,Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 1

15 , 1 ≤ j ≤ i ≤ 5.

1. Donner les lois marginales de X et de Y .

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 159: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

155

2. Soit j ∈ 1, . . . , 5 fixé : déterminer la loi conditionnelle de X sachant Y = j, c’est-à-direP(X = i|Y = j).

3. Calculer E[X|Y = j], en déduire E[X|Y ], puis E[X] en fonction de E[Y ].

4. Déterminer de même la loi conditionnelle de Y sachant X = i.

5. Calculer E[Y |X = i], en déduire E[Y |X], puis E[Y ] en fonction de E[X].

6. Déduire des questions précédentes E[X] et E[Y ].

7. Généralisation : soit N ∈ N∗ fixé, reprendre les questions précédentes en remplaçant 5 parN (on ne demande pas le détail des calculs, uniquement les résultats).

III. Vecteur gaussien (6 points)On considère un vecteur gaussien V = [X,Y,Z]T de moyenne m = [1,−1, 1]′ et de matrice decovariance :

Γ =

1 1 11 2 21 2 3

1. Quelle est la loi du vecteur [X,Y ]′ ? Donner sa densité.

2. Déterminer l’équation de la droite de régression de Y en X. Préciser le résidu quadratique.

3. Donner une variable aléatoire U = αX + βY + γ qui soit indépendante de X.

4. Quelle est la fonction caractéristique du vecteur V ?

5. Donner l’expression de E[Z|X,Y ], espérance conditionnelle de Z sachant (X,Y ) ?

6. En déduire une variable aléatoire T = aX + bY + cZ + d qui soit indépendante de X et Y .Préciser la variance de T .

7. On observe Y = 1 et Z = 2. Quelle est la loi de la variable aléatoire X sachant ces données ?

IV. Modèle épidémiologique (5 points)On considère l’évolution d’un virus dans une population de taille N . Au jour n, il y a Xn individusinfectés et Sn = (N−Xn) individus sains. Le jour suivant, les Xn individus précédemment infectéssont sains, mais chacun des Sn individus précédemment sains a eu une probabilité p de rencontrerchacun des In infectés de la veille et donc de contracter l’infection, toutes ces rencontres étantindépendantes l’une de l’autre. Il est clair que si personne n’est infecté, il en sera de même lelendemain. Le paramètre p est appelé taux de contact infectieux.

1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieuxest p = 1/3.

(a) Donner matrice et graphe de transition de la chaîne de Markov (Xn).

(b) La chaîne est-elle irréductible ? indécomposable ?

(c) Déterminer la (ou les) loi(s) stationnaire(s). Interpréter.

2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieuxest le paramètre p ∈]0, 1[. En notant q = (1 − p), donner la matrice de transition. Loi(s)stationnaire(s) ?

3. On suppose maintenant une population de N individus, avec taux de contact infectieuxp ∈]0, 1[. Justifier le fait que (Xn) admet pour probabilités de transition :

pij =

(N − i

j

)(1− qi)jqi(N−i−j)

1i+j≤N.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 160: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

156 Annexe A. Annales

Université de Rennes 2Licence MASS 3Arnaud Guyader

Jeudi 8 Juin 2006Durée : 2 heures

Aucun document autorisé

Examen de Probabilités

Corrigé

I. Variable Y définie à partir de XSoit X une variable aléatoire de densité :

2

(ln 2)2ln(1 + x)

1 + x1[0,1](x)

Soit Y une variable aléatoire telle que la loi conditionnelle de Y sachant X = x est :

1

ln(1 + x)

1

1 + y1[0,x](y)

1. Puisqu’on connaît f(x) et f(y|x), on en déduit la densité jointe du couple (X,Y ) :

f(x, y) = f(y|x)f(x) = 2

(ln 2)21

(1 + x)(1 + y)10≤y≤x≤1.

2. La densité de Y s’obtient en marginalisant la loi jointe par rapport à x. Pour tout y dans[0, 1] :

f(y) =

∫ 1

y

2

(ln 2)21

(1 + x)(1 + y)dx =

2

(ln 2)2(1 + y)[ln(1 + x)]1y ,

ce qui donne :

f(y) =2

(ln 2)2(1 + y)(ln 2− ln(1 + y))1[0,1](y).

On en déduit la densité conditionnelle de X sachant Y :

f(x|y) = f(x, y)

f(y)=

1

(1 + x)(ln 2− ln(1 + y))10≤y≤x≤1.

En toute rigueur, cette formule n’est valable que pour y ∈ [0, 1[, mais pour y = 1 on aforcément x = 1, Autrement dit, la loi de X sachant Y = 1 n’admet pas de densité, c’est unDirac au point 1.

3. Le support de la loi jointe f(x, y) est le domaine :

D = (x, y) : 0 ≤ y ≤ x ≤ 1,qui n’est pas un pavé, donc X et Y ne peuvent être indépendantes. Une autre façon dele vérifier est de remarquer que le produit des marginales n’est pas égal à la loi jointe :f(x, y) 6= f(x)f(y). Une autre méthode est de voir que la densité conditionnelle de X sachantY n’est pas égale à la densité marginale de X : f(x|y) 6= f(x). Dans la même idée, on vérifieaussi que : f(y|x) 6= f(y).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 161: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

157

4. Soit y ∈ [0, 1] fixé. On a par définition :

E[X|Y = y] =

∫ 1

yxf(x|y) dx =

1

ln 2− ln(1 + y)

∫ 1

y

x

1 + xdx,

et il suffit d’écrire :x

1 + x= 1− 1

1 + x,

pour en déduire :

E[X|Y = y] =1

ln 2− ln(1 + y)[x− ln(1 + x)]1y =

1− y

ln 2− ln(1 + y)− 1.

Noter que cette formule est encore valable pour y = 1, puisque le développement limité deln(1 + y) au voisinage de y = 1 donne :

ln(1 + y) = ln 2 +1

2(1− y) + o(1− y),

d’où l’on déduit :1− y

ln 2− ln(1 + y)− 1 −−−→

y→11,

ce qui est bien la moyenne de la variable X lorsque Y = 1.De façon générale, on a donc :

E[X|Y ] =1− Y

ln 2− ln(1 + Y )− 1.

Figure A.3 – Tirage uniforme dans un triangle

II. Couple aléatoire discretOn tire un point de façon uniforme parmi ceux de la figure A.3. Ceci donne un couple aléatoire(X,Y ) dont la loi jointe est : pij = P(X = i, Y = j) = 1

15 , 1 ≤ j ≤ i ≤ 5.

1. La variable aléatoire X est à valeurs dans 1, . . . , 5 et pour tout i dans cet ensemble, on a :

pi. = P(X = i) =

i∑

j=1

pij =i

15.

De même, Y est à valeurs dans 1, . . . , 5 et pour tout j dans cet ensemble, on a :

p.j = P(Y = j) =

5∑

i=j

pij =6− j

15.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 162: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

158 Annexe A. Annales

2. Soit j ∈ 1, . . . , 5 fixé, la loi conditionnelle de X sachant Y = j est :

pi|j =pijp.j

=1

6− j1 ≤ j ≤ i ≤ 5.

3. On en déduit :

E[X|Y = j] =5∑

i=j

ipi|j =1

6− j

5∑

i=j

i,

et on reconnaît la somme des termes d’une suite arithmétique, d’où :

E[X|Y = j] =j + 5

2.

On en déduit l’espérance conditionnelle de X sachant Y :

E[X|Y ] =1

2Y +

5

2.

Puisqu’on sait que E[E[X|Y ]] = E[X], on en déduit une première relation entre les espérancesde X et Y :

E[X] =1

2E[Y ] +

5

2.

4. Soit i ∈ 1, . . . , 5 fixé, la loi conditionnelle de Y sachant X = i est :

pj|i =pijpi.

=1

i1 ≤ j ≤ i ≤ 5.

5. On en déduit :

E[Y |X = i] =

i∑

j=1

jpj|i =1

i

i∑

j=1

j,

et on reconnaît à nouveau une somme arithmétique :

E[Y |X = i] =i+ 1

2,

d’où l’espérance conditionnelle :

E[Y |X] =1

2X +

1

2,

et une seconde relation entre les espérances de X et Y :

E[Y ] =1

2E[X] +

1

2.

6. Les questions précédentes donnent un système linéaire de deux équations à deux inconnues :

E[X] = 1

2E[Y ] + 52

E[Y ] = 12E[X] + 1

2

que l’on résout sans problème pour arriver à E[X] = 113 et E[Y ] = 7

3 .

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 163: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

159

7. Généralisation : pour N ∈ N∗ fixé, les calculs précédents se généralisent sans difficulté. Oncommence par remarquer qu’il y a maintenant N(N+1)

2 points dans le triangle. On obtientdonc comme loi jointe :

pij = P(X = i, Y = j) =2

N(N + 1)1 ≤ j ≤ i ≤ N.

La loi marginale de X est :

pi. =2i

N(N + 1),

tandis que celle de Y s’écrit :

p.j =2(N + 1− j)

N(N + 1).

La loi conditionnelle de X sachant Y = j est donc :

pi|j =1

N + 1− j1 ≤ j ≤ i ≤ N.

On en déduit :

E[X|Y = j] =j +N

2⇒ E[X|Y ] =

1

2Y +

N

2,

d’où une première relation entre les espérances :

E[X] =1

2E[Y ] +

N

2.

De même, on trouve :

pj|i =1

i1 ≤ j ≤ i ≤ N.

On en déduit :

E[Y |X = i] =i+ 1

2⇒ E[Y |X] =

1

2X +

1

2,

d’où une seconde relation entre les espérances :

E[Y ] =1

2E[X] +

1

2.

Les deux relations obtenues permettent d’en déduire E[X] = 2N+13 et E[Y ] = N+2

3 .

III. Vecteur gaussienOn considère un vecteur gaussien V = [X,Y,Z]T de moyenne m = [1,−1, 1]′ et de matrice decovariance :

Γ =

1 1 11 2 21 2 3

1. Le vecteur [X,Y ]′ est gaussien comme image du vecteur gaussien V par une applicationlinéaire :

[XY

]=

[1 0 00 1 0

]

XYZ

.

Plus précisément, il est de moyenne µ = [1,−1]′ et de matrice de covariance :

Σ =

[1 11 2

]

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 164: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

160 Annexe A. Annales

Puisque Σ est inversible, il admet une densité donnée par la formule :

f(x, y) =1

2π√detΣ

exp

(−1

2([x, y]− µ′)Σ−1([x, y]′ − µ)

).

Après calculs de detΣ et Σ−1, on obtient :

f(x, y) =1

2πexp

(−x2 + 3x+ xy − 1

2y2 − 2y − 5

2

).

2. La droite de régression de Y en X correspond à l’espérance conditionnelle de Y sachant X :

E[Y |X] = E[Y ] +Cov(Y,X)

Var(X)(X − E[X]) = X − 2,

c’est-à-dire la droite d’équation y = x− 2. Le résidu quadratique est alors :

σ2 = Var(Y )− Cov2(Y,X)

Var(X)= 1.

3. Puisque E[Y |X] est la projection orthogonale de Y sur H = Vect(1,X), on en déduit que lavariable aléatoire U = Y − E[Y |X] = Y −X + 2 est orthogonale à H, donc en particulier àla variable aléatoire X − E[X] de H. Ceci signifie que :

0 = 〈U,X − E[X]〉 = E[U(X − E[X])] = Cov(U,X).

Donc les variables aléatoires U et X sont décorrélées et puisque le vecteur [X,U ]′ est gaussiencomme image du vecteur gaussien V par une application affine, ceci est équivalent à dire queX et U sont indépendantes.

4. Soit u = [u1, u2, u3]′ ∈ R3, alors la fonction caractéristique du vecteur V est :

ΦV (u) = eiu′m− 1

2u′Γu.

En développant, on a donc :

ΦV (u) = exp

(i(u1 − u2 + u3)−

1

2(u21 + 2u1u2 + 2u1u3 + 2u22 + 4u2u3 + 3u23)

).

5. L’espérance conditionnelle de Z sachant (X,Y ) est :

E[Z|X,Y ] = E[Z] + ΓZ,(X,Y )Γ−1(X,Y )([X,Y ]′ − µ).

Or Γ(X,Y ) = Σ, donc son inverse a déjà été calculée. On obtient alors :

E[Z|X,Y ] = Y + 2.

6. Par le même raisonnement que ci-dessus, on en déduit que la variable aléatoire T = Z −E[Z|X,Y ] = Z − Y − 2 est indépendante de X et de Y . La variance de T est le résiduquadratique, c’est-à-dire :

s2 = Var(Z)− ΓZ,(X,Y )Γ−1(X,Y )Γ(X,Y ),Z = 1.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 165: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

161

7. On sait qu’on a la décomposition :

X = E[X|Y,Z] +W,

avec W ∼ N (0, v) indépendante du couple (Y,Z). Or le même calcul que ci-dessus donne :

E[X|Y,Z] =1

2Y +

3

2,

et la variance v de W est le résidu quadratique : v = 12 . Sachant que Y = 1 et Z = 2, la

variable aléatoire X suit donc une loi N (2, 1/2).

IV. Modèle épidémiologique

1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieuxest p = 1/3.

0 1 2 3

49

49

49

1

1

19

59

Figure A.4 – Graphe de transition pour le modèle épidémiologique

(a) – Si Xn = 0, personne n’est infecté le jour n, donc le jour suivant non plus. Ainsi p00 = 1et p0j = 0 pour tout j ∈ 1, 2, 3. En d’autres termes, l’état 0 est absorbant.

– Sachant Xn = 1 : puisque la personne infectée le jour n est guérie le lendemain, ona nécessairement Xn+1 ∈ 0, 1, 2. Plus précisément, la probabilité que Xn+1 = 0est la probabilité que la personne infectée n’ait rencontré aucune des deux autrespersonnes, ce qui arrive avec probabilité p10 = 2/3 × 2/3 = 4/9 ; la probabilité queXn+1 = 2 est la probabilité que la personne infectée ait rencontré chacune des deuxautres personnes, ce qui arrive avec probabilité p12 = 1/3 × 1/3 = 1/9 ; par suite, laprobabilité que Xn+1 = 1 est égale à :

p11 = 1− (p10 + p12) =4

9.

– Sachant Xn = 2, puisque les personnes infectées le jour n sont guéries le lendemain,on a nécessairement Xn+1 ∈ 0, 1. Plus précisément, la probabilité que Xn+1 = 0 estla probabilité que la personne saine ne rencontre aucune des deux personnes infectées,ce qui arrive avec probabilité p20 = 2/3× 2/3 = 4/9 ; la probabilité que Xn+1 = 1 estdonc p21 = 1− p20 = 5/9.

– Sachant Xn = 3, on a forcément Xn+1 = 0.

On en déduit la matrice de transition :

P =

1 0 0 049

49

19 0

49

59 0 0

1 0 0 0

.

Le graphe de transition est donné figure A.4.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 166: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

162 Annexe A. Annales

(b) La chaîne est indécomposable : il y a un état récurrent 0 et trois états transitoires1, 2, 3.

(c) Puisque la chaîne est indécomposable, il y a unicité de la loi stationnaire π. De plus,celle-ci est nulle pour les états transitoires, donc :

π = [1, 0, 0, 0].

On pouvait aussi obtenir ce résultat en résolvant le système linéaire πP = π. Cecisignifie que, quelque soit le nombre de personnes initialement infectées, on est presquesûr qu’au bout d’un certain temps, toute la population sera saine.

2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieuxest le paramètre p ∈]0, 1[. En notant q = (1− p), on obtient la matrice de transition :

P =

1 0 0 0q2 2pq p2 0q2 1− q2 0 01 0 0 0

.

Le raisonnement fait ci-dessus tient toujours donc l’unique loi stationnaire est encore π =[1, 0, 0, 0].

3. On suppose maintenant une population de N individus, avec taux de contact infectieuxp ∈]0, 1[. Sachant que Xn = i, on a forcément Xn+1 ∈ 0, . . . , N − i, ce qui expliquel’indicatrice dans la formule.On remarque aussi que la probabilité qu’une personne saine un jour le soit encore le lendemainest égale à la probabilité qu’elle ne rencontre aucune des i personnes infectées, ce qui arriveavec probabilité qi, puisque les rencontres sont indépendantes.Soit alors j ∈ 0, . . . , N − i : la probabilité de transition pij est la probabilité que parmi les(N − i) personnes saines, j soient infectées. Puisque les rencontres sont indépendantes et quel’infection arrive avec probabilité 1− qi, c’est exactement la probabilité qu’une loi binômialeB(N − i, 1 − qi) prenne la valeur j. Ceci donne bien :

pij =

(N − i

j

)(1− qi)jqi(N−i−j)

1i+j≤N.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 167: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

163

Université de Rennes 2Licence MASS 3Arnaud Guyader

Mercredi 16 Mai 2007Durée : 2 heures

Aucun document autorisé

Examen de Probabilités

I. Couple aléatoire (5 points)Soit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) = cx(y − x)e−y10<x≤y.

1. Soit V une variable aléatoire qui suit une loi exponentielle de paramètre λ. Rappeler sonmoment d’ordre n, c’est-à-dire E[V n].

2. Déterminer c pour que f soit effectivement une densité.

3. Calculer f(x|y), densité conditionnelle de X sachant Y = y.

4. En déduire que E[X|Y ] = Y/2.

5. Calculer f(y|x), densité conditionnelle de Y sachant X = x.

6. En déduire que E[Y |X] = X + 2.

7. Déduire des questions 4 et 6 les quantités E[X] et E[Y ].

II. Couple gaussien (5 points)Soit V = [X,Y ]′ un vecteur gaussien centré de matrice de covariance :

Γ =

[σ2X rσXσY

rσXσY σ2Y

].

1. Rappeler à quelle condition V admet une densité f(x, y) et dans ce cas donner sa formuleen fonction de σX , σY et r. On suppose cette condition vérifiée dans toute la suite.

2. Donner l’expression de l’espérance conditionnelle E[Y |X] en fonction de σX , σY et r.

3. On considère un vecteur V = [X,Y ]′ ayant pour densité :

∀(x, y) ∈ R2 f(x, y) =1

4πe−

x2

8− 5y2

8+xy

4

(a) Déterminer sa matrice de covariance Γ.

(b) Sachant x = 1, quelle est la loi de Y ?

(c) Sachant x = 1, en déduire un intervalle dans lequel se situe Y avec 95% de chances.

III. Espérance conditionnelle et indépendance (6 points)On considère trois variables aléatoires U , V et W indépendantes et suivant la même loi normalecentrée réduite N (0, 1).

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 168: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

164 Annexe A. Annales

1. On définit le vecteur aléatoire [X1,X2,X3]′ comme suit :

X1 = UX2 = U + VX3 = U + V +W

(a) Quelle est la loi du vecteur [X1,X2,X3]′ ?

(b) Déterminer E[X3|X1,X2]. Comparer à E[X3|X2].

(c) Expliquer le résultat de la question précédente par un dessin.

(d) Soit [X,Y,Z] un vecteur aléatoire. Commenter l’affirmation :

E[Z|X,Y ] = E[Z|Y ] ⇒ Z est indépendante de X.

2. On définit cette fois le vecteur aléatoire [X1,X2,X3]′ comme suit :

X1 = UX2 = U + VX3 = V

(a) Quelle est la loi du vecteur [X1,X2,X3]′ ?

(b) Déterminer E[X3|X1,X2]. Comparer à E[X3|X2].

(c) Expliquer le résultat de la question précédente par un dessin.

(d) Soit [X,Y,Z] un vecteur aléatoire. Commenter l’affirmation :

Z est indépendante de X ⇒ E[Z|X,Y ] = E[Z|Y ].

IV. Pile ou Face (4 points)On joue une suite infinie de Pile ou Face non biaisés : ceci fournit une suite de variables aléatoires(Xn)n≥0 indépendantes et identiquement distribuées avec P(Xn = P ) = P(Xn = F ) = 1/2.A partir de cette suite on considère la chaîne de Markov (Yn)n≥1 définie par : Y1 = (X0,X1),Y2 = (X1,X2), et de façon générale Yn = (Xn−1,Xn) pour tout n ≥ 1. Cette chaîne est donc àvaleurs dans l’espace d’états :

E = E1, E2, E3, E4 = (P,F ), (F,F ), (F,P ), (P,P ).

1. Donner la matrice et le graphe de transition de (Yn).

2. La chaîne est-elle irréductible, apériodique ?

3. Loi(s) stationnaire(s) ?

4. Retrouver le résultat de la question précédente en calculant directement la loi de Yn :

P(Yn) = [P(Yn = E1),P(Yn = E2),P(Yn = E3),P(Yn = E4)] .

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 169: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

165

Université de Rennes 2Licence MASS 3Arnaud Guyader

Mercredi 16 Mai 2007Durée : 2 heures

Aucun document autorisé

Examen de Probabilités

Corrigé

I. Couple aléatoireSoit (X,Y ) un couple aléatoire de densité jointe :

f(x, y) = cx(y − x)e−y10<x≤y.

1. Si V ∼ E(λ), alors E[V n] = n!/λn.

2. La constante c doit être positive pour que f soit positive. Plus précisément, il faut quel’intégrale double de f surR2 soit égale à 1. Or le théorème de Fubini-Tonelli permet d’écrire :

∫∫

R

2

f(x, y) dx dy =

∫ +∞

0

(∫ y

0cx(y − x)e−y dx

)dy,

ce qui donne :

∫∫

R

2

f(x, y) dx dy = c

∫ +∞

0

[yx2

2− x3

3

]y

0

e−y dy =c

6

∫ +∞

0y3e−y dy,

et on retrouve le moment d’ordre 3 d’une loi exponentielle de paramètre 1 :∫∫

R

2

f(x, y) dx dy =c

6E[V 3] = c.

Il faut donc que c soit égale à 1 pour que f soit une densité de probabilité.

3. Pour déterminer f(x|y), on commence par calculer la loi marginale de Y :

f(y) =

R

f(x, y) dx = e−y1y>0

∫ y

0x(y − x) dx =

y3

6e−y1y>0,

c’est-à-dire que Y ∼ Γ(4, 1). On a alors :

f(x|y) = f(x, y)

f(y)=

6x(y − x)

y310<x≤y.

4. Ceci permet de calculer l’espérance de X sachant Y = y > 0 :

E[X|Y = y] =

R

xf(x|y) dx =6

y3

∫ y

0x2(y − x) dx =

y

2,

d’où on déduit de façon plus générale que E[X|Y ] = Y/2.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 170: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

166 Annexe A. Annales

5. La densité de X est :

f(x) =

R

f(x, y) dy = x1x>0

∫ +∞

x(y − x)e−y dy = x1x>0

∫ +∞

0ue−u−x du,

grâce au changement de variable u = y − x, d’où :

f(x) = xe−x1x>0

∫ +∞

0ue−u du = xe−x

1x>0E[V ] = xe−x1x>0,

c’est-à-dire que X ∼ Γ(2, 1). On a donc :

f(y|x) = f(x, y)

f(x)= (y − x)e−(y−x)

10<x≤y.

Autrement dit, sachant X = x, Y suit une loi Γ(2, 1) translatée sur l’intervalle [x,+∞[.

6. Pour tout x > 0, on a donc E[Y |X = x] = x + E[Γ(2, 1)] = x + 2, résultat que l’on peutretrouver par le calcul :

E[Y |X = x] =

∫ +∞

xy(y − x)e−(y−x) dy =

∫ +∞

0(u+ x)ue−u du,

qu’on sépare en deux intégrales :

E[Y |X = x] =

∫ +∞

0u2e−u du+ x

∫ +∞

0ue−u du,

et on reconnaît les moments d’une loi exponentielle de paramètre 1 :

E[Y |X = x] = E[V 2] + xE[V ] = 2 + x.

On en déduit que E[Y |X] = X + 2.

7. Des questions 4 et 6, en prenant les espérances, on tire le système d’équations linéaires :

E[X] = E[Y ]/2E[Y ] = E[X] + 2

E[X] = 2E[Y ] = 4

Vérification : rappelons que si T ∼ Γ(n, λ), alors E[T ] = nλ. Or on a vu plus haut queX ∼ Γ(2, 1) et Y ∼ Γ(4, 1), donc on retrouve bien E[X] = 2 et E[Y ] = 4.

II. Couple gaussienSoit V = [X,Y ]′ un vecteur gaussien centré de matrice de covariance :

Γ =

[σ2X rσXσY

rσXσY σ2Y

].

1. Le vecteur gaussien V admet une densité sur R2 si et seulement si sa matrice de dispersionest inversible, c’est-à-dire ssi :

detΓ = (1− r2)σ2Xσ2

Y 6= 0.

Dans ce cas, on a :

f(x, y) =1

2πσXσY√1− r2

e−σ2

Yx2−2rσXσY xy+σ2

Xy2

2σ2X

σ2Y

(1−r2)

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 171: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

167

2. L’espérance conditionnelle de Y sachant X est :

E[Y |X] =Cov(X,Y )

Var(X)X =

rσXσYσ2X

X =rσYσX

X.

3. On considère un vecteur gaussien centré V = [X,Y ]′ ayant pour densité :

f(x, y) =1

4πe−

x2

4+ 5y2

4−xy

2

(a) Par identification des coefficients avec ceux de la question 1, on obtient :

Γ =

[5 11 1

].

Autrement dit le coefficient de corrélation linéaire r vaut 1/√5.

(b) On a la décomposition : Y = E[Y |X] + W , avec W normale centrée indépendante deX et de variance :

σ2 = σ2Y (1− r2) =

4

5.

Par ailleurs on a E[Y |X] = X5 . Donc sachant x = 1, Y suit une loi normale N

(15 ,

45

).

(c) On sait que, avec probabilité 0.95, une variable aléatoire suivant une loi normale tombeà une distance inférieure à deux fois l’écart-type par rapport à sa moyenne. On en déduitque, sachant x = 1, on a avec 95% de chances :

Y ∈[1

5− 4√

5,1

5+

4√5

].

III. Espérance conditionnelle et indépendanceOn considère trois variables aléatoires U , V et W indépendantes et suivant la même loi normalecentrée réduite N (0, 1).

1. On définit le vecteur aléatoire [X1,X2,X3]′ comme suit :

X1 = UX2 = U + VX3 = U + V +W

(a) Le vecteur [X1,X2,X3]′ est gaussien en tant que transformée linéaire d’un vecteur gaus-

sien :

X1

X2

X3

=

1 0 01 1 01 1 1

UVW

X1

X2

X3

∼ N

000

,

1 1 11 2 21 2 3

.

(b) On en déduit l’espérance conditionnelle de X3 sachant X1 et X2 :

E[X3|X1,X2] = ΓX3,(X1,X2)Γ−1X1,X2

[X1

X2

]= X2.

On trouve aussi :

E[X3|X2] =Cov(X2,X3)

Var(X2)X2 = X2,

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 172: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

168 Annexe A. Annales

c’est-à-dire que : E[X3|X1,X2] = E[X3|X2]. Noter qu’on peut retrouver ces résultats enconsidérant directement U , V et W :

E[X3|X1,X2] = E[U+V+W |U,U+V ] = U+V+E[W |U,U+V ] = U+V+E[W ] = U+V,

puisque W est indépendante de U et V . De même :

E[X3|X2] = E[U + V +W |U + V ] = U + V + E[W |U + V ] = U + V.

U

V

W

X1

X3

X2 = E[X3|X2] = E[X3|X1, X2]

Figure A.5 – Interprétation géométrique de l’égalité E[X3|X1,X2] = E[X3|X2].

(c) Puisque les variables sont centrées et de carrés intégrables, l’espérance conditionnelle deX3 sachant (X1,X2) correspond à la projection orthogonale de X3 sur le plan vectorielengendré par X1 et X2. La figure A.5 explique alors pourquoi dans notre cas particulieron a l’égalité : E[X3|X1,X2] = E[X3|X2].

(d) Cette affirmation est fausse puisque si on prend [X,Y,Z] = [X1,X2,X3], X1 et X3 nesont pas indépendantes (cf. Cov(X1,X3) = 1) mais E[X3|X1,X2] = E[X3|X2].

2. On définit cette fois le vecteur aléatoire [X1,X2,X3]′ comme suit :

X1 = UX2 = U + VX3 = V

(a) Le vecteur [X1,X2,X3]′ est gaussien lui aussi :

X1

X2

X3

∼ N

000

,

1 1 01 2 10 1 1

.

(b) On a cette fois :

E[X3|X1,X2] = X2 −X1 = X3 6= E[X3|X2] =X2

2.

(c) On voit que X3 = (U + V ) − U = X2 − X1, donc X3 appartient au plan vectorielengendré par X1 et X2. Par conséquent sa projection orthogonale sur ce plan est lui-même : ceci explique géométriquement l’égalité E[X3|X1,X2] = X3. Pour la relationE[X3|X2] =

X22 , voir figure A.6.

(d) Cette affirmation est fausse aussi puisque si on prend [X,Y,Z] = [X1,X2,X3], X1 = Uet X3 = V sont indépendantes mais E[X3|X1,X2] 6= E[X3|X2].

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 173: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

169

X1 = U

X3 = V

X2 = U + V

E[X3|X2] =X2

2

Figure A.6 – Interprétation géométrique de l’inégalité E[X3|X1,X2] = X3 6= E[X3|X2] =X22 .

IV. Pile ou FaceLa chaîne de Markov (Yn)n≥1 est à valeurs dans l’espace d’états :

E = E1, E2, E3, E4 = (P,F ), (F,F ), (F,P ), (P,P ).

1. La matrice de transition de la chaîne est :

P =

0 1/2 1/2 00 1/2 1/2 0

1/2 0 0 1/21/2 0 0 1/2

,

et le graphe de transition est représenté figure A.7.

PF

FF

PP

FP

Figure A.7 – Graphe de transition pour le jeu de Pile ou Face.

2. La chaîne est irréductible puisque tous les états communiquent entre eux. Elle est aussiapériodique, puisque E2 = (F,F ) l’est (on peut boucler sur cet état) et que la chaîne estirréductible.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 174: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

170 Annexe A. Annales

3. On trouve pour unique loi stationnaire la loi uniforme sur les quatre états :

π =

[1

4,1

4,1

4,1

4

],

ou bien en résolvant le système d’équations πP = π, ou bien en remarquant que la matriceP est bistochastique.

4. Puisque Yn = (Xn−1,Xn), avec Xn−1 et Xn indépendantes, on a par exemple :

P(Yn = E1) = P((Xn−1,Xn) = (P,F )) = P(Xn−1 = P )P(Xn = F ) =1

4,

et même chose pour E2, E3 et E4. Ainsi, pour tout n ≥ 1, on a : P(Yn) = π. En particulierP(Y1) = P(Y2) = π. Mais par définition de la matrice de transition P , on sait qu’on a aussiP (Y2) = P(Y1)P , c’est-à-dire que πP = π, et π est donc une loi d’équilibre de la chaîne (Yn).Puisque cette chaîne est irréductible, c’est même l’unique loi d’équilibre. De plus, le calculde la loi de Yn montre que cette chaîne est tout le temps à l’équilibre.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 175: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

171

Université de Rennes 2Licence MASS 3Nicolas Jégou

Mercredi 7 Mai 2008Durée : 2 heures

Aucun document autorisé

Examen de Probabilités

I. Couple aléatoireOn considère le couple aléatoire (X,Y ) de densité la fonction f définie sur R

2 par :

f(x, y) =

2 si 0 ≤ x ≤ y ≤ 10 sinon

1. Représenter f et vérifier qu’il s’agit bien d’une fonction de densité.

2. Les variables X et Y sont-elles indépendantes ?

3. Déterminer les lois marginales puis calculer E[X] et E[Y ].

4. Calculer les lois conditionnelles f(y|x) et f(x|y).5. Calculer E[X|Y ].

6. En utilisant le résultat précédent et la valeur de E[Y ] de la question 3, retrouver la valeurde E[X].

II. Lois exponentiellesSoit X et Y deux variables aléatoires indépendantes suivant une loi exponentielle de même para-mètre λ > 0.

1. Quelle est la loi jointe fX,Y du couple (X,Y ) ?

2. Déterminer la loi jointe fV,W du couple (V,W ) défini par :

V = X + YW = X

3. En déduire la densité de V .

4. Calculer f(w|v). Quelle loi reconnaît-on ?

III. Vecteur gaussienSoit X = [X1,X2,X3]

′ un vecteur gaussien centré et de matrice de covariance :

Γ =

4 1 −11 2 0−1 0 1

.

1. Quelles sont les lois marginales de X ?

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 176: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

172 Annexe A. Annales

2. Certaines composantes de X sont-elles indépendantes deux à deux ? Si oui, lesquelles ?Certaines composantes de X sont-elles orthogonales deux à deux ? Si oui, lesquelles ?

3. Quelle est la loi de (X1,X2) ?

4. Sans calcul, déterminer E[X2|X3] et E[(X2 − E[X2|X3])2].

5. Calculer E[X1|X3] et E[(X1 − E[X1|X3])2].

6. Calculer E[X1|X2,X3] et E[(X1 − E[X1|X2,X3])2].

7. Quelle est la loi de X1 sachant (X2 = x2,X3 = x3) ?

8. On pose S = E[X21 |X2,X3] et S le résultat de la régression linéaire de X2

1 sur (X2,X3).Justifier que E[(X2

1 − S)2] ≤ E[(X21 − S)2].

IV. Chaîne de MarkovSoit l’espace d’états E = 1, 2, 3, 4 d’une chaîne de Markov homogène.

1. Compléter la matrice suivante pour qu’elle soit une matrice de transition :

P =

. 12 0 0

. 23 0 0

0 . 12

12

14 . 0 1

2

2. Représenter le graphe associé.

3. La chaîne est-elle irréductible ? Indécomposable ?

4. Déterminer la (ou les) loi(s) stationnaire(s).

5. On considère qu’au temps 0, on est dans l’état 3. Pour un grand nombre d’unité de tempsn, quelles sont les probabilités qu’on soit dans chacun des quatre états ?

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 177: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

173

Université de Rennes 2Licence MASS 3Nicolas Jégou

Mercredi 7 Mai 2008Durée : 2 heures

Aucun document autorisé

Examen de Probabilités

Corrigé

I. Couple aléatoire

1. La densité est représentée en gras sur la figure suivante :

2

1

X

Y

1

Figure A.8 – Représentation de la densité.

f est bien une densité car f ≥ 0 et∫R2 f(x, y)dxdy, qui correspond au volume représenté,

vaut 1.

2. Les variables X et Y ne sont pas indépendantes. En effet, le support de (X,Y ) est triangulairealors que le produit cartésien des supports de X et Y est [0, 1]2.

3. Soit 0 ≤ x ≤ 1, on a :

f(x) =

R

f(x, y)dy =

∫ 1

x2dy = 2(1 − x).

On calcule ainsi :

E[X] =

∫ 1

02x(1 − x)dx =

1

3.

Soit maintenant 0 ≤ y ≤ 1, on a :

f(y) =

R

f(x, y)dx =

∫ y

02dx = 2y.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 178: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

174 Annexe A. Annales

Ainsi :

E[Y ] =

∫ 1

02y2dy =

2

3.

4. Soit x ∈ [0, 1] fixé. Pour x ≤ y ≤ 1, on a :

f(y|x) = f(x, y)

f(x)=

2

2(1− x)=

1

1− x.

Finalement :

f(y|x) = 1

1− x1x≤y≤1(y),

c’est-à-dire que, sachant X = x, Y suit une loi uniforme sur [x, 1].Soit maintenant y ∈ [0, 1] fixé. Pour tout 0 ≤ x ≤ y, on a :

f(x|y) = f(x, y)

f(y)=

2

2y=

1

y.

Autrement dit, sachant Y = y, X suit une loi uniforme sur [0, y].

5. Pour y fixé dans [0, 1], calculons d’abord E[X|Y = y] :

E[X|Y = y] =

R

x1

y10≤x≤y(x)dx =

1

y

∫ y

0xdx =

y

2.

Ainsi E[X|Y ] = Y2 . Remarquons qu’on avait directement ce résultat en utilisant la question

précédente (moyenne d’une loi uniforme).

6. On sait que E[E[X|Y ]] = E[X]. Or la question précédente donne E[X] = E[Y ]2 et on retrouve :

E[X] =1

3.

II. Lois exponentielles

1. X et Y sont indépendantes, la densité du couple (X,Y ) est donc le produit des densités deX et de Y :

fX,Y (x, y) = λe−λx1[0,+∞[(x)λe

−λy1[0,+∞[(y) = λ2e−λ(x+y)

1[0,+∞[2(x, y).

2. Le changement de variable proposé est linéaire et bijectif avec comme bijection réciproque :

X = WY = V −W

Le support de (X,Y ) est D = R2+ ce qui s’écrit pour (V,W ) : ∆ =

(v,w) ∈ R2 : 0 ≤ w ≤ v

.

On introduit le C1-difféomorphisme :

φ :

∆ −→ D

(v,w) 7−→

x = wy = v − w

Alors :fV,W (v,w) = fX,Y (φ(v,w))|detJφ(v,w)|.

On en déduit :fV,W (v,w) = λ2e−λv

10≤w≤v(v,w).

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 179: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

175

3. Soit v > 0 fixé, on a :

f(v) =

R

f(v,w)dw =

∫ v

0λ2e−λvdw = λ2ve−λv .

4. On en déduit :

f(w|v) = f(v,w)

f(v)=

λ2e−λv10≤w≤v(v,w)

λ2ve−λv10≤v

=1

v10≤w≤v(w).

Ainsi, sachant v > 0 fixé, W suit une loi uniforme sur [0, v].

III. Vecteur gaussien

1. X est gaussien donc toutes ses composantes sont gaussiennes. Elles sont par ailleurs toutescentrées et les variances se lisent sur la diagonale de Γ. On a donc :

X1 ∼ N (0, 4) X2 ∼ N (0, 2) X3 ∼ N (0, 1).

2. X étant gaussien, l’indépendance de deux variables équivaut à leur décorrelation. Nous avonsdonc X2 et X3 indépendantes. Les composantes étant centrées, la non-corrélation équivautà l’orthogonalité. Les deux variables précédentes sont donc aussi orthogonales.

3. On peut poser [X1,X2]′ = AX avec

A =

[1 0 00 1 0

].

Ainsi [X1,X2]′ est gaussien comme transformation affine d’un vecteur gaussien. Il est bien

sûr centré et les éléments de sa matrice de covariance sont donnés dans Γ :

[X1,X2] ∼ N([0, 0]′,

[4 11 2

]).

4. Calculer E[X2|X3] revient à projeter orthogonalement X2 sur H = Vect(1,X3) or X2 estorthogonale à 1 car c’est une variable centrée et on a vu que X2 est aussi orthogonale à X3.On a donc E[X2|X3] = 0 et la variance résiduelle E[(X2 −E[X2|X3])

2] est égale à la variancede X2, soit E[(X2 − E[X2|X3])

2] = 2.

5. On obtient :

E[X1|X3] = E[X1] +Cov(X1,X3)

Var(X3)(X3 − E(X3)) = −X3

et

E[(X1 − E[X1|X3])2] = Var(X1)−

Cov2(X1,X3)

Var(X3)= 3.

6. On obtient :

E[X1|X2,X3] = E[X1] + ΓX1,(X2,X3)Γ−1X2,X3

[X2 − E[X2]X3 − E[X3]

]

= [1,−1]

[2 00 1

]−1 [X2

X3

]

= [1,−1]

[1/2 00 1

] [X2

X3

]

=1

2X2 −X3.

Espérance conditionnelle & Chaînes de Markov Arnaud Guyader - Rennes 2

Page 180: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

176 Annexe A. Annales

De plus :

E[(X1 − E[X1|X2,X3])2] = ΓX1 − ΓX1,(X2,X3)Γ

−1X2,X3

(ΓX1,(X2,X3)

)′

= 4− [1,−1]

[1/2 00 1

] [1−1

]

= 2.5.

7. On a la décomposition orthogonale X1 = E[X1|X2,X3] + W . La variable W est centrée etde variance :

Var(W ) = E[(X1 − E[X1|X2,X3])2] = 2.5.

Par ailleurs, comme W est indépendante de (X2,X3), sachant (X2,X3) = (x2, x3), on a :

X1 ∼ N (E[X1|x2, x3],Var(W )) = N(1

2x2 − x3, 2.5

).

8. S est le projeté orthogonal de X21 sur L2(X2,X3), espace des variables aléatoires fonctions de

X2 et X3 et de carré intégrable. S est le projeté orthogonal de X21 sur H = Vect(X2,X3), qui

est un sous-espace vectoriel de L2(X2,X3). Dans le cas gaussien, ces deux projetés coïncidentmais X2

1 n’étant pas gaussienne, ce n’est pas le cas ici. On a donc :

E[(X21 − S)2] ≤ E[(X2

1 − S)2].

IV. Chaîne de Markov

1. On complète la matrice de sorte que la somme des lignes soit égale à 1 :

P =

12

12 0 0

13

23 0 0

0 0 12

12

14

14 0 1

2

2. L’ensemble 1, 2 est clos et irréductible alors que l’ensemble 3, 4 est transitoire. La chaîneest donc indécomposable avec :

R ∪ T = 1, 2 ∪ 3, 4 .

3. La chaîne admet une loi stationnaire unique µ, solution de µP = µ. Après calcul, on obtient :

µ =

[2

5,3

5, 0, 0

].

4. Quelle que soit la loi initiale, on a convergence de la loi de (Xn) vers µ. Ainsi, les probabilitésqu’on soit pour n grand dans les états 3 et 4 sont nulles alors que celles qu’on soit dans lesétats 1 et 2 sont respectivement 2/5 et 3/5.

“Si j’étais pas tellement contraint, obligé pour gagner ma vie, je vous le dis tout de suite,je supprimerais tout. Je laisserais pas passer plus une ligne.”Louis-Ferdinand Céline, Voyage au bout de la nuit, préface à la 2ème édition, 1949.

Arnaud Guyader - Rennes 2 Espérance conditionnelle & Chaînes de Markov

Page 181: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

Bibliographie

[1] Nicolas Bouleau. Probabilités de l’ingénieur. Hermann, 2002.

[2] Yves Ducel. Introduction à la théorie mathématique des probabilités. Ellipses, 1998.

[3] Rick Durrett. Essentials of Stochastic Processes. Springer Texts in Statistics. Springer-Verlag,New York, 1999.

[4] Dominique Foata et Aimé Fuchs. Calcul des probabilités. Dunod, 1998.

[5] Dominique Foata et Aimé Fuchs. Processus stochastiques. Dunod, 2002.

[6] Gilles Pagès et Claude Bouzitat. En passant par hasard... Les probabilités de tous les jours.Vuibert, 2000.

[7] Eva Cantoni, Philippe Huber et Elvezio Ronchetti. Maîtriser l’aléatoire (Exercices résolus deprobabilités et statistique). Springer, 2006.

[8] Pierre-André Cornillon et Eric Matzner-Lober. Régression avec R. Springer, Paris, 2010.

[9] Didier Dacunha-Castelle et Marie Duflo. Probabilités et statistiques 2. Problèmes à tempsmobile. Masson, 1993.

[10] Didier Dacunha-Castelle et Marie Duflo. Probabilités et statistiques 1. Problèmes à temps fixe.Masson, 1994.

[11] Philippe Barbe et Michel Ledoux. Probabilités. Belin, 1998.

[12] Guy Auliac, Christiane Cocozza-Thivent, Sophie Mercier et Michel Roussignol. Exercices deprobabilités. Cassini, 1999.

[13] Michel Benaïm et Nicole El Karoui. Promenade aléatoire. Editions de l’Ecole Polytechnique,2004.

[14] Valérie Girardin et Nikolaos Limnios. Probabilités. Vuibert, 2001.

[15] Jean Jacod et Philip Protter. L’essentiel en théorie des probabilités. Cassini, 2003.

[16] Dominique Bakry, Laure Coutin et Thierry Delmotte. Chaînes de Markov finies. Formatélectronique, 2004.

[17] Marie Cottrell, Valentine Genon-Catalot, Christian Duhamel et Thierry Meyre. Exercices deprobabilités. Cassini, 1999.

[18] Jean-Pascal Ansel et Yves Ducel. Exercices corrigés en théorie des probabilités. Ellipses, 1996.

[19] Geoffrey R. Grimmett and David R. Stirzaker. One Thousand Exercises in Probability. OxfordUniversity Press, New York, 2001.

[20] Geoffrey R. Grimmett and David R. Stirzaker. Probability and Random Processes. OxfordUniversity Press, New York, 2001.

[21] Michel Métivier. Probabilités : dix leçons d’introduction. Ellipses, 1987.

[22] Jacques Neveu. Probabilités. Editions de l’Ecole Polytechnique, 1996.

[23] James R. Norris. Markov Chains. Cambridge University Press, 1997.

177

Page 182: Espérance conditionnelle Chaînes de Markov...2.2.1 Conditionnement pour un couple gaussien . . . . . . . . . . . . . . . . . . . 78 2.2.2 Hyperplan de régression . . . . . . . .

[24] Jean-Yves Ouvrard. Probabilités 1. Cassini, 1998.

[25] Sheldon M. Ross. Initiation aux probabilités. Presses polytechniques et universitaires ro-mandes, 1987.

[26] Bernard Ycart. Chaînes de Markov. Cahiers de Mathématiques Appliquées, CMA 11, 2004.

[27] Bernard Ycart. Vecteurs et suites aléatoires. Cahiers de Mathématiques Appliquées, 2004.