Cours de Probabilités - MDI 104–114

211
Cours de Probabilités - MDI 104–114 P. Bianchi, T. Bonald, L. Decreusefond, G. Fort, J. Najim 2017–2018

Transcript of Cours de Probabilités - MDI 104–114

Page 1: Cours de Probabilités - MDI 104–114

Cours de Probabilités - MDI 104–114

P. Bianchi, T. Bonald, L. Decreusefond, G. Fort, J. Najim

2017–2018

Page 2: Cours de Probabilités - MDI 104–114
Page 3: Cours de Probabilités - MDI 104–114

Table des matières

Introduction 7

Guide de lecture 11

1. Evénements 131.1. Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2. Probabilités sur un espace discret . . . . . . . . . . . . . . . . . . . . . . . 141.3. Conditionnement et indépendance . . . . . . . . . . . . . . . . . . . . . . . 181.4. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2. Variables aléatoires discrètes 272.1. Loi d’une variable discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2. Indépendance des v.a. discrètes . . . . . . . . . . . . . . . . . . . . . . . . 292.3. Espérance, moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.4. Fonction génératrice d’une v.a. à valeurs entières . . . . . . . . . . . . . . 382.5. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3. Chaînes de Markov 473.1. Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3. Matrice de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4. Graphe de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.5. Irréductibilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.6. Périodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.7. Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.8. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4. Mesures et intégration 694.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.2. Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.3. Fonctions mesurables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.4. Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764.5. Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854.6. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

5. Variables et vecteurs aléatoires réels 1115.1. Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1115.2. Variables aléatoires réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.3. Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

3

Page 4: Cours de Probabilités - MDI 104–114

Table des matières

5.4. Changement de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.5. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

6. Loi conditionnelle 1496.1. Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1506.2. Calculs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1526.3. Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1556.4. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

7. Fonction caractéristique 1617.1. Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1617.2. Fonctions caractéristiques de v.a. usuelles . . . . . . . . . . . . . . . . . . 1647.3. Caractérisation de la loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1667.4. Caractérisation de l’indépendance . . . . . . . . . . . . . . . . . . . . . . . 1667.5. Calcul de moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1677.6. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

8. Vecteurs gaussiens 1738.1. Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1738.2. Définition, propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1738.3. Caractérisation de l’indépendance . . . . . . . . . . . . . . . . . . . . . . . 1758.4. Stabilité par transformation affine . . . . . . . . . . . . . . . . . . . . . . . 1768.5. Somme de vecteurs gaussiens indépendants . . . . . . . . . . . . . . . . . . 1778.6. La loi d’un vecteur gaussien admet-elle une densité ? . . . . . . . . . . . . 1788.7. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

9. Convergences 1839.1. Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1839.2. Limite centrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1839.3. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

10.Simulation 18710.1. Générateurs de nombres aléatoires . . . . . . . . . . . . . . . . . . . . . . . 18710.2. Méthode d’inversion de la fonction de répartition . . . . . . . . . . . . . . 18910.3. Méthode du rejet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19110.4. Méthodes de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 19310.5. Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19510.6. Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

Annexes 199

A. Ensembles 201A.1. Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . 201A.2. Espaces d’états dénombrables . . . . . . . . . . . . . . . . . . . . . . . . . 203

B. Notions utiles d’analyse 205B.1. Limite supérieure et limite inférieure . . . . . . . . . . . . . . . . . . . . . 205B.2. Séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

4

Page 5: Cours de Probabilités - MDI 104–114

Table des matières

B.3. Convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

5

Page 6: Cours de Probabilités - MDI 104–114
Page 7: Cours de Probabilités - MDI 104–114

Notations

⊥⊥ Indépendance d’événement, indépendance de variables aléatoires.( · )T Transposée d’une matrice ou d’un vecteur. Composition.|Ω| Cardinal d’un ensemble Ω.an ↑ a La suite réelle (an)n est croissante et converge vers a.an ↓ a La suite réelle (an)n est décroissante et converge vers a.An ↑ A La suite d’ensembles (An)n est croissante et converge vers A

i.e., ∪nAn = A.An ↓ A La suite d’ensembles (An)n est décroissante et converge vers A

i.e., ∩nAn = A.det Déterminant.In Matrice identité de taille n.P(Ω) ou 2Ω Tribu des parties sur Ω.Tr Trace.x ∨ y Maximum de x et de y.x ∧ y Minimum de x et de y.argminx∈C f(x) La valeur de la variable x (supposée atteinte et unique)

en laquelle f est minimale sur C.

7

Page 8: Cours de Probabilités - MDI 104–114
Page 9: Cours de Probabilités - MDI 104–114

Introduction

Les premières formalisations des probabilité datent du XVIIIe siècle avec les travaux deJacob Bernoulli (1713) et de Abraham de Moivre (1718). La probabilité d’un événement yétait définie comme le rapport du nombre de cas favorables sur le nombre total de cas.Au début du XIXe siècle, les « probabilités géométriques » firent leur apparition. Dans cecadre, la probabilité d’un événement s’exprime comme un rapport de volumes ou d’aires.Ces approches permettaient de faire bon nombre de calculs mais butaient sur certainsparadoxes.

Les probabilités sont au départ, une tentative de représentation mathématique de l’incertain.Elles doivent être tout à la fois suffisamment formalisées pour permettre des calculs justeset rigoureux et garder une connexion forte et immédiate avec les phénomènes « physiques »analysés. Cette tension a longtemps posé des problèmes. Notamment, à la fin du XIXe,se posait le problème des événements « presque certains » ou « presque impossibles » :y-a-t’il un seuil en dessous un événement de probabilité inférieure à ce seuil ne peut seréaliser ?

Au début du XXe, David Hilbert assigna aux mathématiciens, 23 problèmes, ou plutôt 23défis, pour les années à venir. Parmi ceux-ci figurait l’axiomatisation de la « physique » parlaquelle il fallait entendre l’axiomatisation des probabilités.

Le formalisme correct ne se fit jour qu’en 1930 dans les travaux d’Andreï Kolmogorov, quiréussit la synthèse des réflexions de Émile Borel, Jacques Hadamard, Maurice Fréchet etPaul Lévy entre autres.

Le concept de mesure permet d’avoir une vision unifiée des probabilités discrètes et desprobabilités dites « continues ». Le vocabulaire de l’intégration permet de simplifierla présentation des différentes notions probabilistes. Par ailleurs, ainsi que l’illustre ledeuxième paradoxe de Bertrand, la modélisation de certains phénomènes même simplesimpose de comprendre finement les liens entre théorie et interprétation physique. Enfin, lasimulation, outil indispensable tellement est grande la complexité des systèmes, requiertde « construire » des variables et des processus aléatoires. Tout cela ne peut se faire sansune solide compréhension de la théorie sous-jacente.

9

Page 10: Cours de Probabilités - MDI 104–114

Table des matières

É. Borel (1871-1956), M. Fréchet (1878-1973)

J. Hadamard (1865-1963), P. Lévy (1886-1971)

A. Kolmogorov (1903-1987) (DR)

Ce document garde les traces de ses précédentes versions avec un chapitre sur les probabi-lités discrètes. Comme ces notions sont supposées connues, elles ont été mises à titre derappel et pour fixer les notations.

10

Page 11: Cours de Probabilités - MDI 104–114

Guide de lecture

Ce support de cours est destinée à plusieurs populations d’étudiants qui se distinguent parleur prérequis en mathématiques générales et en probabilités. La lecture n’est donc pas lamême pour tous.

Pour ceux qui connaissent déjà les probabilités discrètes, le cheminement normal du cours(et donc de votre lecture) est le suivant :

— Chaînes de Markov, chapitre 3— Mesure et intégration, chapitre 4— Variables et vecteurs aléatoires, chapitre 5— Loi conditionnelle, chapitre 6— Fonctions caractéristiques, 7— Vecteurs gaussiens, 8

Les deux chapitres 9 et 10 peuvent être abordés avant celui sur les fonctions caractéristiquesou en fin de programme après les vecteurs gaussiens.

Avertissement : Le lecteur pressé peut être tenté de sauter le chapitre « mesures etintégration ». ECela peut se faire en première lecture mais les renvois à ce chapitre tant dupoint de vue des notations que des concepts sont fréquents. Ne pas le lire risque d’obscurcirvotre compréhension tant du cours de probabilités que du cours d’analyse MDI 103 dontil constitue le fondement.

Pour ceux qui ne maîtrisent pas les manipulations de base sur les ensembles, il est recom-mandé de se référer à l’annexe A. Les résultats prérequis d’analyse générale notamment surles séries sont accessibles dans l’annexe B. Les exercices des chapitres sur les probabilitésdiscrètes et la théorie de la mesure sont tous corrigés sur la version en ligne de cet opus,accessible depuis le site pédagogique.

11

Page 12: Cours de Probabilités - MDI 104–114
Page 13: Cours de Probabilités - MDI 104–114

1. Evénements

1.1. Définitions

Une expérience aléatoire est une expérience pouvant conduire à plusieurs résultats possibles.Formellement, une expérience aléatoire se décrit par la donnée de l’ensemble Ω des résultatspossibles. L’ensemble Ω est appelé l’univers ou l’espace des états.

Traditionnellement, un résultat possible de l’expérience est noté ω. C’est un élément de l’uni-vers Ω. Un tel élément ω ∈ Ω est parfois appelé une épreuve ou une issue.

Exemple 1.– a) Jet d’un dé : Ω = 1, 2, 3, 4, 5, 6.b) Deux lancers consécutifs d’une pièce. L’univers est Ω = PP, PF, FP, FF où P et F

signifient respectivement pile et face.c) Durée de fonctionnement sans panne d’une machine : Ω = [0,+∞[.d) Valeur d’un signal continu sur un intervalle de temps [t0, t1] : Ω = Cb([t0, t1]) est

l’ensemble des fonctions continues de [t0, t1] dans R.

Un événement aléatoire est un événement dont la réalisation dépend du résultat del’expérience. Formellement, un événement aléatoire se décrit comme un sous-ensemblede Ω.

Exemple 2.– Considérons à nouveau les exemples précédents.a) Ω = 1, 2, · · · , 6. L’événement A =« Le résultat est pair » s’identifie au sous-ensembleA = 2, 4, 6.b) Ω = PP, PF, FP, FF. L’événement A =« on obtient deux faces identiques » s’iden-

tifie au sous-ensemble A = PP, FF.c) Ω = [0,∞[. L’événement A =« La machine fonctionne au moins x unités de temps »

s’identifie à A = [x,+∞[.d) Ω = Cb([t0, t1]). L’événement A =« L’amplitude du signal n’excède pas α » s’écritA = ω ∈ Ω : supt∈[t0,t1] |ω(t) | ≤ α.

Pour une issue donnée ω ∈ Ω, on dit qu’un événement A est réalisé si ω ∈ A.L’espace d’état Ω est aussi appelé l’ événement certain : il est réalisé quelle que soit l’issue.L’ensemble vide ∅ est aussi appelé l’ événement impossible : il n’est jamais réalisé.

La notation suivante sera d’un usage constant.

13

Page 14: Cours de Probabilités - MDI 104–114

1. Evénements

Définition 1.1. Soit Ω un espace d’état et A ⊂ Ω un ensemble. La fonctionindicatrice de A est définie par :

1A : Ω → 0, 1ω 7→ 1 si ω ∈ A, 0 sinon.

L’exercice 1.1 fournit quelques propriétés importantes de l’indicatrice.

1.2. Probabilités sur un espace discret

Comme nous l’avons vu au début de ce chapitre, beaucoup d’expériences aléatoires peuventêtre décrites par un univers Ω fini ou dénombrable. Citons comme exemples immédiats letirage à pile ou face (Ω = P, F), le lancer de dé (Ω = 1, · · · , 6), le nombre de requêtesreçues par un serveur en une unité de temps (Ω = N), etc.

1.2.1. Définition

Définition 1.2. Une mesure µ, sur un ensemble E au plus dénombrable, est uneapplication de P(E), l’ensemble des parties de E, dans R qui satisfait les deuxpropriétés suivantes :

— µ(∅) = 0,— pour toute famille (Aj, j ∈ N∗) de parties deux à deux disjointes de E,

µ(∞⋃

j=1Aj) =

+∞∑j=1

µ(Aj). (1.1)

Les parties de E s’appellent plus souvent des « événements ».

Définition 1.3. Une mesure µ est dite mesure de probabilité (ou probabilité)lorsque µ(E) = 1. Dans ce cas, on la note usuellement P et non µ.

1.2.2. Propriétés générales

Proposition 1.1. Soient A, B, (An)n∈N∗ des ensembles.a) P(Ac) = 1 − P(A) .b) P(A ∪B) = P(A) + P(B) − P(A ∩B) .c) Si A ⊂ B, alors P(A) ≤ P(B) .

14

Page 15: Cours de Probabilités - MDI 104–114

1.2. Probabilités sur un espace discret

d) Si (An)n∈N∗ est une partition de Ω, alors

P(B) =∞∑

n=1P(An ∩B) .

e) Si An ↑ A, alors P(A) = limn→∞ P(An) .Si An ↓ A, alors P(A) = limn→∞ P(An) .

f ) Si P(An) = 1 pour tout n ∈ N∗, alors P (⋂∞n=1 An) = 1 .

g) Pour une famille quelconque (An)n∈N∗ dans F , on a la borne de l’union :

P( ∞⋃

n=1An

)≤

∞∑n=1

P(An) .

Démonstration. a) On applique l’axiome de σ-additivité (1.1) en posant A1 = A, A2 = Ac

et An = ∅ pour tout n ≥ 3. Il en résulte que 1 = P(Ω) = P(A ∪ Ac ∪ ∅ ∪ ∅ ∪ · · · ) =P(A) + P(Ac) + 0 + 0 + · · · et finalement 1 = P(A) + P(Ac).

b) On écrit que A ∪B s’écrit comme l’union disjointe (A\B) ∪ (B\A) ∪ (A ∩B). La règlede σ-additivité conduit à :

P(A ∪B) = P(A\B) + P(B\A) + P(A ∩B) . (1.2)

Par ailleurs, A s’écrit comme l’union disjointe (A\B) ∪ (A∩B) et donc P(A) = P(A\B) +P(A ∩ B). De même, P(B) = P(B\A) + P(A ∩ B). On a donc : P(A\B) + P(B\A) =P(A) + P(B) − 2P(A∩B). En faisant la substitution dans (1.2), nous obtenons le résultat.

c) Si A ⊂ B, on a en particulier : B = A ∪ (B\A) et comme l’union est disjointe,P(B) = P(A) + P(B\A) ≥ P(A).

d) Comme les (An) sont deux à deux disjoints, il en est de même pour les événements(An ∩ B). Par σ-additivité, on a ∑n P(An ∩ B) = P (⋃n(An ∩B)) = P ((∪nAn) ∩B) =P(B) , où la dernière égalité provient du fait que ∪nAn = Ω .

e) Soit An ↑ A. On introduit la suite (Bn) définie par récurrence de la façon suivante :B1 = A1 et Bn+1 = An+1\Bn . On vérifie sans peine que les (Bn) sont deux à deux disjoints,ce qui implique :

P( ∞⋃

k=1Bk

)=

∞∑k=1

P(Bk) . (1.3)

On vérifie également que pour tout n, An = ⋃nk=1 Bk , et donc, par passage à la limite,

A = ⋃∞k=1 Bk . Ainsi, le membre de gauche de (1.3) n’est autre que P(A). Le membre de

droite se réécrit comme la limite quand n → ∞ de la suite ∑nk=1 P(Bk). Mais comme les

(Bk) sont deux à deux disjoints, ∑nk=1 P(Bk) = P (⋃n

k=1 Bn) = P(An) . On a donc bienmontré que P(A) = limn P(An) .

Soit maintenant An ↓ A. Dans ce cas, Acn ↑ Ac. En appliquant le résultat précédent,

P(Ac) = limn P(Acn). Par la propriété a), cette égalité se réécrit 1−P(A) = limn(1−P(An)),

d’où on déduit P(A) = limn P(An) .

15

Page 16: Cours de Probabilités - MDI 104–114

1. Evénements

f) La suite (⋂nk=1 Ak) est décroissante et converge vers ⋂∞

k=1 Ak. Puisque P(An) = 1 pourtout n, il s’en suit que 1 = limn P(An) = P (⋂∞

k=1 Ak) .

g) On montre d’abord la borne pour un nombre fini d’éléments :

∀n , P(

n⋃k=1

Ak

)≤

n∑k=1

P(Ak) . (1.4)

L’inégalité est vraie au rang n = 1. Supposons qu’elle soit vraie au rang n, P(⋃n+1

k=1 Ak

)=

P (An+1 ∪ (⋃nk=1 Ak)) ≤ P (An+1) + P (⋃n

k=1 Ak) d’après la propriété b). En injectantl’hypothèse de récurrence dans le membre de droite, la proposition est démontrée au rangn+ 1.

L’inégalité (1.4) implique que P (⋃nk=1 Ak) ≤ ∑∞

k=1 P(Ak) pour tout n. Or la suite (⋃nk=1 Ak)

est croissante, de limite ⋃∞k=1 Ak . Par passage à la limite dans la dernière inégalité, on

obtient le résultat voulu en invoquant la propriété e).

1.2.3. Représentation des probabilités sur un espace discret

La propriété suivante établit qu’une probabilité P sur un espace discret est entièrementcaractérisée par la valeur qu’elle prend sur les singletons.

Proposition 1.2. Soit Ω un espace discret et P une mesure de probabilité définie surla tribu des parties P(Ω). Alors pour tout événement A,

P(A) =∑ω∈A

P(ω) .

Démonstration. Comme Ω est au plus dénombrable, on peut indexer ses éléments sous laforme Ω = ω1, ω2, · · · . Tout sous-ensemble A de Ω est donc de la forme A = ωi1 , ωi2 , · · · où i1, i2, · · · sont des entiers. Par conséquent, A est l’union dénombrable des singletonsωi1, ωi2, etc. Par σ-additivité de P, on a donc P(A) = P(ωi1) + P(ωi2) + · · · , cequi prouve le résultat.

Ainsi, il suffit de connaître la probabilité des événements élémentaires pour connaîtrela probabilité de n’importe quel événement. Cette affirmation est caractéristique desprobabilités sur un espace discret, elle est clairement fausse dans le cas général desprobabilités sur un espace non dénombrable.

La propriété suivante va un peu plus loin : elle établit que, pour qu’une famille denombres positifs définissent une probabilité, il faut et il suffit que leur somme soit égale àun.

16

Page 17: Cours de Probabilités - MDI 104–114

1.2. Probabilités sur un espace discret

Proposition 1.3. Soit Ω un ensemble discret. Soit (pω)ω∈Ω une suite de nombrespositifs satisfaisant ∑ω∈Ω pω = 1 . Alors il existe une (unique) mesure de probabilité Psur P(Ω) telle que pour tout ω ∈ Ω, P(ω) = pω.

Démonstration. L’unicité est une conséquence de la propriété précédente. Afin de montrerl’existence, il suffit de poser P(A) = ∑

ω∈A pω. On montre sans peine que cette applicationsatisfait les axiomes d’une mesure de probabilité.

Ainsi, concrètement, une probabilité sur un espace discret se ramène à une famille denombres positifs sommant à un : se donner l’un revient à se donner l’autre.

1.2.4. Exemples de probabilités sur un espace discret

Cas où Ω est fini

Loi uniforme Soit Ω un ensemble fini quelconque. La probabilité uniforme sur Ω estdéfinie par :

P(A) = |A || Ω |

où |A | représente ici le cardinal de l’ensemble A. Autrement dit, P(A) est le ratioentre le nombre d’issues pour lesquelles A est réalisé, et le nombre total d’issues.D’après la propriété précédente, on aurait pu définir la probabilité uniforme defaçon équivalente comme l’unique probabilité pour laquelle toutes les issues sontéquiprobables, c’est-à-dire pour tout ω,

P(ω) = 1| Ω |

.

Loi de Bernoulli Soit p ∈ [0, 1]. La probabilité de Bernoulli de paramètre p, notée B(p),est la probabilité définie sur Ω = 0, 1 par :

P(1) = p , P(0) = 1 − p .

La probabilité de Bernoulli permet de décrire la probabilité de succès ou d’échecd’une expérience. Par exemple, elle permet de décrire la probabilité qu’une piècetombe sur pile : si la pièce est parfaitement équilibrée, on choisira p = 1/2 et laprobabilité de Bernoulli se ramène à la loi uniforme sur 0, 1 ; dans le cas d’unepièce non équilibrée ou d’un jeu truqué, le paramètre p est possiblement différent de1/2.

Loi binomiale Soit n ∈ N∗ et p ∈ [0, 1]. La probabilité binomiale de paramètres n, p,notée B(n, p), est la probabilité définie sur Ω = 0, 1, · · · , n par :

P(k) =(n

k

)pk(1 − p)n−k

17

Page 18: Cours de Probabilités - MDI 104–114

1. Evénements

pour tout k = 0, · · · , n où l’on rappelle que(

nk

)= n!/(k!(n − k)!) . La probabilité

binomiale est utilisée pour décrire le nombre de succès obtenus lorsqu’on réitère nfois une expérience ayant même probabilité de succès p (voir l’exercice 2.1).

Cas où Ω est dénombrable

Loi géométrique Soit p ∈]0, 1]. La probabilité géométrique de paramètre p sur N∗, notéeG(p), est la probabilité définie sur Ω = N∗ par :

P(k) = p(1 − p)k−1 (1.5)

pour tout k ∈ N∗. Imaginons que l’on réitère autant de fois que nécessaire une certaineexpérience ayant un probabilité de succès p. Alors la probabilité géométrique estutilisée pour décrire le nombre d’expériences qui ont été nécessaires pour obtenir unsuccès (voir l’exercice 2.1).

Remarque.– On peut aussi définir la probabilité géométrique sur N (et non N∗)par P(k) = p(1 − p)k pour tout k = 0, 1, 2, · · · . Dans ce dernier cas, on cherche àdécrire non pas l’instant du premier succès, mais le nombre d’échecs qui ont précédéle premier succès.

Loi de Poisson Soit α > 0. La probabilité de Poisson de paramètre α, notée P(α), est laprobabilité définie sur Ω = N par :

P(k) = αk

k! e−α .

La probabilité de Poisson est souvent utilisée pour modéliser des quantités telles quele nombre de requêtes reçues par un serveur par unité de temps, ou le nombre declients qui se présentent à un guichet pendant une unité de temps.

1.3. Conditionnement et indépendance

1.3.1. Probabilité conditionnelle : définition

De façon informelle, la probabilité d’un événement vise à quantifier l’occurence de cetévénement. La probabilité conditionnelle d’un événement A sachant un événement B viseà quantifier l’occurence de A lorsque l’on sait que B s’est produit. D’un point de vue plusformel, on a la définition suivante.

Soit (Ω,F ,P) un espace de probabilité.

18

Page 19: Cours de Probabilités - MDI 104–114

1.3. Conditionnement et indépendance

Définition 1.4. Pour tous événements A,B ∈ F tels que P(B) 6= 0, on définit laprobabilité conditionnelle de A sachant B, et on note P(A |B), la quantité :

P(A |B) := P(A ∩B)P(B) .

Si on associe probabilité et « poids », la probabilité d’un ensemble étant son poids relatif parrapport à celui de l’ensemble total, la probabilité conditionnelle de A sachant B est le poidsde la trace de A sur B relativement au poids total de B.

A B

A ∩B

Figure 1.1. – Interprétation graphique du conditionnement.

Considérons le cas où P est la probabilité uniforme sur un ensemble Ω fini, c’est-à-direP(A) = |A | / | Ω | . On a alors P(A |B) = |A ∩ B | / |B | . Cette expression justifie laremarque suivante : P(A |B) peut être interprétée comme la probabilité de l’événementA ∩B dans ce nouvel univers qu’est B.

Application 1.– Considérons le lancer d’un dé : P est la probabilité uniforme surΩ = 1, 2, . . . , 6. Calculer la probabilité d’obtenir « 6 » sachant que le résultat est pair.

Proposition 1.4. Soit B ∈ F tel que P(B) 6= 0. L’application définie sur F par A 7→P(A |B) est une mesure de probabilité. On la nomme la probabilité conditionnelle à B.

Démonstration. i) P(Ω |B) = P(Ω ∩B)/P(B) = 1 et P(∅ |B) = P(∅ ∩B)/P(B) = 0.ii) Soit (An) une famille d’événement deux à deux disjoints. P(⋃n An |B) = P(⋃n An ∩B)/P(B) = P(⋃n(An ∩B))/P(B) = ∑

n P(An ∩B)/P(B) = ∑n P(An |B).

1.3.2. Propriétés

La première propriété est connue sous le nom de formule des probabilités totales.

Proposition 1.5. a) Soient A,B ∈ F tels que 0 < P(B) < 1. Alors,

P(A) = P(A |B)P(B) + P(A |Bc)P(Bc) .

19

Page 20: Cours de Probabilités - MDI 104–114

1. Evénements

b) Soit (Bn)n∈N∗ une partition de Ω telle que pour tout n, P(Bn) 6= 0. Alors,

P(A) =∞∑

n=1P(A |Bn)P(Bn) .

Démonstration. A s’écrit comme l’union disjointe A = (A ∩B) ∪ (A ∩Bc) donc P(A) =P(A ∩ B) + P(A ∩ Bc). Le résultat provient du fait que P(A ∩ B) = P(A |B)P(B) etP(A ∩Bc) = P(A |Bc)P(Bc). La preuve de b) est fondée sur le même principe.

Exemple 3.– On dispose de trois pièces de monnaie : l’une est bien équilibrée, l’unecomporte deux côtés pile, l’autre deux côtés face. On choisit une pièce au hasard.Evaluons la probabilité de tomber sur pile.

Désignons par E, 2P et 2F les événements « la pièce bien équilibrée est choisie », « lapièce comportant deux côtés pile est choisie », etc. D’après la propriété ci-dessus,

P(pile) = P(pile |E)P(E) + P(pile | 2P )P(2P ) + P(pile | 2F )P(2F )

= 12 × 1

3 + 1 × 13 + 0 × 1

3 = 12 .

La seconde propriété est connue sous le nom de formule de Bayes. La preuve est immé-diate.

Proposition 1.6. Soient A,B ∈ F deux événements tels que P(A) 6= 0 et P(B) 6= 0.Alors,

P(A |B) = P(B |A)P(A)P(B) .

La formule de Bayes permet typiquement d’évaluer des probabilités du type :

P(une action « a’ a été effectuée | le résultat « r » a été observé)

lorsqu’on connait le modèle P(le résultat « r » est observé | l’action « a » est effectuée).

Exemple 4.– Reprenons l’exemple précédent des trois pièces. Sachant qu’on obtient lerésultat pile, quelle est la probabilité que la pièce à deux côtés pile ait été choisie ? Laréponse est donnée par la formule de Bayes :

P(2P | pile) = P(pile | 2P ) P(2P )P(pile) =

1 × 13

12

= 23 .

1.3.3. Événements indépendants

Dans l’exemple précédent, l’événement B =« pile est le résultat » apporte une informationsur la probabilité que l’événement A =« la pièce à deux côtés pile a été choisie ». Avantl’expérience qui a vu B se réaliser, la probabilité de A valait 1

2 . Après l’expérience, elle vaut23 . Le fait que B soit réalisé ne dit pas si A est ou non réalisé, mais par contre, il change

20

Page 21: Cours de Probabilités - MDI 104–114

1.3. Conditionnement et indépendance

notre croyance en A. A l’inverse, il existe des événements A,B tels que la réalisation de Bn’apporte aucune information sur A. De tels événements sont dits indépendants. Voiciune définition plus formelle.

Définition 1.5. Deux événements A,B ∈ F sont dits indépendants, noté A ⊥⊥ B,si

P(A ∩B) = P(A) P(B) .

Si P(B) 6= 0, la définition revient bien à P(A |B) = P(A) : la réalisation de B ne modifiepas la croyance en A.

Remarque.– a) Les propriétés suivantes sont équivalentes : A ⊥⊥ B, B ⊥⊥ A, A ⊥⊥ Bc,Ac ⊥⊥ B, Ac ⊥⊥ Bc.b) Si P(B) = 0 ou P(B) = 1, alors A et B sont indépendants quel que soit A.

Définition 1.6. Soit I un ensemble quelconque. Une famille (Ai)i∈I d’événementsest dite indépendante si pour tout sous-ensemble fini J ⊂ I, on a :

P

⋂j∈J

Aj

=∏j∈J

P(Aj) .

Illustrons la formule ci-dessus lorsque la famille contient trois événements A, B, C. Lesévénements A, B, C sont indépendants si

P(A ∩B) = P(A)P(B), P(A ∩ C) = P(A)P(C), P(B ∩ C) = P(B)P(C),et P(A ∩B ∩ C) = P(A)P(B)P(C) .

Il est important de souligner que la première ligne d’équations ci-dessus n’implique pas ladeuxième : ce n’est pas parce que des événements sont deux à deux indépendants qu’ilsforment une famille indépendante. L’exercice 1.10 fournit un contre-exemple.

Définition 1.7. Soit C ∈ F tel que P(C) 6= 0. On dit que A etB sont indépendantsconditionnellement à C, noté A ⊥⊥ B |C si P(A ∩B |C) = P(A |C)P(B |C).

La notion de famille indépendante conditionnellement à C se définit selon le mêmeprincipe.

Remarque.– Attention : des propositions A ⊥⊥ B et A ⊥⊥ B |C, aucune n’impliquel’autre. Là encore, l’exercice 1.10 fournit un contre-exemple.

21

Page 22: Cours de Probabilités - MDI 104–114

1. Evénements

Ω Probabilité Expression de P Notation

Ω fini Probabilité uniforme P(x) = 1| Ω |

0, 1 Bernoulli de paramètre p ∈ [0, 1] P(1) = p B(p)P(0) = 1 − p

1, · · · , n Binomiale de paramètres n, p ∈ [0, 1] P(k) =(

n

k

)pk(1 − p)n−k B(n, p)

N∗ Géométrique de paramètre p ∈]0, 1] P(k) = p(1 − p)k−1 G(p)

N Géométrique de paramètre p ∈]0, 1] P(k) = p(1 − p)k G(p)

N Poisson de paramètre α > 0 P(k) = αk

k! e−α P(α)

Table 1.1. – Quelques exemples de probabilités sur un espace discret.

22

Page 23: Cours de Probabilités - MDI 104–114

1.4. Exercices

1.4. Exercices

Pour apprendre

Exercice 1.1.–On rappelle que

1A(x) = 1 si x ∈ A, 0 sinon.

1.1.a) Montrer que 1Ac = 1 − 1A, 1A∩B = 1A1B, 1A∪B = 1A + 1B − 1A1B .

1.1.b) Montrer que pour toute famille dénombrable (Ai)i∈I d’ensembles deux à deuxdisjoints,

1∪i∈IAi=∑i∈I

1Ai.

Exercice 1.2.–On lance simultanément trois dés à 6 faces non pipés.

1.2.a) Quel est l’espace des événements ?1.2.b) Quelle est la probabilité d’avoir au moins 1 as ?1.2.c) Montrer que les événements « la somme des faces est paire » et « la somme des faces

est impaire » ont même probabilité.1.2.d) Quelle est la probabilité que la somme des faces soit paire ?

Exercice 1.3 (Loto).–Un joueur coche 6 numéros sur une grille de 49 numéros. On tire 6 boules parmi 49 boulesnumérotées. Quelle est la probabilité pour que le joueur ait exactement n bons numéros(n = 1, · · · , 6) ?

Pour s’entraîner

Exercice 1.4.–Dans un lot de 20 articles, 12 sont parfaits, 6 comportent un défaut mineur et 2 un défautmajeur. Deux articles sont choisis au hasard, calculer les probabilités suivantes :

1.4.a) Les deux sont parfaits,1.4.b) Les deux ont un défaut majeur,1.4.c) Au moins l’un d’entre eux est parfait,1.4.d) Exactement un est parfait1.4.e) Au plus l’un d’entre eux est parfait.Un lot de 20 articles est accepté lorsque 3 éléments choisis au hasard n’ont pas de défautmajeur.

23

Page 24: Cours de Probabilités - MDI 104–114

1. Evénements

1.4.f) Quelle est la probabilité que le lot décrit ci-dessus soit accepté ?

Exercice 1.5.–Une boîte contient 4 piles usagées et 6 piles neuves. On tire deux piles au hasard. L’uned’entre elles seulement est testée.

1.5.a) Quelle est la probabilité que l’autre soit bonne si la pile testée est bonne ?1.5.b) Même question si la pile testée est usagée.On teste l’ensemble de la boîte par la méthode suivante : les piles sont tirées les unes aprèsles autres au hasard sans remise. À chaque tirage, on teste la pile courante, le protocoles’arrête lorsque l’on a sorti les 4 piles usagées.

1.5.c) Quelle est la probabilité que le test s’arrête au cinquième tirage (au dixième tirage) ?

Exercice 1.6 (Formule de Bayes).–On suppose que l’on dispose d’un test déterminant d’une maladie donnée. Malheureusement,comme tout test, celui-ci est faillible : 1% des individus que l’on sait sains sont positifsau test et 2% des individus que l’on sait malades sont négatifs au test. On suppose quela maladie atteint 1% de la population testée. Quelle est la probabilité qu’un individuréagissant positivement au test soit effectivement malade ?

Pour aller plus loin

Exercice 1.7.–Lors d’un bal, n couples dansent. Les cavaliers ont choisi leur cavalière aléatoirement.Quelle est la probabilité qu’aucun des couples d’origine ne soit réuni ?

Exercice 1.8 (Arnaque ou pas ?).–Dans le jeu « Vegas », il est vendu 500 000 tickets à 3e chaque. Ces tickets sont distribuésaux buralistes sous forme de bandes de 50 tickets attachés les uns aux autres. La répartitiondes gains est la suivante :

Nb de lots Gains1 40 000e1 20 000e2 10 000e5 1 000e

18 500e800 200e850 100e

2 020 50e4 000 20e9 000 10e

28 000 6e25 000 4e47 500 3e

24

Page 25: Cours de Probabilités - MDI 104–114

1.4. Exercices

1.8.a) Quel est le montant moyen des gains ?1.8.b) Quelle est la probabilité d’avoir un lot supérieur à 20e ?1.8.c) Sur 50 tickets, quelle est la probabilité (exacte et approchée) d’avoir 0 ou 1 lot

supérieur à 20e ?1.8.d) M. R. a acheté 100 bandes de 50 tickets et il a constaté qu’aucune d’entre elles ne

comportait plus d’un lot supérieur à 20e. Quelle est la probabilité (approchée, ensupposant que 5 000 est négligeable devant 500 000) d’un tel événement ?

Exercice 1.9.–Soient P et Q deux mesures de probabilité sur N. On note pi = P(i) et qi = Q(i).On définit la distance en variation totale entre P et Q par

dT V (P, Q) = supA∈N

|P(A) − Q(A)|.

1.9.a) Montrer que+∞∑i=0

(pi − qi)+ = 12

+∞∑i=0

|pi − qi|.

On pourra utiliser le fait ∑i pi = ∑i qi = 1.

1.9.b) Montrer que pour toute partie A de N,

|P(A) − Q(A)| ≤+∞∑i=0

(pi − qi)+.

1.9.c) En choisissant convenablement l’ensemble A, montrer que

dT V (P, Q) = 12

+∞∑i=0

|pi − qi|.

On suppose maintenant que P est donnée par P(0) = p = 1 − P(1) et que Q est unemesure de Poisson de paramètre λ = − ln(p), c’est-à-dire que

qi = e−λλi

i! .

1.9.d) Calculer dT V (P, Q).

Exercice 1.10.–On lance deux dés. Soient les événements : A = « le premier dé affiche un résultat pair »,B = « le deuxième dé affiche un résultat pair », C = « la somme des deux dés est paire ».Montrer que A, B, C sont deux à deux indépendants, mais ne forment pas une familleindépendante (on montrera que P(A ∩B ∩ C) 6= P(A)P(B)P(C)).

25

Page 26: Cours de Probabilités - MDI 104–114
Page 27: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

2.1. Loi d’une variable discrète

2.1.1. Définitions

On se donne un univers Ω au plus dénombrable, équipé d’une probabilité P. De manièreinformelle, une variable aléatoire discrète est une grandeur à valeur dans un ensemblediscret E qui dépend du résultat de l’expérience. C’est donc une fonction de l’issue ω(en ce sens, la terminologie de variable est assez malencontreuse). On la notera sou-vent :

X : Ω → E

ω 7→ X(ω) ,

où Ω est l’univers, supposé muni d’une probabilité P et où E est un ensemble au plusdénombrable.

Exemple 5.– Considérons un lancer de n dés. Une issue ω est un n-uplet sur Ω =1, · · · , 6n. On peut par exemple définir la variable aléatoire X(ω) qui est égale aunombre de « 6 » obtenus : c’est bien une fonction de ω.

Nous nous intéressons à la probabilité la forme « la variable X vaut x » ou, plus générale-ment,

« la variable X appartient à l’ensemble H » = ω ∈ Ω : X(ω) ∈ H = X−1(H) .

Nous utiliserons souvent les notations [X ∈ H] ou X ∈ H pour désigner l’événementω ∈ Ω : X(ω) ∈ H.

Définition 2.1. On appelle loi de la v.a. X la fonction définie pour tout H ⊂ Epar :

PX(H) = P(X−1(H)) .

Avec une écriture plus compacte : PX := P X−1 où représente la composition.Nous pouvons écrire de manière équivalente mais sans doute plus « parlante » :

PX(H) := P[X ∈ H] .

27

Page 28: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

Autrement dit, PX(H) est la probabilité pour que X appartienne à H.

Proposition 2.1. PX est une probabilité sur E.

Démonstration. On vérifie les axiomes i) et ii) que doit satisfaire une mesure de probabilité.i) PX(E) = P(X−1(E)) = P(Ω) = 1 et PX(∅) = P(X−1(∅)) = P(∅) = 0.ii) Soit (Hn)n∈N? une famille d’éléments de E deux à deux disjoints. On a X−1(⋃n Hn) =⋃

n X−1(Hn) et on montre aisément que les événements (X−1(Hn)) sont deux à deux

disjoints. Ainsi en appliquant P aux deux membres de l’égalité précédente, on obtientPX(⋃n Hn) = P(⋃n X

−1(Hn)) = ∑n P(X−1(Hn)).

On sait grâce au paragraphe 1.2.3 que PX est entièrement caractérisée par la valeurqu’elle prend sur les singletons. Afin d’alléger les notations, nous écrirons PX(x) au lieude PX(x), soit :

PX(x) = P[X = x] .

Proposition 2.2. Pour toute partie H de l’ensemble d’arrivée E, on a :

P[X ∈ H] =∑x∈H

PX(x) .

Exemple 6.– Soit X le nombre de « 6 » obtenus lorsqu’on lance n dés. La probabilitéd’obtenir au plus deux « 6 » s’écrit : P[X ∈ 0, 1, 2] = PX(0) + PX(1) + PX(2).

2.1.2. Loi jointe, lois marginales

SoientX, Y deux v.a.d. de Ω dans E de lois respectives PX et PY . L’application :

(X,Y ) : Ω → E × E

ω 7→ (X(ω), Y (ω))

définit une v.a.d. sur E × E.

Définition 2.2. La loi du couple (X,Y ) est appelée la loi jointe de X et Y , notéePX,Y . Les lois PX et PY sont appelées les lois marginales de X et Y respectivement.

D’après ce qui précède, la loi jointe est définie pour tout (x, y) ∈ E × E par PX,Y (x, y) =P [(X,Y ) = (x, y)] soit :

PX,Y (x, y) = P [X = x, Y = y] .

Proposition 2.3. La loi marginale PX est liée à la loi jointe par :

∀x ∈ E, PX(x) =∑y∈E

PX,Y (x, y) .

28

Page 29: Cours de Probabilités - MDI 104–114

2.2. Indépendance des v.a. discrètes

Démonstration. La famille d’événements de la forme [Y = y] où y décrit E, forme unepartition de l’univers Ω. D’après la formule des probabilités totales, P[X = x] = ∑

y P[X =x, Y = y].

Généralisation au cas d’une famille finie de v.a.d.

Soient X1, · · · , Xn des v.a. de Ω → E. Le n-uplet (X1, · · · , Xn) définit une v.a.d. sur En.Sa loi est appelée la loi jointe de X1, · · · , Xn, notée PX1,··· ,Xn . Pour tout k, la loi PXk

estappelée la loi marginale de Xk.

Proposition 2.4. Pour tout k = 1, · · · , n et tout xk ∈ E,

PXk(xk) =

∑x1···xk−1,xk+1···xn

PX1,··· ,Xn(x1, · · · , xn) ,

où la somme s’étend sur l’ensemble des (n− 1)-uplets (x1, · · · , xk−1, xk+1, · · · , xn) surE.

Ainsi, à partir de la loi jointe, on peut déduire les lois marginales en éliminant lesvariables non-souhaitées par sommation sur toutes les valeurs possibles prises par celles-ci.

Définition 2.3. Une famille (Xi)i∈I de variables aléatoires sur le même espace Eest dite identiquement distribuée si toutes les variables ont la même loi : ∀i ∈ I,PXi

= PX1 .

Remarque.– Il est évident que deux v.a. X et Y différentes peuvent avoir la même loi(PX = PY ). Par exemple, si X ∈ 0, 1 suit une loi de Bernoulli de paramètre 1/2, alorsla v.a. Y = 1 −X est différente de X et suit néanmoins la même loi :

P[Y = 0] = P[1 −X = 0] = P[X = 1] = 12 = P[X = 0] .

2.2. Indépendance des v.a. discrètes

Soient X et Y deux v.a.d. à valeurs dans E.

Définition 2.4. X et Y sont dites indépendantes si pour tout G,H ⊂ E, lesévénements [X ∈ G] et [Y ∈ H] sont indépendants, autrement dit si :

P[X ∈ G, Y ∈ H] = P[X ∈ G]P[Y ∈ H] ,

où [X ∈ G, Y ∈ H] désigne l’ensemble [X ∈ G] ∩ [Y ∈ H].

29

Page 30: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

Proposition 2.5. Deux v.a.d X et Y sont indépendantes si et seulement si pour tout(x, y) ∈ E2,

PX,Y (x, y) = PX(x) PY (y) (2.1)

Remarque.– Par définition, X et Y sont indépendantes lorsque les événements [X ∈ H]et [Y ∈ G] sont indépendants quel que soit le choix de H et G. Le résultat ci-dessusmontre qu’il suffit de vérifier cette propriété sur les singletons H = x et G = y.

Démonstration. Le sens ⇒ est immédiat. On montre la réciproque. On a pour toutH,G ⊂ E, P[X ∈ H, Y ∈ G] = PX,Y (H ×G). Comme PX,Y est une mesure de probabilitésur un espace discret, PX,Y (H ×G) = ∑

(x,y)∈H×G PX,Y (x, y). En appliquant l’hypothèse,PX,Y (H ×G) = ∑

(x,y)∈H×G PX(x)PY (y) = ∑x∈H PX(x)∑y∈G PY (y) = PX(H)PY (G), ce

qui prouve le résultat.

Soit E ′ un autre espace discret et soient f, g : E → E ′. On désigne par f(X) la v.a.d.ω 7→ f(X(ω)), c’est à dire f(X) = f X.

Proposition 2.6. Si X et Y sont indépendantes, alors f(X) et g(Y ) sont des v.a.indépendantes.

Démonstration. Soient H, G deux parties de E ′. Les ensembles [f(X) ∈ H] et [g(Y ) ∈ G]s’écrivent respectivement [X ∈ f−1(H)] et [Y ∈ g−1(G)] et sont donc indépendants.

Généralisation au cas d’une famille finie de v.a.d.

Soient X1, · · · , Xn des v.a.d. sur E. Elles sont dites indépendantes si pour toute suite d’en-sembles (H1, · · · , Hn), les événements ([Xk ∈ Hk])k=1,··· ,n sont indépendants. Autrementdit,

P [X1 ∈ H1, · · · , Xn ∈ Hn] = P [X1 ∈ H1] × · · · P [Xn ∈ Hn] ,

où l’on utilise la notation [X1 ∈ H1, · · · , Xn ∈ Hn] = ⋂k[Xk ∈ Hk].

Théorème 2.7. X1, · · · , Xn sont indépendantes si et seulement si ∀(x1, · · · , xn) ∈En,

PX1···Xn(x1, · · · , xn) =n∏

k=1PX(xk) .

La preuve suit le même principe que dans le cas n = 2 traité plus haut.

Définition 2.5. Une famille de variables aléatoires est dite indépendante si toutesous-famille finie est indépendante.n.b. : on utilise souvent l’abréviation i.i.d. pour désigner une famille indépendanteet identiquement distribuée de variables aléatoires.

30

Page 31: Cours de Probabilités - MDI 104–114

2.3. Espérance, moments

Proposition 2.8. Soit (Xi)i∈I une famille indépendante de v.a., chacune étant à valeurdans un espace Ei. On se donne pour tout i une application mesurable fi sur Ei. Alorsla famille de v.a. (fi(Xi))i∈I est indépendante.

2.3. Espérance, moments

2.3.1. Introduction

Un joueur de « pile ou face » gagne 10 euros lorsque la pièce tombe sur pile et perd 5 euroslorsqu’elle tombe sur face. Soit X le gain réalisé après l’expérience. X peut prendre deuxvaleurs : a = 10 ou b = −5. On définit l’espérance du gain par

E(X) = aP[X = a] + bP[X = b]

= 10 . 12 + (−5) . 1

2 = 2, 5 euros.

L’espérance est donc une moyenne pondérée des gains. D’un point de vue physique, c’estle centre de gravité des points a et b auxquel on a affecté les masses P[X = a] et P[X = b]respectivement.

Imaginons que le joueur précédent effectue n lancers de pièce : on note X1, . . . , Xn lesgains respectifs réalisés à chaque expérience. La moyenne empirique des gains est définiepar

Sn = 1n

n∑k=1

Xk .

Nous verrons à la fin de ce chapitre un résultat important appelé la loi des grandsnombres que nous énonçons pour l’instant de manière informelle : la moyenne empiriqueSn converge vers l’espérance lorsque n → ∞. Naturellement, il conviendrait de préciserde quelle « convergence » il est question (n’oublions pas que l’on parle ici de variablesaléatoires et non d’une simple suite de nombres). Mais cette remarque donne une premièreillustration de l’importance de l’espérance en probabilité.

2.3.2. Définition

On suppose dorénavant que E est une partie au plus dénombrable de R.

Définition 2.6. On définit l’espérance E(X) d’une v.a.d. X par

E(X) =∑x∈E

xP[X = x] (2.2)

=∑x∈E

xPX(x) .

Pour que cette somme ait un sens, il suffit que l’une de ces deux conditions soit

31

Page 32: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

vérifiée :1. ses termes sont tous positifs : PX(x) = 0 pour tout x < 0 (auquel cas E(X)

peut éventuellement être égal à +∞) ;2. ses termes sont absolument sommables, c’est à dire :∑

x∈E

|x| P[X = x] < ∞ . (2.3)

Lorsque la première condition est vraie i.e., PX(x) = 0 pour tout x < 0, nous dirons que lav.a.d.X est positive presque partout et nous noteronsX ≥ 0 p.p.

Soulignons que l’espérance E(X) est une constante, elle ne dépend pas de l’issue ω. Ellene dépend de X qu’au travers de sa loi PX . En particulier, deux v.a. identiquementdistribuées ont même espérance.

Une variable d’espérance nulle est dite centrée.

2.3.3. Propriétés

Soient E,F deux espaces discrets avec F ⊂ R. Soit f : E → F une fonction. La composéef(X) définit une nouvelle variable aléatoire ω 7→ f(X(ω)). Nous nous intéressons à sonespérance.

Proposition 2.9. Si f est positive,

E(f(X)) =∑x∈E

f(x) P[X = x] . (2.4)

La formule reste vraie pour f quelconque pourvu que ∑x∈E |f(x)|P[X = x] < ∞ .

Démonstration. Donnons d’abord la preuve pour f positive :

E(f(X)) =∑y∈F

yP[f(X) = y] =∑y∈F

yP[X ∈ f−1(y)]

=∑y∈F

∑x∈f−1(y)

yP[X = x]

=∑y∈F

∑x∈f−1(y)

f(x) P[X = x]

=∑x∈E

f(x) P[X = x] , (2.5)

où on a utilisé le fait que les ensembles de la forme f−1(y) sont une partition de E.Dans le cas où f n’est pas positive, on doit d’abord vérifier que E(f(X)) est bien définie.En appliquant le résultat déjà démontré à la fonction « valeur absolue », nous avons :∑

y∈F

|y| P [f(X) = y] = E(|f(X)|)

32

Page 33: Cours de Probabilités - MDI 104–114

2.3. Espérance, moments

et en appliquant le résultat à la fonction |f |, E(|f(X)|) = ∑x∈E |f(x)|P[X = x] qui est fini

par hypothèse. L’équivalent pour la v.a. f(X) de la condition (2.3) est satisfaite : E(f(X))est bien définie. La preuve de (2.4) est obtenue par le même calcul qu’en (2.5).

Remarque.– Si l’on devait évaluer E(f(X)) en utilisant la définition (2.2) de l’espérance,on devrait au préalable calculer la loi Pf(X) de la v.a.d. f(X). L’équation (2.4) montreque l’espérance E(f(X)) s’exprime directement en fonction de la loi de la variable X.

Lorsqu’on choisit pour f l’indicatrice d’un ensembleH, on a le corollaire suivant :

E(1H(X)) = PX(H) . (2.6)

La propriété (2.4) permet d’écrire la condition de sommabilité (2.3) de manière pluscompacte : on écrira simplement E|X| < ∞.

Soient deux X et Y deux v.a.d. sur E ⊂ R. Pour tous coefficients réels α, β, la sommeαX+βY est bien une v.a.d. en tant que fonction du couple (X,Y ). Dans la suite, on utiliserala notation « p.p. » pour « presque partout », c’est-à-dire avec probabilité 1. Par exemple,on écrira que «X = a p.p. » pour signifier que P(X = a) = 1.

Proposition 2.10. Soient X et Y deux variables aléatoires dans un ensemble E ⊂ Rdiscret. Supposons que E|X| < ∞ et E|Y | < ∞. Soient (α, β) ∈ R2 et a ∈ E. Alors :

a) E(αX + βY ) est bien définie et E(αX + βY ) = αE(X) + β E(Y ) .b) Si X ≥ 0 p.p., alors E(X) ≥ 0 .c) Si X ≥ 0 p.p. et si E(X) = 0 , alors X = 0 p.p.d) |E(X)| ≤ E|X| .e) Si X ≤ Y p.p., alors E(X) ≤ E(Y ).f ) Si X = a p.p., alors E(X) = a.

Démonstration. Montrons que E(αX + βY ) est bien définie. D’après la propriété précé-dente,

E|αX + βY | =∑

(x,y)∈E2

|αx+ βy| PX,Y (x, y)

≤ |α|∑(x,y)

|x| PX,Y (x, y) + |β|∑(x,y)

|y| PX,Y (x, y)

= |α|∑

x

|x|∑

y

PX,Y (x, y) + |β|∑

y

|y|∑

x

PX,Y (x, y)

= |α|∑

x

|x| PX(x) + |β|∑

y

|y| PY (y) .

Ainsi, E|αX + βY | ≤ |α| E|X| + |β| E|Y | < ∞ par hypothèse. On évalue l’espérance :

E(αX + βY ) =∑(x,y)

(αx+ βy) PX,Y (x, y)

= α∑(x,y)

xPX,Y (x, y) + β∑(x,y)

y PX,Y (x, y) ,

33

Page 34: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

où la dernière équalité se justifie par le fait que les deux dernières sommes convergentabsolument (nous l’avons prouvé plus haut). Par le même calcul que ci-dessus, ces deuxsommes sont égales à E(X) et E(Y ) respectivement, ce qui démontre a). Les preuves desautres propositions sont laissées au lecteur.

2.3.4. Inégalités

Proposition 2.11. (Inégalité de Markov) Pour tout ε > 0, p ≥ 1,

P [|X| > ε] ≤ E (|X|p)εp

.

Démonstration. On donne d’abord la preuve pour ε = p = 1 et X ≥ 0. D’après (2.6),P [X > 1] = E(1]1,+∞[(X)) ≤ E(X) car 1]1,+∞[(X) ≤ X. Dans le cas général, on utilise lefait que P [|X| > ε] = P [|X|p/εp > 1] et on applique le résultat précédent.

Lorsque p = 2, l’inégalité de Markov est aussi connue sous le nom d’inégalité de Bienaymé-Tchebychev.

Proposition 2.12. (Inégalité de Cauchy-Schwarz)

E (|XY |) ≤√

E(X2) E(Y 2) .

Démonstration. Si E(X2) = 0, la v.a. X2 est nulle p.p. donc XY = 0 p.p. ce qui impliqueque le membre de gauche est nul. L’inégalité est triviale dans ce cas. Le seul cas non-trivialest celui pour lequel E(X2) 6= 0 et E(Y 2) 6= 0 .

On utilise l’inégalité U2 + V 2 ≥ 2UV en posant U = |X|/√

E(X2) et V = |Y |/√

E(Y 2).Comme E(U2) = E(V 2) = 1, on obtient en prenant l’espérance de chaque membre del’inégalité : 1 + 1 ≥ 2E

(|XY |/

√E(X2) E(Y 2)

)ce qui démontre le résultat.

2.3.5. Moments, variance, covariance

Définition 2.7. Soit p ≥ 0. Soit une v.a.d. réelle X telle que E(|X|p) < ∞. Laquantité E(Xp) est appelée le moment d’ordre p de X.On dit d’une telle variable qu’elle est d’ordre p, ou qu’elle possède un momentd’ordre p.

Remarque.– Le moment d’ordre 1 coïncide avec l’espérance. Une variable bornée possèdetous ses moments.

34

Page 35: Cours de Probabilités - MDI 104–114

2.3. Espérance, moments

Proposition 2.13. Une variable d’ordre p possède tous ses moments d’ordre inférieur.

Démonstration. Soit 0 ≤ q ≤ p. De l’inégalité |x|q ≤ 1 + |x|p, on déduit E|X|q ≤1 + E|X|p < ∞.

Définition 2.8. La variance d’une v.a.d. X d’ordre 2 est définie par

Var(X) := E((X − E(X))2

).

Son écart-type est la racine carrée de la variance, noté σX :=√

Var(X) .

Exemple 7.– Un joueur lance une pièce, gagne un euro si le résultat est pile, perd uneuro sinon. L’espérance du gain X est E(X) = 0. La variance est Var(X) = 1× 1

2 +1× 12 = 1

et l’écart-type est 1. Si le joueur gagne ou perd 10 euros à chaque partie, l’espérance degain est toujours nulle. En revanche, la variance vaut 100 et l’écart type vaut 10. Lavariance donne donc une information sur l’amplitude des fluctuations de la X autour deson espérance.

Exemple 8.– La variance d’une loi de Bernoulli B(p) vaut p(1 − p).

Définition 2.9. Soient X et Y deux v.a.d. d’ordre 2. Leur covariance est définiepar :

Cov(X,Y ) := E [(X − E(X))(Y − E(Y ))] .

L’inégalité de Cauchy-Schwarz garantit que la quantité ci-dessus est bien définie.En statistique et en traitement du signal, on utilise souvent une version renormalisée de lacovariance, le coefficient de corrélation qui est défini par :

ρX,Y := Cov(X,Y )σX . σY

.

Lorsque Cov(X,Y ) = 0, on dit que X et Y sont décorrélées.

Proposition 2.14. Soient X et Y deux v.a.d. d’ordre 2 et (α, β) ∈ R2. On a :a) Var(X) = E(X2) − (EX)2 ;b) Cov(X,X) = Var(X) ;c) Cov(Y,X) = Cov(X,Y ) ;d) Var(αX + β) = α2 Var(X) ;e) Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X,Y ) .

La preuve est laissée à titre d’exercice.

35

Page 36: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

2.3.6. Cas des variables indépendantes

Proposition 2.15. Soient X et Y des v.a. indépendantes telles que E|X|, E|Y | < ∞.Alors E|XY | < ∞ , et on a l’égalité :

E(XY ) = E(X) E(Y ) .

Démonstration. E|XY | = ∑(x,y) |xy|PX,Y (x, y) et comme X et Y sont indépendantes,

PX,Y (x, y) = PX(x)PY (y). Ainsi, E|XY | = ∑x |x|PX(x)∑y |y|PY (y) = E|X|E|Y | < ∞.

Le même calcul, sans les valeurs absolues, montre que E(XY ) = E(X) E(Y ) .

Cette propriété admet une généralisation immédiate. Si X et Y sont indépendantes, on saitque pour des fonctions f et g arbitraires, les v.a.d. f(X) et g(Y ) restent indépendantes.Par conséquent,

E (f(X)g(Y )) = E(f(X)) E(g(Y )) , (2.7)

dès lors que les deux sommes du membre de droite sont absolument convergentes. On amême une réciproque à ce résultat.

Théorème 2.16. Deux variables aléatoires X : Ω → (E, E) et Y : Ω → (F, F)sont indépendantes si et seulement pour toutes les fonctions mesurables bornéesf : E → R et g : F → R,

E [f(X)g(Y )] = E [f(X)] E [g(Y ]). (2.8)

Démonstration. On vient de voir que l’indépendance implique (2.8).

Réciproquement, si l’équation (2.8) est vérifiée, alors quels que soient x ∈ E et y ∈ F , onobtient (2.1) en spécialisant (2.8) pour f = 1x et g = 1y.

Un cas particulier intéressant est obtenu en posant f(x) = x− E(X) et g(y) = y − E(Y ).Dans ce cas, le membre de gauche de (2.7) n’est autre que la covariance Cov(X,Y )et les deux facteurs du membre de droite sont nuls. On en déduit la propriété sui-vante :

Proposition 2.17. Si X et Y sont indépendantes et d’ordre 2, alors

Cov(X,Y ) = 0 .

Cette propriété implique en particulier que pour des v.a. indépendantes :

Var(X + Y ) = Var(X) + Var(Y ) . (2.9)

Notons que deux variables décorrélées ne sont pas nécessairement indépendantes. L’exer-cice 2.4 permet de s’en convaincre.

36

Page 37: Cours de Probabilités - MDI 104–114

2.3. Espérance, moments

Généralisation au cas d’une famille finie de v.a.d.

Proposition 2.18. Pour tout k = 1, · · · , n, soit Xk une v.a. sur un espace discretEk et fk : Ek → E ′

k une fonction sur E ′k ⊂ R telle que E|fk(Xk)| < ∞ . On suppose

X1, · · · , Xn indépendantes. Alors,

E(∏

k=1fk(Xk)

)=∏k=1

E (fk(Xk))

Proposition 2.19. Si X1, · · · , Xn sont des v.a.d. indépendantes d’ordre 2, alors

Var(X1 + · · · +Xn) = Var(X1) + · · · + Var(Xn) .

Démonstration. La propriété est vraie au rang n = 1. Supposons la vraie au rang n− 1.Posons Zn = X1 + · · · +Xn−1. Les v.a. Xn et Zn sont indépendantes. Par l’égalité (2.9),Var(Xn+Zn) = Var(Xn)+Var(Zn) or Var(Zn) = Var(X1)+· · ·+Var(Xn−1) par l’hypothèsede récurrence. La propriété est donc démontrée.

2.3.7. Application : Loi faible des grands nombres ∗

Soit (Xk)k∈N? une famille indépendante et identiquement distribuée de v.a. sur un ensembleE ⊂ R au plus dénombrable. On s’intéresse au comportement de la moyenne empiriquedes n premières variables :

Sn = 1n

n∑k=1

Xk .

Théorème 2.20. Soit (Xk)k∈N? une famille indépendante, identiquement distribuéede v.a.d.. On suppose que E(X2

1 ) < ∞ . Alors,

∀ε > 0, limn→∞

P [|Sn − E(X1)| > ε] = 0 .

On dit de la variable aléatoire Sn qu’elle converge en probabilité vers E(X1).

Démonstration. En utilisant le fait que E(X1) = E(Xk), on a :

P [|Sn − E(X1)| > ε] = P[∣∣∣∣∣∑

k

(Xk − E(Xk))∣∣∣∣∣ > nε

]

≤ E ((∑k(Xk − E(Xk)))2)n2ε2 ,

en utilisant l’inégalité de Bienaymé-Tchebichev. La somme dans l’espérance est une v.a.centrée, donc son moment d’ordre 2 et sa variance coïncident. Par indépendance deXk, sa variance satisfait : Var(∑k Xk) = ∑

k Var(Xk) = nVar(X1), où la seconde égalité

37

Page 38: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

provient du fait que toutes les variances sont égales, les Xk étant identiquement distribués.Finalement,

P [|Sn − E(X1)| > ε] ≤ n Var(X1)n2ε2 ,

et le membre de gauche converge bien vers zéro quand n tend vers l’infini.

Le théorème précédent se nomme « loi faible des grands nombres ». Donnons-en uneillustration. Un joueur lance une pièce, gagne un euro si le résultat est pile, perd un eurosinon. Il réitère l’expérience n fois. Xk représente son gain à l’instant k et Sn la moyennedes gains. L’espérance du gain Xk est E(Xk) = 0. La loi faible des grands nombres impliqueque P[|Sn| > ε] tend vers zéro. Quel que soit ε aussi petit qu’on veut, le gain moyen estplus petit que ε avec forte probabilité lorsque n est grand.

Remarque.– Plus loin dans ce cours, nous étendrons la loi faible des grands nombres àdes v.a. quelconques, pas nécessairement discrètes. Nous montrerons également un résultatplus puissant appelé « loi forte des grands nombres ». La loi forte établit que quelle quesoit l’issue ω, hormis peut-être pour ω dans un ensemble de probabilité nulle, nous avonslimn Sn(ω) = E(X1).

2.4. Fonction génératrice d’une v.a. à valeurs entières

Dans ce paragraphe, on se limite au cas où la v.a. X est à valeurs dans N (ou bien dans unsous-ensemble E ⊂ N : dans ce dernier cas, on étend X à une fonction dans N en imposantque P[X = k] = 0 pour k /∈ E).

Définition 2.10. La fonction génératrice de X, notée ΦX , est définie pour tout sdans l’intervalle [−1,+1] par :

ΦX(s) = E(sX)

=∞∑

k=0P[X = k] sk .

La fonction génératrice est donc la série entière de terme général P[X = k]. Lerayon de convergence de cette série est supérieur ou égal à un.

Proposition 2.21. Pour toute v.a.d. à valeurs entières, sa fonction génératrice ΦX

satisfait les propriétés suivantes.a) ΦX est continue sur [−1,+1] et de classe C∞ sur ] − 1,+1[.b) Pour tout n,

P[X = n] = Φ(n)X (0)n! ,

où Φ(n)X est la dérivée nème de ΦX .

38

Page 39: Cours de Probabilités - MDI 104–114

2.4. Fonction génératrice d’une v.a. à valeurs entières

Démonstration. Il suffit d’appliquer des résultats connus sur les séries entières. On sait(voir l’annexe et [Rud95, Théorème 8.1]) qu’une série entière de terme général ak etde rayon de convergence R est de classe C∞ sur ] − r, r[, et sa dérivée nème vaut∑

k≥n n(n− 1) · · · (n− k + 1)aksn−k. L’application de ce résultat démontre b). Il ne reste

qu’à montrer la continuité de ΦX en ±1, ce qui peut être fait par un argument deconvergence dominée.

Du deuxième résultat, on en déduit le corollaire suivant.

Corollaire 2.22. Si X et Y sont deux v.a.d. de même fonction génératrice alorsPX = PY , i.e. X et Y ont la même loi.

Si la fonction génératrice caractérise la loi, elle caractérise a fortiori les moments. La pro-priété suivante permet de déduire les moments de la fonction caractéristique.

Notation : Pour toute fonction f ayant un limite à gauche (resp. à droite) en b, on notef(b−) cette limite (resp. f(b+)).

Théorème 2.23. Une v.a. X : Ω → N admet un moment d’ordre p si et seulementsi Φ(p)

X admet une limite à gauche en 1. Alors,

Φ(p)X (1−) = E (X(X − 1) · · · (X − p+ 1)) .

Démonstration. On traite le cas p = 1, le cas général suit le même principe. Rappelonsque Φ′

X(s) = ∑k≥1 kpX(k) sk−1. Supposons que E(X) < ∞. Comme E(X) = ∑

k≥1 kpX(k),les termes kpX(k) sk−1 de la série Φ′

X(s) sont dominés par une suite sommable kpX(k).Par convergence dominée, lims↑1 Φ′

X(s) = ∑k≥1 lims↑1 kpX(k) sk−1 = E(X).

Réciproquement, supposons que Φ′X(1−) existe. Comme Φ′

X est croissante sur [0, 1[, ona pour tout s < 1, ∑k≥1 kpX(k) sk−1 ≤ Φ′

X(1−) et comme tous les termes sont positifs,∑nk=1 kpX(k) sk−1 ≤ Φ′

X(1−) quel que soit n. En faisant s ↑ 1 dans la dernière inégalité, onen déduit que la suite (∑n

k=1 kpX(k))n est bornée. C’est une suite croissante, elle est doncconvergente. On a bien ∑n

k=1 kpX(k) < ∞, autrement dit E(X) < ∞.

L’exercice 2.2 fournit des exemples d’applications.

39

Page 40: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

2.5. Exercices

Pour apprendre

Exercice 2.1.–Soit (Xn)n∈N∗ une suite i.i.d. de loi de Bernoulli de paramètre p sur 0, 1.

2.1.a) Pour tout n, caractériser la loi de Sn = ∑nk=1 Xk.

2.1.b) En déduire l’espérance et la variance d’une variable binomiale de paramètres (n, p).2.1.c) On pose Y = minn : Xn = 1 lorsque cet ensemble est non-vide, Y = +∞ sinon.

Caractériser la loi de Y .

Exercice 2.2.–On rappelle que ΦX est la fonction génératrice de la variable aléatoire X (cf. définition 2.10).

2.2.a) Calculer ΦX , E(X) et Var(X) pour une v.a. de Bernoulli B(p), une v.a. de loigéométrique G(p), une v.a. de Poisson P(λ).

2.2.b) Soient X1, · · · , Xn des v.a. indépendantes. Xk suit une loi de Poisson de paramètreλk. Caractériser la loi de ∑n

k=1 Xk.

Exercice 2.3.–Soient (X1, X2, X3) des variables aléatoires indépendantes de même loi à valeurs dans N.On note pi = P(Xl = i), l = 1, 2, 3. On introduit Z de loi uniforme sur 1, 2.

2.3.a) Quelle est la loi de Y = (XZ , X3−Z) ?2.3.b) Soit W le vecteur aléatoire défini par :

W = (X1, X3) si Z = 2 et W = (X3, X2) si Z = 1.

Quelle est la loi de W ?

Exercice 2.4.–Soit X de loi uniforme sur 0, 1 et Z de loi uniforme sur −1,+1 indépendante de X.Soit Y = ZX. Montrer que X et Y sont décorrélées mais ne sont pas indépendantes.

Exercice 2.5.–On veut calculer les moments d’une v.a. de loi hypergéométrique. On se donne donc uneurne contenant r boules rouges et b boules blanches de sorte que N = r + b. Muni d’uneépuisette à boules, on tire m boules parmi les N présentes. On range ces boules dans descases numérotées de 1 à m. On note X le nombre de boules rouges ressorties et

Xi =

1 si la case i contient une boule rouge,0 sinon.

On a donc X = ∑mi=1 Xi.

2.5.a) Soit σ une permutation de 1, · · · , n. Pourquoi les vecteurs aléatoires (X1, · · · , Xm)et (Xσ(1), · · · , Xσ(n)) ont-ils la même loi ?

2.5.b) Calculer P(Xi = 1) et P(XiXj = 1) pour i 6= j.2.5.c) En déduire E [X] et Var(X).

40

Page 41: Cours de Probabilités - MDI 104–114

2.5. Exercices

Pour s’entraîner

Exercice 2.6.–Soient 1 ≤ n ≤ N deux entiers. Soit M une v.a. de loi binomiale (N, θ) et X une v.a. dontla loi est donnée par

P(X = k |M = m) =

(mk

) (N−mn−k

)(

Nn

) pour tout k ∈ 0, · · · , n.

2.6.a) Calculer P(X = k).2.6.b) Calculer la loi de M sachant X = k, dite loi a posteriori de M.

2.6.c) Pour k = 0, identifier cette loi.

Exercice 2.7.–En codage correcteur d’erreurs, les erreurs interviennent au hasard sur l’un quelconquedes bits. Si on transmet des mots de n bits, on pose Ω = 0, 1n, que l’on munit de laloi uniforme. On introduit Xi(ω) = ωi pour i = 1, · · · , n. La distance de Hamming entremots de code x = (x1, · · · , xn) et y = (y1, · · · , yn), est définie par :

d(x, y) =n∑

i=11xi 6=yi.

On appelle longueur d’un mot x, sa distance au mot nul 0 = (0, · · · , 0).2.7.a) Montrer que sous la loi uniforme sur Ω, les variables (Xi, i ∈ 1, · · · , n sont

indépendantes et identiquement distribuées de loi de Bernoulli de paramètre 1/2.2.7.b) Quelle est la longueur moyenne d’un mot ?2.7.c) Quelle est la variance de la longueur d’un mot ?2.7.d) On choisit deux mots au hasard indépendamment l’un de l’autre, soit X et Y les

variables aléatoires correspondantes. Calculer

E[d(X, Y )2

].

Pour aller plus loin

Exercice 2.8.–Un étang contient un nombre de poissons N inconnu. Pour estimer N, on prélève unéchantillon de r poissons que l’on marque et que l’on remet dans l’étang. Une semaineplus tard, un autre échantillon de s < r individus est prélevé. On appelle X le nombre depoissons marqués lors du premier prélèvement qui sont aussi dans le deuxième échantillon.

2.8.a) Calculer la loi de X (dite loi hypergéométrique).On note pour la suite de cet exercice

pk =

(rk

)(N−rs−k

)(

Ns

) ,

pour k ≤ min(r, s) et k ≥ max(s+ r −N, 0).

41

Page 42: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

2.8.b) Montrer que p2k ≥ pk−1pk+1.

2.8.c) En déduire qu’il existe une unique valeur de k telle que pk = maxj pj.

2.8.d) Soit k0 tel cette valeur. Par définition, pk0+1 < pk0 et pk0−1 < pk0 . En déduire que

k0 =[

(r + 1)(s+ 1)N + 2

].

On pourra poser pour simplifier les calculs, r′ = r + 1, s′ = s+ 1, N ′ = N + 2.2.8.e) En déduire une estimation de N .

Exercice 2.9 (***, Erdös et Renyi (1960)).–On fabrique un graphe sur n sommets en choisissant ses arêtes ń au hasard ż. Plusprécisément, on considère le graphe Gn,p obtenu en choisissant chacune des

(n2

)arêtes

potentielles indépendamment avec probabilité p. Le but de ce problème est d’étudier laprobabilité que Gn,p soit connexe. On s’intéressera au cas où p est de la forme

p = p(n) = lnnn

+ c

n

où c est une constante fixée.2.9.a) Soit (Xi, 1 ≤ i ≤ n) un n-uple de variables aléatoires à valeurs dans 0, 1 et soit

X = ∑ni=1 Xi. Montrer que pour tout r tel que r ≥ 1 et 2r + 1 ≤ n on a :

2r+1∑k=0

(−1)kF (k) ≤ P(X = 0) ≤2r∑

k=0(−1)kF (k)

où l’on a posé F (0) = 1 et pour k ≥ 1

F (k) =∑

j1<j2<...<jk

E [Xj1Xj2 . . . Xjk] .

Suggestion. On pourra montrer que

P(X = 0) = E[

n∏i=1

(1 −Xi)]

et appliquer une formule de Taylor à la fonction ∏ni=1(1 − xi).

On dira qu’un sommet est isolé s’il n’est l’extrémité d’aucune arête. Dans un premiertemps, on étudie le nombre X de sommets isolés. On peut écrire X = ∑n

i=1 Xi où Xi estla variable aléatoire qui vaut 1 si le sommet i est isolé, 0 sinon.

2.9.b) Que valent E [Xi] et E [X] ?2.9.c) On suppose dorénavant c fixé. Montrer que la quantité F (k), pour la variable X,

converge, lorsque n tend vers l’infini, vers e−ck/k!.2.9.d) Montrer que limn→∞ P(X = 0) = e−e−c .2.9.e) Calculer l’espérance du nombre de composantes connexes à 2 sommets, et constater

que celle-ci tend vers zéro quand n tend vers l’infini.

42

Page 43: Cours de Probabilités - MDI 104–114

2.5. Exercices

2.9.f) Plus généralement, soit Ct le nombre de composantes connexes à t sommets. Montrerque pour 2 ≤ t ≤ n/2,

E [Ct] ≤ 1t!

∑t−1≤k≤(t

2)

((t2

)k

)(p

1 − p

)k

.

En déduire que la probabilité que Gn,p soit connexe tend, quand n → ∞, vers e−e−c .On admettra que ∑2≤t≤n/2 E [Ct] → 0 quand n → ∞.

2.9.g) Que peut-on dire de la probabilité que Gn,p soit connexe ?

Exercice 2.10.–On rappelle qu’une suite de variables aléatoires (Xn, n ∈ N) converge en probabilité versla variable aléatoire X si et seulement si pour tout ε > 0,

limn→+∞

P(|Xn −X| ≥ ε) = 0.

Soit (Xn, n ∈ N) une suite de v.a. de moyenne µn et de variance σ2n. Soit (bn, n ∈ N) une

suite de réels positifs tels que σ2n/b

2n tende vers 0. Montrer que

Xn − µn

bn

tend vers 0 en probabilité.

Exercice 2.11 (Borne de Chernoff).–Soit X une v.a. de loi de Poisson de paramètre λ.

2.11.a) Montrer que(X ≥ η

)=(

exp(θX) ≥ exp(θη))

pour tout θ > 0.

2.11.b) Montrer que, pour tout θ ≥ 0,

P(X ≥ η) ≤ e−ηθE [exp(θX)] . (2.10)

2.11.c) Calculer E [exp(θX)].2.11.d) Trouver θ qui minimise le terme de droite de (2.10).2.11.e) Trouver K tel que P(X ≥ Kλ) ≤ 0, 001.

Exercice 2.12.–On veut collectionner N images dont une et une seule apparaît dans chaque tablette dechocolat achetée. Les images sont mises au hasard dans les tablettes. On appelle Ti lenombre de tablettes nécessaires avant d’avoir i images distinctes. On pose T0 = 0.

2.12.a) Montrer que Ti+1 − Ti suit une loi géométrique de paramètre 1 − i/N.

2.12.b) Montrer que les variables aléatoires T0, T1 − T0, . . . , TN − TN−1 sont indépendantesdans leur ensemble.

2.12.c) Calculer l’espérance et la variance de TN . Trouver un équivalent de l’espérance etmontrer que la variance est un O(N2) quand N tend vers +∞.

2.12.d) En utilisant l’exercice 2.10, montrer que TN/(N logN) tend vers 1 en probabilité.

43

Page 44: Cours de Probabilités - MDI 104–114

2. Variables aléatoires discrètes

Exercice 2.13.–Les règles du jeu du not-seven sont les suivantes : on part d’un score X0 = 0. À chaquecoup, on lance deux dés non pipés, si la somme des faces égale 7, le score retourne à 0 etla partie est terminée. Sinon, le score augmente de la somme des faces et on a le droit derejouer ou pas. Si l’on ne rejoue pas, le score est acquis et la partie est terminée. Si l’onrejoue, on relance les deux dés avec la même règle.

2.13.a) Calculer la loi de la somme S des deux faces. Calculer son espérance.On considère une suite (Sn, n ∈ N) de variables aléatoires indépendantes de mêmeloi que S.

2.13.b) Soit τ = infn ≥ 1, Sn = 7, trouver la loi de τ . Quelle est la moyenne de τ ?2.13.c) Quelle est la stratégie d’un Initié (celui qui sait le résultat du prochain lancer de

dés) ?2.13.d) Calculer son gain moyen.2.13.e) On appelle Xn le score au n-ième coup en l’absence de stratégie d’arrêt. Montrer que

E [Xn+1 |Xn = i] = 56 i+ 35

6 ,

où l’espérance conditionnelle par rapport à un événement B est définie commel’espérance associée à la loi de probabilité A 7→ P(A |B).

2.13.f) En déduire que la stratégie optimale consiste à jouer tant que l’on n’a pas atteint 35et à s’arrêter immédiatement après avoir franchi ce seuil.

2.13.g) Calculer numériquement le gain moyen avec cette stratégie.

Exercice 2.14.–Peut-on piper deux dés de sorte que la loi de leur somme soit la loi uniforme sur2, · · · , 12 ?

Exercice 2.15 (**, Processus de branchement).–Soit X0 une v.a. à valeurs entières. Soit (Xn, j, n ≥ 1, 1 ≤ j ≤ n) une famille dénombrablede variables aléatoires indépendantes, de loi PX0 . On note Φ la fonction génératrice dePX0 . On considère un individu « racine » qui a un nombre X0 de descendants Chacun deses descendants a un nombre aléatoire de descendant, ce nombre est indépendant de celuides autres descendants et de loi PX0 . On pose Zn le nombre total d’individus au rang n.

1. Calculer la fonction génératrice de Zn en fonction de celle de Zn−1.2. Soit un = P(Zn = 0). Montrer que un = Φ(un−1).3. Trouver des conditions nécessaires et suffisantes sur PX0 qui garantissent que Φ est

strictement convexe.4. Montrer que u converge vers une limite non nulle si et seulement si E [X0] < 1.

Ce processus représente tout aussi bien l’évolution de la contamination par un virus ( X0est le nombre d’individus contaminés par le malade initial ), que la transmission d’unnom de famille ( X0 étant alors le nombre d’enfants portant le nom de leur père )et biend’autres situations.

44

Page 45: Cours de Probabilités - MDI 104–114

2.5. Exercices

Exercice 2.16 (**).–Dans le tri rapide (quicksort), on note Mn le nombre de comparaisons nécessaires pourordonner un tableau de n nombres. Montrer que E [Mn] vérifie la relation

E [Mn] = n− 1 + 2n

n−1∑k=1

E [Mk] .

En déduire que

E [Mn] = 2(n+ 1)n−1∑i=1

i

(i+ 1)(i+ 2)et trouver un équivalent asymptotique de Mn quand n tend vers +∞.

45

Page 46: Cours de Probabilités - MDI 104–114
Page 47: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

De par leur universalité et leur relative simplicité d’utilisation,les chaînes de Markov sont l’un des outils les plus fréquentsde modélisation de phénomènes alétoires en temps discret. Cechapitre n’utilise que les notions que vous avez déjà vues maispermet d’aller plus loin dans les applications des probabilités.Vous rencontrerez des chaînes de Markov dans les cours decommunications numériques, de signal, de réseaux, etc.

La loi des grands nombres repose sur l’hypothèse de variables aléatoires indépendantes etidentiquement distribuées. Si ces variables aléatoires représentent l’évolution de l’état d’unsystème au cours du temps, cette hypothèse n’est généralement pas satisfaite car les étatsdu système sont corrélés dans le temps. Cependant, si le système a une mémoire limitée, àsavoir si le changement d’état du système entre les instants n et n+ 1 ne dépend pas del’état du système au temps n− 1, alors on peut obtenir une loi des grands nombres, liée àl’état d’équilibre du système : c’est le théorème ergodique. Cette propriété de « mémoirelimitée » définit les chaînes de Markov, outil central des probabilités, utilisé dans de trèsnombreux domaines scientifiques et techniques.

On se restreint ici aux chaînes de Markov en temps discret sur un espace d’états fini ; lesrésultats se généralisent au temps continu et à un espace d’états dénombrable notam-ment.

3.1. Préliminaires

Dans ce chapitre, plus encore que dans les autres, la notion de probabilité conditionnelle,qui sera vue en détail dans le chapitre 6, joue un rôle primordial. Comme toutes les variablesaléatoires sont définies sur un espace fini, les formules sont simples et les constructionsélémentaires.

Rappelons que pour un événement B de probabilité non nulle, la mesure de probabi-lité

A 7−→ P(A |B) = P(A ∩B)P(B)

47

Page 48: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

est appelée la probabilité conditionnelle selon B. On notera au passage le lemme élémentairemais indispensable :

P(A ∩B |C) = P(A |B ∩ C)P(B |C). (3.1)

3.2. Définition

Définition 3.1. Soit (Xn, n ∈ N) une suite de variables aléatoires à valeurs dans1, . . . , N. La suite (Xn)n∈N est une chaîne de Markov si

∀n ∈ N, ∀x0, x1, . . . , xn+1 ∈ 1, . . . , N,P(Xn+1 = xn+1 |X0 = x0, X1 = x1, . . . , Xn = xn) = P(Xn+1 = xn+1 |Xn = xn).

On dit d’une chaîne de Markov qu’elle « oublie son passé » : conditionnellement à la variablealéatoire Xn (l’état présent), la variable aléatoire Xn+1 (l’état futur) ne dépend pas des va-riables aléatoiresX0, . . . , Xn−1 (les états passés). Plus généralement, toute l’évolution futured’une chaîne de Markov ne dépend que de son état présent :

Théorème 3.1. Pour tout n ∈ N, pour tout k ≥ 1, pour tout x0, x1, . . . , xn+k ∈1, . . . , N, on a :

P(Xn+1 = xn+1, . . . , Xn+k = xn+k |X0 = x0, X1 = x1, . . . , Xn = xn)= P(Xn+1 = xn+1, . . . , Xn+k = xn+k |Xn = xn).

Démonstration. Par récurrence sur k. La propriété est vraie pour k = 1 par définition.On suppose qu’elle est vraie pour un certain k ≥ 1. Alors, pour tout n ∈ N, pour toutx0, x1, . . . , xn+k ∈ 1, . . . , N, on a

P(Xn+1 = xn+1, . . . , Xn+k+1 = xn+k+1 |X0 = x0, X1 = x1, . . . , Xn = xn)= P(Xn+1 = xn+1, . . . , Xn+k = xn+k |X0 = x0, X1 = x1, . . . , Xn = xn)

× P(Xn+k+1 = xn+k+1 |X0 = x0, X1 = x1, . . . , Xn+k = xn+k),= P(Xn+1 = xn+1, . . . , Xn+k = xn+k |Xn = xn) × P(Xn+k+1 = xn+k+1 |Xn+k = xn+k),= P(Xn+1 = xn+1, . . . , Xn+k = xn+k |Xn = xn)

× P(Xn+k+1 = xn+k+1 |Xn = xn, Xn+1 = xn+1, . . . , Xn+k = xn+k),= P(Xn+1 = xn+1, . . . , Xn+k+1 = xn+k+1 |Xn = xn),

où l’on a utilisé (3.1), l’hypothèse de récurrence et la définition des chaînes de Markovpour obtenir la seconde égalité, et à nouveau la définition des chaînes de Markov pourobtenir la troisième égalité.

Pour prédire l’évolution d’une chaîne de Markov, on peut simplement considérer les maillonsde cette chaîne, correspondant aux transitions successives d’un état à l’autre :

48

Page 49: Cours de Probabilités - MDI 104–114

3.3. Matrice de transition

Théorème 3.2. On a :

∀n ∈ N, ∀k ≥ 1, ∀xn, xn+1, . . . , xn+k ∈ 1, . . . , N,P(Xn+1 = xn+1, . . . , Xn+k = xn+k |Xn = xn) = P(Xn+1 = xn+1 |Xn = xn)×

P(Xn+2 = xn+2 |Xn+1 = xn+1) × . . .× P(Xn+k = xn+k |Xn+k−1 = xn+k−1).

Démonstration. Par la formule des probabilités composées,

P(Xn+1 = xn+1, . . . , Xn+k = xn+k |Xn = xn)= P(Xn+1 = xn+1 |Xn = xn) × P(Xn+2 = xn+2 |Xn+1 = xn+1, Xn = xn)

× . . .× P(Xn+k = xn+k |Xn = xn, . . . , Xn+k−1 = xn+k−1).

La preuve découle alors de la définition des chaînes de Markov.

3.3. Matrice de transition

D’après le théorème 3.2, l’évolution d’une chaîne de Markov est entièrement déterminée parses probabilités de transition, P(Xn+1 = j |Xn = i) pour tous i, j ∈ 1, . . . , N. Par la suite,on ne considèrera que des chaînes de Markov homogènes (sous-entendues en temps), pourlesquelles ces probabilités de transition ne dépendent pas de n :

∀n ∈ N, P(Xn+1 = j |Xn = i) = P(X1 = j |X0 = i).

Définition 3.2. L’évolution de la chaîne de Markov ne dépend alors que de samatrice de transition P , définie par :

∀i, j = 1, . . . , N, Pij = P(X1 = j |X0 = i).

C’est une matrice stochastique, au sens où

∀i = 1, . . . , N,∑

j

Pij = 1,

soit P1 = 1 en notation vectorielle, avec 1 = (1, . . . , 1)T .

Exemple 9.– La matrice suivante est stochastique et définit donc une chaîne de Markov :

P =

1/4 1/2 1/41/3 0 2/30 1/5 4/5

.En particulier, la chaîne passe de l’état 1 à l’état 2 avec probabilité 1/2.

49

Page 50: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

Par la loi des probabilités totales, on a pour tout n ∈ N,

∀i = 1, . . . , N, P(Xn+1 = i) =N∑

j=1P(Xn = j)P(Xn+1 = i |Xn = j).

En notant la loi de Xn comme un vecteur ligne π(n) de dimension N , avec π(n)1 = 1,cela s’écrit :

∀i = 1, . . . , N, π(n+ 1)i =N∑

j=1π(n)jPji,

soit π(n+ 1) = π(n)P en notation vectorielle, dont on déduit

∀n ∈ N, π(n) = π(0)P n. (3.2)

En prenant π(0) le vecteur nul sauf la i-ième composante égale à 1, on obtient

π(n) = (P(Xn = j |X0 = i), 1 ≤ j ≤ N) = ((P n)ij, 1 ≤ j ≤ N)

donc

∀n ∈ N, (P n)ij = P(Xn = j |X0 = i). (3.3)

Exemple 10.– Soit P =(

0 11/3 2/3

). On a en particulier :

P 2 =(

1/3 2/32/9 7/9

).

Ainsi pour π(0) = (1, 0) (la chaîne est initialement dans l’état 1), alors π(1) = (0, 1) (lachaîne est dans l’état 2 au temps 1) et π(2) = (1/3, 2/3) (la chaîne est dans l’état 1 avecprobabilité 1/3 et dans l’état 2 avec probabilité 2/3 au temps 2).

Remarque.– Soit P la matrice de transition d’une chaîne de Markov X0, X1, X2, . . .Comme P1 = 1, on a P n1 = 1 pour tout entier n ≥ 1 de sorte que P n est la matrice detransition d’une chaîne de Markov. Il s’agit de la chaîne de Markov initiale échantillonnéeaux temps multiples de n, soit X0, Xn, X2n, . . .

Supposons qu’il existe une loi de probabilité π telle que :

∀i = 1, . . . , N, πi =∑

j

πjPji, (3.4)

soit π = πP sous forme vectorielle. Alors π est une loi stationnaire de la chaîne de Markovau sens où, d’après (3.3), π(0) = π implique π(n) = π pour tout n. Nous reviendrons surles conditions d’existence et d’unicité d’une telle loi stationnaire, et sur la convergence deπ(n) vers π lorsque π(0) 6= π. Les équations (3.4) s’appellent les équations d’équilibre dela chaîne de Markov.

50

Page 51: Cours de Probabilités - MDI 104–114

3.4. Graphe de transition

3.4. Graphe de transition

On représente généralement une chaîne de Markov par son graphe de transition, grapheorienté dont les sommets sont les états de la chaîne de Markov et les arcs sont les transitionspossibles entre états : il existe un arc de i vers j si et seulement si Pij > 0 ; on associealors à cet arc le poids Pij (voir figure 3.1). La somme des poids des arcs sortants de toutsommet doit donc être égale à 1.

P =

1/3 2/3 00 0 1

1/2 1/2 0

3

211/3

2/3

1

1/2

1/2

Figure 3.1. – Matrice et graphe de transition d’une chaîne de Markov à trois états.

D’après le théorème 3.2, la probabilité d’une suite d’états de la chaîne de Markov s’obtienten faisant le produit des poids le long du chemin correspondant dans le graphe detransition. Ainsi pour l’exemple de la figure 3.1, la probabilité que, partant de l’étatinitial X0 = 1, la chaîne de Markov prenne les états successifs 2, 3, 1, 1, 2 est égaleà :

23 × 1 × 1

2 × 13 × 2

3 = 281 .

3.5. Irréductibilité

Définition 3.3. Une chaîne de Markov est dite irréductible si son graphe detransition est fortement connexe, c’est-à-dire si pour tous sommets distincts i, j, ilexiste un chemin de i vers j dans le graphe de transition. La propriété d’irréductibiliténe dépend donc que de la structure du graphe de transition et non des poids de cegraphe.

Une chaîne de Markov irréductible « visite » tous ses états infiniment souvent tandis qu’unechaîne de Markov non irréductible finit par ne prendre qu’un sous-ensemble strict des étatspossibles. Pour les chaînes de Markov de la figure 3.2 par exemple, la chaîne de gauche pren-dra les états 1, 2, 3 infiniment souvent tandis que la chaîne de droite finira par ne prendreque les états 2, 3 (on dit que l’ensemble 2, 3 est absorbant).

Le résultat suivant permet de caractériser une chaîne de Markov irréductible à partir desa matrice de transition.

51

Page 52: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

3

21

3

21

Figure 3.2. – Graphes de transition non valués d’une chaîne de Markov irréductible(à gauche) et d’une chaîne de Markov non irréductible (à droite).

Proposition 3.3. Une chaîne de Markov de matrice de transition P est irréductiblesi et seulement s’il existe un entier n ≥ 1 tel que la matrice (I + P )n est strictementpositive.

Démonstration. On commence par la condition suffisante. Soit n ≥ 1 tel que la matrice(I + P )n est strictement positive. Comme

(I + P )n =n∑

k=0

(n

k

)P k,

il existe pour toute paire d’états distincts i 6= j un entier k tel que (P k)ij > 0, et donc unchemin de longueur k de i à j dans le graphe de transition.

Pour la condition nécessaire, il suffit de prendre n = N car il existe pour toute paired’états distincts i 6= j un chemin de longueur inférieure à N de i à j dans le graphe detransition.

Théorème 3.4 (Perron-Frobenius (partiel)). Une chaîne de Markov irréductibleadmet une unique loi stationnaire.

Démonstration. La matrice P étant stochastique admet 1 = (1, . . . , 1)T comme vecteurpropre droit associé à la valeur propre 1, soit P1 = 1. La matrice transposée P T ayantles mêmes valeurs propres que P , il existe un vecteur propre gauche v de P associé à lavaleur propre 1, soit vP = v.

On montre tout d’abord que le vecteur ligne |v| satisfait également l’égalité |v|P = |v|.On a en effet pour tout j,

|vj| = |∑

i

viPij| ≤∑

i

|vi|Pij.

En sommant ces inégalités, on trouve∑j

|vj| ≤∑

j

∑i

|vi|Pij =∑

i

|vi|∑

j

Pij =∑

i

|vi|,

52

Page 53: Cours de Probabilités - MDI 104–114

3.5. Irréductibilité

de sorte que toutes les inégalités précédentes sont en fait des égalités.

On vérifie ensuite que le vecteur |v| est strictement positif. Par irréductibilité, il existe eneffet d’après la Proposition 3.3 un entier n ≥ 1 tel que la matrice (I + P )n est strictementpositive. Le résultat découle alors du fait que

|v|(I + P )n = |v|n∑

k=0

(n

k

)P k = 2n|v|.

On sait donc que tout vecteur propre v de P pour la valeur propre 1 n’a aucune coordonnéenulle. Il reste à montrer que ce vecteur est de signe constant, soit v = |v| ou v = −|v|.Ceci vient du fait que si le vecteur v + |v| est non nul, c’est un vecteur propre gauche deP pour la valeur propre 1 ; comme un tel vecteur propre n’a aucune coordonnée nulle, celaimplique que toutes les coordonnées du vecteur v sont positives, c’est-à-dire que v = |v|.

Enfin, on définit le vecteur ligne π par renormalisation de |v| :

πj = |vj|∑Ni=1 |vi|

.

C’est un vecteur strictement positif qui satisfait πP = π et ∑j πj = 1. Par ailleurs, s’ilexiste un autre vecteur π′ qui satisfait ces égalités, alors le vecteur π−π′ est nul ou vecteurpropre gauche de P pour la valeur propre 1. Mais si le vecteur π − π′ était vecteur propregauche de P pour la valeur propre 1, il serait de signe constant, ce qui est impossible carles vecteurs π et π′ sont tous deux positifs et de somme unitaire. On en déduit que π′ = π,et donc que la loi stationnaire de la chaîne de Markov est unique.

La preuve du théorème permet en outre de conclure que la loi stationnaire d’une chaîne deMarkov irréductible a pour support l’ensemble des états :

Corollaire 3.5. La loi stationnaire π d’une chaîne de Markov irréductible vérifieπi > 0 pour tout i = 1, . . . , N .

Exemple 11.– Considérons une chaîne de Markov de matrice de transition :

P =

1/3 2/3 00 0 1

1/2 1/2 0

.Cette chaîne de Markov est irréductible et admet donc une unique loi stationnaire. Leséquations d’équilibre (3.4), soit π = πP , s’écrivent :

π1 = 13π1 + 1

2π3

π2 = 23π1 + 1

2π3

π3 = π2

53

Page 54: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

Ces équations définissent un vecteur propre gauche de P pour la valeur propre 1 et nesont donc pas indépendantes (la solution est unique à une constante multiplicative près).La dernière équation définissant la loi stationnaire π de manière unique est la condition denormalisation :

π1 + π2 + π3 = 1.On trouve π = (3/11, 4/11, 4/11).

L’irréductibilité n’est pas une condition nécessaire d’existence et d’unicité d’une loistationnaire. La chaîne de Markov associée au graphe de transition de droite de la figure3.2 a pour unique loi stationnaire π = (0, 1/2, 1/2) par exemple. Par contre, l’irréductibilitéest une condition nécessaire pour que la loi stationnaire ait pour support l’ensemble desétats.

Une chaîne de Markov admet en fait toujours une loi stationnaire (dans le cas d’un nombrefini d’états considéré ici). Il suffit de décomposer le graphe de transition en ensemblesabsorbants fortement connexes et de considérer la restriction de la chaîne de Markov àchacun de ces ensembles : chacune de ces chaînes de Markov « réduites » définit unechaîne de Markov irréductible, qui admet donc une loi stationnaire. Toute combinaisonconvexe de ces lois donne une loi stationnaire pour la chaîne de Markov initiale ; il n’y aainsi pas unicité en général.

Exemple 12.– Le graphe de transition de la figure 3.3 a deux ensembles absorbantsfortement connexes : 4, 5 et 6, 7, 8. Les lois stationnaires associées sont π(1) =(0, 0, 0, 1/2, 1/2, 0, 0, 0) et π(2) = (0, 0, 0, 0, 0, 1/3, 1/3, 1/3) ; on a ainsi π(1)P = π(1) etπ(2)P = π(2). Toute combinaison convexe de ces deux lois est une loi stationnaire de lachaîne de Markov.

3

21 6

7 8

4

5

Figure 3.3. – Graphe de transition non valué d’une chaîne de Markov non irréductible,avec deux ensembles absorbants fortement connexes : 4, 5 et 6, 7, 8.

3.6. Périodicité

Certaines chaînes de Markov ont un comportement périodique au sens où les mêmessous-ensembles d’états sont visités de manière cyclique.

54

Page 55: Cours de Probabilités - MDI 104–114

3.6. Périodicité

Définition 3.4. On appelle période d’un état le plus grand commun diviseur deslongueurs des cycles du graphe transition passant par cet état. On dit d’un étatqu’il est apériodique lorsqu’il est de période 1.

Proposition 3.6. Tous les états d’une chaîne de Markov irréductible ont la mêmepériode.

Démonstration. Soit i, j deux états distincts de périodes respectives di, dj. La chaîne deMarkov étant irréductible, il existe n,m tels que (P n)ij > 0 et (Pm)ji > 0. Comme

(P n+m)ii ≥ (P n)ij(Pm)ji > 0,

il existe un cycle de longueur n+m passant par i, si bien que di divise n+m. Par ailleurs,pour tout cycle de longueur k passant par j,

(P n+k+m)ii ≥ (P n)ij(P k)jj(Pm)ji > 0,

de sorte qu’il existe un cycle de longueur n+k+m passant par i. Ainsi di divise n+k+m,et comme di divise n+m, di divise k. Finalement, comme di divise toutes les longueursde cycles passant par j, di divise dj. Par symétrie, dj divise di et di = dj.

On parle donc sans ambiguïté de période d’une chaîne de Markov irréductible, qui est lapériode de tous ses états.

Théorème 3.7. Une chaîne de Markov (Xn)n∈N irréductible de période d admetune partition C0, . . . , Cd−1 de ses états telle que

∀k = 0, . . . , d− 1,∀n ∈ N, P(Xn ∈ Ck+n mod d |X0 ∈ Ck) = 1. (3.5)

Les chaînes de Markov (Xnd)n∈N restreintes aux ensembles C0, . . . , Cd−1 sontirréductibles, de lois stationnaires respectives π(0), . . . , π(d−1) telles que π(1) =π(0)P, . . . , π(d) = π(d−1)P et π(0) = π(d)P . La loi stationnaire de la chaîne de Markov(Xn)n∈N est donnée par :

π = 1d

(π(0) + . . .+ π(d−1)). (3.6)

Démonstration. Pour un état fixé, par exemple l’état 1, on note Ck l’ensemble des étatsatteignables à partir de l’état 1 en un temps égal à k modulo d, pour tout k = 0, . . . , d− 1.Les ensembles C0, . . . , Cd−1 forment une partition des états. En effet, supposons qu’il existeun état i ∈ Ck1 ∩ Ck2 pour k1 < k2 ; par irréductibilité, il existe un chemin de longueur` ≥ 0 de i à 1 dans le graphe de transition. Il existe donc deux cycles passant par 1 dans legraphe de transition, de longueurs respectives égales à k1 + ` et k2 + ` modulo d. Commetous les états sont de période d, d divise k1 + ` et k2 + ` ; d divise donc k2 − k1, un nombrecompris strictement entre 0 et d, une contradiction. L’état 1 étant arbitrairement choisi,les ensembles C0, . . . , Cd−1 sont visités de manière cyclique, ce qui donne (3.5).

55

Page 56: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

Comme la chaîne de Markov (Xn)n∈N est irréductible, les chaînes de Markov (Xnd)n∈Nrestreintes aux ensembles C0, . . . , Cd−1 sont irréductibles. D’après le Théorème 3.4, chacuna une unique loi stationnaire, respectivement π(0), . . . , π(d−1). Comme π(0) a pour supportC0 et vérifie π(0) = π(0)P d, π(0)P a pour support C1 et vérifie (π(0)P ) = (π(0)P )P d, desorte que π(1) = π(0)P , par unicité de la mesure stationnaire. On montre de la mêmemanière que π(2) = π(1)P, . . . , π(d) = π(d−1)P et π(0) = π(d)P . Pour finir, on vérifie que lamesure de probabilité π satisfait bien π = πP .

1 2

34

1

2/31/3

1 1/2

1/2

Figure 3.4. – Graphe de transition d’une chaîne de Markov irréductible de période 2.

Exemple 13.– La chaîne de Markov dont le graphe de transition est représenté en figure3.4 est irréductible de période 2. Elle visite les états 1, 3 et 2, 4 de manière cyclique.Sa matrice de transition est :

P =

0 1 0 0

1/3 0 2/3 00 1/2 0 1/21 0 0 0

.On vérifie que la matrice

P 2 =

1/3 0 2/3 00 2/3 0 1/3

2/3 0 1/3 00 1 0 0

définit bien deux chaînes de Markov irréductibles, restreintes à 1, 3 et 2, 4, respective-ment. Les lois stationnaires associées sont π(0) = (1/2, 0, 1/2, 0) et π(1) = (0, 3/4, 0, 1/4).On vérifie que π(1) = π(0)P et π(0) = π(1)P . De plus, la chaîne de Markov initiale a bienpour unique loi stationnaire π = (π(0) + π(1))/2, soit π = (1/4, 3/8, 1/4, 1/8).

Une chaîne de Markov irréductible est dite apériodique si sa période est 1. Le résultat suivanten donne une caractérisation à partir de la matrice de transition.

Théorème 3.8. Une chaîne de Markov irréductible est apériodique si et seulementsi la matrice P n est strictement positive pour tout n suffisamment grand.

56

Page 57: Cours de Probabilités - MDI 104–114

3.6. Périodicité

Démonstration. La condition suffisante est évidente, le pgcd des nombres supérieurs à unentier quelconque étant égal à 1. Montrons la condition nécessaire. Il suffit de montrerle résultat pour les éléments diagonaux de P n. En effet, pour deux états distincts i, j, ilexiste un chemin de longueur m de i à j par irréductibilité, si bien que

(P n+m)ij ≥ (P n)ii(Pm)ij > 0

pour n suffisamment grand.

Soit C l’ensemble des longueurs des cycles passant par un état i fixé. Notons que C eststable par addition : pour tous n,m ∈ C,

(P n+m)ii ≥ (P n)ii(Pm)ii > 0,

de sorte que n+m ∈ C. Par ailleurs, la chaîne étant apériodique, il existe k éléments de Cde pgcd égal à 1. Par l’identité de Bezout, il existe une combinaison linéaire à coefficientsentiers de ces k éléments égale à 1. En regroupant les coefficients positifs et les coefficientsnégatifs, on obtient a− b = 1 où a et b sont des entiers naturels, éléments de C. Si b = 0,alors a = 1 est un élément de C et C = N \ 0. Si b > 0, soit n = bq + r la divisioneuclidienne d’un entier n quelconque par b. En prenant n ≥ b2, on obtient q ≥ b > ret n = bq + r(a − b) = (q − r)b + ra, élément de C puisque a, b ∈ C. On en déduit que(P n)ii > 0 pour tout n ≥ b2.

Le résultat clé suivant montre que, pour une chaîne de Markov irréductible et apériodique, laloi stationnaire est également la loi limite de la chaîne de Markov :

Théorème 3.9. Soit π la loi stationnaire d’une chaîne de Markov irréductible etapériodique. Alors pour toute loi initiale π(0),

limn→∞

π(n) = π.

Démonstration. Soit P∞ la matrice définie par :

P∞ =

π...π

=

π1 π2 . . . πn

π1 π2 . . . πn... ...π1 π2 . . . πn

.

Cette matrice est strictement positive d’après le Corollaire 3.5. Nous allons montrer que

limn→∞

P n = P∞. (3.7)

Cela suffit pour conclure puisqu’alors, d’après (3.3),

∀j = 1, . . . , N, limn→∞

π(n)j =∑

i

π(0)iP∞ij =

∑i

π(0)iπj = πj.

57

Page 58: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

On remarque tout d’abord que, comme P∞ = (1, . . . , 1)Tπ,

P∞P = PP∞ = P∞ (3.8)

et(P∞)2 = P∞. (3.9)

Par ailleurs, on sait par le théorème 3.8 qu’il existe un entier k ≥ 1 tel que la matrice P k

est strictement positive. Soit :

η = mini,j=1,...,N

(P k)ij

P∞ij

.

Cette constante est strictement positive. De plus, les matrices P k et P∞ étant stochastiques,on a η ≤ 1 avec égalité si et seulement si P k = P∞. Dans ce dernier cas, la propriété (3.7)découle de (3.8). On suppose donc par la suite que η < 1.

Soit Q la matrice :Q = 1

1 − η(P k − ηP∞).

C’est une matrice stochastique. D’après (3.8)-(3.9),

P∞Q = QP∞ = P∞,

de sorte que pour tout entier n ≥ 1, (Q− P∞)n = Qn − P∞ (par récurrence). De la mêmemanière, on a P kn−P∞ = (P k−P∞)n pour tout entier n ≥ 1. Or P k−P∞ = (1−η)(Q−P∞)par définition de la matrice Q. On en déduit que

P kn − P∞ = (1 − η)n(Qn − P∞).

Les matrices Qn et P∞ étant stochastiques, on a

||P kn − P∞||∞ ≤ (1 − η)n,

où || · ||∞ désigne le maximum des entrées d’une matrice en valeur absolue. On en déduitque

limn→∞

P kn = P∞.

Pour conclure, on remarque que pour tout ` = 0, 1, . . . , k − 1,

P kn+` − P∞ = P `(P kn − P∞),

de sorte quelim

n→∞P kn+` = P∞.

Remarque.– D’après la preuve du théorème 3.9, la convergence de la loi d’une chaîne deMarkov irréductible et apériodique vers sa loi stationnaire se fait à une vitesse exponentielle.

58

Page 59: Cours de Probabilités - MDI 104–114

3.7. Théorème ergodique

La loi d’une chaîne de Markov irréductible de période d ≥ 2 ne converge pas en généralvers la loi stationnaire. Cela dépend de la loi initiale. Si π(0) a pour support l’un desd ensembles cycliques par exemple, la loi π(n) aura un comportement périodique (voirthéorème 3.7). Une condition nécessaire et suffisante pour que π(n) converge vers π estque la mesure de chaque ensemble cyclique soit la même, égale à 1/d, sous la loi initialeπ(0).

Exemple 14.– Pour la chaîne de Markov de l’Exemple 13, la loi stationnaire est la loilimite si π(0) = (1/2, 1/2, 0, 0) par exemple.

3.7. Théorème ergodique

On connaît la loi stationnaire mais pas le comportement de la chaîne de Markov pour unetrajectoire donnée, soit X0, X1, . . . pour un ω ∈ Ω fixé. On aimerait connaître par exemplela fraction du temps que la chaîne de Markov passe dans l’état i. Comme la probabilitéque Xn = i tend vers πi dès que la chaîne est apériodique, on s’attend à trouver pourtoute loi initiale π(0) :

1n

n∑k=1

1Xk=ip.s.−→ πi lorsque n → ∞. (3.10)

Plus généralement, pour toute fonction ϕ sur 1, . . . , N, on doit avoir

1n

n∑k=1

ϕ(Xk) p.s.−→∑

i

πiϕ(i) lorsque n → ∞, (3.11)

la forme précédente s’obtenant en prenant pour ϕ la fonction indicatrice ϕ(x) = 1x=i.C’est le théorème ergodique. Ce résultat généralise la loi forte des grands nombres, quin’est valable que pour des variables aléatoires i.i.d. Lorsque X1, X2, . . . sont des variablesaléatoires indépendantes de même loi π sur 1, . . . , N (ce qui définit en particulier unechaîne de Markov), les variables aléatoires ϕ(X1), ϕ(X2), . . . sont en effet également i.i.d. desorte que

1n

n∑k=1

ϕ(Xk) p.s.−→ E(ϕ(X1)) =∑

i

πiϕ(i) lorsque n → ∞.

la dernière égalité venant du théorème de transfert. Ce résultat s’étend donc à des variablesaléatoires non indépendantes, ne suivant pas la même loi, mais vérifiant la propriété deMarkov. La loi π intervenant dans la limite est alors la loi stationnaire de la chaîne deMarkov, supposée irréductible.

Pour prouver le théorème ergodique, nous commençons par donner une forme de la loistationnaire faisant intervenir le temps de retour dans chaque état. D’après (3.10), laloi stationnaire donne les fréquences asymptotiques des passages dans chaque état. Celasuggère que la probabilité d’être dans un état sous la loi stationnaire est l’inverse du tempsmoyen de retour à cet état. Pour tout i = 1, . . . , N , on note donc Ti le temps d’atteintede l’état i :

Ti = minn ≥ 1 : Xn = i.

59

Page 60: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

C’est une variable aléatoire sur N \ 0 ∪ +∞. Le temps de retour est une variablealéatoire de même loi que Ti conditionnellement à X0 = i (on supposera par la suite queπ(0) a pour support 1, . . . , N pour simplifier l’exposé mais le résultat est valable quelleque soit la loi initiale π(0)). On note Pi la mesure de probabilité conditionnelle à X0 = iet Ei l’espérance associée.

Théorème 3.10. La loi stationnaire d’une chaîne de Markov irréductible estdonnée par :

∀i = 1, . . . , N, π(i) = 1Ei(Ti)

.

Démonstration. On montre le résultat pour un état fixé, par exemple l’état 1. On notepour tout état j = 1, . . . , N et tout n ≥ 1 :

qj(n) = P1(T1 ≥ n,Xn = j).

C’est la probabilité que la chaîne de Markov soit dans l’état j au temps n sans avoir étédans l’état 1 depuis le temps 0. On a :

qj(1) = P1j, qj(n) =∑i 6=1

qi(n− 1)Pij pour n ≥ 2.

En notantvj =

∞∑n=1

qj(n),

on obtient par sommation des équations précédentes :

vj = P1j +∑i 6=1

viPij. (3.12)

Par ailleurs, en remarquant que P1(T1 ≥ n,Xn = 1) = P1(T1 = n), on obtient

v1 =∞∑

n=1P1(T1 = n) = P1(T1 < ∞),

de sorte que v1 ≤ 1. On déduit alors de (3.12) que :

vj ≥N∑

i=1viPij.

soit v ≥ vP en notation vectorielle. En particulier, v ≥ vP n pour tout n ≥ 1. Comme lachaîne est irréductible, il existe un entier n ≥ 1 tel que (I+P )n est une matrice strictementpositive d’après la Proposition 3.3. Comme v2n ≥ v(I+P )n, cela implique que si le vecteurv a une composante infinie, toutes ses composantes sont infinies. Comme v1 ≤ 1, toutesles composantes du vecteur v sont finies. En sommant les égalités (3.12), on obtient :

N∑j=1

vj = 1 +N∑

j 6=1vj,

60

Page 61: Cours de Probabilités - MDI 104–114

3.7. Théorème ergodique

si bien que v1 = 1. Ainsi v = vP et on obtient la loi stationnaire de la chaîne de Markovpar normalisation de v :

∀i = 1, . . . , N, πi = vi∑j vj

.

Pour finir, on remarque que :

∑j

vj =∑

j

∞∑n=1

qj(n) =∞∑

n=1

∑j

qj(n) =∞∑

n=1P1(T1 ≥ n) = E1(T1),

de sorte queπ1 = 1

E1(T1).

Remarque.– Le résultat précédent donne une preuve probabiliste de l’existence de la loistationnaire, à comparer à la preuve algébrique du Théorème 3.4.

Le Théorème 3.10 et le Corollaire 3.5 donnent le résultat suivant :

Corollaire 3.11. Pour toute chaîne de Markov irréductible, Ei(Ti) < ∞ pour toutétat i = 1, . . . , N .

On est maintenant en mesure de prouver le théorème ergodique :

Théorème 3.12. Soit π la loi stationnaire d’une chaîne de Markov irréductible.Pour toute fonction ϕ sur 1, . . . , N, on a :

1n

n∑k=1

ϕ(Xk) p.s.−→∑

i

πiϕ(i) lorsque n → ∞.

Démonstration. On commence par prouver le résultat lorsque ϕ est une fonction indicatrice,soit ϕ(x) = 1x=i. On note pour tout n ≥ 1 :

Sn =n∑

k=11Xk=i.

Soit U1, U2, . . . la suite des temps successifs d’atteinte de l’état i. Conditionnellement aufait que X0 = i, c’est une suite de variables aléatoires i.i.d. 1 de même loi que Ti. CommeEi(Ti) < ∞ d’après le Corollaire 3.11, on a par la loi forte des grands nombres :

1n

n∑k=1

Uk → Ei(Ti) Pi − p.s. lorsque n → ∞. (3.13)

1. Ce résultat fait appel à la propriété dite forte de Markov : après avoir atteint l’état i, la chaîne deMarkov se « regénère » et évolue comme si elle était partie initialement de l’état i.

61

Page 62: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

Par ailleurs, comme Sn est égal au nombre de visites de l’état i entre les temps 1 et n, ona :

Sn∑k=1

Uk ≤ n <Sn+1∑k=1

Uk. (3.14)

La suite de variables aléatoires S1, S2, . . . tend Pi-p.s. vers +∞. En effet, il existerait dansle cas contraire un entier m ≥ 1 tel que Sn < m pour tout n avec probabilité strictementpositive ; cela impliquerait que Pi(

∑mk=1 Uk = +∞) > 0 d’après l’inégalité précédente, et

comme les variables aléatoires U1, U2, . . . sont indépendantes et de même loi que Ti sousPi, que Pi(Ti = +∞) > 0, une contradiction. D’après (3.13), on a donc

1Sn

Sn∑k=1

Uk → Ei(Ti) Pi − p.s. lorsque n → ∞.

Par les inégalités (3.14), on conclut que :

Sn

n→ 1

Ei(Ti)Pi − p.s. lorsque n → ∞. (3.15)

Le résultat découle alors du Théorème 3.10.

Il reste à montrer le résultat sous une loi Pj, avec j 6= i. Alors U1 est le temps d’atteintede l’état i depuis l’état j tandis que U2, U3, . . . sont les temps successifs de retour à l’étati. On a à nouveau par la loi forte des grands nombres :

1n

n∑k=2

Uk → Ei(Ti) Pj − p.s. lorsque n → ∞.

Il reste à montrer que la variable aléatoire U1 est Pj − p.s. finie pour en déduire (3.13)et donc (3.15) pour la loi Pj. Supposons donc que Pj(Ti = +∞) > 0. Comme la chaîneest irréductible, il existe un entier n ≥ 1 tel que la chaîne passe de l’état i à l’état j enn étapes avec probabilité p > 0. On a alors Pi(Ti = +∞) ≥ p× Pj(Ti = +∞) > 0, unecontradiction.

Finalement, le résultat s’étend à toute fonction ϕ en écrivant

1n

n∑k=1

ϕ(Xk) =∑

i

ϕ(i) 1n

n∑k=1

1Xk=ip.s.−→

∑i

πiϕ(i) lorsque n → ∞.

Remarque.– La convergence du théorème ergodique est presque sûre et donc indépen-dante de la loi initiale de la chaîne de Markov.

62

Page 63: Cours de Probabilités - MDI 104–114

3.7. Théorème ergodique

Chaînes deMarkov

Classifi-cation

RécurrentsPério-diques

Déf. 3.4

Apério-diquesThm.

3.8Transients

Thm.limites

Mesure sta-tionnaire

Thm. 3.10

ThmergodiqueThm. 3.12

LimiteponctuelleThm. 3.9

Matricede tran-

sition

Irréduc-tibilitéDéf. 3.3

GrapheSec. 3.4

Loistransitoires

Eqn. 3.3

63

Page 64: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

3.8. Exercices

Pour apprendre

Exercice 3.1.–Soit (Xn)n∈N une chaîne de Markov de matrice de transition P . Montrer que (X2n)n∈Nest une chaîne de Markov de matrice de transition P 2.

Exercice 3.2.–Soit (Xn)n∈N une chaîne de Markov de matrice de transition :

P =

1/4 1/2 1/41/3 0 2/30 1/5 4/5

,avec X0 = 1 p.s. Calculer les probabilités des événements X1 = 2, X2 = 1, X1 =2, X2 = 1.

Exercice 3.3.–Soit (Xn)n∈N une chaîne de Markov de matrice de transition :

P =(

1/2 1/21/3 2/3

),

et de loi initiale π(0) = (1/2, 1/2). Calculer les lois π(1) et π(2). Quelle est la loi station-naire ?

Exercice 3.4.–Soit X une chaîne de Markov d’espace d’états E = a, b, c, de matrice de transition

P =

0 13

23

14

34 0

25 0 3

5

,de loi initiale

π(0) =(2

5 ,15 ,

25

).

1. CalculerPa(X1 = b, X2 = b, X3 = b, X4 = a, X5 = c).

2. CalculerPa(X1 = b, X3 = a, X4 = c, X6 = b).

3. CalculerP(X1 = b, X2 = b, X3 = a).

4. CalculerP(X2 = b, X5 = b, X6 = b).

64

Page 65: Cours de Probabilités - MDI 104–114

3.8. Exercices

Exercice 3.5.–Soit X une chaîne de Markov d’espace d’états E = r, w, b, y et de matrice de transition

P =

0 0 100 0, 4 0, 6 0

0, 8 0 0, 2 00, 2 0, 3 0 0, 5

.1. Calculer

P(X5 = b, X6 = r, X7 = b, X8 = b |X4 = w).

2. CalculerE [f(X5)f(X6) |X4 = y]

oùf(r) = 2, f(w) = 4, f(b) = 7, f(y) = 3.

Pour s’entraîner

Exercice 3.6 (Canal binaire symétrique).–On considère un canal de communication qui transmet des bits avec erreur selon le modèlesuivant : un bit à une probabilité 1 − p d’être transmis correctement et p d’être inversé.On suppose que n canaux de ce type sont en série. On note Xn le bit reçu en sortie du n-canal. On note

π(n) =(P(Xn = 0), P(Xn = 1)

).

1. Exprimer la relation matricielle entre π(n) et π(n− 1) pour tout n ≥ 1. On traiteraà part les cas p = 0 et p = 1.

2. Calculer la probabilité pn que l’information soit correctement transmise au rang n.3. Que se passe-t-il quand n tend vers l’infini ?

Exercice 3.7 (Urnes d’Erhenfest).–On considère deux urnes contenant au total m boules. A chaque étape, on choisit uneboule au hasard et on change cette boule d’urne. On note Xn le nombre de boules dansl’urne 1 au bout de n mouvements.

1. Montrer que X est une chaîne de Markov dont on donnera la matrice de transition.2. Est-ce que cette chaîne est irréductible, apériodique ?3. Quelle est la matrice de transition de la chaîne Zn = X2n ?

On change maintenant de protocole : on choisit au hasard une boule et une urne au hasard,on met la boule choisie dans l’urne choisie. On note toujours Xn le nombre de boules dansl’urne 1 au bout de n mouvements.

4. Calculer la matrice de transition de cette nouvelle chaîne.5. Est-elle irréductible ? apériodique ?6. Montrer que sa probabilité invariante est une loi binomiale dont on précisera les

paramètres.

65

Page 66: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

Exercice 3.8 (Urnes de Benoulli-Laplace).–Un modèle simple de diffusion de deux gaz est le suivant. On considère deux urnes 1 et 2qui contiennent respectivement r boules blanches et r boules noires. À chaque étape, onchoisit une boule dans chacune des urnes et on permute la position de ces deux boules :celle qui était en 1 passe en 2 et réciproquement. On note Xn le nombre de boules blanchesdans A après le n-mélange.

3.8.a) Pour n ≥ 1, calculer la loi de Xn sachant Xn−1.3.8.b) Calculer E [Xn |Xn−1].3.8.c) En déduire une expression et la limite de E [Xn] quand n tend vers l’infini ?3.8.d) Montrer que la loi stationnaire de cette chaîne de Markov est la loi hypergéométrique

de paramètres (r, r).

Pour aller plus loin

Exercice 3.9 (Labyrinthe).–Un rat se déplace dans le labyrinthe à sept cases représenté dans la figure 3.5. Il passe d’unecase à l’autre uniformément suivant les possibilités qui lui sont offertes, c’est-à-dire quelorsqu’il y a 2 (respectivement 3) sorties dans la case où il se trouve, il va dans chacune descases possibles avec une probabilité d’un demi (respectivement d’un tiers). Son évolutionest sans mémoire : chaque changement ne dépend que de la situation courante, pas dupassé. On appelle Xn la position du rat après son n-ième mouvement, X0 est sa positioninitiale.

4 5

1 2 3

6

7

Figure 3.5. – Le labyrinthe.

3.9.a) Construire la matrice de transition de cette chaîne de Markov.3.9.b) Ecrire le code Python qui permet de calculer la probabilité stationnaire.3.9.c) Calculer (en Python) P 2, P 3, P 4. Que remarquez-vous ? Interpréter.3.9.d) La chaîne de Markov de matrice de transition P 2 est-elle irréductible ?

Exercice 3.10.–Un trait (génétique) est déterminé par une paire de gènes, appartenant tous deux à G

66

Page 67: Cours de Probabilités - MDI 104–114

3.8. Exercices

ou g. Un individu peut avoir la paire GG (dominant), gG ou de manière équivalent Gg(hybride), ou gg (récessif).

Lors de la reproduction sexuée, un descendant hérite au hasard d’un gène de chacun desparents.

1. Pour les 9 situations possibles de parents, calculer la probabilité de chaque confi-guration pour un descendant. On présentera les résultats sous la forme suivante :

GG Gg ggGG P(GG) P(Gg) P(gg) P(GG) P(Gg) P(gg) P(GG) P(Gg) P(gg)

Gg...

......

gg...

......

On expliquera le raisonnement sur un cas et on se contentera de donner les résultatspour les autres cas.

Un éleveur prend un individu quelconque et le fait se reproduire avec un individu hybride.A la génération suivante, il répète le même processus. On note Xn le type génétique del’individu de génération n.

2. Quelle est la matrice de transition de la chaîne de Markov X = (Xn, n ≥ 0) ?3. Est-elle irréductible, récurrente ?4. Calculer sa loi stationnaire.

Pour simplifier les notations, on pose GG = 1, Gg = 2, gg = 3. On pose τ = infn >0, Xn = 1 et

ui = E [τ |X0 = i] .On admet que (grâce au théorème de Fubini) pour toute variable aléatoire Z discrètepositive :

E[Z] =∞∑

k=1P(Z ≥ k)

donc en particulier,ui =

∞∑n=1

P(τ ≥ n |X0 = i)

5. Ecrire l’événement (τ ≥ n) en fonction de X1, · · · , Xn.6. Montrer que pour tout i = 1, 2, 3,

P(τ ≥ n |X0 = i) = P(τ + 1 ≥ n |X0 = 2)P(X1 = 2 |X0 = i)+ P(τ + 1 ≥ n |X0 = 3)P(X1 = 3 |X0 = i).

7. En déduire le système linéaire dont est solution (u1, u2, u3).

67

Page 68: Cours de Probabilités - MDI 104–114

3. Chaînes de Markov

8. Le résoudre (pas besoin de détailler les calculs) et donner le nombre moyen degénérations nécessaire avant d’obtenir un individu de type dominant si on ne saitpas a priori quel était le type de l’individu initial.

68

Page 69: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Ce chapitre a un statut particulier. D’un côté, il introduit lesconcepts et les notations au cœur de ce cours et de MDI 103.De l’autre, son contenu en tant que tel n’est pas évalué dansle contrôle final. En bref, il n’y aura pas de questions sur lathéorie de la mesure mais toutes les notations et définitions sontd’un usage constant.

4.1. Introduction

Ce chapitre a pour but l’introduction des outils nécessaires à la construction de probabilitéssur des ensembles plus généraux que les seuls ensembles discrets. Une probabilité surl’univers Ω est une application P qui à un événement A associe une valeur P(A) compriseentre 0 et 1. Formellement,

P : F → [0, 1]A 7→ P(A)

où F est le domaine de définition de P. Lorsque l’univers Ω est au plus dénombrable,nous pouvons choisir F comme l’ensemble des parties. En revanche, dans des espaces pluscomplexes tels que Ω = R, sauf à renoncer à l’axiome du choix [Oxt80], il est impossible dedéfinir P sur l’ensemble des parties. Il nous faut donc restreindre le domaine de définitionde P.

Les conditions qui pèsent sur F sont liées aux considérations suivantes :a) On veut pouvoir définir les probabilités de l’événement impossible (zéro) et de

l’événement certain (un). Donc F doit contenir ∅ et Ω.b) Si on sait évaluer la probabilité qu’un événement A se réalise, on doit logiquement

pouvoir parler de la probabilité qu’il ne se réalise pas. Autrement dit, si F est stablepar passage au complémentaire.

c) Si A et B sont des événements dont on sait évaluer les probabilités, on doit pouvoirdonner un sens à P(A ∪ B), donc F est stable pour l’union. Pour des raisonstechniques qui apparaîtront clairement plus loin, nous supposerons en outre que Fest stable par union dénombrable.

Les axiomes ci-dessus sont ceux qui définissent une tribu. Le paragraphe 4.2 sera consacréà des rappels sur les tribus. Le paragraphe 4.4 est consacré à la définition des mesures, qui

69

Page 70: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

sont des applications sur F à valeurs positives. Les mesures de probabilité en sont un casparticulier. Le paragraphe 4.3 introduit la notion d’applications mesurables qui donnera lecadre formel nécessaire à la définition des variables aléatoires à valeurs dans des espacesplus généraux que les espaces discrets.

4.2. Tribus

Définition 4.1 (Tribu). Une famille F de sous-ensembles de Ω est appelée unetribu sur Ω si elle vérifie les propriétés suivantes :

4.1.i) Ω ∈ F ;4.1.ii) ∀A ∈ F , Ac ∈ F ;

4.1.iii) ∀A1, A2, · · · ∈ F , ⋃∞i=1 Ai ∈ F .

Autrement dit, une tribu est stable par passage au complémentaire et stable parunion dénombrable.

Citons quelques exemples de tribus :— la tribu grossière : F = ∅,Ω ;— la tribu des parties : F = l’ensemble des sous-ensembles de Ω, noté P(Ω) ou 2Ω ;

Un espace mesurable est un couple (Ω,F) où Ω est un ensemble et F est une tribu sur Ω.On parle parfois d’espace probabilisable.

Proposition 4.1. Toute tribu satisfait les propriétés suivantes.a) ∅ ∈ F ;b) ∀A1, A2, · · · ∈ F , ⋂∞

i=1 Ai ∈ F ;c) ∀A,B ∈ F , A ∪B ∈ F et A ∩B ∈ F .

Démonstration. — a) Ω ∈ F donc Ωc = ∅ ∈ F par l’axiome ii).— b) Les complémentaires Ac

1, Ac2, · · · sont dans F par l’axiome ii). Donc ⋃∞

i=1 Aci ∈ F

par l’axiome 4.1.iii). En invoquant à nouveau l’axiome 4.1.ii), le complémentaire decet ensemble est également dans F par l’axiome 4.1.ii). Or d’après les lois de DeMorgan, le complémentaire coïncide avec ⋃∞

i=1 Ai ∈ F— c) Il suffit de poser A1 = A, A2 = B et Ai = ∅ pour tout i ≥ 3. Les deux résultats

découlent de l’axiome 4.1.iii) et de b) respectivement.

En appliquant les axiomes définissant une tribu, il n’est pas difficile de montrer le résultatsuivant.

70

Page 71: Cours de Probabilités - MDI 104–114

4.2. Tribus

Lemme 4.2. L’intersection de deux tribus est une tribu.

On peut alors envisager la notion fondamentale de tribu engendrée.

Théorème 4.3 (Tribu engendrée). Soit C une collection d’ensembles sur Ω. L’in-tersection de toutes les tribus sur Ω contenant C est une tribu sur Ω. On la noteσ(C) et on l’appelle la tribu engendrée par C sur Ω.

Démonstration. Soit S l’ensemble des tribus contenant C. S est non-vide puisqu’il contientla tribu des parties. On vérifie que σ(C) = ⋂

τ∈S τ vérifie les trois axiomes d’une tribu.

— a) Pour tout τ ∈ S, ∅ ∈ τ puisque τ est une tribu. Donc ∅ ∈ ⋂τ∈S τ .

— b) Soit A ∈ σ(C). Pour tout τ ∈ S, on a A ∈ τ par définition de σ(C). Donc Ac ∈ τcar une tribu est stable par passage au complémentaire. Ainsi Ac ∈ ⋂

τ∈S τ .

— c) Soient A1, A2, · · · ∈ σ(C). Pour tout τ ∈ S, on a A1, A2, · · · ∈ τ . Donc, l’union desAi est dans τ quelque soit τ ∈ S. Finalement, ⋃∞

i=1 Ai ∈ ⋂τ∈S τ .

Exemple 15.– Soit A ⊂ Ω, calculons σ(A). Nécessairement, ∅, A et Ω appartiennent àσ(A). D’après l’axiome b), Ac ∈ σ(A). En envisageant alors tous les cas possibles, on seconvainc aisément que σ(A) = ∅,Ω, A,Ac.

Exemple 16.– Rappelons nous qu’une tribu est la famille des ensembles que l’on peut« mesurer ». Si Ω = N, la moindre des choses est de pouvoir mesurer les singletons. Dansce cas, comme toute partie de Ω s’écrit la réunion des singletons qui la composent et quecette réunion contient un nombre au plus dénombrable d’éléments, il ressort de l’axiome4.1.iii) que toutes les parties de Ω appartienne à la tribu engendrée par les singletons.

Exemple 17.– Le troisième exemple est le plus fondamental pour toutes les applicationsqui vont suivre. Il va nous permettre de préciser enfin ce que sont les parties de R (ou deRd) susceptible d’être mesurée sans renoncer à l’axiome du choix.

Définition 4.2 (Tribu borélienne). La tribu de Borel sur Rd, notée B(Rd), est latribu engendrée par les « pavés » :

B(Rd) := σ

(d∏

i=1]ai, bi[ : ∀i = 1, · · · , d, (ai, bi) ∈ R2, ai < bi

).

En particulier sur R, B(R) est la plus petite tribu qui contient les intervalles de laforme ]a, b[.Un élément de la tribu de Borel est appelé un borélien.

71

Page 72: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Théorème 4.4 (Eléments caractéristiques de B(R)). Les ensembles suivants sontdans B(R) : le singleton a, les intervalles de la forme [a, b] , ] − ∞, b] , [a,+∞[ ,l’ensemble des rationnels, l’ensemble des irrationnels.

Démonstration. Le singleton a est un borélien car il s’écrit comme une intersectiondénombrable de boréliens a = ⋂

n≥1]a− 1n, a+ 1

n[ .

aa− 1n

a+ 1n

L’intervalle [a, b] est un borélien car il s’écrit comme l’union de trois boréliens [a, b] =a∪]a, b[∪b. L’intervalle ] − ∞, b] est un borélien car il s’écrit comme une uniondénombrable de boréliens ] − ∞, b] = ⋃

n≥1]b− n, b]. La preuve est similaire pour [a,+∞[ .L’ensemble des rationnels Q s’écrit comme l’union de ses singletons Q = ⋃

x∈Qx. PuisqueQ est dénombrable et que les singletons sont des boréliens, Q est un borélien en vertude 4.1.iii). L’ensemble des irrationnels est le complémentaire de Q, c’est donc aussi unborélien puisque B(R) est stable par passage au complémentaire.

Proposition 4.5. B(R) est la tribu engendrée par les intervalles de la forme ] − ∞, b].Plus généralement, B(Rd) est engendrée par les ensembles de la forme ∏d

i=1 ] − ∞, bi].

Démonstration. D’après la propriété précédente, la classe C des ensembles ] − ∞, b] sontdans B(R), donc σ(C) ⊂ B(R) car σ(C) est la plus petite tribu contenant C. Inversement,tout intervalle ]a, b[ s’écrit ] − ∞, a]c ∩ (⋃n] − ∞, b− 1

n]), donc ]a, b[ est inclus dans σ(C).

Donc B(R) ⊂ σ(C).

Remarque.– Dans ce cours, nous utiliserons assez fréquemment la tribu de Borel B(R)sur R = R ∪ −∞,+∞. On admettra que les éléments de B(R) sont exactement lesensembles de la forme H, H ∪ +∞, H ∪ −∞, H ∪ −∞,+∞ où H ∈ B(R). Onen déduit que B(R) est la tribu engendrée par les intervalles de la forme [−∞, b] pour bdécrivant R.

Remarque.– A l’inverse, pour n’importe quel ensemble E ⊂ Rd, la tribu borélienne surE est la trace de la tribu borélienne de Rd sur E : en termes moins sophistiqués, celasignifie que

B(E) = B(Rd) ∩ E.

4.3. Fonctions mesurables

On rappelle la notion d’image réciproque d’un ensemble par une application. On se donnedeux ensembles Ω et E et une application X de Ω dans E. Pour une partie de E, notée

72

Page 73: Cours de Probabilités - MDI 104–114

4.3. Fonctions mesurables

H, l’image réciproque de H par X, notée X−1(H) est l’ensemble des éléments de Ω dontl’image par X est dans H :

X−1(H) = ω ∈ Ω, X(ω) ∈ H.

Cette notion est définie que X soit inversible ou pas.

Exemple 18.– Considérons l’application qui à un entier n associe la partie entière de samoitié : f(n) = [n/2]. Dans ces conditions, pour tout entier k, f−1(k) = 2k, 2k + 1.

La notion d’image réciproque (au contraire de la notion d’image directe) se marie bienavec les intersections et les unions d’ensemble.

Proposition 4.6. Pour toute famille dénombrable d’ensemble (An, n ≥ 1)

X−1( ∞⋃

n=1An

)=

∞⋃n=1

X−1(An),

X−1( ∞⋂

n=1An

)=

∞⋂n=1

X−1(An).

Nantis de ces propriétés de base, nous sommes parés pour donner la définition des fonctionsmesurables.

Définition 4.3. Une application X : (Ω,F) → (E, E) est dite mesurable si :

∀H ∈ E , X−1(H) ∈ F .

En langage probabiliste, une application mesurable s’appelle une variable aléatoire.

Exemple 19.– Si Ω est munie de la tribu grossière, c’est-à-dire que F = ∅, Ω alorsune fonction mesurable est nécessairement constante (dès que les singletons sont desmesurables de E).

En effet, soit ω ∈ Ω et considérons A = X−1(X(ω)), l’ensemble des éléments de Ω quiont la même image par X que le ω considéré. Puisque A est mesurable, A vaut ∅ ou Ω.Comme ω ∈ A, A ne peut être vide donc A = Ω. Autrement dit, X est constante.

Exemple 20.– De la même manière, on montre que si F = ∅, A,Ac,Ω alors les fonctionsmesurables ne prennent que deux valeurs : elles sont de la forme

X(ω) = α1A(ω) + β1Ac(ω),

avec α et β, deux éléments de E.

Remarque.– Si l’espace Ω est dénombrable (ou fini), on a vu que la seule tribu senséeétait la tribu des parties de Ω. En d’autres termes, toute fonction définie sur un telensemble est nécessairement mesurable puisque l’image inverse d’un ensemble quelconquede E est par définition une partie de Ω.

73

Page 74: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

La propriété de composition des fonctions mesurables bien que totalement basique estd’un usage constant.

Théorème 4.7. Soit (E ′, E ′) un espace mesurable. Soit X : Ω → E et f : E → E ′

deux applications mesurables. La composée f X : Ω → E ′ est une applicationmesurable.

Démonstration. Soit H ′ ∈ E ′. L’image réciproque de H ′ par f X est égale à X−1(f−1(H ′)).Comme f est mesurable, f−1(H ′) ∈ E . Comme X est mesurable, l’image réciproque d’unélément de E est dans F , d’où X−1(f−1(H ′)) ∈ F .

On admettra les deux résultats suivants. Le premier stipule que pour vérifier la mesurabilitéd’une application X, il suffit de vérifier la propriété « X−1(H) ∈ F » non pas pour toutH ∈ E , mais seulement pour H dans une classe plus réduite, qui engendre la tribud’arrivée.

Théorème 4.8. Supposons que E = σ(C) pour une certaine classe C. Soit unefonction X : Ω → E telle que pour tout C ∈ C, X−1(C) ∈ F . Alors X est mesurable.

Le corollaire d’usage pratique est le suivant.

Corollaire 4.9. Soit d ∈ N∗ et soient X1, · · · , Xd une collection de fonctions de Ωdans R. On définit X : Ω → Rd par X(ω) = (X1(ω), · · · , Xd(ω)). Les propositionssuivantes sont équivalentes :

a) X1, · · · , Xd sont des fonctions mesurables ;b) X est une fonction mesurable.

Démonstration. a)⇒b). Puisque B(Rd) est la tribu engendrée par les pavés, il suffitde vérifier que X−1(H) ∈ F pour H = ∏d

k=1 Hk , où Hk est un intervalle réel. OrX−1(∏k Hk) = ⋂

k X−1k (Hk) est bien un élément de F comme intersection d’éléments de

F .

b)⇒a) Donnons la preuve pour X1. Pour tout intervalle ]a, b[, l’ensemble X−11 (]a, b[) est

l’image réciproque par X de ]a, b[×R ×· · ·×R qui appartient à B(Rd). Donc X−11 (]a, b[) ∈

F , ce qui montre que X1 est mesurable.

Le deuxième qui nous simplifiera considérablement la vie fait le lien entre fonctionscontinues et fonctions mesurables.

Théorème 4.10. Une application f : Rd → Rn continue est mesurable. On ditalors qu’elle est borélienne.

74

Page 75: Cours de Probabilités - MDI 104–114

4.3. Fonctions mesurables

Remarque.– On prendra soin de noter que la réciproque est fausse : il existe desfonctions mesurables qui ne sont pas continues. Par exemple, 1Q la fonction indicatricede l’ensemble des rationnels puisque Q est mesurable (union dénombrable de singletons)mais manifestement pas continue.

A partir de là, on peut démontrer les propriétés élémentaires des fonctions mesurables.

Corollaire 4.11. Si X, Y sont des fonctions mesurable sur R, alors X + Y , XY ,X ∨ Y := max(X,Y ), X ∧ Y := min(X,Y ) sont des fonctions mesurables.

Démonstration. La fonction

R × R −→ R(x, y) 7−→ x+ y

est continue donc borélienne de R2 dans R en vertu du théorème 4.10. Le résultat se déduitalors du théorème 4.7 par composition de fonctions mesurables. Les autres propriétés semontrent de façon similaire en utilisant les formules

x ∨ y = x+ y + |x− y|2 et x ∧ y = x+ y − |x− y|

2 · .

Jusqu’à présent, toutes les propriétés des fonctions mesurables existent à l’identiquepour les fonctions continues. Ce qui fait la richesse du concept de mesurabilité tient auxthéorèmes limites. En effet, rien ne garantit qu’une limite simple de fonctions continuessoit une fonction continue alors que la limite d’une suite de fonctions mesurables estmesurable !

Nous allons maintenant montrer que si (Xn)n est une suite de fonctions mesurables, alors lesup et l’inf de la suite sont aussi des variables aléatoires. Bien sûr, le sup d’une suite réellen’est pas forcément fini. Pour donner un sens à supn Xn et infn Xn en tant que variablesaléatoires, nous devons dorénavant nous placer sur R.

Soit (Xn, n ∈ N) une suite de variables aléatoires sur R. On désigne par respectivement parsupn Xn, infn Xn, limn Xn les fonctions définies sur R par ω 7→ supn Xn(ω), ω 7→ infn Xn(ω)et, lorsqu’une telle fonction existe, ω 7→ limn Xn(ω).

Théorème 4.12. Soit (Xn, n ∈ N) une suite de fonctions mesurables sur R.4.12.a) supn Xn, infn Xn sont des fonctions mesurables sur R ;4.12.b) Les fonctions lim infn Xn et lim supn Xn sont mesurables ;4.12.c) Si limn Xn existe, c’est une fonction mesurable sur R.

75

Page 76: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Démonstration.

4.12.a) Posons X := supn Xn. B(R) est la tribu engendrée par les intervalles [−∞, b] oùb ∈ R. On laisse au lecteur le soin de vérifier que X−1([−∞, b]) = ⋂

n X−1n ([−∞, b]).

Ainsi, X−1([−∞, b]) est dans F comme intersection dénombrable d’éléments de F .D’après le critère de mesurabilité du paragraphe précédent, X est mesurable. Pourmontrer que infn Xn est mesurable, il suffit d’écrire infn Xn = − supn(−Xn).

4.12.b) D’après le point précédent, les fonctions Yk = infn≥k Xn et Zk = supn≥k Xn sontmesurables. Toujours d’après ce point, les variables supk Yk et infk Zk sont aussimesurables. Or par définition, elles sont respectivement égales à lim infn Xn etlim supn Xn.

4.12.c) Si Xn converge, alors limn Xn = lim infn Xn = lim supn Xn donc d’après le pointprécédent, c’est une variable aléatoire.

4.4. Mesures

4.4.1. Définition et exemples

Définition 4.4. Une mesure sur (E, E) est une fonction d’ensemble µ telle que4.4.i) µ : E → [0,+∞] ;

4.4.ii) µ(∅) = 0 ;4.4.iii) Pour toute famille (An, n ∈ N) d’événements deux à deux disjoints,

µ

( ⋃n∈N

An

)=∑n∈N

µ(An) .

On prêtera attention à l’intervalle fermé à droite dans l’axiome 4.4.i) : la mesure d’unensemble A est une quantité positive, possiblement infinie.

Lorsque µ(E) < ∞, on dit que la mesure est finie. Si en outre µ(E) = 1, la mesure µ estune mesure de probabilité .

76

Page 77: Cours de Probabilités - MDI 104–114

4.4. Mesures

Dans ce dernier cas, on utilise alors les notations probabilistes.— (E, E) devient (Ω,A).— Les fonctions mesurables notées f ou g deviennent des variables aléatoires

notées par des capitales X, Y , etc.— La variable x ∈ E devient ω ∈ Ω.— Les mesures µ, ν deviennent des probabilités notées P, Q.

Pour autant les concepts restent rigoureusement les mêmes !

Un triplet (E, E , µ) où µ est une mesure sur (E, E), est appelé un espace mesuré . C’est unespace de probabilité lorsque µ est une mesure de probabilité.

L’axiome 4.4.i) traduit le fait que l’événement impossible a une probabilité nulle d’êtreréalisé, alors que l’événement certain est réalisé avec une probabilité égale à un. L’axiome4.4.ii) est connu sous le nom de propriété de σ-additivité.

Exemple 21 (Mesures de Dirac).– Soit (E, E) un espace mesurable quelconque et soita ∈ E. La mesure de Dirac au point a est l’application δa définie sur E par δa(A) = 1A(a)c’est à dire :

δa(A) =

1 si a ∈ A0 sinon.

Exemple 22 (Mesure de comptage et mesures discrète).– Soit I un ensemble au plusdénombrable et (ai)i∈I une collection de points de E. La fonction définie pour tout A ∈ Epar :

µ(A) :=∑i∈I

δai(A)

définit une mesure sur E , appelée la mesure de comptage de (ai)i∈I . La quantité µ(A) estle nombre de points ai contenus dans l’ensemble A : µ(A) = cardinali : ai ∈ A.

Plus généralement, si (αi)i∈I est une suite de coefficients réels positifs, alors :µ(A) :=

∑i∈I

αi δai(A)

définit une mesure sur E . La quantité µ(A) est égale à la somme des αi pour tous les i telsque ai ∈ A. Une telle mesure est appelée une mesure discrète.

Une conséquence immédiate de l’axiome 4.1.iii) est la très utile formule des probabilitéstotales.

Théorème 4.13 (Formule des probabilités totales). Pour toute partition (Bn, n ≥1) constituée d’ensembles mesurables de E, pour tout mesurable A,

µ(A) =∞∑

n=1µ(A ∩ Bn).

77

Page 78: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Démonstration. Les ensembles (A ∩ Bn, n ≥ 1) forment une partition de A, le résultatdécoule de l’axiome 4.1.iii).

Les propriétés suivantes sont d’un usage constant.

Théorème 4.14. Soient A, B, (An, n ∈ N∗) des éléments de E .4.14.a) Si µ(A ∩B) < ∞, alors µ(A ∪B) = µ(A) + µ(B) − µ(A ∩B) .4.14.b) Si A ⊂ B, alors µ(A) ≤ µ(B) .4.14.c) Si An ↑ A, alors µ(A) = limn→∞ µ(An) .4.14.d) Si An ↓ A et si µ(A1) < ∞, alors µ(A) = limn→∞ µ(An) .4.14.e) Pour une famille quelconque (An, n ∈ N∗) dans E , on a la borne de l’union :

µ

( ∞⋃n=1

An

)≤

∞∑n=1

µ(An).

Démonstration.

4.14.a) On remarque queA = A \ (A ∩B) ∪ (A ∩B).

Comme ces deux ensembles sont disjoints, d’après l’axiome 4.1.iii),

µ(A) = µ(A \ (A ∩B)

)+ µ

(A ∩B

).

De même,µ(B) = µ

(B \ (A ∩B)

)+ µ

(A ∩B

).

Enfin,A ∪B = (A \ (A ∩B)) ∪ (B \ (A ∩B)) ∪ (A ∩B).

Par conséquent,

µ(A ∪B) = µ(A \ (A ∩B)) + µ(B \ (A ∩B)) + µ(A ∩B)= µ(A) − µ(A ∩B) + µ(B) − µ(A ∩B) + µ(A ∩B)= µ(A) + µ(B) − µ(A ∩B).

A\A ∩B

A ∩B

B\A ∩B

A B

78

Page 79: Cours de Probabilités - MDI 104–114

4.4. Mesures

4.14.b) Si A ⊂ B, B = A ∪ (B\A), donc µ(B) = µ(A) + µ(B\A). Comme µ est à valeurspositives, on en déduit que µ(B\A) ≥ 0 donc µ(B) ≥ µ(A).

4.14.c) Comme la famille des An est croissante, on peut considérer la famille Bn définie par

B1 = A1, Bn = An\An−1.

A1

A2

A3

A4

B1

B2

B3

B4

On de façon évidente quen⋃

k=1Bk = An et

∞⋃k=1

Bk =∞⋃

k=1Ak.

Comme les Bn sont disjoints,

µ(∞⋃

k=1Ak) = µ(

∞⋃k=1

Bk) = limn→∞

n∑k=1

µ(Bk) = limn→∞

µ(n⋃

k=1Bk) = lim

n→∞µ(An).

4.14.d) Comme tout se passe dans l’ensemble A1, on ne change rien en supposant que E = A1et µ(E) < ∞. La famille des Ac

n est croissante donc on peut appliquer le résultatprécédent 4.14.c),

µ(∞⋃

n=1Ac

n) = limn→∞

µ(Acn).

Or,∞⋃

n=1Ac

n =( ∞⋂

n=1An

)c

et d’après 4.14.a), on obtient

µ(E) − µ(∞⋂

n=1An) = lim

n→∞µ(E) − µ(An).

En simplifiant par µ(E), on obtient le résultat voulu.

79

Page 80: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

4.14.e) Soit la propriété au rang k

µ

(k⋃

n=1An

)≤

k∑n=1

µ(An).

D’après 4.14.a), elle est vraie pour k = 2. Par récurrence, en utilisant 4.14.a), elle estvraie pour tout k. Maintenant, la famille Bk = ∪k

n=1An est croissante donc d’après4.14.c)

µ(∞⋃

n=1An) = µ(

∞⋃k=1

Bk) = limk→∞

µ(Bk) = limk→∞

µ(∪kn=1An)

≤ limk→∞

K∑n=1

µ(An) =∞∑

n=1µ(An).

Le résultat s’en suit.

Le lemme qui suit est fondamental dans nombre d’applications.

Lemme 4.15 (Lemme de Borel-Cantelli). Soit un espace probabilisé (Ω,A,P) et(An, n ≥ 1) une famille d’éléments de E .∑

n≥1P(An) < +∞ =⇒ P(lim sup

nAn) = 0, (4.1)

où la limite supérieure d’ensembles est définie par

lim supn

An =⋂k≥1

⋃n≥k

An.

Démonstration. Puisque la limite supérieure d’ensembles est une famille monotone d’en-sembles,

P(lim supn

An) = P

⋂k

⋃n≥k

An

= limk

↑ P

⋃n≥k

An

≤ limk

∑n≥k

P(An) .

La limite à droite est nulle comme limite du reste d’une série convergente ∑n P(An) <+∞.

4.4.2. Caractérisation

Dès que Ω n’est pas dénombrable, il est impossible de décrire une mesure en donnantsa valeur pour tous les ensembles mesurables. Arrive à notre secours le théorème declasse monotone (théorème 4.19 ci-dessous) qui nous dit, en substance, qu’une mesureest totalement déterminée par sa valeur sur un ensemble d’ensembles suffisammentriche.

80

Page 81: Cours de Probabilités - MDI 104–114

4.4. Mesures

Définition 4.5. Un π-système (ou algèbre) P est une classe de sous-ensembles deΩ stable pour l’intersection finie : ∀A,B ∈ P , A ∩B ∈ P .

Exemple 23.– Des π-systèmes intéressants sur Rd sont la classe des pavés de ]−∞, x1]×· · · ×] − ∞, xd] ou la classe des pavés bornés

Id = [x1, y1] × · · · × [xd, yd], −∞ < xi < yi < ∞, i = 1, · · · , d.

Définition 4.6. Un λ-système (ou classe monotone) L est une classe de sous-ensembles de Ω vérifiant :

4.6.i) Ω ∈ L ;4.6.ii) Pour tout A ∈ L, Ac ∈ L ;

4.6.iii) Pour toute suite (An)n∈N∗ d’éléments de L deux à deux disjoints, ⋃n An ∈ L .

Remarque.– La définition d’un λ-système est assez semblable à celles d’une tribu, à unedifférence majeure près : on n’impose pas que toute union dénombrable soit dans L, maisseulement les unions dénombrables d’ensembles deux à deux disjoints. Un λ-système estégalement appelé une classe monotone pour la raison suivante : on peut montrer que lalimite d’une suite croissante d’éléments de L est dans L. La lettre grecque λ de λ-systèmefait référence au L de limite.

On a le résultat pratique suivant (cf. [Kal98, Théorème 1.1]) :

Théorème 4.16. Soit P un π-système et L un λ-système. Si P ⊂ L alors σ(P) ⊂L .

Voyons maintenant comment ce résultat abstrait permet de caractériser simplementles mesures. Afin d’éviter des pathologies désagréables, on se restreindra aux mesureslocalement finies :

Définition 4.7. Une mesure µ sur (Rd,B(Rd)) est localement finie si pour toutx ∈ Rd, il existe un pavé borné I ⊂ Id contenant x tel que µ(I) < ∞.

Lemme 4.17. Soit J ∈ Id, µ et ν deux mesures sur Rd telles que µ(J) = ν(J) < ∞.On note B(J) = B∩J, B ∈ B(Rd), les traces sur J des boréliens de Rd. L’ensemble

L = A ∈ B(J), µ(A) = ν(A) (4.2)

est un λ-système de Ω = J .

Démonstration. Il s’agit de vérifier les trois points qui caractérisent un λ-système.

81

Page 82: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

4.6.i) Par hypothèse µ(Ω) = ν(Ω).4.6.ii) Comme l’ensemble de référence est Ω = J , pour A ⊂ J , son complémentaire, toujours

noté Ac, s’entend comme J\A. Si A ∈ L, d’après 4.14.a)

µ(Ac) = µ(J) − µ(A) = ν(J) − ν(A) = ν(Ac)

donc Ac ∈ L.4.6.iii) Si les (An, n ∈ N) sont deux à deux disjoints et appartiennent tous à L alors d’après

4.4.iii) :

µ(⋃n

An) =∞∑

n=1µ(An) =

∞∑n=1

ν(An) = ν(⋃n

An),

donc la réunion ∪nAn appartient à L.

Corollaire 4.18. Deux mesures localement finies sur Rd qui coïncident sur Id sontégales :

µ(A) = ν(A), ∀A ∈ Id =⇒ µ(A) = ν(A), ∀A ∈ B(Rd).

Démonstration. Soit J ∈ Id, d’après le lemme 4.17, l’ensemble

L = A ∈ B(J), µ(A) = ν(A)

est un λ-système. Par ailleurs, Id est un π-système. Par hypothèse, Id ⊂ L. En vertu duthéorème 4.16, B(J) ⊂ L donc les deux mesures coïncident sur B(J). Soit

JM = [−M,M ] × . . .× [−M,M ].

Soit B ∈ B(Rd). On vient de voir que

µ(B ∩ JM) = ν(B ∩ JM).

Les ensembles (B ∩ JM , M ≥ 0) croissent avec M donc d’après la propriété de monotoniedes mesures 4.14.c),

µ(B) = limM→∞

µ(B ∩ JM) = limM→∞

ν(B ∩ JM) = ν(B).

D’où le résultat.

En appliquant une preuve similaire avec le π-système ] − ∞, x], x ∈ R, on obtient lerésultat suivant.

Corollaire 4.19. Pour identifier une probabilité sur R, il faut et il suffit que l’onconnaisse P(] − ∞, x]) pour tout réel x.

Remarque.– Ce résultat s’étend sans changement aux dimensions supérieures : pouridentifier une probabilité sur Rd, il faut et il suffit que l’on connaisse

P(] − ∞, x1] × . . .×] − ∞, xd])

pour tout d-uple (x1, · · · , xd).

82

Page 83: Cours de Probabilités - MDI 104–114

4.4. Mesures

4.4.3. Construction

Un autre théorème fondamental de la théorie de la mesure est le suivant (cf. [Kal98,Corollaire A1.2]) :

Théorème 4.20 (Kolmogorov). Il existe une unique mesure, notée λ, sur Rd munide la tribu des boréliens, qui coïncide avec la mesure de longueur/surface/volumesur les pavés, c’est-à-dire telle que

λ(]a1, b1[× . . .]ad, bd[) = (b1 − a1) . . . (bd − ad).

Cette mesure s’appelle la mesure de Lebesgue.

Corollaire 4.21. La mesure de Lebesgue est invariante par translation : c’est-à-direque pour tout x ∈ Rd, pour tout borélien A,

λ(A+ x) = λ(A),

oùA+ x = y + x, y ∈ A.

Démonstration. Pour x ∈ Rd fixé, pour un pavé A =]a1, b1[× . . .]ad, bd[, son translaté estdonné par

A+ x =]a1 + x1, b1 + x1[× . . .]ak + xd, bd + xd[donc

λ(A+ x) = λ(A).Considérons la mesure λx définie par λx(A) = λ(A + x). La mesure λx et la mesure deLebesgue coïncident sur les pavés donc d’après l’unicité résultant du théorème 4.20, ellessont égales d’où le résultat.

Cet exemple de transformation de mesure est un cas particulier du concept très importantde mesure image. Étant donné un ensemble mesuré (E, E ,P) et d’une variable aléatoireX à valeurs dans (F,F), comment construire une probabilité sur F ? La réponse sommetoute assez naturelle, dans le sens où il n’y en a pas tellement d’autre possible, est donnéepar la définition suivante.

Définition 4.8 (Mesure image). Soit un ensemble mesuré (E, E , µ) et une fonctionmesurable f à valeurs dans (F,F). La mesure image de µ par f notée µf (ou f ∗µou f−1µ) est définie par :

∀A ∈ F , µf (A) = µ(f−1(A)),

où, on le rappelle, f−1(A) est l’image réciproque de A par f , c’est-à-dire f−1(A) =(x ∈ E, f(x) ∈ A). En probabilités, comme on omet systématiquement les x, on

83

Page 84: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

privilégiera donc la notation (f−1(A)) = (f ∈ A), d’où au final,

∀A ∈ F , µf (A) = µ(f ∈ A).

E F

Af−1(A)f

Figure 4.1. – Principe de construction d’une mesure image.

Exemple 24.– Si l’on revient à l’exemple de mesure de Lebesgue « translatée », il fautconsidérer l’application

fx : Rd −→ Rd

y 7−→ y − x.

En effet,

f−1x (A) = (y ∈ Rd, f(y) ∈ A) = (y ∈ Rd, y − x ∈ A) = (y ∈ Rd, y ∈ A+ x) = A+ x.

La mesure λx introduite ci-dessus est donc la mesure image de la mesure de Lebesgueλ par l’application fx qui translate tous les éléments de Rd d’une quantité x fixe. Lecorollaire 4.21 implique donc que cette mesure est la même que la mesure de Lebesgue.Ceci traduit le fait que du point de vue de la mesure de Lebesgue, le point 0 ne joue pasde rôle particulier puisque la mesure est uniforme dans tout l’espace.

Si on dispose de deux espaces mesurés (E1, E1, µ) et (E2, E2, ν), on veut construire unemesure sur le produit cartésien E1 ×E2. La première difficulté à surmonter est la définitionde la tribu sur E1 × E2. Les éléments de E1 × E2 sont les produits cartésiens d’un élémentde E1 et d’un élément de E2. Comme la réunion de deux rectangles n’est pas un rectangle,E1 × E2 n’est pas une tribu. Qu’à cela ne tienne, on note E1 ⊗ E2 la plus petite tribu quicontient E1 ×E2 et le tour est joué ! Le même procédé de preuve que celui qui est utilisé pourle théorème 4.20 permet de montrer le théorème suivant.

Théorème 4.22. Il existe une unique mesure, notée µ⊗ ν, dite mesure produit de

84

Page 85: Cours de Probabilités - MDI 104–114

4.5. Intégration

µ et ν, sur (E1 × E2, E1 × E2) qui soit telle que

µ⊗ ν(A×B) = µ(A)ν(B), pour tout A ∈ E1, B ∈ E2. (4.3)

4.5. Intégration

4.5.1. Construction de l’intégrale

Soit (E, E , µ) un espace mesuré.

Définition 4.9. Une fonction f mesurable de (E, E) dans (R, B(R)) est diteétagée si elle prend un nombre fini de valeurs.

Une telle fonction f est alors de la forme

f(x) =n∑

i=1αi1Ai

(x) (4.4)

où (αi, i = 1, · · · , n) sont les valeurs distinctes prises par la fonction f et où pour tout i,Ai = f−1(αi).

Remarque.– Les fonctions en escalier sont des cas particuliers des fonctions étagées oùles Ai sont des intervalles.

Définition 4.10. La µ-intégrale d’une fonction étagée positive f est la valeur(éventuellement égale à +∞) :

∫f dµ =

n∑i=1

αiµ(Ai)

avec la convention 0 .∞ = 0, où les valeurs (αi, i = 1, · · · , n) et les ensembles(Ai, i = 1, · · · , n) sont donnés par (4.4).

La convention 0 .∞ = 0 est indispensable pour l’éventualité où, pour un certain i, αi = 0et µ(Ai) = ∞. Grâce à cette convention, l’intégrale de la fonction nulle est égale àzéro.

Par définition de l’intégrale, on a la conséquence immédiate que pour toutA ∈ E ,∫1Adµ = µ(A) .

En ce sens, la notion d’intégrale généralise la notion de mesure.

85

Page 86: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Lemme 4.23. Soient a, b ≥ 0 et f, g deux fonctions étagées positives. Alors∫(af + bg)dµ = a

∫fdµ+ b

∫gdµ .

Démonstration. A compléter.

On définit maintenant l’intégrale de toute fonction f mesurable positive.

Définition 4.11. Soit f : E → R une fonction mesurable positive (f ≥ 0). Ondéfinit : ∫

fdµ = sup∫

gdµ : 0 ≤ g ≤ f, g étagée.

On vérifie aisément que si f est étagée, cette définition coïncide avec la précédente.

Il reste à désormais à définir l’intégrale dans le cas général de fonctions non-nécessairementpositives. Pour toute fonction mesurable f à valeurs réelles, on introduit les nota-tions

f+ = max(f, 0)f− = max(−f, 0) .

Définition 4.12. Soit f : E → R une fonction mesurable, telle que∫f+dµ < ∞

ou∫f−dµ < ∞. On définit∫

fdµ =∫f+dµ−

∫f−dµ .

La fonction f est dite µ-intégrable si∫f+dµ < ∞ et

∫f−dµ < ∞.

L’intégrale de f est bien définie si∫f+dµ < ∞ ou

∫f−dµ < ∞ : cette précaution est

nécessaire pour éviter la soustraction ∞ − ∞ qui n’a pas de sens. La fonction f estintégrable si les deux conditions sont satisfaites simultanément. En ce sens, une fonctionpeut ne pas être intégrable, bien que son intégrale soit définie. L’ensemble des fonctionsµ-intégrables est noté L1(µ).

Pour désigner l’intégrale de f , on utilise indifféremment les notations∫fdµ,

∫f(x)dµ(x),∫

f(x)µ(dx) ou, de manière à première vue impropre, µ(f).

86

Page 87: Cours de Probabilités - MDI 104–114

4.5. Intégration

4.5.2. Premières propriétés

Lemme 4.24. Soient f, g deux fonctions mesurable de E → R, dont les intégralessont définies. Alors

1. f ≤ g implique∫fdµ ≤

∫gdµ.

2. |∫fdµ| ≤

∫|f |dµ.

Démonstration. 1. Supposons 0 ≥ f ≥ g. Toute fonction ϕ étagée plus petite que f estaussi plus petite que g. On a donc l’inclusion∫

ϕdµ : 0 ≤ ϕ ≤ f, ϕ étagée

⊂∫

ϕdµ : 0 ≤ ϕ ≤ g, ϕ étagée.

Il en découle que le supremum de l’ensemble de gauche est plus petit que le supremum del’ensemble de droite, ce qui se lit

∫fdµ ≤

∫gdµ.

Traitons le cas où f ≤ g sont quelconques. On a f+ ≤ g+ et f− ≥ g−, donc, d’aprèsci-dessus,

∫f+dµ ≤

∫g+dµ et

∫f−dµ ≥

∫g−dµ. En soustrayant,

∫fdµ ≤

∫gdµ.

2. On a f ≤ |f | donc∫fdµ ≤

∫|f |dµ. De même −f ≤ |f |, donc

∫(−f)dµ ≤

∫|f |dµ. Or∫

(−f)dµ =∫

(−f)+dµ−∫

(−f)−dµ =∫f−dµ−

∫f+dµ = −

∫fdµ. On a donc −

∫fdµ ≤∫

|f |dµ, ce qui conclut la preuve.

Dans la suite, la notation 0 ≤ fn ↑ f est utilisée pour désigner une suite de fonctions fn

positives, convergeant ponctuellement vers f .

Lemme 4.25. Soient f , fn (n ∈ N) des fonctions mesurables de E → R telles que0 ≤ fn ↑ f . Alors

limn→∞

∫fndµ =

∫fdµ .

Démonstration. Pour tout n, fn ≤ fn+1 ≤ f , donc∫fndµ est une suite croissante majorée

par∫fdµ. Sa limite existe, et lim

∫fndµ ≤

∫fdµ. Il reste à démontrer l’autre inégalité.

Soit une fonction étagée g telle que 0 ≤ g ≤ f . Soit ε > 0 et Bn = fn ≥ (1 − ε)g.Décrivons g sous la forme g = ∑p

i=1 αi1Ai(choisir par exemple, les αi comme les valeurs

distinctes de g et Ai = g−1(αi)). On a :∫fndµ ≥

∫fn1Bndµ ≥

∫(1 − ε)g1Bndµ

≥∫ ( p∑

i=1(1 − ε)αi1Ai∩Bn

)dµ

≥p∑

i=1(1 − ε)αiµ(Ai ∩Bn) ,

87

Page 88: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

où, dans la dernière inégalité, on a utilisé la linéarité de l’intégrale pour les fonctionsétagées (Lemme 4.23). Comme Bn ↑ E, µ(Ai ∩Bn) tend vers µ(Ai) pour tout i, lorsquen → ∞. Par conséquent,

limn→∞

∫fndµ ≥ (1 − ε)

p∑i=1

αiµ(Ai) = (1 − ε)∫gdµ .

Cela étant vrai pour tout ε > 0, nous avons limn→∞∫fndµ ≥

∫gdµ. En prenant le

supremum sur l’ensemble des fonctions g étagées positives minorant f , on conclut quelimn→∞

∫fndµ ≥

∫fdµ.

Le lemme qui suit établit que toute fonction mesurable (positive) peut être approchée parune limite simple de fonctions mesurables. Il jouera un rôle essentiel dans la suite : pourdémontrer telle ou telle propriété de l’intégrale, il suffira dans un premier temps de ladémontrer pour des fonctions étagées positives, et dans un deuxième temps de choisir unesuite de fonctions étagées approchant les fonctions de départ, en passant à la limite grâceau Lemme 4.25.

Lemme 4.26. Toute fonction mesurable f à valeurs dans R+ est limite croissantesimple de fonctions étagées positives.

Démonstration. Soit

I = x : f(x) = +∞ et En, k = f−1(

[kn,k + 1n

[).

Posonstn(x) =

2n∑k=0

k

n1En, k

(x) + n1I(x).

Il est clair que tn(x) ≤ f(x) et que tn converge simplement vers f . En posant,

f1 = t1, f2 = f1 ∨ t2, fn = fn−1 ∨ tn, . . .

on construit une suite de fonctions qui prennent chacune un nombre fini de valeurs doncsont étagées, croissante et qui converge simplement vers f .

4.5.3. Linéarité

Théorème 4.27. Soient f , g des fonctions mesurables de E → R, et (a, b) ∈ R2.On suppose que l’une au moins des deux conditions suivantes est satisfaite :

1. f, g, a, b ≥ 0ou

2. f et g sont intégrables.

88

Page 89: Cours de Probabilités - MDI 104–114

4.5. Intégration

Figure 4.2. – Une fonction (en pointillés) et son approximation par une fonction étagée.

Alors∫(af + bg)dµ = a

∫fdµ+ b

∫gdµ.

Démonstration. 1. On se place sous la première condition. Considérons deux suites defonctions étagées fn et gn telles que 0 ≤ fn ↑ f et 0 ≤ gn ↑ g. D’après le lemm 4.25,a∫fndµ+ b

∫gndµ → a

∫fdµ+ b

∫gdµ. Par ailleurs, a

∫fndµ+ b

∫gndµ =

∫(afn + bgn)dµ.

Il est facile de vérifier que 0 ≤ afn + bgn ↑ af + bg et donc∫

(afn + bgn)dµ →∫

(af + bg)dµ.Le résultat découle de l’identification des limites.

2. On se place sous la seconde condition. Il est facile de montrer que∫(af)dµ = a

∫fdµ,

il suffit donc dans la suite de considérer le cas où a = b = 1. En écrivant f + g de deuxfaçons différentes,

f + g = (f + g)+ − (f + g)−

= f+ − f− + g+ − g− .

Ainsi,(f + g)+ + f− + g− = (f + g)− + f+ + g+ .

On laisse au lecteur le soin de vérifier l’intégrabilité de f + g. Finalement, par passage àl’intégrale de l’équation précédente et utilisation de la linéarité dans le cas positif,∫

(f + g)+dµ−∫

(f + g)−dµ =∫f+dµ−

∫f−dµ−

∫g−dµ+

∫g+dµ ,

ce qui correspond à l’égalité souhaitée.

Deux corollaires découlent de la propriété précédente et du lemme 4.25.

Corollaire 4.28. f est µ-intégrable si et seulement si∫

|f |dµ < ∞.

Démonstration. Par définition f ∈ L1(µ) précisément si∫f+dµ +

∫f−dµ < ∞, soit

par linéarité de l’intégrale∫(f+ + f−)dµ < ∞. La conclusion provient du fait que

f+ + f− = |f |.

89

Page 90: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Corollaire 4.29. Soit (fn : n ∈ N) une suite de fonctions mesurables à valeurspositives. Alors ∑

n∈N

∫fndµ =

∫ ∑n∈N

fn

dµ .

Démonstration. Posons gn = ∑k≤n fk. On a 0 ≤ gn ↑ ∑

k fk donc par le lemme 4.25,∫gndµ →

∫ ∑k fkdµ. Par ailleurs, la linéarité de l’intégrale implique que

∫gndµ =∑

k≤n

∫fkdµ qui converge vers ∑k

∫fkdµ. Il suffit d’identifier les limites.

4.5.4. Ensembles µ-négligeables

Un ensemble µ-négligeable (ou simplement “négligeable” s’il n’y a pas d’ambiguité) est unensemble N ∈ E tel que µ(N) = 0.

Proposition 4.30. Soit f : E → R une fonction mesurable et N un ensembleµ-négligeable. Alors ∫

f1N dµ = 0 .

Démonstration. Traitons d’abord le cas où f ≥ 0. Soit g une fonction étagée positivetelle que g ≤ f1N , disons de la forme g = ∑p

i=1 αi1Aiavec Ai = g−1(αi). On a∫

gdµ = ∑i αiµ(Ai). Il est facile de voir que chaque terme de la somme est nulle. En effet,

pour i fixé tel que αi 6= 0, on g(x) = αi > 0 et par construction de g ≤ f1N , on a 1N (x) 6= 0.Donc x ∈ N , ce qui montre que Ai ⊂ N , et donc µ(Ai) = 0. Toute fonction étagée gminorant f1N est d’intégrale nulle. Donc f1N est d’intégrale nulle. On déduit la propriétédans le cas général en utilisant la décomposition

∫f1Ndµ =

∫f+1Ndµ−

∫f−1Ndµ = 0.

Les ensembles mesurables de mesure nulle jouent un rôle particulier parce qu’ils ne sontpas « visibles » par la mesure même s’ils sont non vides.

Définition 4.13 (Presque-partout, presque-sûre). On dit d’une propriété qu’elle estvraie µ-presque-partout ou µ-presque-sûrement, en abrégé µ-p.p. ou µ-p.s, lorsqueson complémentaire est de mesure nulle.

Donnons un exemple. L’écriture “0 ≤ fn ↑ f µ-pp” signifie qu’il existe un ensemble N ∈ Etel que µ(N) = 0 et tel que pour tout x ∈ E\N , fn(x) est une suite positive croissanteconvergeant vers f(x).

Soit (E, E , µ) un espace probabilisé. Soit f une fonction mesurable positive de µ-intégralenulle. Pour tout n > 0 et An = x : f(x) > 1/n,

0 =∫fdµ ≥

∫An

fdµ ≥ 1nµ(An),

90

Page 91: Cours de Probabilités - MDI 104–114

4.5. Intégration

donc µ(An) = 0 pour tout n ≥ 1. Comme ⋂n≥1 An = A0, par monotonie, on obtientµ(A0) = 0. On a donc démontré le théorème suivant :

Proposition 4.31. Soit f une fonction mesurable positive, de µ-intégrale nulle alorsf est nulle µ-presque partout.

Mais une fonction nulle « presque partout » n’est pas une fonction nulle. Par exemple, lafonction indicatrice de Q, l’ensemble des rationnels, est presque-partout nulle pour la mesurede Lebesgue mais elle est non nulle sur un ensemble dense !

Remarque.– Ainsi, l’application f 7→∫

|f |dµ ne définit pas une norme sur l’espacevectoriel L1(µ), car la nullité de l’intégrale n’implique pas la nullité de la fonction.Afin de construire une norme, il faut que deux fonctions qui sont égales µ-pp soientidentifiées comme un seul et même élément. Formellement, cela revient à définir la relationd’équivalence suivante.

f est en relation d’égalité p.p. avec g lorsque µ(f 6= g) = 0. On note f R g.

On définit alors L1(µ) comme l’ensemble des classes d’équivalence de la relation R, etl’application qui a toute classe d’équivalence c associe la valeur

∫|f |dµ pour une fonction

f quelconque de la classe c (le théorème 4.32 énoncé plus bas établit qu’elles ont toutes lamême intégrale), définit bien une norme sur L1(µ). L’espace L1(µ) est un espace vectorielnormé complet, c’est à dire que toute suite de Cauchy est convergente dans cet espace. Lacomplétude est une propriété essentielle en analyse fonctionnelle.

Dans la pratique, travailler avec des classes d’équivalence est fastidieux, on peut continuerde penser les fonctions mesurables comme des fonctions ordinaires en prenant garde qu’ellesne sont définies qu’à un ensemble de mesure nulle près.

4.5.5. Résultats fondamentaux

Théorème 4.32. Soient f, g : E → R des fonctions dont les intégrales sont définies.1. f ≤ g µ-pp implique que

∫fdµ ≤

∫gdµ.

2. f = g µ-pp implique que∫fdµ =

∫gdµ .

Démonstration. 1. Soit N = f > g. On a µ(N) = 0. Comme f1N ≤ g1N , on a∫f1Ndµ ≤

∫g1Ndµ. Par ailleurs

∫f1Ndµ =

∫g1Ndµ = 0. Donc, par linéarité,∫

(f1N + f1N)dµ ≤∫

(g1N + g1N)dµ ,

soit∫fdµ ≤

∫gdµ.

2. Immédiat à partir du résultat 1.

91

Page 92: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Théorème 4.33 (Théorème de convergence monotone). Soit (fn, n ≥ 1) une suitede fonctions (mesurables) positives qui converge en croissant, µ-p.p. vers f alors

limn→∞

∫fndµ =

∫ (lim

n→∞fn

)dµ =

∫fdµ.

La preuve découle directement du lemme 4.25, en traitant les ensembles négligeables de lamême façon que dans la preuve du théorème 4.32.

Théorème 4.34 (Lemme de Fatou). Soit (fn, n ≥ 1) une suite de fonctions(mesurables) positives, ∫

lim infn

fndµ ≤ lim infn

∫fndµ.

Démonstration. Par définition,

lim infn

fn(x) = supk

infn≥k

fn(x) = limk

infn≥k

fn(x).

La suite (gk = infn≥k fn, k ∈ N) est croissante positive donc le théorème de convergencemonotone assure que ∫

limkgkdµ = lim

k

∫gkdµ.

Par conséquent,∫lim inf

nfndµ = lim

k

∫infn≥k

fndµ ≤ limk

infn≥k

∫fndµ = lim inf

n

∫fndµ.

La preuve est terminée.

Si la mesure est finie, on peut évidemment remplacer l’hypothèse de positivité par l’hypo-thèse que les fn sont inférieurement bornées. Dans le cas où toutes les fonctions ne sontpas positives, il faut une contrainte de domination.

Théorème 4.35 (Convergence dominée). Soit (fn, n ≥ 1) une suite de fonctions(mesurables) qui converge µ p.p. vers f. Si de plus, il existe g telle que

|fn(x)| ≤ g(x), pour presque tout x et∫gdµ < ∞

alorslim

n→∞

∫fndµ =

∫( lim

n→∞fn)dµ =

∫fdµ.

Démonstration. Comme |fn| ≤ g et que l’intégrale de g est finie, celle de |fn| l’est aussipour tout n entier. D’autre part, g − fn et g + fn sont mesurables positives et g ± fn tendvers g ± f donc

lim infn

g ± fn = g ± f.

92

Page 93: Cours de Probabilités - MDI 104–114

4.5. Intégration

Appliquons le lemme de Fatou aux deux suite ((g ± fn), n ≥ 1), on obtient∫(g − f)dµ ≤ lim inf

n

∫(g − fn)dµ∫

(g + f)dµ ≤ lim infn

∫(g + fn)dµ.

De plus, le lemme de Fatou implique aussi que∫|f |dµ =

∫lim inf

n|fn|dµ ≤ lim inf

n

∫|fn|dµ ≤

∫gdµ < +∞,

donc f est intégrable. On peut donc écrire∫gdµ−

∫fdµ ≤

∫gdµ+ lim inf

n

∫(−fn)dµ

=∫gdµ− lim sup

n

∫fndµ∫

gdµ+∫fdµ ≤

∫gdµ+ lim inf

n

∫fndµ.

On tire de ces inégalités que∫fdµ ≤ lim inf

n

∫fndµ ≤ lim sup

n

∫fndµ ≤ fdµ,

d’où l’on conclut que la suite∫fndµ converge et que la limite est

∫fdµ.

4.5.6. Exemples

Exemple 25 (Mesure de comptage).– Si µ = ∑n∈N δn, alors

µ(A) = card (A) =∑n∈A

1 =∑n∈N

1A(n) =∫

1Adµ.

Par conséquent, pour f : N → R, intégrable,∫fdµ =

∑n∈N

f(n).

Il faut donc garder à l’esprit que l’intégrale de Lebesgue peut se réaliser en ce qui estcommunément appelé une série.

Exemple 26 (Mesure de Lebesgue).– Par construction, la mesure de Lebesgue est telleque

λ(]a, b[) = b− a.

Réécrit dans le langage de la TdM, cela revient à dire∫1]a, b[dλ = b− a =

∫ b

adx, (4.5)

où∫f(x)dx représente l’intégrale de Riemann.

93

Page 94: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Remarque.– Pour les fonctions en escalier, qui sont des cas particuliers de fonctionsétagées avec des Ai qui sont nécessairement des intervalles, les intégrales de Riemann etLebesgue coïncident. Plus généralement, on admettra que toutes les fonctions Riemannintégrables (fonctions continues sur un compact ou d’intégrale absolument convergente)sont Lebesgue intégrables (voir [Kut98] pour la démonstration). C’est pour cette raisonque l’on notera ∫

fdλ =∫f(x)dx,

même si maintenant le terme de droite désigne l’intégrale de Lebesgue de f .

Remarque.– L’intégration « à la Lebesgue » permet d’intégrer plus de fonctions qu’avecl’intégrale de Riemann : pour être Riemann intégrable, une fonction (positive) se doitd’être continue sauf en un nombre dénombrable de points. Pour être Lebesgue intégrable,une fonction positive peut se contenter d’être mesurable. La notion de mesurabilité estnettement moins contraignante que la continuité.

Il est par exemple clair que Q est mesurable (en tant que réunion dénombrable desingletons), de mesure de Lebesgue nulle (puisque les singletons sont de mesure nulleet en vertu de l’axiome 4.1.iii) de la définition 4.4). Par conséquent, 1Q est mesurablemais discontinue en tout point irrationnel : soit r ∈ Q, il existe une suite (qn, n ≥ 1) derationnels qui converge vers r et

limn→+∞

1Q(qn) = 1 6= 0 = 1Q(r).

Cette fonction est donc Lebesgue intégrable mais pas Riemann intégrable.

Plus généralement, l’intérêt de l’intégrale de Lebesgue se trouve aussi dans la complétudede l’espace des fonctions intégrables, dont il a été question plus haut.

4.5.7. Théorème de Fubini-Tonelli

Le théorème de Fubini est celui qui permet de calculer des intégrales multiples enchoisissant l’ordre des intégrations. La mesure produit a été définie dans la définition4.22.

Théorème 4.36 (Fubini-Tonnelli). Soit (E × F, E ⊗ F , µ⊗ ν) un espace mesuréproduit et f une fonction mesurable de E × F dans R+. On a

— x 7→∫f(x, y) dν(y) est mesurable,

— y 7→∫f(x, y) dµ(x) est mesurable,

— on peut choisir l’ordre d’intégration :∫f(x, y)d(µ⊗ ν)(x, y) =

∫ (∫f(x, y)dν(y)

)dµ(x) =

∫ (∫f(x, y)dµ(x)

)dν(y).

(4.6)

94

Page 95: Cours de Probabilités - MDI 104–114

4.5. Intégration

Démonstration. Pour f = 1A×B avec A ∈ E et B ∈ F ,∫f(x, y) dν(y) = ν(B)1A(x),

qui est une fonction mesurable puisque A ∈ E . Par un argument de classe monotone, on endéduit que ce résultat reste vrai pour f = 1C avec C ∈ E ⊗ F dont on rappelle qu’il s’agitde la tribu engendrée par les ensembles de la forme A × B avec A ∈ E et B ∈ F . Parlinéarité, la mesurabilité est toujours vérifiée pour les fonctions étagées (cf. définition 4.9)de E × F dans R+. Pour une fonction mesurable positive, par construction∫

f(x, y)dν(y) = limn→∞

∫fn(x, y)dν(y)

où (fn, n ≥ 1) est une suite de fonctions étagées qui converge vers f . La fonction

x 7→∫f(x, y) dν(y)

apparaît donc comme la limite d’une suite de fonctions mesurables, elle est donc mesurable(cf. 4.12.c)). Le même raisonnement s’applique évidemment pour

y 7→∫f(x, y)dµ(x).

La deuxième partie de la preuve suit rigoureusement le même schéma. Pour f = 1A×B

avec A ∈ E et B ∈ F ,∫f(x, y)d(µ⊗ ν)(x, y) = µ⊗ ν(A×B) = µ(A)ν(B),

et ∫ (∫f(x, y)dν(y)

)dµ(x) =

∫ν(B) 1A(x)dµ(y) = ν(B)

∫1A(x)dµ(y) = ν(B)µ(A),

∫ (∫f(x, y)dµ(x)

)dν(y) =

∫µ(A) 1B(y)dν(y) = µ(A)

∫1B(y)dν(y) = ν(B)µ(A).

La formule (4.6) est donc vraie pour ces fonctions f particulières. Par un argument declasse monotone, il reste vrai pour les indicatrices de C ∈ E ⊗ F . Par linéarité, il est vraipour les fonctions étagées. Par passage à la limite, il est vrai pour les fonctions mesurablespositives.

Dans le cas où n’est pas de signe constant, on vérifie d’abord que l’intégrale double de |f |est finie (en utilisant le théorème précédent pour la calculer) puis on applique le théorèmede Fubini proprement dit.

Théorème 4.37 (Fubini). Soit (E ×F, E ⊗ F , µ⊗ ν) un espace mesuré produit et

95

Page 96: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

f une fonction mesurable de E × F dans R. Si∫∫|f(x, y)|dµ(x)dν(y) < ∞,

alors les conclusions du théorème 4.36 restent inchangées.

Démonstration. D’après le théorème de Fubini-Tonnelli,∫ (∫

|f(x, y)|dν(y))

dµ(x) < ∞

donc la fonctionx 7→

∫|f(x, y)|dν(y)

est finie µ-presque-sûrement : si l’on note

NE = x ∈ E,∫

|f(x, y)|dν(y) = ∞

alors µ(NE) = 0 et donc, par construction de la mesure produit, (µ⊗ ν)(NE × F ) = 0. Demême,

NF = y ∈ F,∫

|f(x, y)dµ(x) = ∞

est de ν mesure nulle donc (µ⊗ ν)(E ×NF ) = 0. On peut redéfinir f par 0 sur ces deuxensembles. En décomposant cette fonction (redéfinie mais toujours notée f) en f = f+−f−,le résultat découle par linéarité de (4.6).

Remarque.– Il convient de noter que le théorème de Fubini permet de permuter desintégrales mais aussi des séries (puisqu’une série est au sens de Lebesgue, une intégralepar rapport à la mesure de comptage) ou des séries et des intégrales (ce que vous avezappelé jusqu’à présent le théorème d’intégration terme à terme).

Remarque.– Les plus attentifs remarqueront que le théorème suivant se distingue decelui que vous connaissez pour l’intégrale de Riemann en ce qu’il n’est pas nécessaire devérifier que la fonction dominante et la fonction limite sont continues !

Théorème 4.38 (Continuité sous le signe somme). Soit I un ouvert de Rn etf(x, t), t ∈ I une famille de fonctions mesurables telle que pour tout t ∈ I, f(., t)soit µ-intégrable. Si µ(x)-p.p., t 7→ f(x, t) est continue sur I, s’il existe G unefonction mesurable telle que

— µ(x) p.p., |f(x, t)| ≤ G(x) pour tout t ∈ I,

—∫G dµ < ∞,

alors l’application t 7−→∫f(x, t)dµ(x) est continue.

96

Page 97: Cours de Probabilités - MDI 104–114

4.5. Intégration

Démonstration. Soit (tn, n ≥ 1) une suite d’éléments de I qui tend vers t. Alors, on aévidemment∣∣∣∣∫ f(x, t)dµ(x) −

∫f(x, tn)dµ(x)

∣∣∣∣ ≤∫

E|f(x, t) − f(x, tn)|dµ(x).

Les assertions suivantes sont immédiates :— gn : x 7→ |f(x, t) − f(x, tn)| est mesurable ;— gn(x) = |f(x, t) − f(x, tn)| n→∞−−−→ 0, µ-p.p. ;— |gn(x)| = |f(x, t) − f(x, tn)| ≤ 2G(x), µ-p.p. ;—

∫G dµ < ∞ ;

donc on peut appliquer le théorème de convergence dominée (théorème 4.35) à gn, ce quiinduit que ∫

E|f(x, t) − f(x, tn)|dµ(x) n→∞−−−→ 0.

D’où le résultat.

Une preuve similaire permet d’obtenir le résultat de dérivation sous le signe « somme ».

Théorème 4.39. Soit I un ouvert de Rn et f(x, t), t ∈ I une famille de fonctionsmesurables telles que pour tout t ∈ I, f(., t) soit µ-intégrable. Si t 7→ f(x, t) estdérivable sur I, dµ p.p., s’il existe G(x) une fonction mesurable telle que

— µ p.p., | ddtf(x, t)| ≤ G(x) pour tout t ∈ I,

—∫Gdµ < ∞,

alors l’application

I −→ R

t 7−→∫f(x, t)dµ(x)

est dérivable sur I et

ddt

∫f(x, t)dµ =

∫ ddtf(x, t)dµ(x).

4.5.8. Fonctions test

Pour caractériser une mesure de probabilité sur Rd, il est souvent utile de considérer l’inté-grale d’une fonction « test », mesurable positive ou mesurable bornée.

Théorème 4.40. Deux mesures de probabilité P et Q sur Rd sont égales si etseulement si pour toute fonction f mesurable positive (respectivement, mesurable

97

Page 98: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

bornée), ∫fdP =

∫fdQ. (4.7)

Démonstration. Il suffit de remarquer que pour tout borélien B de Rd, la fonction f = 1B

est mesurable positive (respectivement, mesurable bornée). L’égalité (4.7) donne P(B) =Q(B), si bien que P = Q.

4.5.9. Mesures à densité

Définition 4.14. Soit µ et ν deux mesures sur (E, E). On dit que ν est absolumentcontinue par rapport à µ si et seulement si

A ∈ E , µ(A) = 0 =⇒ ν(A) = 0.

On note ν µ.

Théorème 4.41 (Radon-Nikodym). Soit µ et ν deux mesures, finies sur touscompacts, sur (Rd,B(Rd)) telles que ν µ. Il existe une unique fonction mesurablef ≥ 0 (définie µ presque-sûrement), telle que∫

Rdfdµ < ∞ et

∫Rdgdν =

∫Rdgfdµ,

pour toute fonction g mesurable bornée. La fonction f s’appelle la densité de ν parrapport à µ.Lorsque l’on dit qu’une mesure ν est absolue continue sans autre précision, onsous-entend qu’elle l’est par rapport à la mesure de Lebesgue, c’est-à-dire qu’ilexiste f telle que

dν(x) = f(x)dx.

Définition 4.15. Le support d’une mesure µ est le complémentaire du plus grandouvert de µ-mesure nulle.

Exemple 27.– Par exemple, le support de la mesure δx est le singleton x. Pour unemesure à densité (sous-entendu par rapport à la mesure de Lebesgue) f supposée continuepar morceaux, le support de la mesure fdλ est l’adhérence de l’ensemble des valeurs où fne s’annule pas.

Exemple 28.– Soit µ = δ0, les mesures absolument continues par rapport à µ sont de laforme ν = αδ0 avec α ≥ 0. Soit ν µ, pour tout ouvert A ne contenant pas 0, µ(A) = 0donc ν(A) = 0. Le support de ν est donc inclus dans 0. Ce qui signifie que ν = αδ0. La

98

Page 99: Cours de Probabilités - MDI 104–114

4.5. Intégration

fonction g est alors définie par g(0) = α et g quelconque sur R\0. En effet,∫fdν = f(0)α =

∫f g dµ.

Remarque.– Pour µ et ν, deux mesures de probabilité telles que ν µ, on remarquera(en prenant g = 1) que nécessairement

∫Rdfdµ = 1. (4.8)

De nombreuses probabilités sont définies comme des mesures à densité par rapport à lamesure de Lebesgue. La table 4.2 fournit différents exemples de densités de probabilité f , surlesquels nous aurons l’occasion de revenir pendant ce cours.

Table 4.1. – Quelques exemples de densités de probabilité – (Rappel : Γ(a) =∫ +∞0 xa−1e−xdx).

Domaine Densité Expression de f(x) Notation

R Densité uniforme sur [a, b] 1[a,b](x)b− a

U([a, b])

Rd Densité uniforme sur une partie A ⊂ Rd 1A(x)∫1A

R Densité exponentielle de paramètre α > 0 αe−αx1R+(x) E(α)

R Densité gaussienne de paramètres m, σ2 1√2πσ2

e−(x−m)2/(2σ2) N (m,σ2)(m ∈ R, σ2 > 0)

Rd Gaussienne multivariée de paramètres m, Σ e− 12 (x−m)T Σ−1(x−m)√

(2π)d det ΣNd(m,Σ)(m ∈ Rd, Σ ∈ Rd×d définie positive)

R Densité de Cauchy de paramètres m, α 1π

· α

(x−m)2 + α2(m ∈ R, α > 0)

R Densité Gamma de paramètres a, b ba

Γ(a) xa−1 e−bx Γ(a, b)(a >, b > 0)

Table 4.2. – Quelques exemples de densités de probabilité – (Rappel : Γ(a) =∫ +∞0 xa−1e−xdx).

99

Page 100: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

A titre d’exemple, la figure 4.3 représente la densité gaussienne de paramètres 0 et 1, notéeN (0, 1) et appelée gaussienne centrée réduite :

f(x) = 1√2πe−x2/2 . (4.9)

La densité gaussienne porte aussi le nom de densité normale, ce qui justifie la notationN .

.

0

0.1

0.2

0.3

0.4

0.5

−4 −3 −2 −1 0 1 2 3 4.

Figure 4.3. – Densité gaussienne centrée réduite N (0, 1).

100

Page 101: Cours de Probabilités - MDI 104–114

4.5. Intégration

Mesures

Caracté-risations

Singletonssur ens.

dén.

Intervallessur R

Thm. 4.19

Pavéssur Rd

Identi-fication

Thm. 4.40

Pro-priétés

MonotonieThm. 4.14

Lemmede Borel-CantelliLm 4.15

Probabili-tés totalesThm. 4.13

Ens. né-gligeables

Déf. ??

Construc-tions

Thm. deKolmo-gorov

Thm. 4.20

Mesureimage

Déf. 4.8

Mesureproduit

Thm. 4.22

Mesureà densitéTab. 4.2

Inté-grale

Construc-tion

Déf. ??

Théorèmeslimite p. 92

Régularitép. 96

Inter-version∑

,∫

, EThm. 4.37

101

Page 102: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

4.6. Exercices

Pour apprendre

Exercice 4.1 (Vrai ou faux ?).– 1. Soit la fonction f définie parf : R −→ N

x 7−→ [√

|x|]où [x] est la partie entière de x. On a

f−1([2; 3.5]) = [4; 16[ ∪ ] − 16; −4].2. Une fonction constante est toujours mesurable.3. Une fonction étagée prend un nombre fini de valeurs.4. Une fonction mesurable qui prend un nombre fini de valeurs est étagée.5. La mesure d’un singleton est strictement positive.6. On a toujours

limx↑x0

µ(] − ∞; x]) = µ(] − ∞; x0]).

7. Pour µ mesure de probabilité, on a toujourslimx↓x0

µ(] − ∞; x]) = µ(] − ∞; x0]).

Exercice 4.2.–Soit µ la mesure de comptage sur N et pour tout entier n, An = k, k ≥ n.

1. Que vaut ∩nAn ?2. Montre que l’on n’a pas µ(∩nAn) = limn→∞ µ(An).3. Pourquoi n’y a-t-il pas de contradiction avec 4.14.d) ?

Exercice 4.3 (Crible de Poincaré).–Soit µ une mesure finie. Montrer la formule suivante.

µ(n⋃

i=1Ai) =

n∑i=1

µ(Ai) −∑

1≤i1<i2≤n

µ(Ai1 ∩ Ai2) + . . .+ (−1)n+1µ(n⋂

i=1Ai).

Exercice 4.4.–Soit E un ensemble muni d’une tribu E . Soit X : Ω → E une fonction. Montrer que lafamille X−1(H) : H ∈ E forme une tribu.

On l’appelle la tribu engendrée par X et on la note σ(X). De manière informelle, on peutinterpréter σ(X) comme l’ensemble des événements dont un observateur qui disposeraitseulement de la valeur de X pourrait décider s’ils sont ou non réalisés.

Exercice 4.5 (***).–Soit f une fonction de R dans R bornée, croissante, continue à droite. On peut sansrestreindre la généralité supposer que f prend ses valeurs dans [0, 1].

1. Pour n ≥ 1, montrer que l’ensemble x : f(x) ≥ f(x−) + 1/n est de cardinal fini.2. En déduire que l’ensemble des points de discontinuité de f est au plus dénombrable.

102

Page 103: Cours de Probabilités - MDI 104–114

4.6. Exercices

Pour s’entraîner

Exercice 4.6.–Montrer qu’une fonction mesurable de (E, ∅, E) dans (R,B(R)) est constante. Caractéri-ser les fonctions mesurables de (E, ∅, A,Ac, E) dans (R,B(R)) où A est un sous-ensemblepropre de E.

Exercice 4.7.–On veut montrer que toute mesure de Radon sur R (c’est-à-dire µ(K) < +∞ quel quesoit le compact K) invariante par translation est proportionnelle à la mesure de Lebesgue.

1. Montrer que pour tout entier µ([n; n+ 1]) = µ([0; 1]).2. En déduire que µ([0, n]) = nµ([0; 1]).3. Montrer que pour tout entier p, q positifs,

q µ([0; p/q]) = p µ([0; 1]).

4. En déduire queµ([0; r]) = r µ([0; 1])

pour r rationnel.5. En déduire que En déduire que

µ([0; x]) = xµ([0; 1])

pour tout x réel.6. Conclure.

Exercice 4.8.–Soit (E, E , µ) un espace mesurable et T une application de E dans lui-même. On dit queµ est invariante par T si ∫

Ef Tdµ =

∫fdµ

pour toute fonction f mesurable bornée.1. Montrer que la mesure de Lebesgue sur R est invariante par translation.2. Soit E = Rn et

dµ(x1, . . . , xn) = 1(2π)n/2 exp

(−1

2(x21 + . . .+ x2

n))

dx1 . . . dxn.

Montrer que µ est invariante par rotation.3. Soit E = [0, 1] et T (x) = 2x− [2x] (T (x) est la partie fractionnaire de x). Montrer

que la mesure de Lebesgue restreinte à E est invariante.

Exercice 4.9 (**).–On veut montrer que les hypothèses du théorème de Fubini sont optimales. On considèrela fonction définie sur [0, 1] × [0, 1] par (x2 − y2)/(x2 + y2)2.

103

Page 104: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

1. Montrer que si le théorème de Fubini est applicable alors nécessairement cetteintégrale est nulle.

2. En faisant les calculs explicites des intégrales partielles, montrer que l’on n’obtientpas le même résultat.

3. Montrer enfin, en utilisant Fubini-Tonelli, que la fonction étudiée n’est pas de moduleintégrable.

Pour aller plus loin

Exercice 4.10.–Soit µ1 et µ2 deux mesures absolument continues par rapport à une même mesure µ. Aquelle condition (suffisante) sur leurs dérivées de Radon-Nikodym, µ2 est-elle absolumentcontinue par rapport à µ1? Que vaut alors dµ2/dµ1?

Exercice 4.11.–Quelles sont les mesures sur R absolument continues par rapport à δ1?

Exercice 4.12 (***, Ensemble triadique de Cantor).–L’objectif est de construire un ensemble non dénombrable de mesure de Lebesgue nulle.Soit S les éléments de 0, 1, 2N qui ne se terminent pas par une infinité de 2.

1. Montrer que tout nombre x de [0, 1[ s’écrit de manière unique sous la forme

x =+∞∑n=1

xn3−n où (xn, n ≥ 1) ∈ S.

On appelle la suite (xn, n ≥ 1) le développement triadique de x.

2. On appelle C, l’ensemble de Cantor, constitué des réels de [0, 1[ qui n’ont pas de1 dans leur développement triadique. Montrer que C = ∩∞

n=1En où les En sont desensembles que l’on construira (voir la figure 4.4).

3. Montrer que la mesure de Lebesgue de C est nulle.

4. Montrer que C est non dénombrable.

5. Montrer que Cc est partout dans [0, 1[ : quel que soit ε > 0, pour tout x ∈ [0, 1[, ilexiste y ∈ Cc tel que |x− y| < ε.

6. En déduire que l’intérieur de C est vide.Exercice 4.13 (***, Fonction de Cantor).–À partir de l’ensemble de Cantor, on va maintenant construire une fonction continue,croissante, nulle en 0, qui vaut 1 en 1 et dont la dérivée est presque-partout nulle...

— La fonction f0 est définie par f0(x) = x.

— La fonction f1 est continue, affine par morceaux, est telle que f1(0) = 0, f1(1) = 1

104

Page 105: Cours de Probabilités - MDI 104–114

4.6. Exercices

0 1

1/3 2/3

1/9 2/9 7/9 8/9

Figure 4.4. – Les premières étapes de la construction de l’ensemble de Cantor.

3−(N+1)

2−(N+1)

Figure 4.5. – Vue partielle de deux étapes successives dans la construction de la fonctionde Cantor.

et vaut 1/2 sur Ec1 donc

f1(x) =

32x pour x ≤ 1

3

12 pour 1

3 ≤ x ≤ 23

12 + 3

2(x− 23) pour x ≥ 2

3 .

— Au rang n, fn est continue, affine par morceaux, égale à j2−n sur le j-ième intervallede Ec

n et telle que fn(0) = 0 et fn(1) = 1.

1. Montrer que ‖fn − fn+1‖∞ ≤ 2−(n+1).2. En déduire que la suite (fn, n ≥ 1) est de Cauchy dans l’ensemble des fonctions

continues muni de la norme uniforme. Soit f sa limite.3. Montrer que f est croissante, vaut 0 en 0 et 1 en 1, est dérivable et de dérivée nulle

sur Cc.

105

Page 106: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

Exercice 4.14 (***, Construction d’un ensemble non-mesurable).–Soit E = [0, 1] muni de la mesure de Lebesgue notée µ. Pour A ⊂ E\1 et x ∈ R, onpose

τx(A) = t+ x− [t+ x], t ∈ A

où [a] est la partie entière de a.1. Montrer que si A est mesurable alors τx(A) l’est aussi et µ(τx(A)) = µ(A).2. Soit R la relation d’équivalence définie par xRy ssi x− y ∈ Q. On construit F en

choisissant un et un seul représentant de chaque classe d’équivalence. Montrer queles (τr(F ), r ∈ [0, 1[∩Q) forment une partition de [0, 1] et en déduire que F n’est pasmesurable.

Exercice 4.15.–La suite récurrente x = (xn, n ≥ 0) définie par

x0 ∈]0, 1[, xn+1 = 4xn(1 − xn),

appartient à la classe des systèmes dynamiques dits chaotiques. En effet, si l’on part d’unecondition initiale quelconque, l’orbite (la suite des valeurs prises par la suite pour unecondition initiale donnée) présente de façon évidente un caractère hautement erratique.

0 10 20 30 40 500.0

0.2

0.4

0.6

0.8

1.0

Figure 4.6. – L’orbite de la suite x pour x0 = 0,2.

Qui plus est, pour des conditions initiales très proches, les orbites sont proches au débutmais finissent par se séparer franchement au bout de quelques itérations.

Ce comportement est en partie dû au fait qu’à l’intersection de la première bissectrice etde la courbe représentative de f(x) = 4x(1 − x), la dérivée est en module supérieure à 1donc le potentiel point fixe x = 3/4 est de type répulsif : f ′(3/4) = −2.

On ne peut donc rien dire de déterministe sur le comportement asymptotique de cettesuite. En revanche, on peut essayer de voir ce que sont les « zones » de [0, 1] qu’elle visite

106

Page 107: Cours de Probabilités - MDI 104–114

4.6. Exercices

0 10 20 30 40 500.0

0.2

0.4

0.6

0.8

1.0

Figure 4.7. – L’orbite de la suite x pour x0 = 0,2, comparée à l’orbite pour x0 = 0,2001 .

0 10.0

0.2

0.4

0.6

0.8

1.0

f ′(3/4) = −2

Figure 4.8. – Le point (3/4, 3/4) est répulsif.

le plus fréquemment, c’est-à-dire de regarder

µ([a, b]) = limN→∞

1N

N∑n=1

1[a,b](xn)

pour tous les intervalles [a, b]. Cette quantité correspond à la fréquence empirique despassages dans l’intervalle [a, b]. Si l’on fait l’analogie avec les temps de séjour dans un étatd’une chaîne de Markov, µ doit se comporter comme une mesure sur [0, 1]. L’objectif decet exercice est de montrer que c’est bien le cas et d’identifier au passage la dite mesure.Comme les techniques mises en place relèvent de ce que l’on appelle la théorie ergodique,les premières questions sont génériques et s’appliquent à de nombreux autres systèmesdynamiques.

107

Page 108: Cours de Probabilités - MDI 104–114

4. Mesures et intégration

0 1/2 10

1

2

3

4

5

Figure 4.9. – µ (courbe verte, obtenue pour N = 50 000) et µ (courbe rouge, calculée dansla question 4.15.i).

Soit (E, E ,P) un espace probabilisé et T une application mesurable de E dans lui-même.On suppose que P est invariante par T, c’est-à-dire que

P(T−1(A)) = P(A) pour tout A ∈ E .

4.15.a) Montrer que l’ensemble des mesurables invariants par T, c’est-à-dire qui vérifieT−1(A) = A, est une tribu (notée I par la suite).

4.15.b) Soit f une fonction mesurable de E dans R. Montrer que si f est invariante par T(c’est-à-dire f T = f) alors f est mesurable de (E, I) dans (R,B(R)).

Le système dynamique (E, T,P) est dit ergodique lorsque

I ⊂ σA ⊂ E ,P(A) = 0 ou P(A) = 1.

4.15.c) Montrer que (E, T,P) est ergodique si et seulement si les fonctions invariantes parT sont constantes presque partout.

On dit que T est mélangeante si et seulement si pour tout couple f, g d’éléments de L2(P),

limn→+∞

∫Ef T n g dP =

∫Ef dP

∫EgdP. (4.10)

4.15.d) Montrer que si T est mélangeante alors (E, T ) est ergodique.4.15.e) Montrer pour f ∈ L2(P), pour tout entier n ≥ 1,∫

Ef T ndP =

∫EfdP. (4.11)

4.15.f) Montrer que si la condition de mélange (4.10) est vérifiée pour f, g appartenant àun sous-ensemble dense de L2(P) alors T est mélangeante.

108

Page 109: Cours de Probabilités - MDI 104–114

4.6. Exercices

On veut maintenant étudier le système dynamique donnée par l’équation d’évolution :

xan+1 = T (xa

n) où T (x) = 4x(1 − x), xa0 = a ∈ [0, 1].

On veut montrer en particulier que pour presque tout a ∈ [0, 1],

limn→+∞

1n

n∑j=0

f(xaj ) =

∫ 1

0f(u)(π

√u√

1 − u)−1du.

On admet le théorème de Birkhoff qui stipule que si (E, T,P) est un système ergodiquealors

limn→+∞

1n

n∑j=0

f T j(x) =∫

EfdP (4.12)

pour presque tout x. Il nous faut donc trouver une mesure invariante µ par T et montrerque le système dynamique ([0, 1], T, µ) est ergodique. Pour ce faire on considère un autresystème dynamique :

E1 = [0, 1[, T1x = 2x si 0 ≤ x ≤ 1/2, T1(x) = 2 − 2x pour 1/2 ≤ x < 1.

(où [x] est la partie entière de x) muni de la mesure de Lebesgue sur [0, 1[, notée λ.4.15.g) Montrer que λ est invariante par T1.

4.15.h) En admettant (ou se souvenant, cf. séries de Fourier) que la famille de fonctionsek(x) = exp(2iπkx) pour k ∈ Z est une famille dense de L2(dλ), montrer que T1 estmélangeante.

Soit Θ l’application de E1 dans [0, 1] définie par :

Θ(x) = sin2(πx/2).

4.15.i) Identifier µ la mesure image de λ par Θ.4.15.j) Montrer que ([0, 1[, T, µ) est ergodique et conclure.

109

Page 110: Cours de Probabilités - MDI 104–114
Page 111: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

5.1. Généralités

5.1.1. Loi d’une variable aléatoire

On se place sur un espace de probabilité (Ω,F ,P). Soit (E, E) un espace mesurable.

Définition 5.1. Une variable aléatoire X sur E est une application mesurable deΩ dans E.

Grâce à la notion de mesurabilité, nous assurons que les événements du type «X appartientà H » sont bien des événements de la tribu F , c’est-à-dire des sous-ensembles de Ω dontnous pouvons évaluer la probabilité. La théorie de la mesure fournit le cadre mathématiquenécessaire à la construction d’une théorie complète des probabilités (voir également latable 5.1).

Lorsque l’ensemble d’arrivée est une partie de R ou de R = R ∪ −∞,+∞, on parle devariable aléatoire réelle (en abréviation, v.a.r.). Lorsque l’ensemble d’arrivée est une partiede Rd avec d ≥ 2, on parle de vecteur aléatoire ou de variable aléatoire multivariée.Une quantité scalaire ou vectorielle a constante par rapport à ω est parfois qualifiée dedéterministe.

Définition 5.2. On appelle loi de la v.a. X la fonction PX définie par :

PX : E → [0, 1]H 7→ P(X−1(H)) .

En écriture plus compacte, PX := P X−1. Une autre manière d’écrire cettedéfinition est :

PX(H) := P(X ∈ H) .

Autrement dit, PX(H) est la probabilité pour que X appartienne à H.

Proposition 5.1. PX est une mesure de probabilité sur (E, E).

Démonstration. On vérifie les axiomes i) et ii) que doit satisfaire une mesure de probabilité.i) PX(E) = P(X−1(E)) = P(Ω) = 1 et PX(∅) = P(X−1(∅)) = P(∅) = 0.

111

Page 112: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

ii) Soit (Hn)n∈N? une famille d’éléments de E deux à deux disjoints. On a X−1(⋃n Hn) =⋃n X

−1(Hn) et on montre aisément que les événements (X−1(Hn)) sont deux à deuxdisjoints. Ainsi en appliquant P aux deux membres de l’égalité précédente, on obtientPX(⋃n Hn) = P(⋃n X

−1(Hn)) = ∑n P(X−1(Hn)).

5.1.2. Discussion

En pratique, on s’intéresse le plus souvent à des probabilités de la forme P(X ∈ H) =PX(H) où X est une v.a. et H un ensemble. Ainsi, on manipule la loi PX = P X−1 bienplus souvent que la probabilité P elle-même. Or PX est une probabilité sur l’espace oùX prend ses valeurs. De ce fait, dans les problèmes que nous rencontrerons, l’espace deprobabilité (Ω,F ,P) n’est souvent pas spécifié. Il s’agit d’un espace abstrait, suffisammentriche pour modéliser le problème d’intérêt, mais sans nécessairement de signification« physique » en rapport avec l’expérience décrite.

Par exemple, nous rencontrerons fréquemment des énoncés qui débutent par une phrasedu type : « Soit X une variable aléatoire de Bernoulli de paramètre p sur 0, 1 ». Un telénoncé suppose implicitement la donnée d’un espace de probabilité (Ω,F ,P) tel que X estune v.a. sur cet espace et tel que PX est une mesure de probabilité de Bernoulli, c’est-à-direPX(1) = p, PX(0) = 1 − p. Toutefois, cet énoncé ne précise ni la nature de (Ω,F ,P),ni l’expression de X(ω) en fonction de ω : cela est sans importance du moment que PX

est la loi voulue. Spécifier Ω n’est d’aucune utilité. Si nous tenions malgré tout à le faire,nous aurions maintes possibilités. Dans l’exemple précédent, nous pourrions naturellementposer Ω = 0, 1, P la probabilité de Bernoulli et X(ω) = ω. Mais nous pourrions toutaussi bien choisir pour Ω l’intervalle [0, 1], pour P la mesure de Lebesgue sur [0, 1] et poserX(ω) = 1[0,p](ω). Dans les deux cas, on pourra vérifier que X est bien une v.a. de Bernoullide paramètre p : peu importe donc la solution choisie.

5.2. Variables aléatoires réelles

Dans ce paragraphe, on traite le cas de variables aléatoires X à valeurs dans E = R munide la tribu de Borel.

5.2.1. Fonction de répartition

Comme PX est une mesure sur R, on sait qu’elle est totalement caractérisée (voir le chapitre4) par les valeurs de PX(] − ∞, b]) pour b parcourant R.

112

Page 113: Cours de Probabilités - MDI 104–114

5.2. Variables aléatoires réelles

Définition 5.3. Soit X une v.a.r., la fonction

FX : R −→ [0, 1]x 7−→ PX(] − ∞, x]) = P(X ≤ x)

s’appelle la fonction de répartition de X.

En vertu des propriétés de monotonie des mesures, FX possède les propriétés suivantes,que l’on pourra vérifier à titre d’exercice :

— limx→−∞ FX(x) = 0,— limx→+∞ FX(x) = 1,— FX est croissante, continue à droite, i.e., limy↓x FX(y) = FX(x).

On a, d’après les propriétés de monotonie des mesures,

FX(x−) = limn→+∞

P(∞⋃

n=1] − ∞, x− 1

n]) = PX(] − ∞, x[).

Par conséquent, FX(x−) = PX(] − ∞, x[) et donc

FX(x) − FX(x−) = P(X = x).

En d’autres termes, si FX est continue en x, P(X = x) = 0. Comme FX est bor-née, le nombre de ces points de discontinuité est au plus dénombrable (voir exercice4.5). Soit xn, n ∈ N∗ ces points. On peut alors parler de F c

X , la régularisée deFX :

F cX(x) = FX(x) −

∞∑n=1

(FX(xn) − FX(xn−)

)1[xn, +∞[(x).

= FX(x) −∞∑

n=1∆FX(x)1[xn, +∞[(x).

La fonction F cX est continue et croissante par définition. Elle est d’après un théorème de

Lebesgue, dérivable sauf sur un ensemble de mesure de Lebesgue nulle. Dans la suite, nousne nous préoccuperons pas de savoir ce qui se passe si elle n’est pas dérivable en toutpoint.

Théorème 5.2. Soit X une v.a.r. de fonction de répartition FX . Si F cX est dérivable

sur R, alorsdPX(x) =

∞∑n=1

∆FX(xn)dδxn + (F cX)′(x)dx. (5.1)

Si FX est continue alorsdPX(x) = (F c

X)′(x)dx

et (F cX)′ s’appelle la densité de la loi de X.

113

Page 114: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Démonstration. Remarquons que

1[xn, +∞[(x) = δxn(] − ∞, x]),

puisque le terme de gauche ne vaut 1 que si x ≥ xn, soit de manière équivalente xn ∈] − ∞, x]. Partant de l’écriture,

FX(x) = F cX(x) +

∞∑n=1

∆FX(x)1[xn, +∞[(x),

si F cX est dérivable en tout point alors on a

P(X ∈] − ∞, x]) =∫ x

−∞(F c

X)′(s)ds+∞∑

n=1∆FX (xn)δxn(] − ∞, x]).

Les deux mesures de part et d’autre de l’égalité (5.1) coïncident donc sur les ensembles dela forme ] − ∞, x] pour tout x réel. C’est suffisant (cf. thm. 4.19) pour assurer que cesdeux mesures sont égales.

5.2.2. Variables aléatoires réelles à densité

Lorsque FX est dérivable donc a fortiori continue, FX = F cX et

dPX(x) = F ′X(x)dx.

On dit que PX admet F ′X pour densité, on dit de manière raccourcie que X est de densité

F ′X . Réciproquement, si l’on se donne une v.a.r. de densité f , i.e. si f est supposée satisfaire

la relationP(X ∈ H) =

∫Hf .

En posant H = ] − ∞, x], on en déduit que la fonction de répartition de X est l’intégralede la densité :

FX(x) =∫ x

−∞f . (5.2)

Notons bien que la condition « FX est de classe C1 » est suffisante, mais pas nécessairepour que la loi de X soit à densité. D’ailleurs, les fonctions FX rencontrées en pratique nesont pas toujours de classe C1 et peuvent néanmoins admettre une densité. Le paragraphesuivant fournit une condition nécessaire et suffisante.

Conditions d’existence d’une densité∗

Une fonction F est dite absolument continue si pour tout ε > 0, il existe δ > 0 tel que pourtoute suite finie d’intervalles disjoints [a1, b1], · · · , [ap, bp],

p∑k=1

(bk − ak) < δ ⇒p∑

k=1|F (bk) − F (ak)| < ε .

Le résultat suivant est admis (voir [Bil95, Théorèmes 31.7 et 31.8]).

114

Page 115: Cours de Probabilités - MDI 104–114

5.2. Variables aléatoires réelles

Théorème 5.3. Les trois propositions suivantes sont équivalentes :i) X admet une densité ;

ii) FX est absolument continue ;iii) PX(A) = 0 pour tout ensemble négligeable A ∈ F .

5.2.3. Retour sur les variables discrètes

Soit X : Ω → R une variable aléatoire prenant ses valeurs dans un ensemble au plusdénombrable, disons par exemple :

X(Ω) =: x1, x2, x3, · · · ⊂ R .

Bien que l’espace d’arrivée R ne soit pas discret, X(Ω) l’est, et on ne perdrait guère à res-treindre le domaine d’arrivée de X à x1, x2, · · · plutôt que R. C’est pourquoi nous utilise-rons le terme de variable aléatoire discrète pour désigner X.

Le chapitre 2 suffit donc à étudier ce type de v.a. sans qu’il soit besoin d’avoir recours auxnotions nouvelles de théorie de la mesure que nous venons d’introduire. Nul besoin parexemple de donner la fonction de répartition pour caractériser la loi de X : nous savonsdéjà que la donnée des seuls coefficients P(X = xn) suffit.

Toutefois, il est intéressant, à titre d’exercice, de voir comment le formalisme généralprésenté dans ce chapitre permet de couvrir le traitement des variables discrètes, et decomprendre ce que deviennent les notions de loi et de fonction de répartition dans ce casparticulier.

Proposition 5.4. La loi PX est donnée par :

PX =∞∑

n=1P(X = xn) δxn .

Démonstration. PX(H) = PX(H ∩ X(Ω)) = PX(⋃n H ∩ xn) = ∑n PX(H ∩ xn).

Or PX(H ∩ xn) est égal à PX(xn) si xn ∈ H, à 0 sinon. Donc PX(H ∩ xn) =PX(xn)δxn(H).

La fonction de répartition est donnée par :

FX(x) =∞∑

n=1P(X = xn) 1[xn,+∞[(x) .

Il s’agit donc d’une fonction en escalier, dont l’amplitude des sauts est donnée parles coefficients P(X = xn). On note que X n’admet pas de densité puisque FX estdiscontinue.

115

Page 116: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Dans le cas particulier où X est une v.a. constante, disons X(ω) = a pour tout ω, la loide X coïncide avec un Dirac au point a. Une telle loi est dite dégénérée. La fonction derépartition associée est un échelon : FX = 1[a,+∞[ .

5.2.4. Espérance et moments

Au chapitre 2, nous avons défini l’espérance E [X] d’une v.a.r. discrète X ∈ x1, x2, · · · comme le barycentre des xn pondérés par la « masse » P(X = xn) :∑

n

xn P(X = xn) .

Cette définition est très spécifique au cas discret, et il nous faut maintenant la généraliser.Par exemple, si X est une v.a.r. de densité fX , la notion précédente de barycentredevient : ∫

Rx fX(x)dx ,

et on pourrait ainsi définir l’espérance d’une v.a. à densité, en remplaçant la sommepar une intégrale, et la loi discrète par la densité. Cette seconde définition resteraitelle aussi très spécifique au cas des variables à densité. Le chapitre 4 permet de fournirune définition générale de l’espérance qui admet les deux exemples ci-dessus comme casparticuliers.

Soit (Ω,F ,P) un espace de probabilité etX : Ω → R une variable aléatoire.

Définition 5.4. L’espérance de la v.a. X est définie par :

E [X] :=∫XdP .

Il s’agit donc de l’intégrale de X, vue comme fonction sur Ω, par rapport à lamesure de probabilité P.

Remarque.– Il y a un cas particulier d’une importance fondamentale à cette définition.Si Xest une variable aléatoire à valeurs dans un espace quelconque et que l’on considèrela variable aléatoire réelle

Y = 1A(X) =

1 si X ∈ A

0 sinon.

D’après la construction de l’intégrale par rapport à une mesure quelconque (cf. définition??),

P(X ∈ A) = E [1A(X)] . (5.3)

116

Page 117: Cours de Probabilités - MDI 104–114

5.2. Variables aléatoires réelles

Terminologie « analyse » Terminologie « probabilités »Fonction mesurable f Variable aléatoire X

Mesure µ Mesure P

Intégrale∫f(x)dµ(x) Espérance E [X] =

∫X(ω)dP(ω)

Table 5.1. – Correspondance des notations et de la terminologie « théorie de la mesureet de l’intégration » vs « théorie des probabilités ».

L’espérance est toujours bien définie pour X ≥ 0. Dans le cas général, elle est biendéfinie lorsque E [X+] ou E [X−] sont finies. La v.a. X est intégrable lorsque E [|X|] <∞.

Un cas particulier important est obtenu en posant X(ω) = 1A(ω) où A ∈ F . Comme 1A

est une fonction simple, son intégrale de Lebesgue par rapport à P est immédiatementdonnée par :

P(A) = E [1A] . (5.4)Au sens de l’égalité précédente, l’espérance peut être interprétée comme une extension dela notion de mesure de probabilité.

Théorème de transfert

Dans la pratique, nous avons généralement accès à la loi PX et non à la loi P ni àl’expression de X(ω) en fonction de ω : le théorème de transfert permet d’exprimer E [X]en fonction de PX . Il permet en outre d’exprimer l’espérance d’une variable aléatoire g(X)non pas en fonction de la loi Pg(X) qui n’est généralement pas disponible directement, maisen fonction de la loi PX . On a donc le diagramme suivant.

(Ω,P) X //

gX&&

(E,PX)g

R

Soit (E, E) un espace mesurable.

Théorème 5.5. Soit X : Ω → E et g : E → R deux fonctions mesurables tellesque E [g(X)] est définie. Alors,

E [g(X)] =∫g(x)dPX(x) .

Démonstration. On donne d’abord la preuve dans le cas où g est une fonction simplepositive, de la forme g = ∑

k αk1Ak. Alors

∫gdPX = ∑

k αkPX(Ak). Or par définition,

117

Page 118: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

E [g(X)] =∫(g X)dP. Comme g X(ω) = ∑

k αk1X−1(Ak)(ω), on obtient : E [g(X)] =∑k αkP(X−1(Ak)) et l’égalité est donc démontrée pour les fonctions simples.

Donnons maintenant la preuve pour g fonction positive quelconque. D’après le lemme 4.26,il existe une suite de fonctions simples gn ↑ g. Par le théorème de convergence monotone,∫gndPx →

∫g dPX . Or d’après la preuve précédente,

∫gndPx = E [gn(X)] =

∫(gn X)dP.

On montre facilement que gn X ↑ gX, donc, toujours d’après le théorème de convergencemonotone,

∫(gn X)dP ↑

∫(g X)dP = E [g(X)]. On conclut que E [g(X)] =

∫g dPX .

Le cas g quelconque se traite facilement en écrivant E [g(X)] = E [g(X)+] − E [g(X)−] eten appliquant le résultat précédent aux fonctions g(X)+ et g(X)− respectivement.

Exemple 29.– En particulier, notons bien la conséquence suivante : E [X] =∫x dPX(x) .

Pour X une variable aléatoire de loi exponentielle de paramètre λ, i.e. de densité

fX(x) = λe−λx1[0,+∞[(x),

la moyenne (ou espérance) est donnée par

E [X] =∫

RxfX(x)dx =

∫ ∞

0x.λe−λxdx.

On procède alors à une intégration par parties (en dérivant x 7→ x et en intégrant fX) etil vient ∫ ∞

0x.λe−λxdx =

[−xe−λx

]∞0

−∫ ∞

0(−e−λx)dx.

Le terme tout intégré est nul par « croissance comparée » de la fonction linéaire et de lafonction exponentielle. Il reste∫ ∞

0x.λe−λxdx =

∫ ∞

0e−λxdx = 1

λ·

5.2.5. Cas des variables à densité

Soit X une v.a.r. de densité fX . On rappelle que la loi d’une telle v.a. est donnée parPX(A) =

∫A fX(x) dx.

Théorème 5.6. Dès que E [g(X)] est bien définie, on a :

E [g(X)] =∫g(x) fX(x) dx . (5.5)

Démonstration. Commençons par le cas où g est une fonction simple positive, disonsg = ∑

k αk1Ak. D’après le théorème de transfert, E [g(X)] = ∑

k αkPX(Ak) et commePX(Ak) =

∫1Ak

fX , nous avons bien E [g(X)] =∫

(∑k αk1Ak) fX =

∫g . fX .

Traitons maintenant le cas où g est une fonction positive quelconque. Soit 0 ≤ gn ↑ gune suite de fonctions simples. Le théorème de convergence monotone implique que

118

Page 119: Cours de Probabilités - MDI 104–114

5.2. Variables aléatoires réelles

∫gndPX →

∫g dPX = E [g(X)]. Mais d’après la preuve précédente,

∫gndPX =

∫gnfX

tend vers∫g . fX toujours d’après le théorème de convergence monotone. Cela conclut

la preuve pour les fonctions g positives. Le cas g quelconque se traite en décomposantg = g+ − g− et en appliquant le résultat précédent à g+ et g−.

Remarque.– D’après (5.4) appliquée à PX au lieu de P, on a PX(H) =∫

H dPX(x). Dansle cas où PX est de densité fX , on a en outre PX(H) =

∫H fX(x)dx. Ainsi, pour écrire que

PX est de densité fX , on utilise souvent la notation symbolique « dPX(x) = fX(x) dx ».

5.2.6. Inégalités

Proposition 5.7 (Inégalité de Markov). Pour tout ε > 0, p ≥ 1,

P (|X| > ε) ≤ E [|X|p]εp

.

Démonstration. Voir paragraphe 2.3.4.

Proposition 5.8 (Inégalité de Hölder). Soient p, q ≥ 0 tels que 1p

+ 1q

= 1. Alors,

E [|XY |] ≤ (E [|X|p])1p (E [|Y |q])

1q .

Lorsque p = q = 2, l’inégalité de Hölder se ramène à l’inégalité de Cauchy-Schwarz :

E [|XY |] ≤√

E [X2] E [Y 2] .

Démonstration. Il suffit de donner la preuve pour des v.a. positives. On utilise l’inéga-lité ab ≤ ap/p + bq/q valable ∀a, b ≥ 0 (pour démontrer cette inégalité, poser (s, t) =(p ln a, q ln b), ab = exp( s

p+ t

q) ≤ 1

pes + 1

qet par convexité de exp, ce qui est bien l’inégalité

voulue). En posant a = X/E [Xp] et b = Y/E [Y p] et en passant à l’espérance, on tombebien sur l’inégalité de Hölder après un calcul simple.

Proposition 5.9 (Inégalité de Jensen). Soit ϕ : R → R une fonction convexe. Soit Xune v.a.r. telle que E [|X|] < ∞ et E [|ϕ(X)|] < ∞ . Alors :

ϕ(E [X]) ≤ E [ϕ(X)] .

Démonstration. Rappelons que toute fonction convexe définie sur R est continue et quede plus, ∀x ∈ R, ∃α, ∀t, ϕ(t) ≥ ϕ(x) + α(t − x). Cela signifie que le graphe est audessus d’une droite qui touche le graphe au point x. Soit α une constante telle que pourtout t, ϕ(t) ≥ ϕ(E [X]) + α(t− E [X]) . On intègre les deux membres de cette inégalitépar rapport à la loi PX . Par monotonicité de l’intégrale de fonctions PX-intégrables,E [ϕ(X)] ≥ ϕ(E [X]) .

119

Page 120: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

5.2.7. Moments, variance

Définition 5.5. Soit p ≥ 0. Soit une v.a.r. X telle que E [|X|p] < ∞. La quantitéE [Xp] est appelée le moment d’ordre p de X.

On dit d’une telle variable qu’elle est d’ ordre p, ou qu’elle possède un moment d’ordre p.L’ensemble de telles variables est noté Lp(P). Les propriétés des moments sont identiques àcelles vue dans le cas discret. Nous les résumons ici sans preuves.

Proposition 5.10. Une variable d’ordre p possède tous ses moments d’ordre inférieur.Notons que certaines v.a. possèdent tous leurs moments, c’est par exemple le cas des va-riables gaussiennes ou des variables à valeur dans un ensemble borné. A l’inverse, certainesv.a. n’admettent aucun moment (voir l’exercice 5.7).

Définition 5.6. La variance d’une v.a.r. X d’ordre 2 est définie par

Var(X) := E[(X − E [X])2

].

Son écart-type est la racine carrée de la variance, noté σX :=√

Var(X) .

Définition 5.7. Soient X et Y deux v.a.r. d’ordre 2. Leur covariance est définiepar :

Cov(X,Y ) := E [(X − E [X])(Y − E [Y ])] .

On utilise parfois le coefficient de corrélation défini par ρX,Y = Cov(X,Y )/(σXσY ).Lorsque Cov(X,Y ) = 0, on dit que X et Y sont décorrélées.

Proposition 5.11. Soient X et Y deux v.a.r. d’ordre 2 et (α, β) ∈ R2. On a :a) Var(X) = E [X2] − (E [X])2 ;b) Cov(X,X) = Var(X) ;c) Cov(Y,X) = Cov(X,Y ) ;d) Var(αX + β) = α2 Var(X) ;e) Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X,Y ) . En particulier, si X et Y sont

indépendantes alors Var(X + Y ) = Var(X) + Var(Y ).

5.3. Vecteurs aléatoires

On se place sur un espace de probabilité (Ω,F ,P). On se donne une fonction mesurableX : Ω → Rd, où d est un entier et Rd est muni de sa tribu de Borel. Pour tout ω ∈ Ω, onnotera X1(ω), · · · , Xd(ω) les coordonnées du vecteur X(ω) dans la base canonique de Rd.Nous savons d’après le corollaire 4.9 que X est mesurable si et seulement si X1, · · · , Xd le

120

Page 121: Cours de Probabilités - MDI 104–114

5.3. Vecteurs aléatoires

sont. Se donner un vecteur aléatoire est donc équivalent à se donner une collection de dvariables aléatoires réelles.

5.3.1. Fonction de répartition

On rappelle que la loi du vecteur aléatoire X est la mesure de probabilité définie pour toutH ∈ B(Rd) par PX(H) = P(X ∈ H), aussi appelée loi jointe des variables aléatoiresX1, · · · , Xd.

Définition 5.8. La fonction de répartition de X est l’application FX : Rd → R+définie pour tout (x1, · · · , xd) ∈ Rd par :

FX(x1, · · · , xd) = P (X1 ≤ x1, · · · , Xd ≤ xd)

= PX

(d∏

k=1] − ∞, xk]

).

D’après la remarque qui suit le théorème 4.19, on sait que la fonction de répartition ainsidéfinie caractérise la loi du vecteur aléatoire X.

Théorème 5.12. Deux mesures de probabilité sur B(Rd) ayant même fonction derépartition sont égales.

Vecteurs aléatoires à densité

Par définition, X admet une densité fX : Rd → R+ si PX(H) =∫

H fX pour tout H ∈B(Rd). Dans ce cas, FX(x1, · · · , xd) est l’intégrale de fX sur le pavé ∏k ] − ∞, xk] . D’aprèsle théorème de Fubini 4.37, on peut écrire de manière équivalente :

FX(x1, · · · , xd) =∫ x1

−∞· · ·

∫ xd

−∞fX(u1, · · · , ud)du1 · · · dud .

Si FX est de classe Cd, alors :

fX(x1, · · · , xd) = ∂dFX(x1, · · · , xd)∂x1 · · · ∂xd

.

5.3.2. Variables aléatoires indépendantes

Soit X = (X1, · · · , Xd) un vecteur aléatoire sur (Ω,F). On rappelle que les v.a. X1, · · · , Xd

sont dites indépendantes si pour tout H1, · · · , Hd ∈ B(R),

P(X1 ∈ H1, · · · , Xd ∈ Hd) = P(X1 ∈ H1) × · · · × P(Xd ∈ Hd) .

121

Page 122: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Le membre de droite est égal au produit ∏i PXi(Hi) où PXi

est la loi marginale de Xi.Le membre de gauche est égal à la loi jointe PX évaluée en H1 × · · · × Hd. D’après leparagraphe précédent, l’unique loi satisfaisant la propriété ci-dessus est la loi produit.Ainsi, les v.a. X1, · · · , Xd sont indépendantes si et seulement si la loi jointe est égale auproduit des lois marginales :

PX =d⊗

i=1PXi

. (5.6)

On note FX la fonction de répartition deX = (X1, · · · , Xd) et FXicelle de la v.a.r.Xi.

Théorème 5.13. Les propositions suivantes sont équivalentes.i) X1, · · · , Xd sont indépendantes ;

ii) Pour tout x1, · · · , xd ∈ R,

FX(x1, · · · , xd) = FX1(x1) × · · · × FXd(xd) ; (5.7)

iii) Pour toutes fonctions mesurables h1, · · · , hd : R → R telles que les v.a. hi(Xi)sont toutes positives ou toutes intégrables,

E [h1(X1) × · · · × hd(Xd)] = E [h1(X1)] × · · · × E [hd(Xd)] ; (5.8)

iv) Pour toutes fonctions h1, · · · , hd : R → R+ continues à support compact,(5.8) est satisfaite.

Si en outre chaque v.a.r. Xi admet une densité fXi, alors les propositions précédentes

sont équivalentes à :v) Le vecteur X admet une densité fX donnée pour tout x1, · · · , xd ∈ R par :

fX(x1, · · · , xd) = fX1(x1) × · · · × fXd(xd) ; (5.9)

Démonstration. i)⇒iii). On donne la preuve dans le cas où d = 2 (le cas général se traitede manière similaire). Posons Y1 = h1(X1) et Y2 = h2(X2). D’après le paragraphe 5.3.2,nous savons que Y1 et Y2 sont indépendantes. Supposons Y1, Y2 positives. Puisque PY1,Y2 =PY1 ⊗ PY2 , le théorème de Fubini implique que E [Y1Y2] =

∫y1y2 dPY1,Y2(y1, y2). Donc,

E [Y1Y2] =∫

(∫y1y2dPY1(y1)) dPY2(y2) =

∫y2E [Y1] dPY2(y2) = E [Y1] E [Y2] . La propriété

est prouvée pour des v.a. Yi positives. Dans le cas de v.a. signées, on a d’après ce quiprécède : E [|Y1Y2|] = E [|Y1|] E [|Y2|] < ∞. La fonction (y1, y2) 7→ y1y2 est intégrable et lethéorème de Fubini s’applique là encore.

iii)⇒iv). Immédiat.

iv)⇒ii). Fixons x1, · · · , xd. Soit hi,n la fonction continue égale à un sur l’intervalle ] −∞, xi], à zéro sur [xi + 1

n,+∞[, et linéaire sur [xi, xi + 1

n]. Pour tout i, hi,n ↑ 1]−∞,xi] et

donc E [hi,n(Xi)] ↑ FXi(xi) par convergence monotone. De même, ∏i hi,n ↑ ∏i 1]−∞,xi] et

122

Page 123: Cours de Probabilités - MDI 104–114

5.3. Vecteurs aléatoires

donc E [∏i hi,n(Xi)] ↑ ∏i FXi(xi) . Or, par hypothèse, E [∏i hi,n(Xi)] = ∏

i E [hi,n(Xi)] . Lerésultat est obtenu par passage à la limite.

ii)⇒i). La fonction de répartition associée à la loi produit ⊗i PXiest égale au produit

des FXi. Donc ⊗i PXi

et PX ont la même fonction de répartition. Puisque la fonction derépartition caractérise la loi, ces lois sont égales, ce qui prouve (5.6).

Dans le cas où chaque Xi admet une densité fXion montre que ii)⇔iv). ii) équivaut à :

∀x = (x1, · · · , xd) ,FX(x) = ∏i

(∫ xi−∞ fXi

). Par le théorème de Fubini, cela équivaut à :

FX(x) =∫ x1

−∞ · · ·∫ xd

−∞ (⊗i fXi) , ce qui revient à dire que X est de densité ⊗i fXi

.

Du théorème ci-dessus, on retiendra en particulier la propriété importante suivante : l’espé-rance d’un produit de variables aléatoires indépendantes est égale au produit des espérances.Plus précisément, si X1, · · · , Xd des v.a.r. indépendantes telles que E [|Xi|] < ∞ pour tout i,alors le produit X1 ×· · ·×Xd est une v.a. intégrable et on a :

E [X1 × · · · ×Xd] = E [X1] × · · · × E [Xd] .

En corollaire, l’égalité ci-dessus implique que siX1 etX2 sont indépendantes alors

Cov(X1, X2) = 0 .

Autrement dit, des variables indépendantes sont décorrélées. Attention ! La réciproque estfausse.

Généralisation à une collection de vecteurs aléatoires

Le Théorème 5.13 admet une généralisation immédiate au cas où X1, · · · , Xd sont elles-mêmes des vecteurs aléatoires de dimensions n1, · · · , nd respectivement. Il suffit d’adapterl’énoncé au fait que pour tout i, FXi

et fXisont cette fois des fonctions de Rni →

R.

Théorème 5.14. Les propositions suivantes sont équivalentes.i) X1, · · · , Xd sont indépendantes ;

ii) Pour tout (x1, · · · , xd) ∈ Rn1 × · · · × Rnd , (5.7) est vérifiée ;iii) Pour toutes fonctions mesurables hi : Rni → R (i = 1, · · · , d) telles que les

v.a. hi(Xi) sont toutes positives ou toutes intégrables, (5.8) est vérifiée ;iv) Pour toutes fonctions hi : Rni → R (i = 1, · · · , d) continues à support

compact, (5.8) est vérifiée.Si en outre chaque v.a.r. Xi admet une densité fXi

, alors les trois propositionsprécédentes sont équivalentes à :

v) Le vecteur X admet une densité fX donnée par (5.9) pour tout (x1, · · · , xd) ∈Rn1 × · · · × Rnd .

123

Page 124: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Généralisation au cas d’une famille de v.a.

Une famille de variables aléatoires est un ensemble de variables aléatoires de cardinalnon nécessairement fini. Dans ce cas, on restreint l’indépendance aux seules sous-famillesfinies.

Définition 5.9. Une famille de variables aléatoires est dite indépendante si toutesous-famille finie est indépendante.

n.b. : on utilise souvent l’abréviation i.i.d. pour désigner une famille indépendante etidentiquement distribuée de variables aléatoires.

On retiendra de tout ceci le lemme fondamental suivant.

Lemme 5.15. Soit (Xi)i∈I une famille de v.a. indépendantes et soit J et K deuxsous-ensembles disjoints de I. Les familles (Xi, i ∈ J) et (Xi, i ∈ K) sont indépen-dantes.

Démonstration. Pour 3 v.a. réelles indépendantes, X, Y et Z. On doit prouver que lav.a.r. X est indépendante du vecteur aléatoire (Y, Z). D’après théorème 5.14, il suffit deprouver que

P((X ≤ x) ∩ (Y ≤ y, Z ≤ z)) = P(X ≤ x)P(Y ≤ y, Z ≤ z). (5.10)

Or l’indépendance des trois variables induit que

P((X ≤ x) ∩ (Y ≤ y, Z ≤ z)) = P(X ≤ x)P(Y ≤ y)P(Z ≤ z).

De plus l’indépendance de Y et Z implique que

P(Y ≤ y)P(Z ≤ z) = P(Y ≤ y, Z ≤ z).

En mettant bout à bout les deux dernières identités, on obtient (5.10).

Exemple 30.– Soit (Xn, n ≥ 1) des variables aléatoires indépendantes. En considérantJ = 1 et K = 2, · · · , 10, le lemme précédent indique que X1 est indépendante de∑10

n=2 Xn.

5.3.3. Moments, matrice de covariance

SoientX1, · · · , Xd des v.a. réelles. On s’intéresse au vecteur-colonneX = (X1, . . . , Xd)T .

124

Page 125: Cours de Probabilités - MDI 104–114

5.3. Vecteurs aléatoires

Définition 5.10. L’espérance de X est définie comme le vecteur des espérances :

E(X) :=

E(X1)

...E(Xd)

.

Elle est bien définie si et seulement si toutes les composantes Xk admettent uneespérance.

Un vecteur aléatoire X est dit d’ ordre p si toutes ses composantes X1, · · · , Xd sontd’ordre p. Cela revient à dire que E (‖X‖p) < ∞ où ‖ . ‖ est une norme sur Rd.

Définition 5.11. On appelle matrice de covariance d’un vecteur X d’ordre 2 lamatrice notée Cov(X) dont le coefficient (i, j) vaut Cov(Xi, Xj) :

Cov(X) := (Cov(Xi, Xj))i,j=1···d .

En particulier, le ième coefficient diagonal de Cov(X) vaut Cov(Xi, Xi) = Var(Xi).On notera donc les deux propriétés utiles suivantes :

— La diagonale de Cov(X) est égale au vecteur des variances ;— Dans le cas où les v.a. X1, · · · , Xd sont décorrélées, la matrice de covariance

est diagonale.

La preuve de la proposition suivante est laissée à titre d’exercice.Proposition 5.16. Soit X un vecteur aléatoire d’ordre 2 de taille d, A une matriceconstante de taille n× d et b un vecteur constant de taille n. Alors

a) E(AX + b) = AE(X) + b ;

b) Cov(AX + b) = ACov(X)AT ;

c) Cov(X) = E((X − E(X))(X − E(X))T ).

Proposition 5.17. Cov(X) est une matrice symétrique semi-définie positive.

Démonstration. On voit immédiatement que Cov(X) est symétrique car Cov(Xi, Xj) =Cov(Xj, Yi). Pour tout x vecteur-colonne de Rd, on calcule

xT Cov(X)x = xT E((X−E(X))(X−E(X))T )x = E(xT (X−E(X))(X−E(X))Tx) = E[(xTX

)2]

≥ 0.

125

Page 126: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

5.4. Changement de variables

5.4.1. Introduction

SoitX est un vecteur aléatoire sur Rd admettant une densité connue fX . On pose :Y := φ(X)

pour une certaine fonction borélienne φ. L’objectif de cette section est de déterminer laloi de Y et, si elle existe, sa densité. Les exercices 5.4 et 5.5 montrent que, dans les cassimples (d = 1), la réponse est immédiatement donnée par calcul et différentiation de lafonction de répartition de Y . Dans les cas plus complexes, l’expression de la densité de Yest obtenue grâce à la formule du changement de variable.

5.4.2. Formule du changement de variable

Définition 5.12. Soit une fonction φ définie sur une partie ouverte O de Rn àvaleurs dans Rn, c’est-à-dire que l’on a

φ : O ⊂ Rn −→ Rn

x 7−→ φ(x) = (φ1(x), · · · , φd(x)).

Si toutes les dérivées partielles existent sur O, la jacobienne de φ au point x, est lamatrice Jφ(x) où

Jφ(x) =(∂φi

∂xj

(x), 1 ≤ i ≤ n, 1 ≤ j ≤ n)

=

∂φ1

∂x1(x)

.... . .

∂φi

∂xj

(x) . . .

...∂φn

∂xn

(x)

.

Le jacobien de φ est le déterminant de Jφ.

Définition 5.13. Soit O un ouvert de Rn, φ : O ⊂ Rn → Rn, φ est unC1-difféomorphisme de O sur ∆ ⊂ Rn, lorsque

— les dérivées partielles de φ existent et sont continues sur O,— φ est une bijection de O sur ∆,

126

Page 127: Cours de Probabilités - MDI 104–114

5.4. Changement de variables

— le jacobien de φ ne s’annule pas sur O.

On rappelle la propriété suivante des difféomorphismes :

det Jφ−1 = 1(det Jφ) φ−1 ·

Proposition 5.18. Soient U et V deux ouverts de Rd et φ : U → V une applica-tion bijective, continûment différentiable sur U . Alors φ est un difféomorphisme si etseulement si Jφ(x) 6= 0, ∀x ∈ U .

Théorème 5.19. (Formule du changement de variable). Soient U et V deux ouvertsde Rd et φ : U → V un difféomorphisme. Alors si f est une fonction définie sur Và valeurs positives, ∫

Uf φ =

∫V

f

|(det Jφ) φ−1|· (5.11)

Remarque.– Dans l’égalité (5.11), on suppose implicitement que f : U → R est unefonction borélienne. Dans le cas où f n’est pas nécessairement positive, alors l’égalité (5.11)est satisfaite au moins par la valeur absolue |f | et, dans le cas où les deux membres del’égalité sont finis, les barres de valeur absolue peuvent être enlevées.

5.4.3. Application au calcul de densité

Revenons au problème initialement posé. On souhaite déterminer la loi de

Y = φ(X)

oùX est un vecteur aléatoire. On fait les hypothèses suivantes :• X admet une densité fX .• X(Ω) ⊂ U ⊂ Rd où U est un ouvert ;• φ : U → V est un difféomorphisme.

Soit h une fonction arbitraire, positive, définie sur Rd. On évalue l’espérance :

E [h(Y )] = E [(h φ)(X)]

=∫

U(h φ) fX

=∫

U(h× (fX φ−1)) φ

=∫

Vh

fX φ−1

|(det Jφ) φ−1|où la dernière égalité provient de la formule du changement de variable. Ainsi, on peutécrire E [h(Y )] =

∫h fY où :

fY = fX φ−1

|(det Jφ) φ−1|1V . (5.12)

127

Page 128: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Le calcul précédent étant valable pour toute fonction positive h, il l’est en particulier lorsqueh est de la forme h = 1H pour un certain ensemble H ∈ B(R). L’égalité E [h(Y )] =

∫h fY

se lit alors :P(Y ∈ H) =

∫HfY .

On en conclut que Y est un vecteur aléatoire de densité fY donnée par (5.12).

Exemple 31.– Soit (X1, X2) deux variables aléatoires réelles indépendantes, de même loi

dP(x) = 1[1,∞[(x) 1x2 dx.

On pose U = X1.X2 et V = X1/X2 .1. Calculer la loi du vecteur (U, V ).2. Calculer la loi de U et celle de V .3. U et V sont-elles indépendantes ?

On part de l’hypothèse que la loi du couple (U, V ) a une densité par rapport à la mesurede Lebesgue, ce qui revient à trouver h : R2 → R+ telle que que pour toute fonction fcontinue bornée de R2 dans R, on ait

E [f(U, V )] =∫

R2f(x, y)h(x, y)dxdy.

Posons

φR2 → R2

(x, y) 7→ (xy, x/y).

On aE [f(U, V )] = E [(f φ)(X, Y )] =

∫(f φ)(x, y)dPX, Y (x, y),

où la deuxième égalité découle du théorème de transfert. Maintenant, les v.a. X et Y sontindépendantes, ce qui équivaut à dire que

dPX, Y (x, y) = dPX(x) ⊗ dPY (y).

Par hypothèse,

dPX(x) = 1[1,∞[(x) 1x2 dx et dPY (y) = 1[1,∞[(y) 1

y2 dy,

doncdPX, Y (x, y) = 1[1,∞[(x) 1

x2 1[1,∞[(y)dxdy.

On a donc obtenu

E [f(U, V )] =∫

[1, +∞[2(f φ)(x, y) 1

x2y2 dxdy.

Rappelons nous que nous voulons aboutir à une identité de la forme

E [f(U, V )] =∫

R2f(x, y)h(x, y)dxdy.

128

Page 129: Cours de Probabilités - MDI 104–114

5.4. Changement de variables

On est naturellement enclin à utiliser le théorème de changement de variables, pour cela,il nous faut calculer ∆, l’ensemble image de [1, +∞[2 par φ et le jacobien de φ. Posonsu = xy et v = x/y,

detJφ(x, y) = det

y x

1y

− x

y2

= −2 xy

= −2v.

Si x et y sont tous deux plus grands que 1 alors u l’est, et v est strictement positif. Parailleurs, u = xy

v = x/y⇐⇒

x2 = uv

y2 = u/v.

On déduit de ces dernières équations que u ≥ v et uv ≥ 1. On vérifie alors facilement queφ est une bijection de [1, +∞[2 sur

∆ = (u, v), u ≥ v ≥ 0 et uv ≥ 1.

v = u

v = 1/u

x

y

1

Figure 5.1. – Le domaine ∆ dans le plan (u, v).

On tire du théorème de changement de variables que∫[1, +∞[2

(f φ)(x, y) 1x2y2 dxdy =

∫∆f(u, v) 1

uv.u/v

∣∣∣∣ 1−2v

∣∣∣∣ dudv

=∫

∆f(u, v) 1

2u2vdudv,

d’où par identification,

dP(U, V )(u, v) = 12u2v

1∆(u, v)dudv.

Pour calculer la loi de U , on veut exprimer E [f(U)] pour toute fonction continue bornéede R dans R. On remarque alors que l’application f(x, y) = f(x) est continue bornée de

129

Page 130: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

R2 dans R donc

E [f(U)] = E[f(U, V )

]=∫

∆f(u) 1

2u2vdudv

=∫ +∞

1f(u) 1

2u2

(∫ u

1/u

1v

dv)

du,

d’après le théorème de Fubini. Par conséquent,

dPU(u) = 12u2

(∫ u

1/u

1v

dv)

1[1, +∞[(u)du

= ln uu2 1[1, +∞[(u)du.

De même,

E [f(V )] =∫

∆f(v) 1

2u2vdudv

=∫ +∞

0f(v) 1

2v

(∫∆v

1u2 du

)dv,

∆v = u (u, v) ∈ ∆

=

[1/v, +∞[ si 0 ≤ v ≤ 1[v, +∞[ si v ≥ 1.

Par conséquent,

dPV (v) = 12v

(∫ +∞

1/v

1u2 du1[0, 1](v) +

∫ +∞

v

1u2 du1]v, +∞[(v)

)

= 12v

(v1[0, 1](v) + 1

v1]1, +∞[(v)

).

Comme

dP(U, V ) 6= dPU ⊗ dPV ,

les v.a. U et V ne sont pas indépendantes.

130

Page 131: Cours de Probabilités - MDI 104–114

5.4. Changement de variables

Variablesaléatoires

Loi

Caracté-risation

Single-tons,

« pavés »

E[f(X)]

Fctcaracté-ristiqueChap. 7

Calculs

Fct derépar-tition

déf. 5.3

Chgt devariables

Thm.5.19

Rela-tions

Indépen-dance

Condition-nement

Transfor-mations

Espé-rances

P(X∈A)=E[1A(X)]

Eq. 5.3

Thm. detransfertThm. 5.5

Moments

Inégalités

MarkovProp.

5.7

JensenProp.

5.9

Cauchy-Schwarz

Prop.5.8

131

Page 132: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

5.5. Exercices

Pour apprendre

Exercice 5.1.–Soit X la v.a. dont la loi est donnée par

P(X = n) = 6π2

1n2 , pour n ≥ 1.

Montrer que P(X < +∞) = 1 mais que X n’a pas d’espérance.

Exercice 5.2.–Soit X une v.a.r. sur (Ω,F ,P) de fonction de répartition FX .

1. Démontrer les égalités : P[a < X ≤ b] = FX(b) − FX(a), P[a < X < b] =FX(b−) − FX(a), P[a ≤ X ≤ b] = FX(b) − FX(a−).

2. Calculer FX dans les cas suivants : X suit la loi exponentielle de paramètre α, Xsuit la loi uniforme sur l’intervalle [a, b].

Exercice 5.3.–Nous dirons qu’une v.a.r. X est symétrique lorsque X et −X ont la même loi. Si X estune v.a.r. de densité f , montrer que X est symétrique si et seulement si f(x) = f(−x)pour tout x hors d’un ensemble négligeable.

Exercice 5.4.–Soit X une v.a.r. à densité et (a, b) ∈ R2. Exprimer la densité de la v.a.r. Y := aX + b enfonction de la densité de X.

Exercice 5.5.–Soit X ∼ N (0, 1) et Y = X2.

1. Calculer la fonction de répartition FY de Y en fonction de celle de X.2. En déduire que Y admet une densité, que l’on exprimera.

Exercice 5.6.–Soit µn la suite de mesure sur [0, 1] donnée par

dµn(x) = 1n

n−1∑j=0

δj/n.

Pour f continue sur [0, 1], quelle est la limite de∫f(t)dµn(t) quand n tend vers +∞ ?

Exercice 5.7.– 1. Soit X une v.a.r. de densité f telle que lim|x|→∞ |x|pf(x) = 0 pourtout p > 0. Montrer que X possède tous ses moments. En déduire qu’une v.a.r.gaussienne possède tous ses moments.

2. Soit X une v.a.r. suivant une loi de Cauchy (voir la table 4.2). Montrer que E(|X|)diverge. Plus généralement, montrer que X ne possède aucun moment.

132

Page 133: Cours de Probabilités - MDI 104–114

5.5. Exercices

Exercice 5.8.–Soient X1, · · · , Xd des v.a. i.i.d. de loi N (0, 1).

1. Quelle est la loi du vecteur aléatoire X = (X1, · · · , Xd) ?2. Même question pour des variables Xi ∼ N (mi, σ

2i ) indépendantes, σ2

i > 0.

Pour s’entraîner

Exercice 5.9 (*).–Un nombre est choisi au hasard dans l’intervalle [0, 10] suivant une loi P donnée par

dP(t) = K t1[0,10](t)dt ,

où K est une constante à calculer. On note par X sa partie entière et par Y sa partiefractionnaire.

1. Calculer la loi du vecteur (X,Y ). Est-ce que les composantes sont indépendantes ?2. Calculer la matrice de covariance de (X,Y ).

Exercice 5.10 (**).–Pour a > 0, on définit

Γ(a) =∫ ∞

0e−tta−1dt .

Une v.a.r. X est dite de loi gamma de paramètres a et λ > 0 si sa loi est donnée par

dPX(t) = 1[0,∞[(t)λa

Γ(a)e−λtta−1dt ,

notée par X ∼ G(a, λ).1. Calculer l’espérance et la variance de X.2. Soit Y une autre v.a.r. indépendante de X, de loi G(b, λ). Montrer que X + Y et

X

X + Ysont indépendantes, calculer leur loi.

3. En déduire queβ(a, b) =

∫ 1

0ta−1(1 − t)b−1dt = Γ(a)Γ(b)

Γ(a+ b) .

Exercice 5.11 (*).–Soit X une v.a. réelle de fonction de répartition FX et F−1

X l’inverse à droite de FX définipar :

F−1X (y) = infu; FX(u) ≥ y.

Soit U une v.a. de loi uniforme sur [0, 1], montrer que F−1X (U) a la loi de X. Cette relation

permet de générer des v.a. de loi arbitraire à partir de variables de loi uniforme sur[0, 1]. Ceci est très fréquemment utilisé en simulation et connu sous le nom de méthoded’inversion.

Trouver comment générer des variables de loi exponentielle et de Cauchy avec cetteméthode.

133

Page 134: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Exercice 5.12 (*).–La difficulté qui apparaît lors de la mise en oeuvre de la méthode précédente est l’inversionde la fonction de répartition. On a fréquemment la densité de façon explicite mais pas lafonction de répartition. Dans ce cas, on applique la méthode de rejet. Soit fX la densité deX et g une densité qui majore à une constante près fX et pour laquelle on sait facilementgénérer des v.a. dont la loi a pour densité g. On procède de la manière suivante : soit atel que fX(u) ≤ ag(u) pour tout u. On tire une v.a. de loi de densité g, soit Y le résultatde ce tirage. On tire, indépendamment, une v.a. de loi uniforme sur [0, 1] et on note U lerésultat de ce tirage. Si U ≤ f(Y )/ag(Y ) alors le résultat est Y sinon on recommence audébut.

1. Quel est l’espace de probabilité sous-jacent sur lequel sont définies les v.a. Z et Y.

2. Montrer que P(Y ≤ t) = FX(t).

3. Soit X et Y deux v.a. indépendantes de loi exponentielle de paramètre µ. Calculerla densité de la loi de Z = X − Y.

4. En déduire une façon d’engendrer des v.a. de loi de densité :

µ

2γ(1 + 1/α) exp(−µ|x|α)

où α ≥ 1 et µ > 0.

Exercice 5.13.–Soit U et V deux v.a. indépendantes de loi uniforme sur [0, 1]. Posons :

X =√

−2 ln(U) cos(2πV ) et Y =√

−2 ln(U) sin(2πV ).

Montrer que X et Y sont des v.a. gaussiennes centrées, réduites, indépendantes.

Exercice 5.14 (Simulation dans un cercle - *).– 1. Comment utiliser la méthode derejet pour simuler le tirage d’un point « au hasard » dans un cercle de rayon R ?

2. Calculer la loi joint de module et de l’argument d’un point « au hasard » dansle même cercle. En déduire une autre façon de simuler le tirage d’un point choisiuniformément dans le cercle.

3. Quelle est la meilleure méthode ?

Exercice 5.15 (**).–Soit un couple de v.a. (X,Y ) de densité conjointe f(x, y) = c xy2 si (x, y) ∈ ∆ et 0 sinon,où c est une constante positive et ∆ est donné par

∆ = (x, y) ∈ [0, 1]2, 0 < y < x2 < 1.

134

Page 135: Cours de Probabilités - MDI 104–114

5.5. Exercices

1

1

1. Déterminer la constante c.2. Déterminer les lois marginales des variables X et Y .3. Soit U une v.a. de loi exponentielle de paramètre 8, et V une v.a. de loi exponentielle

de paramètre 3, indépendante de U . On pose

W = exp(−U), Z = exp(−V )W 2.

Vérifier que f est la densité de la loi du couple (W, Z).

Exercice 5.16 (***).–

Mots-clés : statistiques d’ordre, permutations aléatoiresSoit (X1, · · · , Xn) des v.a. i.i.d. de fonction de répartition F . On définit par récurrencesur p, la suite de v.a. X(p) par

X(1) = min1≤j≤n

Xj

τ1 = infj, Xj = X(1)X(2) = min

j 6=τ1Xj

τ2 = infj 6= τ1, Xj = X(2)......

X(n) = maxjXj

τn = maxj, Xj = X(n).

1. Montrer que presque sûrement, Xi 6= Xj pour i 6= j.2. Calculer la fonction de répartition de X(1) et de X(n).3. Soit τ la permutation définie par τ(i) = τi. Calculer la loi de τ .4. Calculer la loi de X(k).5. Soit α ∈]0, 1[ et F n

α (x) = P(X([αn]) ≤ x). On définit xα par

xα = infx, F (x) ≥ α.

Montrer que

F nα

n→+∞−−−−→

1 si x ≥ xα

0 sinon.

135

Page 136: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Exercice 5.17 (Recouvrement d’un cercle - ***).–Soit U = (U1, · · · , Un) des v.a. i.i.d. de loi uniforme sur [0, 1]. Soit W = (W1, · · · , Wn) lastatistique d’ordre (cf. exercice 5.16) associée à U , i.e.,

Wi = U(i), pour tout i = 1, · · · , n.

On poseV1 = 1 +W1 −Wn, V2 = W2 −W1, . . . ,Wn = Wn −Wn−1.

On considère aussi X1, · · · , Xn des v.a. indépendantes de loi exponentielle de paramètre1. On pose Sn = n−1∑n

j=1 Xj.

1. Montrer que la loi de W est donnée par

dPW (w1, · · · , wn) = n!1A(w1, · · · , wn) dw1 . . . dwn,

oùA = (x1, · · · , xn), 0 ≤ x1 ≤ x2 ≤ . . . ≤ xn ≤ 1.

2. Calculer la loi de V = (nV1, · · · , nVn−1).3. Calculer la loi de (X1, · · · , Xn−1, Sn).4. Montrer que la loi de (

X1

Sn

, · · · , Xn−1

Sn

)est la même que celle de V .

5. Soit Nα le nombre minimum d’arcs de longueur α nécessaires pour recouvrir lacirconférence du cercle unite. Montrer que

(Nα ≤ n) = (maxk≤n

Vk ≤ α).

Exercice 5.18 (***).–On considère E = x = (x1, x2) ∈ R2, x2

1 + x22 ≤ 1 et on considère Ω l’ensemble des

familles finies de points de E, c’est-à-dire qu’un ω ∈ Ω est une famille finie de points deE. On munit E de la tribu borélienne et d’une probabilité P. Pour toute partie A de Eon définit la variable aléatoire N(A)(ω) qui représente le nombre de points de ω qui sontdans A. Les seules hypothèses que l’on fait sur P sont :

— Pour toute partie borélienne A de E,

P(N(A) = k) = e−m(A)m(A)k

k! , pour tout k ∈ N,

où m est la mesure de Lebesgue sur R2.

— Si (Ai, i ∈ N) sont des boréliens disjoints deux à deux, les v.a. (N(Ai), i ∈ N) sontindépendantes dans leur ensemble.

On appelle le triplet (E,P, N) un processus de Poisson ponctuel d’intensité m.1. Calculer la moyenne et la variance de N(A) pour A borélien de E. Calculer la

probabilité que A ne contienne pas de points de ω.2. Soient A ⊂ B deux boréliens, calculer la loi de la variable aléatoire (N(A), N(B)).

136

Page 137: Cours de Probabilités - MDI 104–114

5.5. Exercices

3. Pour C = x, a2 < x21 + x2

2 ≤ b2, calculer la loi de N(C).4. On pose U(ω) = infα,N(B(0, α))(ω) > 0 où B(0, α) est la boule fermée de centreO et de rayon r. Calculer P(U > x) pour tout x.

5. On fixe r > 0, on considère Arα le secteur angulaire composé des points distants de O

de moins de r et d’argument compris entre 0 et α. On pose V r = infβ, N(Arβ) > 0

avec la convention V r = 0 si B(0, r) ne contient pas de point de ω. Calculer P(V > x)pour tout x ∈ [0, 2π[.

6. Calculer la loi de l’argument du point le plus proche de O.7. On suppose n fixé, pour k ∈ 0, . . . , n − 1, on appelle Br

k,n le secteur angulairedes éléments de E de module inférieur à r et d’argument supérieur à 2kπ/n etstrictement inférieur à 2(k + 1)π/n. Calculer la loi de (N(B1

1,n), . . . , N(B1n−1,n))

conditionnellement à N(E) = k.

8. On admet que les secteurs angulaires définis précédemment engendrent la tribuborélienne de E quand r parcourt [0, 1] et n décrit N. Montrer que si on met kpoints répartis uniformément dans E la loi de

(N(B11,n), . . . , N(B1

n−1,n))

est celle que l’on vient de trouver. En déduire (en utilisant l’exercice 5.28) une façonde simuler un processus Poisson ponctuel d’intensité m.

9. Dans l’avant-dernière question, que se passe-t-il si on change m en une constantefois m ?

10. Calculer E[e−sN(A)

]pour tout borélien. Pour f fonction mesurable positive de E

dans R+, on poseN(f)(ω) =

∑ξ∈ω

f(ξ).

Calculer E[e−sN(f)

].

11. Chaque point de ω est effacé avec probabilité p et conservé avec probabilité 1 − p etce indépendamment des autres. On appelle Np(A) le nombre de points qui restentdans A après l’opération d’effacement. Montrer que (E,P, Np) est un processus dePoisson ponctuel d’intensité (1 − p)m. Calculer E

[e−sN(A)

]pour tout borélien.

Exercice 5.19 (Processus de Poisson).–L’un des modèles stochastiques les plus utilisés est le processus de Poisson. Nous allons icile décrire et exhiber quelques unes de ses propriétés. Soit (Sn, n ≥ 1) une suite de v.a.r.indépendantes, identiquement distribuées, de loi exponentielle de paramètre λ. On note

T1 = S1 et Tn+1 = Tn + Sn+1.

Les instants (Tn, n ≥ 1) sont usuellement vus comme des instants d’arrivée. Les duréesSn s’appellent logiquement inter-arrivées. On pose

Nt =+∞∑n=1

1[0,t](Tn).

1. Calculer la loi de (T1, · · · , Tn).

137

Page 138: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

2. Calculer la loi de Tn.3. Montrer que (Nt = k) = (Tn ≤ t < Tn+1).4. Calculer la loi de Nt.5. Soit Wt = t− TNt et Zt = TNt+1 − t. Calculer la loi de (Wt, Zt).6. Montrer que Wt et Zt sont indépendantes et que Zt suit une loi exponentielle de

paramètre λ.7. En quoi, ce résultat est-il surprenant ?

Exercice 5.20.–Soit W une v.a. de loi de Poisson de paramètre λ > 0 :

P(W = k) = e−λλk

k! .

1. Montrer que pour toute fonction positive f :

λE [f(W + 1)] = E [Wf(W )] . (5.13)

2. Réciproquement, soit W une v.a. discrète, à valeurs dans N, telle que pour toutefonction positive, l’identité 5.13 soit satisfaite. En appliquant 5.13 à des fonctions fjudicieusement choisies, montrer que

P(W = j) = λ

jP(W = j − 1),

pour tout j ≥ 1.3. En déduire la loi de W .

Exercice 5.21.–On tire un nombre X uniformément sur [0, 1]. On tire ensuite des nombres Y1, Y2, · · ·indépendamment les uns des autres et indépendamment de X, uniformément sur [0, 1].Le jeu s’arrête dès que Yi > X. Vous gagnez alors (i− 1)e. On appelle G le gain. Pour kentier, on définit

ϕk(x, y1, · · · , yk+1) =

1y1>x si k = 01y1≤x,..., yk≤x, yk+1>x si k > 0.

1. Pour k entier, montrer que∫

[0, 1]k+2ϕk(x, y1, · · · , yk+1)dy1dy2 . . . dyk+1dx = 1

k + 1 − 1k + 2 ·

On traitera séparément les cas k = 0 et k > 0.2. Calculer la loi de G.3. Calculer l’espérance de G.

138

Page 139: Cours de Probabilités - MDI 104–114

5.5. Exercices

Exercice 5.22.–Pour tout a réel strictement positif, Ga désigne une variable aléatoire de loi gamma deparamètres (a, 1) : la densité ga de sa loi est donnée par

ga(x) = 1Γ(a) x

a−1e−x1R+(x),

oùΓ(a) =

∫ +∞

0xa−1e−xdx.

En particulier, G1 suit une loi exponentielle de paramètre 1. On admet que

E[eitGa

]= (1 − it)−a, pour tout t ∈ R.

De plus, pour a, b réels strictement positifs, Ba, b désigne une variable aléatoire de loi bêtade paramètres (a, b) : la densité ha, b de sa loi est donnée par

ha, b(y) = Γ(a+ b)Γ(a)Γ(b) y

a−1(1 − y)b−11[0,1](y).

1. Calculer la loi du couple (Ga+bBa, b, Ga+b) lorsque les v.a. Ga+b et Ba,b sont indé-pendantes.

2. En déduire que pour deux variables Ga+b, Ba,b indépendantes, la loi de Ba, bGa+b estidentique à celle de Ga.

3. Soit n ≥ 0. Montrer par récurrence, que lorsque les variables aléatoires Ba,1, · · · ,Ba+n,1, Ga+n+1 sont indépendantes, la loi de

Pn = Ga+n+1

n∏j=0

Ba+j, 1

est la même que celle de Ga.On utilisera la question précédente et les hypothèses d’indépendance. On évitera leslongs calculs.

4. Soit X une v.a. de loi exponentielle de paramètre 1 indépendante de Ga, montrerque Ga +X a la même loi que Ga+1.

5. En déduire que pour tout entier n, Ga+n a même loi que

Hn = Ga +X1 +X2 + . . .+Xn,

où les Xi sont des v.a. dont on précisera les propriétés.On pose Wn = Ga + X1 + X2 + . . . + Xn où les Xi sont indépendantes, identiquementdistribuées de loi exponentielle de paramètre 1. On suppose de plus que les v.a. Ga etXk, k ≥ 1 sont définies sur le même espace de probabilité.

6. Quelle est la limite presque-sûre de (n−1Wn, n ≥ 1) ?7. Montrer que la suite (n−1Ga+n, n ≥ 1) converge en loi, vers une loi que l’on précisera.

139

Page 140: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Exercice 5.23.–On rappelle que ∫ 1

0u−1/2(1 − u)−1/2du = π.

Soit X = (X1, X2) un vecteur gaussien de R2, centré, de matrice de covariance (oudispersion) Γ = I. On pose

U = X21

X21 +X2

2et V = X2

1 +X22 .

1. Calculer la densité de la loi de (U, V ).2. Donner les densités marginales de U et V . On précisera les constantes de normalisa-

tion.

3. Soit Z = X22

X21. Exprimer Z en fonction de U puis calculer la densité de la loi de Z.

On note Rθ la rotation d’angle θ dans R2. Si x ∈ R2,

Rθ x =(x1 cos θ − x2 sin θx1 sin θ + x2 cos θ

)=(

cos θ − sin θsin θ cos θ

)(x1x2

),

où x1 et x2 sont les composantes de x dans la base canonique de R2.

Soit X = (X1, X2) une v.a. à valeurs dans R2 telle que pour tout θ ∈ [−π, π], RθX amême loi que X. C’est-à-dire que

E [g(RθX)] = E [g(X)] , (5.14)

pour toute fonction g mesurable bornée de R2 dans R. On suppose que la loi de X a unedensité par rapport à la mesure de Lebesgue, notée v.

4. Montrer que pour toute fonction g mesurable bornée de R2 dans R, pour toutθ ∈ [−π, π], ∫

R2g(x)v(x)dx =

∫R2g(y)v(Rθy)dy.

On admet qu’alors il existe w : R+ → R+, mesurable, telle que

v(x) = w(‖x‖) pour tout x ∈ R2.

5. Montrer que dans ce cas, ∫ +∞

0w(r) rdr = 1

2π .

On suppose maintenant que X = (X1, X2) est un vecteur gaussien centré de matrice decovariance (ou dispersion) Γ.

6. Soit θ ∈ [−π, π], quelle est la loi de RθX ?7. Montrer que RθX a même loi que X pour tout θ si et seulement si ΓRθ = RθΓ.

140

Page 141: Cours de Probabilités - MDI 104–114

5.5. Exercices

8. Supposons que ΓRθ = RθΓ pour tout θ ∈ [−π, π]. En écrivant les équations satisfaitespar les coefficients de Γ, montrer que Γ est la matrice d’une homothétie positive(c’est-à-dire qu’il existe σ2 tel que Γ = σ2 I).

Exercice 5.24.–Soit N un processus de Poisson (cf. exercice 5.19) d’intensité λ, on note Tn le n-ièmeinstant de saut. Par convention, T0 = 0. Soit (Zn, n ≥ 1), une suite de variables aléatoiresde même loi telles que pour tout n, Tn et Zn sont indépendantes. Soit g la densité de laloi commune aux Zn.

1. Montrer que pour toute fonction f,

E[f(Tn, Zn)] =∫ +∞

0

∫f(t, z)g(z)λe−λt (λt)n−1

(n− 1)! dz dt.

2. En déduire que

E[∑n≥1

f(Tn, Zn)] = λ∫ +∞

0

∫f(t, z)g(z) dz dt.

3. On suppose que les communications téléphoniques d’un abonné durent un tempsaléatoire de loi exponentielle de moyenne 3 minutes. Ces durées sont indépendantesentre elles. Au siècle dernier, le coût d’une communication était fonction de sa duréet selon la formule suivante :

c(t) = α si t ≤ t0, et c(t) = α + β(t− t0) si t ≥ t0.

Déduire de ce qui précède que le coût moyen d’une heure totale de communicationest donné par :

λ∫ 1

0c(t)λe−λt dt

avec λ = 20. (Indication : Considérer Zn = Tn+1 − Tn et expliquer pourquoi on peutappliquer le résultat précédent.)

Exercice 5.25.–Soit N un processus de Poisson sur R+. Soit f R+ → R+. Considérons∫

f(s)dNs =∑n≥1

f(Tn).

1. Montrer que Nt −Ns a même loi que Nt−s pour tout couple (t, s) avec t ≥ s.2. Montrer que

E[exp(−

∫1]a,b](s)dNs)

]= exp

(−∫

1 − e−1]a, b](s)λds).

3. En déduire E [exp(−∫f(s)dNs)] pour toute fonction f positive.

4. Pour B ⊂ R+, calculer de deux manières différentes

d

dtE[exp(−

∫(f + t1B)(s)dNs)

]t=0

.

141

Page 142: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

Exercice 5.26 (Somme aléatoire).–Soient X = (Xn, n ≥ 1) une suite de v.a. indépendantes de loi exponentielle de paramètreλ. Soit N une v.a. indépendante de la suite X de loi géométrique de paramètre ρ. Calculerla loi de Z où

Z =N∑

j=1Xj.

Exercice 5.27.–Soient X, Y deux v.a. indépendantes suivant la loi N (0, 1). Caractériser la loi du vecteur(X + Y,X − Y ).

Exercice 5.28.–Comment simuler le tirage de points uniformément répartis dans un triangle scalène enutilisant le moins possible le générateur de nombres pseudo-aléatoires. Même questionavec un disque.

Exercice 5.29.–Soit D une variable aléatoire de loi uniforme sur [0, 3], c’est-à-dire

dPD(x) = 131[0,3](x) dx.

Soient s et t deux réels positifs tels que 0 ≤ t+ s ≤ 3.1. Pour x ∈ [0, 3], simplifier l’expression (t− (x− s)+)+ où x+ = max(x, 0).2. Calculer la loi de R = (t− (D − s)+)+.

Exercice 5.30.–Soit (X1, X2), une variable aléatoire à valeurs dans R2 et N une deuxième variable aléatoireindépendante de (X1, X2) et de loi αδ1 + (1 − α)δ2, où α ∈]0, 1[.

1. Calculer E[XN ], σ2XN

en termes de celles de X1 et de X2.2. On suppose que X1 et X2 sont indépendantes et de même loi, calculer la loi de XN .

Exercice 5.31.–Trois personnes A,B et C arrivent à la poste en même temps pour téléphoner. Il y a deuxcabines téléphoniques qu’occupent A et B tout de suite. C remplace le premier sorti. Ondésigne par X1, X2, X3 les temps d’occupation de la cabine par A,B et C respectivement.On suppose que (X1, X2, X3) sont indépendantes, de même loi exponentielle de paramètreα.

1. Calculer la probabilité que C sorte le dernier.2. Donner la loi du temps T passé par C à la poste.3. Donner la loi de probabilité de l’instant du dernier départ ; l’instant 0 étant l’instant

d’arrivée des trois personnes à la poste.

Exercice 5.32 (Castor et Pollux).–Castor et Pollux se sont donnés rendez-vous en convenant de ne pas attendre l’autre plusde dix minutes. Ils arrivent tous les deux indépendamment à un instant « au hasard » entremidi et 13 heures. On note X, respectivement Y , l’heure d’arrivée de Castor, respectivementcelle de Pollux. On note W le temps d’attente de Castor.

142

Page 143: Cours de Probabilités - MDI 104–114

5.5. Exercices

1. Quelle est la probabilité qu’ils se rencontrent ?2. Exprimer en fonction de X et Y , la valeur du temps d’attente de Castor. On pourra

utilement faire un dessin en identifiant dans le pavé [0, 1] × [0, 1], différentes zonesoù l’expression de W est simple – voir Figure 5.2.

1/6 5/6 1

1/6

1

Figure 5.2. – Castor et Pollux

3. Quelle est la loi du temps d’attente de Castor ?4. Quel est le temps d’attente moyen de Castor ?5. Quelle est la loi du temps d’attente de Castor sachant qu’il y a rencontre ?

Exercice 5.33.–Soit

dP(x, y) = c exp(

−x2 + y2

2

)1x>ydxdy

une mesure sur le plan R2.1. Trouver la constante c pour que P soit une probabilité.2. Soit (Ω,F ,P) un espace de probabilité et (X,Y ) : Ω → R2 une variable aléatoire

de loi P. Trouver la loi de X et celle de Y .3. Sont-elles indépendantes ?4. On définit les nouvelles variables aléatoires U = X2 + Y 2 et V = Y . Calculer la loi

du vecteur (U, V ).5. Les variables U et V sont-elles indépendantes ?

Exercice 5.34.–Soient X et Y deux v.a. réelles indépendantes sur (Ω, F , P), de même loi uniforme sur[0, a] (a > 0 réel, fixé). On note par R =

√X2 + Y 2 , Z = Y/X et par Pa une nouvelle

probabilité définie parPa(A) = P(A |R < a),

pour tout A ∈ F .

143

Page 144: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

1. Pour tout borélien B de [0, a]2, exprimer P((X,Y ) ∈ B) à l’aide de la surface S(B)de B.

2. Montrer que R et Z sont indépendantes pour la probabilité Pa mais pas pour P.3. Trouver deux fonctions simples f et g telles que pour Pa, f(R) et g(Z) soient

uniformes ; sont-elles indépendantes ?

Exercice 5.35.–Soient X et Y deux v.a. indépendantes de loi uniforme sur [0, 1].

1. Quelle est la loi du couple (X,Y ) ?2. Quelle est la loi du couple (min(X,Y ), max(X,Y )) ?

Exercice 5.36.–Soient Z = (X,Y ) la loi de densité π−11D(x, y) où est D est le disque unité de R2.

1. Calculer les lois marginales de X et Y.2. Ces deux variables sont-elles indépendantes ?3. Calculer la loi du couple (min(X,Y ), max(X,Y )).

Pour aller plus loin

Exercice 5.37.–Soit (Ω,A, µ) un espace mesuré. Soit I un intervalle de R et une famille de fonctionsmesurables f(·, t)t∈I , f(·, t) : Ω → R. On suppose que

• ∀ω ∈ Ω, t 7→ f(ω, t) est continue sur I.• Il existe une application mesurable g : Ω → R+ telle que

∫g dµ < +∞ et

∀t ∈ I, ∀ω ∈ Ω, |f(ω, t)| ≤ g(ω).

Montrer que t 7→∫f(ω, t) dµ(ω) est continue sur I.

Exercice 5.38.–Soit (Ω,A, µ) un espace mesuré. Soit I un intervalle de R et une famille de fonctionsmesurables f(·, t)t∈I : f(·, t) : Ω → R. On suppose que

• x 7→ f(x, 0) est intégrable.• ∀ω ∈ Ω, t 7→ f(ω, t) est dérivable sur I.• Il existe une application mesurable g : Ω → R+ telle que

∫g dµ < +∞ et

∀t ∈ I, ∀ω ∈ Ω, |∂f(ω, t)∂t

| ≤ g(ω).

En utilisant l’inégalité des accroissements finis, montrer que t 7→∫f(ω, t)dµ(ω) est bien

définie sur I. Montrer que cette fonction est dérivable et que l’on a

∂t

∫f(ω, t) dµ(ω) =

∫ ∂f(ω, t)∂t

dµ(ω) .

144

Page 145: Cours de Probabilités - MDI 104–114

5.5. Exercices

Exercice 5.39.–Soit (E, E , µ) un espace mesurable et T une application de E dans lui-même. On dit queµ est invariante par T si ∫

Ef Tdµ =

∫fdµ

pour toute fonction f mesurable bornée.1. Montrer que la mesure de Lebesgue sur R est invariante par translation.2. Soit E = Rn et

dµ(x1, . . . , xn) = 1(2π)n/2 exp

(−1

2(x21 + . . .+ x2

n))

dx1 . . . dxn.

Montrer que µ est invariante par rotation.3. Soit E = [0, 1] et T (x) = 2x− [2x] (T (x) est la partie fractionnaire de x). Montrer

que la mesure de Lebesgue restreinte à E est invariante.

Exercice 5.40.–Montrer que toute mesure de Radon sur R (c’est-à-dire µ(K) < +∞ quel que soit lecompact K) invariante par translation est proportionnelle à la mesure de Lebesgue.

Exercice 5.41.–Soit (E, E , µ) un ensemble mesuré, (F,F) un ensemble et une tribu et T une applicationmesurable de E dans F. On définit la mesure T ∗µ (appelée mesure image de µ par T ) par

∀B ∈ F , (T ∗µ)(B) = µ(T−1(B)).

ou de manière équivalente par ∫Ffd(T ∗µ) =

∫Ef Tdµ.

pour toute fonction f mesurable bornée de F dans R. Soit E = R/Z × Z/2Z, muni de µla mesure uniforme.

1. Montrer que µ est invariante par translation.2. Considérons l’application T de E dans O2(R) (le groupe des transformations ortho-

gonales de R2) donnée par :

T (θ, ε) =(

cos 2πθ sin 2πθ(−1)ε sin 2πθ (−1)1−ε cos 2πθ

)

Quelle est la mesure de l’ensemble des symétries (respectivement des rotationsd’angle inférieur à θ0 donné) sous T ∗µ?

3. Montrer que T ∗µ est invariante par translation.4. On considère S l’application de O2(R) dans C qui à une transformation orthogonale

associe la valeur propre de plus grandes parties réelle et imaginaire. Décrire S∗(T ∗µ).

Exercice 5.42.–Soient a,m ∈ Rd et Σ une matrice d × d définie positive. Soit A une matrice d × d. SiX ∼ Nd (m,Σ), quelle est la loi de a+ AX ? En déduire que

145

Page 146: Cours de Probabilités - MDI 104–114

5. Variables et vecteurs aléatoires réels

si X ∼ Nd (m,Σ) alors√

Σ −1 (X −m) ∼ Nd (0, I).si X ∼ Nd (0, I), alors m+

√ΣX ∼ Nd (m,Σ).

Exercice 5.43.–Soient X, Y deux v.a.r. de loi jointe fX,Y sur R2. Exprimer la densité de probabilité deX + Y en fonction de fX,Y . Dans le cas où X et Y sont indépendantes, montrer cettedensité est égale au produit de convolution des densités marginales.

Exercice 5.44.–En quoi la fonction définie sur [0, 1] × [0, 1] par (x2 − y2)/(x2 + y2)2 montre-t-elle que leshypothèses du théorème de Fubini sont optimales ?

Exercice 5.45.–Soit X1, · · · , Xn des variables aléatoires indépendantes et identiquement distribuéees, deloi uniforme sur [0, θ], avec θ > 0. On pose :

θn = max(X1, · · · , Xn).

1. Calculer la fonction de répartition de θn.2. En déduire que la loi de θn admet une densité de la forme :

fθn(x) = Cnx

n−11[0,θ](x),

où Cn est une constante que l’on précisera.3. Calculer l’espérance de θn et montrer que celle-ci tend vers θ lorsque n → +∞.4. Déterminer la loi de la variable aléatoire n(θ − θn).5. Montrer celle-ci tend vers une loi exponentielle lorsque n → +∞.6. On utilise θn pour estimer le paramètre θ, supposé inconnu. Déduire de la question

précédente une valeur approchée de la probabilité que l’erreur relative de l’estimation,

soit∣∣∣∣∣ θn − θ

θ

∣∣∣∣∣, soit supérieure à 1% pour n = 100.

Exercice 5.46.–Soit (E, E ,P) un espace probabilisé et T une application mesurable de E dans lui-même.On suppose que P est invariante par T, c’est-à-dire que

P(T−1(A)) = P(A) pour tout A ∈ E .

1. Montrer que l’ensemble des mesurables invariants par T, c’est-à-dire qui vérifieT−1(A) = A, est une tribu (notée I par la suite).

2. Soit f une fonction mesurable de E dans R. Montrer que si f est invariante par T(c’est-à-dire f T = f) alors f est mesurable de (E, I) dans (R,B(R)).

3. Le système dynamique (E, T,P) est dit ergodique lorsque

I ⊂ σA ⊂ E ,P(A) = 0 ou P(A) = 1.

Montrer que (E, T,P) est ergodique si et seulement si les fonctions invariantes parT sont constantes presque partout.

146

Page 147: Cours de Probabilités - MDI 104–114

5.5. Exercices

4. On dit que T est mélangeante si et seulement si pour tout couple f, g d’éléments deL2(dP),

limn→+∞

∫Ef T ngdP =

∫Ef dP

∫EgdP. (5.15)

Montrer que si T est mélangeante alors (E, T ) est ergodique.5. Montrer que si la condition de mélange (5.15) est vérifiée pour f, g appartenant à

un sous-ensemble dense de L2(dP) alors T est mélangeante.On veut maintenant étudier le système dynamique donnée par l’équation d’évolution :

xan+1 = T (xa

n) où T (x) = 4x(1 − x), xa0 = a ∈ [0, 1].

On veut montrer en particulier que pour presque tout a ∈ [0, 1],

limn→+∞

1n

n∑j=0

f(xaj ) =

∫ 1

0f(u)(π

√u√

1 − u)−1du.

On admet que si (E, T,P) est un système ergodique alors

limn→+∞

1n

n∑j=0

f T j(x) =∫

EfdP

pour presque tout x. Il nous faut donc trouver une mesure invariante µ par T et montrerque le système dynamique ([0, 1], T, µ) est ergodique. Pour ce faire on considère un autresystème dynamique :

E1 = [0, 1[, T1x = 2x si 0 ≤ x ≤ 1/2, T1(x) = 2 − 2x pour 1/2 ≤ x < 1.

(où [x] est la partie entière de x) muni de la mesure de Lebesgue sur [0, 1[, notée λ.1. Montrer que λ est invariante par T1.

2. En admettant (ou se souvenant, cf. séries de Fourier) que la famille de fonctionsek(x) = exp(2iπkx) pour k ∈ Z est une famille dense de L2(dλ), montrer que T1 estmélangeante.

3. Soit Θ l’application de E1 dans [0, 1] définie par :

Θ(x) = sin2(πx/2).

4. Identifier µ la mesure image de λ par Θ.5. Montrer que ([0, 1[, T, µ) est ergodique et conclure.

147

Page 148: Cours de Probabilités - MDI 104–114
Page 149: Cours de Probabilités - MDI 104–114

6. Loi conditionnelle

Lorsque l’on modélise un phénomène, la situation la plus simple se présente lorsque lesvariables aléatoires en jeu sont toutes indépendantes les unes des autres. Malheureusement,c’est rarement le cas. Il nous faut donc un moyen de représenter des variables aléatoiresdépendantes. Cela s’appelle la loi conditionnelle.

A titre d’exemple considérons la loi uniforme sur l’ensemble à 12 éléments suivant :

T = (i, j) ∈ N × N, i+ 2j ≤ 5.

X

Y

Figure 6.1. – L’ensemble T

On note X l’abscisse et Y l’ordonnée. Si l’on sait que X = 0, alors Y peut prendre lesvaleurs 0, 1, 2 tandis que si X = 2, Y ne peut prendre que les valeurs 0 et 1. Connaître Xdonne donc une information sur Y qui se quantifie ainsi :

P(Y = 1 |X = 0) = P(Y = 1, X = 0)P(X = 0) = 1/12

3/12 = 13 ·

De même,P(Y = 0 |X = 0) = P(Y = 2 |X = 0) = 1

3 ·

On résume ceci en disant que la loi de Y conditionnellement à X = 0 est la loi uniformesur 0, 1, 2, ce qui formellement s’écrit :

PY |X=0 = 13δ0 + 1

3δ1 + 13δ2.

Le même raisonnement permet de montrer que la loi conditionnelle de Y sachant X = 5 estcelle d’une variable aléatoire constante égale à 0, c’est-à-dire

PY |X=5 = δ0.

149

Page 150: Cours de Probabilités - MDI 104–114

6. Loi conditionnelle

6.1. Cas général

Evidemment les affaires se corsent si la loi de X est à densité puisqu’alors l’événement(X = x) est de mesure nulle. Pourtant, on peut très bien imaginer un couple de pointsrépartis au hasard dans le triangle T ′ :

X

Y

y = 5/2 − x/2

(0,2.5)

(5,0)x

Figure 6.2. – L’ensemble T ′

Dans ces conditions, on a bien envie de dire que conditionnellement à X = x, la loi de Yest la loi uniforme sur [0, 5/2 − x/2].

Pour ce faire, il nous faut introduire la notion de noyau de probabilités.

Définition 6.1 (Noyau de probabilités). Un noyau de probabilités Q est uneapplication

Rn × B(Rp) −→ [0, 1](x,A) 7−→ Qx(A)

telle que :— Pour tout x ∈ Rn, l’application

B(Rp) −→ [0, 1]A 7−→ Qx(A)

est une probabilité sur l’ensemble des boréliens de Rp.— Pour tout A ∈ B(Rp), l’application

(Rn,B(Rn)) −→ [0, 1]x 7−→ Qx(A)

est mesurable.

A partir de là, nous pouvons définir la notion de loi conditionnelle. Rappelons que lesupport d’une probabilité, est le complémentaire du plus grand ouvert de probabiliténulle.

150

Page 151: Cours de Probabilités - MDI 104–114

6.1. Cas général

Définition 6.2 (Loi conditionnelle). Soit X une variable aléatoire dans Rn et Yune variable aléatoire dans Rp. La loi conditionnelle de Y sachant X est l’uniquefamille de noyaux (PY |X=x, x ∈ support PX) définie par

E [ψ(X)θ(Y )] = E[ψ(X)

∫Rpθ(y) dPY |X=x(y)

](6.1)

pour toutes fonctions θ et ψ mesurables bornées. En forme intégrale, cela donne

E [ψ(X)θ(Y )] =∫

Rnψ(x)

∫Rpθ(y) dPY |X=x(y) dPX(x).

Nous ne nous attarderons pas sur l’existence et l’unicité de cette famille qui sont garantispar des théorèmes généraux dans des espaces bien plus ésotériques que Rn et Rp [Kal98].En tout état de cause, la relation ci-dessus permet de déterminer dPY |X=x mais elle est géné-ralisable à des fonctions qui ne sont pas à variables séparées.

Théorème 6.1. Soit X une variable aléatoire dans Rn et Y une variable aléatoiredans Rp. Soit (PY |X=x, x ∈ support PX) définie comme ci-dessus. Pour toutefonction ψ : Rn × Rp → R, mesurable bornée, on a

E [ψ(X,Y )] =∫

Rn×Rpψ(x, y)dPY |X=x(y) dPX(x).

Il y a deux cas particuliers dans lesquels le calcul de la loi conditionnelle est particulièrementsimple.

Théorème 6.2. Soit X et Y deux variables aléatoires indépendantes. Pour toutx ∈ supp PX , PY |X=x = PY .

Démonstration. La méthode générale est d’identifier PY |X=x à travers la relation (6.1).Pour toute paire de fonctions bornées ψ et θ,

E [ψ(X)θ(Y )] = E [ψ(X)] E [θ(Y )]

=∫ψ(x) dPX(x)

∫θ(y) dPY (y)

=∫ψ(x)

(∫θ(y) dPY (y)

)dPX(x),

où l’on a simplement rentré l’intégrale en y dans l’intégrale en x puisque c’est une constante.Si PY |X=x = PY , on a bien

E [ψ(X)θ(Y )] =∫ψ(x)

(∫θ(y) dPY |X=x(y)

)dPX(x).

D’où le résultat.

151

Page 152: Cours de Probabilités - MDI 104–114

6. Loi conditionnelle

Théorème 6.3. Soit X et Y deux variables aléatoires telles que Y = T (X). Pourtout x ∈ supp PX , PY |X=x = δT (x).

Démonstration. Pour toute paire de fonctions bornées ψ et θ,

E [ψ(X)θ(Y )] =∫

Rnψ(x)θ(T (x)) dPX(x)

=∫

Rnψ(x)

(∫ψ(y) dδT (x)(y)

)dPX(x).

Encore une fois, par identification, on obtient PY |X=x = δT (x).

6.2. Calculs

Théorème 6.4. Soit X et Y deux variables aléatoires discrètes. Pour tout x ∈support PX ,

PY |X=x =∑

y∈ supp PY

P(Y = y |X = x)δy.

Rappelons que l’intégrale d’une fonction θ de Y par rapport à PY |X=x est définie par∫θ(y) dPY |X=x(y) =

∑y∈ supp PY

θ(y) P(Y = y |X = x). (6.2)

Démonstration. On procède par identification. L’idée est de faire apparaître la loi de Xau forceps puis de compenser cette modification par une multiplication par une bonnefonction (encore une occurrence du célèbre théorème « 1 = a/a pour a 6= 0 », d’où le besoinde se restreindre à des valeurs de x dans le support de PX). Pour toute paire de fonctionsψ et θ bornées, on a

E [ψ(X)θ(Y )] =∑

x∈ supp PX

∑y∈ supp PY

ψ(x)θ(y)P(X = x, Y = y)

=∑

x∈ supp PX

ψ(x) ∑

y∈ supp PY

θ(y) P(X = x, Y = y)P(X = x)

P(X = x)

=∑

x∈ supp PX

ψ(x) ∑

y∈ supp PY

θ(y) P(Y = y |X = x)P(X = x).

On reconnaît bien dans le terme entre parenthèse, l’intégrale de θ selon la mesure PY |X=x,voir (6.2). D’où le résultat.

152

Page 153: Cours de Probabilités - MDI 104–114

6.2. Calculs

Théorème 6.5. Soit X : Ω → Rn et Y : Ω → Rp, de densité jointe fX,Y . La loiconditionnelle de Y sachant X a pour densité

fY |X=x(y) = fX,Y (x, y)fX(x) , x ∈ supp PX .

On notera le parallèle entre cette démonstration et la précédente.

Démonstration. Pour toute paire de fonctions ψ et θ bornées, on a

E [ψ(X)θ(Y )] =∫

Rn×Rpψ(x)θ(y)fX,Y (x, y) dx dy

=∫

Rnψ(x)

(∫Rpθ(y) fX,Y (x, y)

fX(x) dy)fX(x) dx

=∫

Rnψ(x)

(∫Rpθ(y) fX,Y (x, y)

fX(x) dy)

dPX(x).

Le résultat s’en suit par identification.

Exemple 32.– Dans le cas de notre triangle T ′, la densité jointe est

fX,Y (x, y) = 16 1T ′(x, y).

A x fixé, le couple (x, y) appartient à T ′ si et seulement si y appartient à [0, 5/2 − x/2].Par conséquent,

fX(x) =∫fX,Y (x, y) dy = 1

6

∫ 5/2−x/2

0dy = 5/2 − x/2

6 ·

En vertu du théorème qui précède, la loi de Y conditionnellement à X = x a pour densité

fY |X=x(y) = 1T ′(x, y) /6(5/2 − x/2)/6 = 1

5/2 − x/2 1[0,5/2−x/2](y).

Comme prévu, c’est bien la loi uniforme sur l’intervalle [0, 5/2 − x/2].

Les autres cas (X discrète, Y à densité ou l’inverse) se traitent de manière analogue. Plusgénéralement, si la loi du couple (X,Y ) admet une densité par rapport à une mesureproduit µ⊗ ν, on peut reproduire les mêmes calculs.

Théorème 6.6. Soit E et F deux espaces munis d’une tribu et d’une mesure finiesur tous les compacts, µ pour E et ν pour F . Soit X : Ω → E et Y : Ω → F ,de densité jointe fX,Y par rapport à la mesure µ ⊗ ν. La loi conditionnelle de Ysachant X est donnée par

dPY |X=x(y) = fX,Y (x, y)fX(x) dν(y). (6.3)

153

Page 154: Cours de Probabilités - MDI 104–114

6. Loi conditionnelle

Cela signifie que la loi conditionnelle de Y sachant X = x est absolument continuepar rapport à ν donc la densité est donnée par

fY |X=x(y) = fX,Y (x, y)fX(x) .

Démonstration. Remarquons d’abord que même dans ce formalisme, la loi de X a unedensité par rapport à µ, donnée par

fX(x) =∫

FfX,Y (x, y)dν(y) et dPX(x) = fX(x)dµ(x).

Pour toute paire de fonctions ψ et θ bornées, on a

E [ψ(X)θ(Y )] =∫

E×Fψ(x)θ(y)fX,Y (x, y) dµ(x) dν(y)

=∫

Eψ(x)

(∫Fθ(y) fX,Y (x, y)

fX(x) dν(y))fX(x) dµ(x)

=∫

Eψ(x)

(∫Fθ(y) fX,Y (x, y)

fX(x) dν(y))

dPX(x).

Le résultat s’en suit par identification.

Exemple 33.– On considère X une variable aléatoire de loi bêta de paramètres (a, b),c’est-à-dire de densité

fX(x) = Γ(a+ b)Γ(a)Γ(b) x

a−1(1 − x)b−11[0,1](x).

On se donne aussi Y telle que la loi conditionnelle de Y sachant X est donnée par

PY |X=x = xδ1 + (1 − x)δ0, pour tout x ∈ [0, 1], (6.4)

en d’autres termes, la loi de Y sachant X = x est une loi de Bernoulli de paramètre x.D’après (6.4), pour tout fonction ψ bornée,∫

ψ(y)dPY |X=x(y) = xψ(1) + (1 − x)ψ(0)

=∫

0,1ψ(y)xy(1 − x)1−ydµ(y),

où µ = δ0 + δ1. Ce qui signifie que PY |X=x est une mesure à densité par rapport à µ, dedensité fY |X=x = xy(1 − x)1−y. La loi de (X,Y ) est donc de densité

fX,Y (x, y) = fX(x)fY |X=x = Γ(a+ b)Γ(a)Γ(b) x

a+y−1(1 − x)b−y1[0,1](x)

par rapport à la mesure produit λ⊗µ, λ désignant ici la mesure de Lebesgue. En réutilisant(6.4), on peut calculer la loi conditionnelle de X sachant Y . On constate qu’il s’agit d’uneloi absolument continue par rapport à la loi de X, donc absolument continue par rapport à

154

Page 155: Cours de Probabilités - MDI 104–114

6.3. Espérance conditionnelle

la mesure de Lebesgue. D’autre part, on a à une constante multiplicative près C (dépendantde y mais non de x),

dPX|Y =y = fX,Y (x, y)fY (y) dx = Cxa−1+y(1 − x)b−ydx.

La loi de X sachant Y = y est donc une loi bêta de paramètres (a+ y, b+ 1 − y). Commel’on reconnaît une loi connue, on en déduit immédiatement la constante de normalisationsans avoir eu à faire les calculs ! De manière plus générale, on remarque que la densité dela loi conditionnelle fX|Y =y est donnée directement par la densité de la loi jointe fX,Y àune constante multiplicative près.

6.3. Espérance conditionnelle

Munie de la loi conditionnelle, on peut calculer les espérances dites « conditionnelles » deY sachant X.

Définition 6.3 (Espérance conditionnelle). Soit X et Y deux variables aléatoireset PY |X=x la loi conditionnelle de Y sachant X. Pour tout x ∈ suppX, on appelle« espérance conditionnelle de Y sachant X = x », que l’on note E [Y |X = x], laquantité

E [Y |X = x] =∫y dPY |X=x(y).

Par définition de la loi conditionnelle, on a (en prenant θ = ψ = 1 dans (6.1)),∫Rn

E [Y |X = x] dPX(x) = E [Y ] .

Cette relation s’utilise surtout pour calculer E [Y ] à partir de E [Y |X = x], voir exercices.De la même manière, pour toute fonction mesurable bornée θ (en prenant ψ = 1 dans(6.1)), ∫

RnE [θ(Y ) |X = x] dPX(x) = E [θ(Y )] .

Dans le cas discret, la formule de l’espérance conditionnelle est analogue à celle de l’espé-rance, en remplaçant la probabilité par la probabilité conditionnelle.

Corollaire 6.7. Soit X et Y deux variables aléatoires discrètes. Pour tout x ∈suppX, l’espérance conditionnelle de Y sachant X = x est donnée par

E [Y |X = x] =∑

y∈supp PY

yP(Y = y |X = x).

Démonstration. On a vu au théorème 6.4 quePY |X=x =

∑y∈ supp PY

P(Y = y |X = x)δy.

155

Page 156: Cours de Probabilités - MDI 104–114

6. Loi conditionnelle

En vertu de la définition des mesures de Dirac et de la définition 6.3,

E [Y |X = x] =∫y dPY |X=x(y) =

∑y∈supp PY

yP(Y = y |X = x).

156

Page 157: Cours de Probabilités - MDI 104–114

6.4. Exercices

6.4. Exercices

Pour apprendre

Exercice 6.1.–Soit X et Y deux variables aléatoires indépendantes de loi respective B(N, p) et B(M, p).Calculer la loi conditionnelle de X sachant X + Y .

Pour s’entraîner

Exercice 6.2.–Soit

dP(x, y) = c exp(

−x2 + y2

2

)1x>ydxdy

une mesure sur le plan R2.1. Trouver la constante c pour que P soit une probabilité.2. Soit (Ω,F ,P) un espace de probabilité et (X,Y ) : Ω → R2 une variable aléatoire

de loi P. Trouver la loi de X et celle de Y .3. Sont-elles indépendantes ?4. On définit les nouvelles variables aléatoires U = X2 + Y 2 et V = Y . Calculer la loi

du vecteur (U, V ).5. Les variables U et V sont-elles indépendantes ?

Exercice 6.3 (Points dans un hexagone - **).–En radio-mobiles, on est souvent amené à simuler des usagers répartis de façon uniformedans une cellule hexagonale (voir la figure 6.3 pour les éléments caractéristiques d’unetelle cellule). Comment faire en utilisant un minimum d’appels au générateur de nombresaléatoires ?

On rappelle pour simplifier les calculs que pour un hexagone de longueur de côté 1, l’aireest A = 3

√3/2.

Pour aller plus loin

Exercice 6.4.–Soit X1, · · · , Xn, Y1, · · · , Yn, U) des variables aléatoires réelles indépendantes et de mêmeloi. La loi de U est la loi uniforme sur 1, · · · , n. On pose Wn = X1 + . . .+Xn. On noteX = (X1, · · · , Xn).On construit X ′ de la façon suivante :

X ′ = (X1, · · · , Xi−1, Yi, Xi+1, · · · ) si U = i.

157

Page 158: Cours de Probabilités - MDI 104–114

6. Loi conditionnelle

Figure 6.3. – Hexagone régulier.

1−1x

y

1/2

√3/2

y =√

3(1 − x)y =√

3(1 + x)

On poseW ′

n = Wn −XU + YU .

1. Montrer que X et X ′ ont même loi.2. En déduire que Wn et W ′

n ont même loi.On suppose dorénavant que pour tout i ∈ 1, · · · , n,

P(Xi = 1) = P(Yi = 1) = p = 1 − P(Xi = 0) = 1 − P(Yi = 0).

3. Identifier la loi de Wn.4. Montrer que l’on peut construire Wn−1 indépendante de X1 et de même de loi queWn−1, telle que

Wn = Xi + Wn−1.

5. Calculer P(X1 = 1 |Wn = m) pour m ∈ 0, · · · , n.6. Calculer

P(Wn −W ′n = ε |Wn = m) pour ε = −1, 0, 1.

7. En déduire queE [Wn −W ′

n |Wn = m] = m

n− p.

Exercice 6.5.–Soit

(XY

)un vecteur gaussien de matrice de covariance

Γ =(

1 ρρ 1

)

1. Quelle est la loi de X ?

158

Page 159: Cours de Probabilités - MDI 104–114

6.4. Exercices

2. Quelle est la covariance de X et Y ? A quelle condition sur ρ sont-elles indépendantes ?3. Calculer les valeurs propres de Γ. A quelle condition sur ρ, Γ est-elle définie positive ?

On suppose dorénavant cette condition vérifiée.

4. Rappeler comment est construit Γ1/2. On note

Γ1/2 =(γ11 γ12γ12 γ22

),

où l’on ne cherchera pas à identifier les coefficients γij.En déduire que Γ1/2 est inversible, que

(Γ1/2)−1 = Γ−1, det Γ1/2 = (det Γ)1/2 et que ‖(Γ1/2)−1z‖2 = Γ−1z.z

pour tout z ∈ R2.

5. Calculer la densité de la loi du couple (X,Y ) en fonction de det Γ et de Γ−1.

Indication : on introduira un couple(UV

), vecteur gaussien de matrice de covariance

N (0, I2) et on utilisera la représentation de (X,Y ) en fonction de (U, V ).6. Montrer que la loi conditionnelle de Y sachant X = x est une loi gaussienne de

paramètres que l’on précisera.

159

Page 160: Cours de Probabilités - MDI 104–114
Page 161: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

On note 〈a, b〉 le produit scalaire de deux vecteurs a, b de Rd, et ‖a‖ la norme euclidiennede a. AT désigne la transposée de la matrice A. Par convention, les vecteurs sont desvecteurs-colonne.

Pour un nombre complexe x, |x| désigne son module et x son conjugué. On note i =√−1.

Fonctions à valeur dans C Dans ce chapitre, nous sommes amenés à utiliser l’intégrale,par rapport à des mesures de probabilité, de fonctions à valeur dans C. Toute fonction fà valeur dans C peut s’écrire sous la forme :

f = fR + ifI (7.1)

où fR, fI sont les fonctions à valeur dans R désignant respectivement la partie réelle et lapartie imaginaire. On dira qu’une fonction f à valeur dans C est mesurable si les fonctionsfR et fI sont mesurables. Elle est par définition intégrable par rapport à une mesure µ si fR

et fI sont intégrables. On définit alors l’intégrale de f par :∫f dµ :=

∫fR dµ+ i

∫fI dµ .

A l’aide de la décomposition (7.1) et des inégalités :

|fR| ≤ |f |, |fI | ≤ |f |, |f | ≤ |fR| + |fI | ,

il est aisé de vérifier que des propriétés établies pour des fonctions à valeur dans R restentvalables pour des fonctions à valeur dans C. Par exemple :

• une fonction mesurable f à valeur dans C est intégrable par rapport à µ si etseulement ∫

|f |dµ < ∞ ;

• le théorème de convergence dominée (voir théorème 4.35) reste vrai si les fonctionsf, fn sont supposées à valeur dans C.

7.1. Définition et propriétés

Dans cette section, X = (X1, · · · , Xd) désigne un vecteur aléatoire à valeur dans Rd, définisur un espace de probabilité (Ω,F ,P).

161

Page 162: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

Définition 7.1. On appelle fonction caractéristique de la v.a. X la fonction φX :Rd → C définie par

φX(t) := E (exp(i〈t,X〉)) =∫Rd

exp(i〈t, x〉) dPX(x)

= E(

exp(id∑

k=1tkXk)

)= E

(d∏

k=1exp(itkXk)

).

Comme | exp(i〈t,X〉)| = 1, la fonction φX est bien définie sur Rd. Elle est définie pour lesv.a. discrètes commes les v.a. à valeur réelle ou vectorielle. Dans le cas particulier où Xest à valeur dans un espace au plus dénombrable E, on a

φX(t) =∑e∈E

exp(i〈t, e〉)P[X = e] ;

dans le cas où X est une v.a. à densité fX (par rapport à la mesure de Lebesgue λd surRd), on a

φX(t) =∫

exp(i〈t, x〉) fX(x) dx .

La définition de la fonction caractéristique ne dépend que de la loi de la v.a. X. En particu-lier, si deux v.a. ont même loi alors elles ont même fonction caractéristique.

Démonstration. En conséquence du théorème de transfert (théorème 5.5), on a E(g(X)) =E(g(Y )) pour toute fonction mesurable bornée à valeur dans R (et donc par une extensiontriviale, à valeur dans C). En particulier, en appliquant cette propriété à la fonctiong(x) = exp(i〈t, x〉) (t étant fixé), on en déduit que φX(t) = φY (t).

Vue sous l’angle de transformée d’une loi, la fonction caractéristique d’une v.a. n’est autreque la transformée de Fourier de sa loi, qui est définie de la façon suivante :

Définition 7.2. Soit µ une mesure finie sur (Rd,B(Rd)). La transformée de Fourierde µ est la fonction µ : Rd → C définie par

µ(t) :=∫

exp(i〈t, x〉) dµ(x) .

Autrement dit, comme alternative à la définition 7.1, on peut simplement écrireque la fonction caractéristique d’une v.a. X est φX = PX .

Remarque.– Dans le cas où µ est une mesure sur R admettant une densité f i.e.,µ(dx) = f(x)dx, la définition 7.2 implique que µ(t) =

∫eitxf(x)dx. Ainsi, µ(−t) est égale

à la transformée de Fourier f de la fonction intégrable f , vue en cours MDI-103. Cetteremarque justifie la terminologie « transformée de Fourier ». En ce sens, la définition 7.2est une extension de la transformée de Fourier des fonctions vue en cours d’analyse.

162

Page 163: Cours de Probabilités - MDI 104–114

7.1. Définition et propriétés

Proposition 7.1. La fonction caractéristique d’une v.a. X vérifie les propriétés sui-vantes :

a) Pour tout t ∈ Rd, |φX(t)| ≤ 1 . En outre, φX(0) = 1 .b) La fonction φX est continue sur Rd.c) Si b ∈ Rp est un vecteur déterministe et A est une matrice déterministe de taille

p× d alors AX + b ∈ Rp et pour tout t ∈ Rp,

φAX+b(t) = exp(i〈t, b〉) φAX(t) = exp(i〈t, b〉) φX(AT t) .

En particulier, si X est une v.a. à valeur dans R et que a, b sont des réels alors

φaX+b(t) = exp(itb) φX(at) .

d) Si X,Y sont deux v.a. indépendantes définies sur le même espace de probabi-lité (Ω,F ,P) et à valeurs dans Rd, alors φX+Y = φXφY . Plus généralement, siX1, · · · , Xn : Ω → Rd sont des v.a. indépendantes, alors :

φX1+···+Xn =n∏

k=1φXk

Démonstration. a)) On a |φX(t)| ≤ E (|exp(i〈t,X〉)|) = 1. De plus, φX(0) = E (exp(0)) =1.

b)) La continuité en tout point t ∈ Rd est une conséquence du théorème de convergencedominée (voir théorème 4.35). Soit t ∈ Rd ; nous écrivons pour toute suite (h`)` à valeurdans Rd telle que lim`→+∞ h` = 0,

φX(t+ h`) − φX(t) =∫

(exp(i〈t+ h`, x〉) − exp(i〈t, x〉)) dPX(x) .

Par continuité du produit scalaire et de la fonction exponentielle,

lim`→+∞

(exp(i〈t+ h`, x〉) − exp(i〈t, x〉)) = 0 .

De plus, pour tout h ∈ Rd, |exp(i〈t+ h, x〉) − exp(i〈t, x〉)| ≤ 2 et∫

2 dPX = 2 < ∞. Parsuite, le théorème de convergence dominée entraine lim`→+∞ φX(t+ h`) = φX(t), ce quiétablit la continuité en t pour tout t ∈ Rd.

c)) On écrit en utilisant les propriétés du produit scalaire et de la fonction exponentielle,et en utilisant le fait que A, b sont déterministes

φAX+b(t) = E (exp(i〈AX + b, t〉)) = exp(i〈b, t〉) E (exp(i〈AX, t〉))= exp(i〈b, t〉) E

(exp(i〈X,AT t〉)

)= exp(i〈b, t〉) φX(AT t) .

d)) On a pour tout t ∈ Rd,

φX+Y (t) = E (exp(i〈t,X〉) exp(i〈t, Y 〉)) = E (exp(i〈t,X〉)) E (exp(i〈t, Y 〉))= φX(t)φY (t)

163

Page 164: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

en utilisant la caractérisation de l’indépendance donnée par le théorème 5.13 (établie pourdes fonctions à valeur réelle et donc valable aussi pour des fonctions à valeur dans C). Lagénéralisation à une somme de n v.a. indépendantes est immédiate.

7.2. Fonctions caractéristiques de v.a. usuelles

La table 7.1 fournit l’expression des fonctions caractéristiques de plusieurs loi usuelles. Lessept premières expressions sont la conséquence de calculs triviaux que nous omettons ici.Nous fournissons ci-dessous la preuve des trois dernières.

Nous commençons par établir l’expression de la fonction caractéristique d’une v.a. normaleN (0, 1) ; nous en déduirons celle d’une loi Nd(0, I) puis d’une loi Nd(µ,Γ). Soit Y ∼ N (0, 1).Les conditions de dérivation sous l’intégrale sont vérifiées (voir exercice 5.38) et ona

φ′Y (t) = 1√

∫ix exp(itx) exp(−1/2x2)dd

= − i√2π

∫(it− x) exp(itx) exp(−1/2x2)dx− t√

∫exp(itx) exp(−1/2x2)dx

= − i√2π

[exp(itx) exp(−1/2x2)

]+∞

−∞− t√

∫exp(itx) exp(−1/2x2)dx = −t φY (t).

La résolution de l’équation différentielle φ′Y (t) = −t φY (t) sachant que l’on doit avoir

φY (0) = 1, donne le résultat.

Soit Z ∼ Nd(0, I). Alors par le théorème de Fubini (voir Chapitre 5.3),

φZ(t) = 1√

2πd

∫Rd

exp(i〈t, z〉) exp(−1/2d∑

k=1z2

k) dz1 · · · dzd

=d∏

k=1

(1√2π

∫R

exp(itkzk) exp(−1/2 z2k) dzk

)=

d∏k=1

φY (tk)

=d∏

k=1exp(−1/2 t2k) = exp(−1/2 tT t) .

Enfin, nous savons que si Z ∼ Nd(0, I) alors X = µ +√

ΓZ suit une loi Nd(µ,Γ) (voirexercice 5.42). L’expression de la fonction caractéristique d’une loi Nd(µ,Γ) est maintenantla conséquence de la Proposition 7.1-c).

Soit X ∼ Γ(a, b). Par application du théorème de dérivation sous l’intégrale (voir exer-cice 5.38) suivie d’une intégration par parties, nous avons φ′

X(t) = iab−it

φX(t) dont nousdéduisons l’expression de φX en utilisant la condition φX(0) = 1. A noter que si a n’est pasun entier, on prend la détermination continue valant 1 en 0.

164

Page 165: Cours de Probabilités - MDI 104–114

7.2. Fonctions caractéristiques de v.a. usuelles

Loi Expression de ΦX(t)

Mesure de Dirac δa exp(ita)

Bernoulli B(p) 1 − p+ p exp(it)

Binomiale B(n, p) (1 − p+ p exp(it))n

Géométrique G(p) sur Np

1 − (1 − p) exp(it)

Poisson P(λ) eλ(eit−1)

Uniforme U([a, b]) exp(itb) − exp(ita)it(b− a)

Exponentielle E(λ) λ

λ− it

Gaussienne réelle N (µ, σ2) avec σ2 ≥ 0 exp(itµ− 1/2σ2 t2)

Gaussienne multivariée Nn(µ,Γ) exp(i〈t, µ〉 − 1/2 tT Γt)

Gamma Γ(a, b)(

b

b− it

)a

Table 7.1. – Quelques fonctions caractéristiques utiles. Se rapporter aux tables 4.1 et 1.1pour la définition des lois. Pour la fonction caractéristique d’une loi Nn(µ, Γ) lorsque Γ estdéfinie positive, voir section 7.2 ; lorsque Γ est positive, voir chapitre 8. Par convention,N (a, 0) est la mesure de Dirac en a

165

Page 166: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

7.3. Caractérisation de la loi

Nous avons établi (théorème 4.40) que deux lois µ, ν sont égales si et seulement siE (f(X)) = E (f(Y )) pour toute fonction continue bornée (ou pour toute fonction conti-nue à support compact) ; ici X ∼ µ et Y ∼ ν. Le théorème suivant donne une autrecaractérisation : µ, ν sont égales si et seulement si E (f(X)) = E (f(Y )) pour toute fonctionf de la forme x 7→ exp(i〈t, x〉), t ∈ Rn. La preuve de ce résultat repose sur le lemmesuivant.

Théorème 7.2. La fonction caractéristique d’une v.a. détermine sa loi i.e., pourdeux vecteurs aléatoires X,Y à valeur dans Rd on a équivalence :

a) pour tout t ∈ Rd, φX(t) = φY (t).b) les vecteurs aléatoires X et Y ont même loi.

Démonstration. Le sens réciproque est trivial étant donnée la définition de la fonctioncaractéristique : on ne se préoccupe que du sens direct. Plaçons nous pour simplifierdans le cas d = 1. A titre de remarque, signalons que la preuve est déjà connue desélèves dans le cas particulier où X et Y sont deux lois à densité fX et fY : dans le casoù les fonctions caractéristiques sont elles-mêmes intégrables, les densités se déduisentdes fonctions caractéristiques par transformée de Fourier de φX et φY . Ainsi, φX = φY

implique que fX = fY presque partout, et donc que PX = PY .

Dans le cas général, la preuve repose sur la formule d’inversion (voir l’exercice 7.4) :

PX(]a, b]) = limT →∞

∫ T

−T

e−ita − e−itb

itφX(t)dt , (7.2)

qui vraie pour tous a, b en lesquels PX n’a pas de masse, c’est-à-dire pour tous a, b horsde l’ensemble DX := x : PX(x) > 0. D’après l’exercice 4.5, cet ensemble DX est auplus dénombrable. Donc pour tout a et b hors de DX ∪DY , on a PX(]a, b]) = PY (]a, b]).Puisque FX(b) = FX(a) + PX(]a, b]), il suffit de faire tendre a vers −∞ pour obtenir :

FX(b) = FY (b) (7.3)

pour tout point b hors d’un ensemble au plus dénombrable. En utilisant la continuité àdroite des fonctions de répartition, on conclut que (7.3) est vraie en tout point. Puisque lefonction de répartition détermine entièrement la loi, le résultat est démontré.

7.4. Caractérisation de l’indépendance

Soient (Xk)k≤p des vecteurs aléatoires à valeur dans Rnk , définies sur le même espace deprobabilité (Ω,F ,P).

166

Page 167: Cours de Probabilités - MDI 104–114

7.5. Calcul de moments

Théorème 7.3. Les v.a. X1, · · · , Xp sont indépendantes si et seulement si pourtout t = (t1, · · · , tp) ∈ Rn1+···+np , φX(t) = ∏p

k=1 φXk(tk).

Démonstration. Supposons que les v.a. sont indépendantes. On a

φX(t) = E( p∏

k=1exp(i〈tk, Xk〉)

)=

p∏k=1

E (exp(i〈tk, Xk〉)) =p∏

k=1φXk

(tk) ,

en utilisant la caractérisation de l’indépendance donnée par le théorème 5.13 dans laseconde égalité.

Considérons la réciproque. Soient Y1, · · · , Yp des v.a. indépendantes et telles que pourtout k, Xk et Yk ont même loi. Comme les v.a. sont indépendantes, pour tout t =(t1, · · · , tp) ∈ Rn1+···+np , φ(Y1,··· ,Yp)(t) = ∏p

k=1 φYk(tk) ; de plus, comme Xk et Yk ont même

loi, d’après le Théorème 7.2 φXk(tk) = φYk

(tk) pour tout tk ∈ Rnk . Donc pour toutt = (t1, · · · , tp) ∈ Rn1+···+np ,

φ(Y1,··· ,Yp)(t) =p∏

k=1φXk

(tk) = φX(t) .

Le Théorème 7.2 entraine que (Y1, · · · , Yp) et (X1, · · · , Xp) ont même loi donc en particulier,les v.a. (Xk)1≤k≤p sont indépendantes.

7.5. Calcul de moments

7.5.1. Moments et fonction caractéristique

Puisque la fonction caractéristique « caractérise la loi », elle détermine également lesmoments de cette loi. Il se trouve que la fonction caractéristique est un outil souventcommode pour évaluer les moments d’une loi.

Théorème 7.4. Soit X une variable aléatoire réelle possédant un moment d’ordrep (p > 0). Alors φX est de classe Cp et l’on a

∂pφX(t)∂tp

= ipE (Xp exp(itX)) .

En particulier, les moments sont liés aux dérivées en zero :

E(Xp) = (−1)pip∂pφX(0)∂tp

.

167

Page 168: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

Démonstration. Nous établissons le résultat suivant :

φX(t) = 1 + itE(X) − t2

2 E(X2) + · · · + iptp

p!E(Xp) + ξ(t) où limt→0

ξ(t)/tp = 0.

Cette égalité se justifie par le développement :

exp(itx) −p∑

k=0iktk

k!xk

=∑k>p

iktk

(k − p)!xk 1(k − p+ 1) · · · (k − 1)k

=∑k>p

iktk

(k − p)!xk∫ 1

0

∫ up

0

∫ up−1

0· · ·

∫ u2

0uk−p

1 du1du2 · · · dup

= iptpxp∫ 1

0

∫ up

0

∫ up−1

0· · ·

∫ u2

0

∑k>p

ik−p tk−p

(k − p)!xk−puk−p

1 du1du2 · · · dup

= iptpxp∫ 1

0

∫ up

0

∫ up−1

0· · ·

∫ u2

0

(exp(iu1tx) − 1

)du1du2 · · · dup ,

où l’on a utilisé le théorème Fubini (voir Chapitre 5.3). On montre que l’espérance de cedernier terme est o(tp) par application du théorème de convergence dominée.

Généralisation aux vecteurs aléatoires

De même, on peut montrer le résultat suivant :

Théorème 7.5. Soit X un vecteur aléatoire admettant un moment d’ordre p(p > 0). t 7→ φX(t) est de classe Cp et on a

∂pφX(t)∂t1 · · · ∂tp

= ipE(Xt1Xt2 · · ·Xtp exp(i 〈t,X〉)

).

On en déduit aussi une méthode pour le calcul de moments à partir de l’expression de lafonction caractéristique.

7.5.2. Applications

Application 1

Nous montrons que si X est une v.a. réelle gaussienne d’espérance µ et de variance σ2

(σ2 > 0) i.e., X ∼ N (µ, σ2) alors tous les moments impairs de X − µ sont nuls et les

168

Page 169: Cours de Probabilités - MDI 104–114

7.5. Calcul de moments

moments pairs s’expriment à l’aide de σ2 : pour tout q ∈ N,

E((X − µ)2q+1

)= 0 , (7.4)

E((X − µ)2q

)= σ2q (2q − 1)(2q − 3) · · · 3 = σ2q (2q)!

2qq! . (7.5)

Démonstration. On veut calculer E ((X − µ)q) pour tout q ∈ N. Nous avons établi(exercice 5.42) que si X ∼ N (µ, σ2) alors σ−1(X − µ) ∼ N (0, 1). Par suite, nous allonsétablir

E(Y 2q+1

)= 0 , E

(Y 2q

)= (2q − 1)(2q − 3) · · · 3 = (2q)!

2qq! , (7.6)

où Y ∼ N (0, 1). On écrit

E (exp(itY )) = E

∑n≥0

(itY )n

n!

= E(

limN→+∞

N∑k=0

(it)k

k! Y k

).

Pour permuter limite et espérance, on applique le théorème de convergence dominée(théorème 4.35) en remarquant que |∑N

k=0(it)k

k! Yk| ≤ exp(|t||Y |) et que l’espérance de

ce majorant est finie. Par suite,

E (exp(itY )) = limN→+∞

N∑k=0

(it)k

k! E(Y k)

=∑k≥0

(it)k

k! E(Y k).

D’autre part, d’après le Tableau 7.1

E (exp(itY )) = exp(−1/2 t2) =∑n≥0

(−1)nt2n

2nn! .

On en déduit (7.6) par identification.

Par convention, une loi gaussienne d’espérance µ et de variance nulle est une masse deDirac en µ (µ ∈ R). Si X ∼ δµ alors tous ses moments centrés sont nuls et les égalitésci-dessus restent vraies.

Ainsi, on a établi que siX ∼ N (µ, σ2), avec σ2 ≥ 0, on a (7.4) et (7.5).

Application 2

Soit m ∈ Rd un vecteur déterministe et Γ une matrice d × d positive déterministe.Montrons

a) que la fonctiont 7→ exp

(i〈t,m〉 − 1/2 tT Γt

)(7.7)

est la fonction caractéristique d’un vecteur aléatoire,

169

Page 170: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

b) et que ce vecteur aléatoire a pour espérance m et pour matrice de covariance Γ.

Démonstration. (a) Nous avons établi que lorsque Γ est définie positive, la fonction donnéepar (7.7) est la transformée de Fourier d’une loi Nd(m,Γ) (voir Tableau 7.1). L’exercicesuivant justifie le fait que lorsque Γ est juste supposée positive, la fonction définie par(7.7) peut encore être lue comme la transformée de Fourier d’une loi.

(b) Nous montrons l’expression de l’espérance et de la matrice de covariance par applicationdes résultats du Théorème 7.5.1.

Soit k ∈ 1, · · · , n. En dérivant t 7→ φX(t) par rapport à la k-ième composante tk, onsait d’une part que

∂tkφX |t=0 = iE (Xk)

et d’autre part,

∂tkφX |t=0 = ∂tk

(exp(itTm− 1/2 tT Γt)

)|t=0 = imk .

Ainsi, E (Xk) = mk pour tout k ∈ 1, · · · , n.

On considère la dérivée partielle d’ordre 2 : ∂tjtkφX(t). D’une part, on sait que

∂tjtkφX |t=0 = −E (XjXk) .

D’autre part,

∂tjtkφX |t=0 = ∂tjtk

(exp(itTm− 1/2 tT Γt)

)|t=0 = −Γj,k −mjmk .

Par suite,

Γj,k = E (XjXk) −mjmk = E (XjXk) − E (Xj) E (Xk) = Cov(Xj, Xk) .

Ainsi, Γ est la matrice de covariance du vecteur aléatoire X.

170

Page 171: Cours de Probabilités - MDI 104–114

7.6. Exercices

7.6. Exercices

Pour apprendre

Exercice 7.1.–Dans ce qui suit, X et Y sont deux variables indépendantes, on demande de calculer la loide leur somme.

1. X ∼ B(n, p) et Y ∼ B(m, p).2. X ∼ Geom(p) et Y ∼ Geom(p′).3. X ∼ Po(λ) et Y ∼ Po(µ).4. X ∼ N (m, σ2) et Y ∼ N (r, ν2).5. X ∼ E(λ) et Y ∼ E(µ).

Pour s’entraîner

Exercice 7.2.–Soit (Xn, n ≥ 1) une suite de v.a. indépendantes, de loi exponentielle de paramètre λ. SoitTn = X1 + . . .+Xn.

1. Calculer la loi de (T1, T2, · · · , Tn).2. En déduire la loi de Tn.3. Calculer directement la fonction caractéristique de Tn.

Exercice 7.3.–Soit m ∈ Rd un vecteur déterministe et Γ une matrice d × d positive déterministe. Onécrit Γ = U∆UT où U est une matrice orthogonale et ∆ est une matrice diagonale. Onsuppose que ∆r+1,r+1 = · · · = ∆d,d = 0.

Montrer que la transformée de Fourier de la loi de m+∑rk=1

√∆k,kYk U·,k où les v.a. (Yj)j

sont i.i.d. de loi N (0, 1) est donnée par (7.7). U·,k désigne la colonne k de la matrice U .

Pour aller plus loin

Exercice 7.4.–Soit X une v.a.r. de loi PX et de fonction caractéristique φX . On veut démontrer laformule d’inversion (7.2). On note IT la quantité à l’intérieur de la limite. Soient a < bdeux réels.

1. En invoquant le théorème de Fubini, justifier l’égalité

IT = 12π

∫ +∞

−∞

[∫ T

−T

eit(x−a) − eit(x−b)

it

]dPX(x) .

171

Page 172: Cours de Probabilités - MDI 104–114

7. Fonction caractéristique

2. On pose S(T ) =∫ T

0 (sin x)/x dx. On note sgn(x) le signe de x (1 si x > 0, -1 si x < 0et 0 si x = 0). Montrer que pour tout T > 0,∫ T

0

sin tθt

dt = sgn(θ)S(T |θ|) .

3. En déduire que IT =∫+∞

−∞ ψ(T, x)dPX(x) où

ψ(T, x) = sgn(x− a)π

S(T |x− a|) − sgn(x− b)π

S(T |x− b|) .

4. On admettra (ou on se souviendra) que S(T ) tend vers π/2 quand T → ∞. Montrerque l’intégrande ψ est bornée et que :

limT →+∞

ψ(T, x) =

0 si x < a ou x > b12 si x = a ou x = b1 si a < x < b .

5. En utilisant le théorème de convergence dominée, en déduire la formule d’inver-sion (7.2) pour tout points a, b tels que PX(a) = PX(b) = 0.

172

Page 173: Cours de Probabilités - MDI 104–114

8. Vecteurs gaussiens

On note 〈a, b〉 le produit scalaire de deux vecteurs a, b de Rd ; et on note AT la transposée dela matriceA. Par convention, les vecteurs sont des vecteurs-colonne.

8.1. Préliminaires

La loi gaussienne (ou normale) de paramètres m,σ2 (σ ≥ 0, m ∈ R) - notée N (m,σ2) -est définie comme suit :si σ > 0 : la loi de densité par rapport à la mesure de Lebesgue donnée par

1√2π

exp(

−1/2(x−m)2

σ2

). (8.1)

si σ = 0 : la mesure de Dirac en m.La fonction caractéristique d’une loi gaussienne N (m,σ2) est donnée par (voir Ta-bleau 7.1)

t 7→ exp(itm− 1/2 t2σ2) . (8.2)

8.2. Définition, propriétés

8.2.1. Définition

Dans la suite de ce chapitre, m ∈ Rd est un vecteur déterministe et Γ est une matricede covariance d × d (en particulier, Γ est une matrice symétrique, positive, d’après leparagraphe 5.3.3). Nous écrirons m = (m1, · · · ,md) et noterons Γi,j l’élément (i, j) de lamatrice Γ.

Soit X un vecteur aléatoire à valeur dans Rd défini sur (Ω,F ,P) et possédant des momentsd’ordre 2.

Définition 8.1. X est un vecteur gaussien (ou variable gaussienne multivariéeou variable normale multivariée) si et seulement si pour tout a ∈ Rd, la loi de

173

Page 174: Cours de Probabilités - MDI 104–114

8. Vecteurs gaussiens

〈a,X〉 est une loi gaussienne (éventuellement de variance nulle).

8.2.2. Fonction caractéristique

Nous avons vu au chapitre 7 que la fonction caractéristique déterminait la loi de X. Lethéorème suivant peut être lu comme une alternative à la définition de vecteur gaus-sien.

Théorème 8.1. Les deux conditions sont équivalentesa) X est un vecteur gaussien d’espérance m et de matrice de covariance Γ.b) la fonction caractéristique du vecteur aléatoire X est t 7→ exp(i〈t,m〉 −

1/2 tT Γt).Dans ce cas, on écrira X ∼ Nd(m,Γ).

Démonstration. Supposons a)). Alors pour tout t ∈ Rd, 〈t,X〉 est une v.a.r. gaussienned’espérance 〈t,m〉 et de variance tT Γt. On en déduit l’expression de la fonction caractéris-tique en appliquant le formulaire, tableau 7.1.

Réciproquement, supposons b)). Identifions la loi de 〈t,X〉, pour tout t ∈ Rd, en calculantla fonction caractéristique de cette v.a. à valeur dans R. Soit y ∈ R :

φ〈t,X〉(y) = E (exp(iy 〈t,X〉))= E (exp(i〈yt,X〉)) = φX(yt) = exp(i〈yt,m〉 − 1/2 (yt)T Γ(yt))= exp(iy〈t,m〉 − 1/2 y2(tT Γt)) .

On reconnaît la fonction caractéristique d’une loi gaussienne réelle d’espérance 〈t,m〉 etde variance (éventuellement nulle) tT Γt (voir le formulaire Tableau 7.1). Donc X est unvecteur gaussien ; l’expression de son espérance et de sa matrice de covariance sont uneconséquence de la section 7.5.2.

Ce théorème, combiné au théorème 7.2, montre que la loi d’un vecteur gaussien est entière-ment caractérisée par son espérancem et sa matrice de covariance Γ.

L’expression de la fonction caractéristique d’un vecteur gaussien est à rapprocher del’expression obtenue dans la section 7.2 pour les variables gaussiennes multivariées Nd(m,Γ)dans le cas où Γ est définie positive.

Puisque la fonction caractéristique caractérise la loi, il est légitime de se demander si,réciproquement, la loi d’un vecteur gaussien possède une densité par rapport à la mesurede Lebesgue sur Rd. Ce n’est pas toujours le cas et tout dépend si Γ est inversible ou pas.Nous reviendrons sur ce point en section 8.6.

174

Page 175: Cours de Probabilités - MDI 104–114

8.3. Caractérisation de l’indépendance

8.2.3. Exemples et contre-exemple

Puisque les v.a. constantes sont des lois gaussiennes (de variance nulle), tout vecteurconstant est un exemple de vecteur gaussien.

Un exemple de vecteur gaussien moins trivial est obtenu en considérant des v.a. X1, · · · , Xd

indépendantes de même loi N (0, 1) et en posantX = (X1, · · · , Xd).

Démonstration. X est une loi gaussienne multivariée Nd(0, I) (voir exercice 5.8) donc,d’après le tableau 7.1, sa fonction caractéristique est donnée par exp(−1/2 ‖t‖2). D’aprèsle théorème 8.1, X est un vecteur gaussien.

Plus généralement, on peut obtenir un vecteur gaussien par concaténation de v.a. gaus-siennes indépendantes (on peut établir rapidement ce résultat en appliquant le résultaténoncé en section 8.5).

Si X est un vecteur gaussien, alors tout sous-vecteur est encore un vecteur gaussien. Enparticulier, toute composante d’un vecteur gaussien est un vecteur gaussien réel i.e., c’estune loi gaussienne (donc soit une v.a. constante, soit une v.a. de densité de la forme (8.1)).La proposition suivante précise le lien entre les paramètres du vecteur gaussien et lesparamètres de la loi gaussienne de chaque composante.

Proposition 8.2. Soit X ∼ Nd(m,Γ). Pour tout k ∈ 1, · · · , n, Xk ∼ N (mk,Γk,k).

Démonstration. On a pour tout t ∈ R :

φXk(t) = φX((0, · · · , 0, t, 0, · · · , 0)) = exp(itmk − 1/2 t2Γk,k) .

D’après le théorème 7.2, la fonction caractéristique caractérise la loi et à droite, on reconnaîtla fonction caractéristique d’une loi N (mk,Γk,k) (voir Eq. (8.2)).

Réciproquement, est-il vrai qu’un vecteur aléatoire tel que toutes ses composantes sontdes v.a. gaussiennes est un vecteur gaussien ? la réponse est non comme le montre l’exer-cice 8.3.

8.3. Caractérisation de l’indépendance

Nous savons que si les composantes X1, · · · , Xd d’un vecteur aléatoire X sont indépen-dantes, alors ces v.a. sont décorrélées et la matrice de covariance de X est une matricediagonale.

175

Page 176: Cours de Probabilités - MDI 104–114

8. Vecteurs gaussiens

Le théorème suivant établit un résultat plus fort en considérant la réciproque : si les compo-santes X1, · · · , Xd du vecteur gaussien X sont décorrélées (i.e., la matrice de covariance deX est diagonale) alors ces composantes sont indépendantes.

Nous insistons sur le fait que la décorrélation deux à deux d’une famille de v.a. n’entrainepas nécessairement l’indépendance mutuelle de ces v.a. (voir par exemple, l’exercice 8.3)et que le résultat est ici établi sous des hypothèses précises sur la loi jointe de cette famillede v.a.

Théorème 8.3. Soient (Xk)k≤d des v.a. réelles définies sur (Ω,F ,P). Les deuxconditions sont équivalentes :

a) Le vecteur aléatoire (X1, · · · , Xd) est un vecteur gaussien et Cov(Xi, Xj) = 0pour tout i 6= j.

b) Les v.a. X1, · · · , Xd sont des v.a. gaussiennes indépendantes.

Démonstration. Soit Γ la matrice du vecteur aléatoire X = (X1, · · · , Xd). Supposons queΓ est de la forme diag(σ2

1, · · · , σ2d), σk ≥ 0. Alors, d’après le théorème 8.1, la fonction

caractéristique de X est

φX(t) = exp(id∑

k=1tkmk) exp(−1/2

d∑k=1

t2kσ2k) =

d∏k=1

exp(itkmk − 1/2 t2kσ2k) .

Or on sait que chaque composante Xk suit une loi N (mk, σ2k) (cf. Proposition 8.2). Donc

φX(t) = ∏dk=1 φXk

(tk). Ainsi, par le théorème 7.3, les v.a. sont indépendantes.

Réciproquement, si les v.a. (Xk)k≤d sont indépendantes, alors leur covariance est nulle. Lefait que pour tout t ∈ Rd, 〈t,X〉 est une v.a. gaussienne est établi en section 8.2.3.

Corollaire 8.4. Soit X = (X1, · · · , Xd) ∼ Nd(m,Γ). Les v.a. X1, · · · , Xd sontindépendantes si et seulement si la matrice de covariance Γ est diagonale.

L’exercice 8.3 illustre l’importance de la condition sur la loi jointe des v.a. pour que ladécorrélation entraine l’indépendance : dans cet exemple, les composantes X1 et X2 sontdeux v.a. gaussiennes mais le vecteur (X1, X2) n’est pas un vecteur gaussien ; ces v.a. sontdécorrélées mais elles ne sont pas indépendantes.

8.4. Stabilité par transformation affine

Proposition 8.5. Soient b ∈ Rp un vecteur déterministe et A une matrice p × ddéterministe. Soit X ∼ Nd(m,Γ). Alors AX + b est un vecteur gaussien (à valeur dansRp), d’espérance Am+ b et de matrice de covariance AΓAT .

176

Page 177: Cours de Probabilités - MDI 104–114

8.5. Somme de vecteurs gaussiens indépendants

Démonstration. Calculons la fonction caractéristique de AX + b. Soit t ∈ Rp. On a

φAX+b(t) = exp(i〈t, b〉) φX(AT t) .

Par le Théorème 8.1, il vient

φX(AT t) = exp(i〈AT t,m〉) exp(−1/2 (AT t)T Γ(AT t))= exp(i〈t, Am〉)) exp(−1/2 tT (AΓAT )t) .

Ainsi,φAX+b(t) = exp(i〈t, b+ Am〉)) exp(−1/2 tT (AΓAT )t) ,

et en utilisant encore le Théorème 8.1, on en déduit que AX + b est un vecteur gaussiend’espérance Am+ b et de matrice de covariance AΓAT .

Construction d’un vecteur gaussien

Le théorème 8.3 prouve l’existence d’un vecteur gaussien centré réduit (i.e., d’espérancenulle et de matrice de covariance égale à l’identité). Nous montrons comment n’importequel vecteur gaussien Nd(m,Γ) s’obtient par transformation affine d’un vecteur gaussiencentré réduit.

— Etape 1 : construction d’un vecteur de loi Nd(0, I). Le théorème 8.3 montre quele vecteur Y := (Y1, · · · , Yd) où (Yk)k≤d sont des v.a. gaussiennes centrées réduitesindépendantes a pour loi Nd(0, I).

— Etape 2 : transformation affine de Y . Soit une matrice√

Γ telle que√

Γ√

ΓT = Γ(comme Γ est une matrice positive,

√Γ existe toujours 1 La proposition 8.5 entraine

que m+√

ΓY a pour loi Nd(m,Γ).

8.5. Somme de vecteurs gaussiens indépendants

La proposition suivante montre que la somme de vecteurs gaussiens indépendantsest encore un vecteur gaussien, dont l’espérance (resp. la matrice de covariance) est lasomme des espérances (resp. des matrices de covariance).

Il est important de noter que ce résultat n’est vrai que si les variables sont indépendantes ;considérons en effet le contre-exemple suivant. Soit X ∼ N (0, 1) et Y = −X ; notonsque Y ∼ N (0, 1) de sorte que X et Y sont deux vecteurs gaussiens. Alors X + Y = 0(avec probabilité 1) et donc X + Y est un vecteur gaussien de variance nulle (la variance

1. puisque Γ est une matrice de covariance, il existe une matrice orthogonale Q et une matricediagonale ∆ dont les éléments diagonaux ∆j,j sont positifs ou nuls telles que Γ = Q∆QT . On peut prendre√

Γ = Q√

∆QT où√

∆ est la matrice diagonale dont les éléments diagonaux sont√

∆j,j).

177

Page 178: Cours de Probabilités - MDI 104–114

8. Vecteurs gaussiens

n’est donc pas égale à la somme des variances). Mais X et Y ne sont pas indépendantespuisque

E (XY ) = −E(X2)

= −1 6= 0 = E (X) E (Y ) .

Proposition 8.6. Soient X(1), · · · , X(p) des vecteurs aléatoires indépendants tels queX(`) ∼ Nd(m(`),Γ(`)). Alors

X(1) + · · · +X(p) ∼ Nd

( p∑`=1

m(`);p∑

`=1Γ(`)

).

Démonstration. Pour tout t ∈ Rd,

φX(1)+···+X(p)(t) = E(exp(i 〈t,X(1)〉 + · · · + i 〈t,X(p)〉)

)=

p∏`=1

E(exp(i 〈t,X(`)〉

)=

p∏`=1

φX(`)(t)

puisque les v.a. (X(`))`≤p sont indépendantes. En utilisant le formulaire Tableau 7.1

φX(`)(t) = exp(i〈t,m(`)〉 − 1/2 tT Γ(`)t

),

doncφX(1)+···+X(p)(t) = exp

(i〈t,

p∑`=1

m(`)〉 − 1/2 tT p∑

`=1Γ(`)t

),

et l’on conclut par application du théorème 7.2 et du formulaire Tableau 7.1.

8.6. La loi d’un vecteur gaussien admet-elle une densité ?

Soit X ∼ Nd(m,Γ). On distingue deux cas :

Lorsque Γ est inversible. Nous avons établi au chapitre 7 (voir Tableau 7.1 et théo-rème 7.2) que la loi d’un vecteur gaussien admet une densité :

1√

2πd

1√det(Γ)

exp(−1/2 (x−m)T Γ−1(x−m))) .

Lorsque Γ est non-inversible. La loi du vecteur gaussien n’admet pas de densité. Onpeut montrer que

P [X −m ∈ Im(Γ)] = 1 ; (8.3)

autrement dit, la v.a. X prend ses valeurs dans l’espace m + Im(Γ) avec probabilité1.

178

Page 179: Cours de Probabilités - MDI 104–114

8.6. La loi d’un vecteur gaussien admet-elle une densité ?

Démonstration. Notons r le rang de Γ et ur+1, · · · , ud une base orthonormal de l’espaceorthogonal de Im(Γ). Alors pour tout r + 1 ≤ k ≤ d,

Var(〈uk, (X −m)〉) = uTk E

((X −m)(X −m)T

)uk = uT

k Γuk = 0 .

Donc la v.a. 〈uk, X − m〉 est constante avec probabilité 1, et comme son espérance estnulle, elle vaut zero avec probabilité 1. Ainsi, X −m est, avec probabilité 1, orthogonalau vecteur uk pour tout r + 1 ≤ k ≤ d. Ce qui conclut la démonstration.

Par suite, la loi ne peut pas posséder de densité par rapport à la mesure de Lebesgue surRd. On dit dans ce cas que le vecteur gaussien est dégénéré .

Démonstration. En effet, supposons qu’elle en possède une, notée f . On a alors :

1 = P [X −m ∈ Im(Γ)] =∫

m+Im(Γ)f(x)dλd(x) = 0

où la dernière égalité vient du fait que dim(Im(Γ)) < d et donc λd(m+ Im(Γ)) = 0. Celaconduit à une contradiction.

179

Page 180: Cours de Probabilités - MDI 104–114

8. Vecteurs gaussiens

8.7. Exercices

Pour apprendre

Exercice 8.1.–Soit deux v.a. indépendantes X ∼ N (0, 1) et Y de loi dPY = 1

2(δ−1 + δ1).1. Montrer que Z = Y X est une v.a. gaussienne.2. Montrer que X et Z sont non corrélées.3. Si (X, Z) était un vecteur gaussien, quelle serait sa loi ?4. Calculer la loi de (X, Z).5. Est-ce que (X, Z) est un vecteur gaussien ?6. Est-ce que X et Z sont indépendantes ?

Exercice 8.2.–Soit X1 ∼ N (0, 1) et a le réel positif tel que

∫ a0 exp(−0.5x2)dx =

√2π/4. Soit X2 la v.a.

définie par

X2 =X1 si |X1| > a−X1 si |X1| ≤ a

.

Montrer que X2 ∼ N (0, 1)Vérifier que le vecteur (X1, X2) n’est pas un vecteur gaussien.Montrer que Cov(X1, X2) = 0 mais que les v.a. X1, X2 ne sont pas indépen-

dantes.

Pour s’entraîner

Exercice 8.3.–Soit X et Y deux gaussiennes centrées réduites indépendantes. Montrer que les v.a. X +Yet sin(X − Y ) sont indépendantes.

Exercice 8.4 (Sphere hardening).–Soit XN un vecteur gaussien de RN , centré, réduit. Soit ‖XN‖, la norme euclidienne deXN et X ′

N = ‖XN‖/√N .

1. Calculer E [(X ′N)2] .

2. Calculer Var[(X ′N)2].

3. Montrer que, pour tout η > 0,

P(|X ′N − 1| ≥ η) N→+∞−−−−→ 0.

On pourra utiliser l’inégalité de Bienaymé-Tcebycev.

180

Page 181: Cours de Probabilités - MDI 104–114

8.7. Exercices

Pour aller plus loin

Exercice 8.5.–On rappelle que pour a > 0, b > 0,

B(a, b) =∫ 1

0ua−1(1 − u)b−1du = Γ(a)Γ(b)

Γ(a+ b) .

On suppose que X1, . . . , Xn sont des v.a.r., gaussiennes, indépendantes, de même loiN (m, σ2). On pose

X = 1n

n∑i=1

Xi, Σ2 = 1n

n∑i=1

(Xi −m)2

etS2 = 1

n

n∑i=1

(Xi − X)2 .

1. Soit In(z) la suite de fonctions définies par

I0(z) = 1√z, In(z) =

∫ z

0

1√z − w

In−1(w)dw pour n ≥ 1.

Montrer que

In(z) =Γ(1

2

)n+1

Γ(n+ 1

2

) zn/2−1.

2. Soit Y1, . . . , Yn des v.a.r., indépendantes, de même loi gaussienne N (0, 1). Calculerla loi de

Z =n∑

i=1Y 2

i .

3. Calculer la loi de X.4. Calculer la loi de (n/σ2)Σ2.5. Montrer que X est indépendante du vecteur Z = (X1 − X, . . . , Xn − X) et que X

est indépendante de S2.6. Maintenant on veut calculer la loi de (n/σ2)S2. Pour cela, supposer d’abord quem = 0 et trouver une matrice orthogonale A telle que Y = AX et que

nS2 =n∑1Y 2

i − Y 21 .

Ensuite traiter le cas où m 6= 0.

Exercice 8.6.–Soit Γ une matrice carrée réelles à n lignes. Montrer qu’il existe un vecteur gaussien dematrice de covariance Γ si et seulement si Γs.s ≥ 0 pour tout s ∈ Rn. On pourra s’aiderde l’exercice 5.13.

181

Page 182: Cours de Probabilités - MDI 104–114

8. Vecteurs gaussiens

Exercice 8.7.–Dans la représentation canonique des vecteurs gaussiens, montrer que l’on peut remplacerla matrice A par une matrice de la forme AO où O est orthogonale sans changer la loi deAY .

Exercice 8.8 (Polynômes d’Hermite).–Soit X une v.a.r. gaussienne centrée, reduite et ϕ(t, x) = exp(tx).

1. Trouver g(t) telle que g(t)E [ϕ(t,X)] = 1.2. On pose

ψ(t, x) = g(t)ϕ(t, x).

Montrer queE [ψ(t,X)ψ(s,X)] = exp(σ2ts).

3. Montrer que

ψ(t, x) =∞∑

n=0

[n/2]∑k=0

xn−2k

(n− 2k)!(−σ2)k

2kk!

tn.

4. On pose

Pn(x) =[n/2]∑k=0

xn−2k

(n− 2k)!(−σ2)k

2kk! .

Montrer queE [Pn(X)Pm(X)] = δn, m.

182

Page 183: Cours de Probabilités - MDI 104–114

9. Convergences

On fixe dans ce qui suit un espace probabilisé (Ω, A, P).

9.1. Loi des grands nombres

Définition 9.1. On dit qu’une suite (Xn, n ≥ 1) de v.a. converge P-presque-sûrement (ou P-presque-partout) vers une v.a. X lorsqu’il existe un ensemble A telque P(Ac) = 0 et pour tout ω ∈ A,

Xn(ω) n→+∞−−−−→ X(ω).

En d’autres termes, il s’agit de la convergence simple à un ensemble de mesurenulle près.

Théorème 9.1 (Loi forte des grands nombres). Soit (Xn, n ≥ 1) une suite de v.a.indépendantes, identiquement distribuées telles que E [|X1|] < ∞ alors

1n

n∑j=1

Xjn→+∞−−−−→ E [X1] , P − p.p.

9.2. Limite centrée

Définition 9.2. Pour un ensemble ouvert A ∈ Rk, on note ∂A sa frontière définiepar

∂A = A− A.

Pour un intervalle ]a, b[, on a alors ∂A = a, b. Pour un pavé ouvert de Rk, la frontièreau sens topologique correspond à la notion intuitive de bord.

Remarque.– Si Y a même loi que X et si (Xn, n ≥ 1) converge en loi vers X alors(Xn, n ≥ 1) converge aussi vers Y . La convergence en loi, malgré sa présentation, n’est

183

Page 184: Cours de Probabilités - MDI 104–114

9. Convergences

pas une convergence de variables aléatoires mais une convergence des mesures associéesaux v.a..

Théorème 9.2. La convergence presque sûre implique la convergence en loi maisla réciproque est fausse.

Démonstration. Si (Xn, n ≥ 1) converge p.s. vers X alors pour toute fonction continuebornée,

— f(Xn) n→+∞−−−−→ f(X), presque-sûrement,— pour tout n ≥ 1, |f(Xn)| ≤ ‖f‖∞

— et E [‖f‖∞] < ∞,donc toutes les hypothèses du théorème de convergence dominée sont satisfaites, d’où

E [f(Xn)] n→+∞−−−−→ E [f(X)] .

D’après la première caractérisation de la convergence en loi, cela signifie que (Xn, n ≥ 1)converge en loi vers X.

Construisons un contre-exemple à la réciproque. Soit X une v.a. gaussienne de moyennenulle. Comme la densité gaussienne est paire, −X suit la même loi que X. Considéronspour tout n ≥ 1, la suite Xn = X. Il est clair que Xn converge en loi vers X donc vers−X. En revanche, Xn ne converge vers −X que sur l’ensemble (X = −X), c’est-à-direl’ensemble (X = 0), qui est de probabilité nulle puisque la loi gaussienne est absolumentcontinue.

Définition 9.3. On dit qu’une suite (Xn, n ≥ 1) de v.a., à valeurs dans Rk,converge en loi vers X lorsque l’une des propriétés équivalentes suivantes estvérifiée :

— Pour toute fonction continue bornée f de Rk dans R,

E [f(Xn)] n→+∞−−−−→ E [f(X)] ,

— pour tout ensemble ouvert A ∈ Rk tel que P(X ∈ ∂A) = 0,

P(Xn ∈ A) n→+∞−−−−→ P(X ∈ A),

— pour tout t ∈ Rk,E[eit.Xn

]n→+∞−−−−→ E

[eit.X

].

Théorème 9.3. Soit (Xn, n ≥ 1) une suite de v.a. indépendantes, identiquement

184

Page 185: Cours de Probabilités - MDI 104–114

9.3. Exercices

distribuées telles que E [|X1|2] < ∞ alors√n

σ( 1n

n∑j=1

Xj − E [X1]) n→+∞−−−−→ N (0, 1), en loi

oùσ2 = Var(X1).

9.3. Exercices

Exercice 9.1.– 1. Pour z réel positif, on pose

Γ(z) =∫ ∞

0e−xxz−1 dx.

Soient 0 < zm < zM , montrer que pour k entier strictement positif, z ∈]zm, zM [, ilexiste une constante ck (que l’on ne cherchera pas à expliciter) telle que

| lnk(x)xz−1e−x| ≤ cke−x pour x ≥ 1

≤ ck ln(x)kxzm−1 pour x ≤ 1.

2. On admet que lnk(x)xzm−1 est intégrable sur [0, 1]. Montrer que Γ est k fois dérivablesur R+.

3. Pour a, b des réels strictement positifs et k réel positif, montrer que

b−a

Γ(a)

∫ +∞

0xk ln(x)xa−1e−bx dx = bk

(Γ′(a)Γ(a) − ln(b)

).

4. Soit X la variable aléatoire dont la densité est donnée par

fβ,λ,µ(x) = Kxβe−λxµ1R+(x).

On ne demande pas de calculer K. Calculer la loi de Y = Xµ.

5. Soit (X1, · · · , Xn) n v.a.r. indépendantes et de même loi que X. Quelle est la limitepresque sûre, notée S, du couple

Sn =( 1n

n∑j=1

ln(Xj),1n

n∑j=1

Xj

).

6. Quelle est la limite de1√n

(Sn − S

).

185

Page 186: Cours de Probabilités - MDI 104–114
Page 187: Cours de Probabilités - MDI 104–114

10. Simulation

10.1. Générateurs de nombres aléatoires

Les ordinateurs usuels n’étant pas équipés d’une source physique d’aléa (mesurant l’étatd’un photon par exemple), une technique courante pour simuler des variables aléatoiresconsiste à générer une suite de nombres u1, u2, . . . à valeurs dans l’ensemble 0, 1, . . . ,m−1,pour un entier m grand, à partir d’une valeur initiale u0 et d’une opération arithmétiquesimple du type un+1 = aun + b mod m. Pour des entiers a et b bien choisis, la suiteu1, u2, . . . ressemble à une suite de variables aléatoires indépendantes de loi uniformesur 0, 1, . . . ,m− 1 ; elle est cependant parfaitement déterministe et, de ce fait, plutôtqualifiée de suite de nombres pseudo-aléatoires. On notera en particulier que cette suiteest périodique, de période au plus m ; il faut ainsi veiller à ne pas faire appel à plus de mfois consécutives au même générateur aléatoire, sous peine de biaiser les résultats de lasimulation.

Remarque.– Savoir si la suite générée « ressemble » à une suite parfaitement aléatoireest un problème difficile. Idéalement, il faudrait qu’aucun test statistique ne permette dedistinguer lune de lautre avec une probabilité supérieure à 1/2. La formalisation de cettepropriété pour des suites grandes mais finies fait appel à la théorie de la complexité.

La valeur initiale u0 de la suite est déterminante (aux deux sens du terme). Considérons unprogramme informatique faisant appel 10 fois de suite au générateur aléatoire. Lorsque lavaleur de u0 est fixe, deux appels successifs du même programme donneront deux suites denombres u1, u2, . . . , u10 strictement identiques. Pour que deux appels du même programmedonnent deux suites de nombres u1, u2, . . . , u10 distinctes, il faut changer la valeur initialeu0. Une technique classique consiste à initialiser la valeur de u0 à partir de l’horloge del’ordinateur au moment de l’appel du programme. Comme deux appels successifs du mêmeprogramme ne commencent jamais exactement en même temps, les deux suites de nombresgénérés u1, u2, . . . , u10 seront distinctes. C’est un aspect important lorsque l’on souhaitefaire plusieurs expériences aléatoires indépendantes. La valeur initiale u0 s’appelle lagraine du générateur de nombres aléatoires.

Après normalisation de la suite u1, u2, . . . par m, et pourvu que m soit assez grand, onobtient une suite de nombres sur [0, 1] ayant les caractéristiques d’une suite de variablesaléatoires indépendantes de loi uniforme sur [0, 1]. On peut à partir de cette suite gé-nérer des variables aléatoires réelles de loi quelconque. Nous verrons deux méthodesgénériques : l’inversion de la fonction de répartition et la méthode du rejet. Des méthodes

187

Page 188: Cours de Probabilités - MDI 104–114

10. Simulation

ad-hoc existent également pour certaines lois, comme les lois gaussiennes (voir Exercice10.4).

Exemple du langage Java. Un objet Java de classe Random fournit un générateur denombres aléatoires avec les valeurs m = 248, a = 25 214 903 917 et b = 11. La méthodenextInt(int n) donne un nombre entier de loi uniforme sur 0, 1, . . . ,m − 1 ; laméthode nextDouble donne un nombre réel de loi uniforme sur [0, 1]. Le programmeci-dessous illustre le caractère déterminant de la graine du générateur, spécifiée en argumentlors de la construction de l’objet (si rien n’est spécifié, le générateur s’initialise sur l’horlogelocale de la machine) :

import java.util.Random;

// Suite aléatoire de 10 chiffres puis un nombre entre 0 et 1

public class Test public static void main(String[] arg)

System.out.print("Expérience 1 : ");Random GenerateurAleatoire1 = new Random();for (int n=0;n<10;n++)

System.out.print(GenerateurAleatoire1.nextInt(10)+",");System.out.println(GenerateurAleatoire1.nextDouble());System.out.print("Expérience 2 : ");Random GenerateurAleatoire2 = new Random(0);for (int n=0;n<10;n++)

System.out.print(GenerateurAleatoire2.nextInt(10)+",");System.out.println(GenerateurAleatoire2.nextDouble());

Deux appels successifs à ce programme donnent les résultats suivants :

> java TestExpérience 1 : 2,7,0,3,7,9,0,5,4,0,0.2427885171081926Expérience 2 : 0,8,9,7,5,3,1,1,9,4,0.3332183994766498> java TestExpérience 1 : 3,9,2,9,9,3,4,9,3,6,0.8265674975187485Expérience 2 : 0,8,9,7,5,3,1,1,9,4,0.3332183994766498

188

Page 189: Cours de Probabilités - MDI 104–114

10.2. Méthode d’inversion de la fonction de répartition

10.2. Méthode d’inversion de la fonction de répartition

Cette méthode permet de générer une variable aléatoire réelle X de fonction de répartitionF quelconque à partir d’une variable aléatoire U de loi uniforme sur [0, 1]. On supposetout d’abord que la fonction F est continue et strictement croissante sur [a,+∞[, aveca ∈ R et F (a) = 0 ; elle définit alors une bijection de ]a,+∞[ vers ]0, 1[ et on définitla variable aléatoire X = F−1(U). Vérifions que X a bien pour fonction de répartitionF :

∀x > a, P(X ≤ x) = P(F−1(U) ≤ x),= P(U ≤ F (x)),= F (x).

Exemple 34.– Pour une loi exponentielle de paramètre λ, on a F (x) = 1 − e−λx sur[0,+∞[ de sorte que :

X = − 1λ

ln(1 − U).

Graphiquement, cela revient à générer une variable aléatoire uniforme sur [0, 1] sur l’axedes ordonnées et à prendre son antécédent par la fonction F sur l’axe des absisses, commeillustré par la Figure 10.1.

0 1 2 30

0.5

1

x

Fonction de répartition F (x)

U

X = F−1(U)

Figure 10.1. – Génération d’une variable aléatoire de loi exponentielle de paramètre 1.

Le principe est le même pour une fonction de répartition F quelconque (croissantesur R, continue à droite), en prenant pour fonction inverse la fonction F−1 définiepar :

∀y ∈]0, 1[, F−1(y) ≡ infx ∈ R : y ≤ F (x),puisqu’on a toujours F−1(y) ≤ x si et seulement si y ≤ F (x).

Exemple 35.– Pour une loi de Bernoulli de paramètre p, on a :

∀x ∈ [0, 1], F (x) =

1 − p si x < 1,1 si x = 1,

189

Page 190: Cours de Probabilités - MDI 104–114

10. Simulation

de sorte que :

∀y ∈]0, 1[, F−1(y) =

0 si y ≤ 1 − p,1 sinon,

etX = 1U>1−p.

Ainsi X vaut 0 si U < 1 − p et 1 sinon.

0 0.5 10

0.5

1

x

Fonction de répartition F (x)

U

X = F−1(U)

Figure 10.2. – Loi de Bernoulli de paramètre p = 0.8.

Les variables aléatoires U et V ≡ 1 − U suivant toutes deux des lois uniformes sur [0, 1],on peut en principe partir indifféremment de l’une ou l’autre variable pour générer X.Dans les deux exemples précédents, on obtient respectivement pour la loi exponentielle deparamètre λ et pour la loi de Bernoulli de paramètre p :

X = − 1λ

ln(V ) et X = 1V <p.

En pratique, l’ordinateur ne peut générer une loi parfaitement uniforme du fait de saprécision finie. Il se peut en particulier que, la probabilité que U = 0 soit très faiblemais non nulle alors que la valeur U = 1 n’est pas possible (c’est le cas en Java avecla méthode nextDouble). Le choix de U ou V ≡ 1 − U peut alors dépendre de cesconsidérations.

Exemple du langage Java. La classe suivante fournit des méthodes pour générer desvariables de lois uniforme, Bernoulli ou exponentielle :

import java.util.Random ;

public class Alea static Random alea = new Random() ;

190

Page 191: Cours de Probabilités - MDI 104–114

10.3. Méthode du rejet

static double uniforme()return alea.nextDouble() ;

static boolean bernoulli(double p)return (uniforme()<p) ;

static double exponentielle(double lambda)return (-Math.log(1-uniforme())/lambda) ;

10.3. Méthode du rejet

La méthode précédente permet en principe de simuler n’importe quelle loi de proba-bilité. Il faut cependant pouvoir inverser la fonction de répartition, ce qui n’est pastoujours facile. Pour une loi Gamma par exemple, on ne dispose même pas d’une formeanalytique de cette fonction. On peut avoir recours à des méthodes numériques, maiscelles-ci peuvent être coûteuses en temps de calcul et introduire des erreurs difficiles àcontrôler.

Une autre option est d’appliquer la méthode du rejet, qui impose certaines contraintes surla loi de probabilité que l’on souhaite simuler. Supposons pour simplifier que celle-ci admetune fonction de densité f sur R. Il faut alors trouver une autre fonction de densité g surR, associée à une loi de probabilité que l’on sait simuler (par la méthode d’inversion de lafonction de répartition par exemple) et telle que f(x) ≤ θg(x) pour une certaine constanteθ > 0. Remarquons que, puisque f et g sont des fonctions de densité, θ ≥ 1 avec égalitési et seulement si f = g. Soit U1, U2, , . . . une suite de variables aléatoires indépendantesde loi uniforme sur [0, 1] et Y1, Y2, . . . une suite de variables aléatoires indépendantes dedensité g, indépendante de la précédente. On pose :

X = YK avec K = mink ≥ 1 : f(Yk) > θUkg(Yk).

Malgré les apparences, la variable aléatoire X n’a pas la même loi que les variablesaléatoires Y1, Y2, . . . car l’indice K est lui-même aléatoire. Nous allons voir que X a bienpour densité f . Notons que l’indice K correspond au coût de simulation, puisqu’il estfait appel 2K fois au générateur aléatoire. Le résultat suivant montre en particulier queE(K) = θ si bien qu’il faut choisir la constante θ aussi petite que possible pour minimiserle coût de simulation.

Proposition 10.1. La variable aléatoire X a pour densité f , la variable aléatoire Ksuit une loi géométrique de paramètre 1/θ, et ces deux variables sont indépendantes.

191

Page 192: Cours de Probabilités - MDI 104–114

10. Simulation

Démonstration. Soit Ak = f(Yk) > θUkg(Yk). On a pour tout x ∈ R et tout k ∈ N∗ :

P(X ≤ x ∩ K = k) = P(Yk ≤ x ∩ Ak ∩ Ac1 ∩ . . . ∩ Ac

k−1),= P(Yk ≤ x ∩ Ak)(1 − p)k−1,

où l’on a utilisé l’indépendance des couples de variables aléatoires (U1, Y1), (U2, Y2), . . . etnoté p la probabilité commune des événements A1, A2, . . .. On écrit ensuite :

P(Yk ≤ x ∩ Ak) = E[1Yk≤x1Ak

],

=∫ x

−∞

(∫ 1

01f(y)>θug(y)du

)g(y)dy,

=∫ x

−∞

f(y)θg(y)g(y)dy,

= 1θ

∫ x

−∞f(y)dy,

de sorte que :

P(X ≤ x ∩ K = k) =∫ x

−∞f(y)dy × 1

θ(1 − p)k−1.

En faisant d’une part tendre x vers +∞, on obtient :

P(K = k) = 1θ

(1 − p)k−1,

si bien que K suit une loi géométrique de paramètre p = 1/θ ; en sommant d’autre partsur k, on obtient :

P(X ≤ x) =∫ x

−∞f(y)dy,

si bien que la variable aléatoire X a pour densité f . Comme

P(X ≤ x ∩ K = k) = P(X ≤ x)P(K = k),

ces variables aléatoires sont indépendantes.

Exemple 36.– La loi Gamma de paramètres (2, λ) a pour densité la fonction f(x) = xe−λx

sur R+. On borne cette fonction, à une constante multiplicative θ près, par la densitéd’une loi exponentielle de paramètre λ/2, que l’on sait facilement simuler :

∀x ≥ 0, f(x) ≤ θ

2e− λ

2 x.

La plus petite valeur de θ est 4/e. Les résultats obtenus sont illustrés par la Figure 10.3.

Exemple du langage Java. On obtient pour la loi Gamma de paramètres (2, λ) :

192

Page 193: Cours de Probabilités - MDI 104–114

10.4. Méthodes de Monte Carlo

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

x

Densité de probabilité

(a) N = 1 000

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

x

Densité de probabilité

(b) N = 10 000

Figure 10.3. – Loi empirique issue de N échantillons de la loi Gamma de densité f(x) =xe−x sur R+ obtenus par la méthode du rejet.

import java.util.Random ;

public class Alea static Random alea = new Random() ;

static double uniforme()return alea.nextDouble() ;

static double exponentielle(double lambda)return (-Math.log(1-uniforme())/lambda) ;

static double gamma2(double lambda)double y=exponentielle(lambda/2) ;while (y*Math.exp(-lambda*y/2+1)<4*uniforme())

y=exponentielle(lambda/2) ;return y ;

10.4. Méthodes de Monte Carlo

Les méthodes de Monte Carlo sont des techniques d’analyse numérique reposant sur la loiforte des grands nombres. Supposons par exemple que l’on cherche à calculer l’intégraled’une fonction g continue sur [0, 1]. En notant U1, U2, . . . une suite de variables aléatoires

193

Page 194: Cours de Probabilités - MDI 104–114

10. Simulation

indépendantes de loi uniforme sur [0, 1], on sait par la loi forte des grands nombresque :

1N

N∑j=1

g(Uj)p.s.−→ E [g(U1)] =

∫ 1

0g(u)du.

On peut donc utiliser l’estimateur suivant, pour N grand :∫ 1

0g(u)du ≈ 1

N

N∑j=1

g(Uj).

Estimation du nombre π. Un exemple classique illustrant la méthode de Monte Carloconsiste à estimer le nombre π à partir de l’expression suivante :

π ≈ 4N

N∑j=1

1U2j +V 2

j <1,

où U1, U2, . . . et V1, V2, . . . désignent deux suites indépendantes de variables aléatoiresindépendantes de loi uniforme sur [0, 1]. On a en effet par la loi forte des grandsnombres :

1N

N∑j=1

1U2j +V 2

j <1p.s.−→ E

[1U2

1 +V 21 <1

],

=∫ 1

0

∫ 1

01u2+v2<1dudv,

= π

4 .

Ainsi en jettant N points au hasard dans un carré de côté 1, la fraction des points tombantdans le quart de disque de rayon 1 inclus dans ce carré tend vers π/4, comme illustré parla Figure 10.4. La Figure 10.5 montre l’évolution de la qualité de l’estimation en fonctionde N .

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

V

U

Figure 10.4. – Estimation du nombre π par une méthode de Monte Carlo sur la base dutirage de N = 100 points aléatoires.

194

Page 195: Cours de Probabilités - MDI 104–114

10.5. Histogrammes

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

N

Figure 10.5. – Evolution de l’estimation du nombre π en fonction du nombre de pointsN .

10.5. Histogrammes

Pour vérifier si la simulation produit bien la loi de probabilité recherchée, on peut tracerl’histogramme obtenu à partir d’un nombre N d’échantillons x1, . . . , xN , censés corres-pondre à N réalisations d’une variable aléatoire réelle X. On prend pour simplifier desintervalles de même largeur δ > 0 et on note gk la fraction des échantillons se trouvantdans l’intervalle [kδ, (k + 1)δ[ :

∀k ∈ Z, gk = 1N

N∑j=1

1kδ≤xj<(k+1)δ.

Lorsque le nombre d’échantillons N est grand, gk doit être proche de la probabilité que Xsoit dans l’intervalle [kδ, (k + 1)δ[. Par la loi forte des grands nombres, on sait en effetque pour toute suite de variables aléatoires indépendantes X1, X2, . . . de même loi queX :

1N

N∑j=1

1kδ≤Xj<(k+1)δp.s.−→ E

[1kδ≤X<(k+1)δ

]= P(kδ ≤ X < (k + 1)δ).

Lorsque la variable aléatoire X a pour densité f , et pour une largeur d’intervalle δsuffisamment faible, on peut comparer f à la fonction de densité g constante par morceauxdéfinie par :

∀x ∈ R, g(x) = 1δ

∑k∈Z

gk1[kδ,(k+1)δ[(x).

C’est cette fonction qui est tracée en Figure 10.3, pour des intervalles de largeur δ =0,1.

Illustration du théorème central limite. Soit Y1, Y2, . . . une suite de variables indépen-dantes suivant une loi de Bernoulli de paramètre p. On sait par la loi forte des grandsnombres que leur moyenne empirique tend vers p et par le théorème central limite que la

195

Page 196: Cours de Probabilités - MDI 104–114

10. Simulation

loi de l’écart de cette moyenne empirique par rapport à p, après renormalisation adéquate,tend vers une loi gaussienne. Plus spécifiquement,

√n

σ

1n

n∑j=1

Yj − p

n→+∞−−−−→ N (0, 1), en loi,

avec σ2 = Var(Y1) = p(1 − p). Ce résultat est illustré par la Figure 10.6, où l’histogrammede l’écart normalisé de la moyenne empirique de n variables Y1, . . . , Yn par rapport à p,soit

X =√n

σ

1n

n∑j=1

Yj − p

,est représeneté avec une précision δ = 0,1 à partir de N = 10 000 échantillons de cettevariable aléatoire.

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

x

Densité de probabilité

(a) n = 1 000

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

x

Densité de probabilité

(b) n = 10 000

Figure 10.6. – Histogramme formé à partir de N = 10 000 échantillons des écarts norma-lisés de la moyenne empirique de n variables indépendantes de Bernoulli de paramètre 1/2par rapport à 1/2, et comparaison avec la loi normale centrée réduite.

10.6. Exercices

Exercice 10.1.–Donner une fonction générant une variable aléatoire de loi de Cauchy à partir d’unevariable aléatoire de loi uniforme sur [0, 1].

Exercice 10.2.–Écrire en pseudo-code une fonction générant une variable aléatoire discrète à valeurs dans1, . . . , N dont la loi est donnée par un vecteur de probabilité (p1, . . . , pN).

Exercice 10.3.–Écrire en pseudo-code une fonction générant une variable aléatoire à valeurs dans [0, 1],de fonction de répartition F (x) = (x+ 1)/2.

196

Page 197: Cours de Probabilités - MDI 104–114

10.6. Exercices

Exercice 10.4.–Soit Z et Θ deux variables aléatoires indépendantes de lois respectives exponentielle deparamètre 1 et uniforme sur [0, 2π]. Montrer que les variables aléatoires X =

√Z/2 cos(Θ)

et Y =√Z/2 sin(Θ) sont indépendantes et de même loi normale centrée réduite. En

déduire une méthode de simulation d’une loi gaussienne quelconque.

Exercice 10.5.–Appliquer la méthode du rejet à la loi géométrique. Interpréter le résultat.

Exercice 10.6.–Appliquer la méthode du rejet à la loi bêta.

197

Page 198: Cours de Probabilités - MDI 104–114
Page 199: Cours de Probabilités - MDI 104–114

Annexes

199

Page 200: Cours de Probabilités - MDI 104–114
Page 201: Cours de Probabilités - MDI 104–114

A. Ensembles

A.1. Opérations sur les ensembles

Un événement est décrit comme un sous-ensemble de Ω. Les opérations sur les événements seramènent donc aux opérations habituelles sur les ensembles.

A.1.1. Rappels

SoientA,B, C des ensembles. On rappelle les définitions suivantes.

Définition A.1. Les définitions et notations suivantes sont usuelles.— Le complémentaire de A est défini par Ac = ω ∈ Ω : ω /∈ A. L’événement

Ac est réalisé si et seulement si A ne l’est pas. On a ∅ = Ωc.— L’ union de A et B est définie par A ∪ B = ω ∈ Ω : ω ∈ A ou ω ∈ B.

L’événement A ∪B est réalisé si et seulement si A OU B le sont.— L’ intersection de A et B est définie par A∩B = ω ∈ Ω : ω ∈ A et ω ∈ B.

L’événement A ∩B est réalisé si et seulement si A ET B le sont.— L’ensemble A\B = A∩Bc est appelé « A privé de B ». Il s’agit de l’ensemble

des éléments de A qui n’appartiennent pas à B.— L’ensemble A× B = (a, b) : a ∈ A, b ∈ B est appelé le produit cartésien

de A et de B.— L’ensemble des parties d’un ensemble Ω est noté P(Ω) ou 2Ω.

Proposition A.1. On rappelle les propriétés suivantes.Commutativité : A ∪B = B ∪ A et A ∩B = B ∩ A.Associativité : A ∪ (B ∪ C) = (A ∪B) ∪ C et A ∩ (B ∩ C) = (A ∩B) ∩ C.Distributivité :

(A ∪B) ∩ C = (A ∩ C) ∪ (B ∩ C) et (A ∩B) ∪ C = (A ∪B) ∩ (A ∪ C) .

Lois de Morgan : (A ∪B)c = Ac ∩Bc et (A ∩B)c = Ac ∪Bc .

Deux ensemblesA etB sont dits incompatibles ou disjoints siA∩B = ∅.

201

Page 202: Cours de Probabilités - MDI 104–114

A. Ensembles

A.1.2. Familles d’ensembles

Soit I un ensemble non vide. Soit (Ai)i∈I une famille d’ensembles indexés par I. On appellerespectivement union et intersection de la famille (Ai)i∈I les ensembles :⋃

i∈I

Ai := ω : ∃i ∈ I, ω ∈ Ai⋂i∈I

Ai := ω : ∀i ∈ I, ω ∈ Ai .

Les éléments de la famille (Ai)i∈I sont dits deux à deux disjoints si pour tout i 6= j, Ai etAj sont disjoints.

Proposition A.2. (Distributivité)(⋃i∈I

Ai

)∩B =

⋃i∈I

(Ai ∩B) et(⋂

i∈I

Ai

)∪B =

⋂i∈I

(Ai ∪B) .

(Lois de De Morgan)(⋃i∈I

Ai

)c

=⋂i∈I

Aci et

(⋂i∈I

Ai

)c

=⋃i∈I

Aci .

Le produit cartésien ∏i∈I Ai est défini comme l’ensemble des familles (ai)i∈I où ai ∈

Ai.

Un ensemble I est dit dénombrable s’il est en bijection avec N (citons par exemple N, N?, Zou Q). Il est dit au plus dénombrable (ou parfois discret) s’il est fini ou dénombrable. Unefamille (Ai)i∈I est dite dénombrable si I est dénombrable.

Définition A.2. Une partition d’un ensemble Ω est une famille (Ai)i∈I d’ensemblesdeux à deux disjoints telle que ∪i∈IAi = Ω.

A.1.3. Suites et limites

Une suite d’ensembles (An)n∈N est dite croissante si pour tout n ∈ N, An ⊂ An+1.L’union ⋃

n∈NAn est aussi appelée la limite de la suite croissante An et on la notelimn→∞ An . On utilise la notation An ↑ A pour signifier que (An)n∈N est une suitecroissante et que A = limn→∞ An .

Une suite d’ensembles (An)n∈N est dite décroissante si pour tout n ∈ N, An+1 ⊂ An.L’intersection ⋂

n∈NAn est aussi appelée la limite de la suite décroissante An et on lanote limn→∞ An . On utilise la notation An ↓ A pour signifier que (An)n∈N est une suitedécroissante et que A = limn→∞ An .

Une suite est dite monotone si elle est croissante ou décroissante.

202

Page 203: Cours de Probabilités - MDI 104–114

A.2. Espaces d’états dénombrables

Remarque.– L’annexe B.1 montre que la notion de limite d’une suite d’ensembles peutêtre étendue à une classe plus large que les seules suites monotones. Pour toute suite(An)n on définit lim supn An et lim infn An comme la limite des suites respectivementdécroissantes et croissantes ⋃k≥n Ak et ⋂k≥n Ak . Lorsque lim supn An = lim infn An, onnote cette quantité limn An. On vérifie que dans le cas de suites monotones, cette définitionest bien cohérente avec celle donnée plus haut.

A.2. Espaces d’états dénombrables

Définition A.3. Un ensemble E est dit dénombrable s’il est en bijection avec N,l’ensemble des entiers naturels.Il est dit au plus dénombrable s’il est inclus dans un ensemble dénombrable.

Quelques exemples :

— Les ensembles de cardinal fini sont évidemment au plus dénombrables. Ceci recouvrenon seulement les ensembles de la forme 1, · · · , n mais aussi des produits cartésiensd’ensembles de cette forme ou des ensembles comme celui des permutations sur unensemble à n éléments.

— 2N, l’ensemble des entiers pairs, est dénombrable.— P(N), l’ensemble des parties de N, ne l’est pas. Il est en bijection avec l’ensemble

des réels R. En effet, pour une partie A de N, on peut définir « la suite indicatrice »χA(n) par χA(n) = 1 si n ∈ A,

= 0 sinon.

Puis à cette suite, on peut associer le réel xA défini par :

xA =∞∑

n=12−nχA(n).

Il est évident que P(N) est alors en bijection avec 0, 1N. Etant donné qu’à toutréel entre 0 et 1, on peut associer son développement diadique, il existe une injection[0, 1] dans 0, 1N donc P(N) n’est pas dénombrable.

La dénombrabilité est stable par réunion et produit cartésien.

Théorème A.3. Si E et F sont deux ensembles dénombrables alors E × F etE ∪ F sont des ensembles dénombrables.

Tout est basé sur le résultat essentiel qui stipule de N × N est en bijection avec N. Labijection est construite comme indiquée sur la figure A.1. Par exemple, l’élément (2, 0) estenvoyé sur 3 et l’élément (0, 2) est envoyé sur 5.

203

Page 204: Cours de Probabilités - MDI 104–114

A. Ensembles

N

N

0 1

2

3

45

6

Figure A.1. – Bijection de N × N avec N.

Corollaire A.4. L’ensemble des entiers relatifs, Z, est dénombrable.

Le théorème suivant est loin d’être trivial (cf. [Kut98]).

Théorème A.5. S’il existe une injection de E dans F et une injection de F dansE alors il existe une bijection de E dans F .

Corollaire A.6. L’ensemble des rationnels, Q est dénombrable.

Démonstration. Il existe évidemment une injection de N dans Q et par construction de Q,il existe une injection de Q dans Z × Z, qui d’après le théorème précedent est en bijectionavec N. Par conséquent, Q est en bijection avec N.

204

Page 205: Cours de Probabilités - MDI 104–114

B. Notions utiles d’analyse

B.1. Limite supérieure et limite inférieure

B.1.1. Limite inférieure et limite supérieure d’une suite

La limite inférieure et limite supérieure sont des quantités qu’on définit naturellement pourdes suites réelles. La limite inférieure d’une suite , communément appelée liminf, est saplus petite valeur d’adhérence ; la limite supérieure (limsup) est, elle, sa plus grande valeurd’adhérence. Ces quantités sont toujours définies (elles peuvent néanmoins prendre lesvaleurs ±∞) et c’est là leur intérêt principal. En effet, contrairement à la limite d’une suite,que l’on ne peut pas manipuler a priori (il faut d’abord montrer la convergence de la suite),on peut toujours manipuler la liminf et la limsup. Ces notions s’étendent naturellement àdes suites de fonctions réelles, et à des familles d’ensembles.

Notons R la droite réelle complétée : R = R ∪ −∞,∞.

Définition B.1. La limite inférieure et la limite supérieure d’une suite numérique(un, n ∈ N) sont les éléments de R, notés lim infn→∞ un et lim supn→∞ un et définispar :

lim infn→∞

un = limn→∞

infp≥n

up , lim supn→∞

un = limn→∞

supp≥n

up .

On remarque immédiatement que la limite inférieure (resp. supérieure) d’une suite (un)existe toujours dans R : c’est simplement la limite de la suite croissante αn = infp≥n up

(resp. de la suite décroissante βn = supp≥n up).

On rappelle que ` ∈ R est une valeur d’adhérence de la suite (un) s’il existe une sous-suiteextraite (uφ(n)) de (un) telle que limn→∞ uφ(n) = `

Lemme B.1. La limite inférieure de la suite (un) est sa plus petite valeur d’adhé-rence ; sa limite supérieure est sa plus grande valeur d’adhérence.

Corollaire B.2. Si lim supn→∞ un = lim infn→∞ un = ` ∈ R, alors la suite (un)converge vers `.

205

Page 206: Cours de Probabilités - MDI 104–114

B. Notions utiles d’analyse

B.1.2. Limite supérieure et inférieure d’une suite de fonctions

Etant donnée une suite de fonctions (fn) à valeurs R ou R, on peut définir ses limitesinférieure et supérieure, en posant, à x fixé :

f(x) = lim infn

fn(x) , f(x) = lim supn→∞

fn(x) .

Les fonctions f et f définies ainsi pour chaque x sont naturellement à valeurs R.

B.1.3. Limite supérieure et inférieure d’une famille d’ensembles

Soit (An)n∈N une famille d’ensembles, on définit la limsup et la liminf de la famille (An)n∈Npar :

lim supn An = ⋂n∈N

⋃k≥n Ak

lim infn An = ⋃n∈N

⋂k≥n Ak

Remarque 4 : On interprète facilement la limsup de An comme étant l’ensemble despoints qui appartiennent à une infinité de An. De même, la liminf des An s’interprètecomme l’ensemble des points qui appartiennent à tous les An sauf un nombre fini d’entreeux. On en déduit que lim infn An ⊂ lim supn An.

B.2. Séries

B.2.1. Généralités sur les séries

1. Soit (un, n ≥ 0) une suite numérique et Sn = ∑ni=0 ui la somme partielle à l’ordre

n. La série ∑n≥0 un est dite convergente si la limite S de Sn existe ; cette limite estnotée ∑n≥0 un :

S = limn→∞

Sn =∑n≥0

un .

Le nombre un est appelé terme général de la série et la limite S d’une série conver-gente est appelée sa somme.

2. Le terme général un d’une série convergente tend vers zéro car un = Sn − Sn−1. Laréciproque est fausse : la série de terme général 1

n(défini pour n ≥ 1) diverge, i.e. la

limite de Sn est égale à ∞ car ∑ni=1

1i

≥∫ n

1dtt

= ln(n).3. La série ∑n un est dite absolument convergente si la série ∑n |un| converge.4. Soit ∑n un une série de terme général positif : un ≥ 0. Alors Sn est croissante et sa

limite existe toujours, bien que pouvant être infinie. On la note encore S = ∑n un

mais on ne parlera de série convergente que dans le cas où S < ∞.

206

Page 207: Cours de Probabilités - MDI 104–114

B.3. Convexité

B.2.2. Séries entières - rappels et calculs de sommes

On rappelle qu’étant donnée une suite réelle (un), il existe un nombre R ∈ [0,∞] tel quela série ∑n≥0 unx

n converge absolument si |x| < R et diverge si |x| > R. Le nombre R estappelé rayon de convergence de la série entière ∑n≥0 unx

n ; il est donné par le critère deCauchy :

1R

= lim supn→∞

|un|1/n .

Deux exemples bien connus sont la fonction exponentielle :

exp(x) =∑n≥0

xn

n! , R = ∞ ,

et la série géométrique :1

1 − x=∑n≥0

xn .

La fonction f(x) = ∑n≥0 unx

n définie pour tout x tel que |x| < R est infiniment dérivabledans l’intervalle ] −R,R[ et sa dérivée est donnée par la dérivation terme à terme de lasérie :

f ′(x) =∑n≥1

nunxn−1

Cette propriété permet le calcul des sommes suivantes :

1(1 − x)2 =

∑n≥1

nxn−1 et 1(1 − x)3 =

∑n≥2

n(n− 1)xn−2 .

Ces sommes permettent le calcul de quantités utiles en probabilité :∑n≥0

nxn = x∑n≥1

nxn−1 = x

(1 − x)2 ,∑n≥0

n2xn = x2 ∑n≥2

n(n− 1)xn−2 + x∑n≥1

nxn−1 ,

= 2x2

(1 − x)3 + x

(1 − x)2 = x(x+ 1)(1 − x)3 .

B.3. Convexité

Ce qui suit n’est qu’un tout petit aperçu de la très riche théorie des fonctions convexes. Onpourra se référer aux ouvrages [Roc] ou [ET99] pour plus de détails.

Étant donné un espace vectoriel normé X, on dit qu’un ensemble C ⊂ X est convexesi

∀x, y ∈ C, ∀α, β ≥ 0 : α + β = 1, αx+ βy ∈ C .

207

Page 208: Cours de Probabilités - MDI 104–114

B. Notions utiles d’analyse

Définition B.2. Une fonction d’un ensemble convexe C ⊂ X à valeurs R est diteconvexe si et seulement si la propriété suivante est vérifiée :

∀x, y ∈ C ; ∀α, β ≥ 0, α + β = 1, f(αx+ βy) ≤ αf(x) + βf(y) .

La fonction est dite strictement convexe dès lors que l’inégalité précédente eststricte pour 0 < α < 1 et x 6= y.Une fonction est dite concave si son opposé est convexe ou de manière équivalentesi

∀x, y ∈ C ; ∀α, β ≥ 0, α + β = 1, f(αx+ βy) ≥ αf(x) + βf(y) .

x

f(x) f(x)

x1

f(x1)

x2

f(x2)

x=αx1+(1−α)x2

f(x)

αf(x1)+(1−α)f(x2)

Figure B.1. – Illustration de la propriété de convexité.

Exemple 37.– Les fonctions affine sont convexes (mais non strictement convexes), lesfonctions de la forme f(x) = x2 + ax+ b aussi. Plus généralement, une fonction deux foisdifférentiable est convexe si et seulement si sa dérivée seconde est positive. On en déduitpar exemple que

f(x) = |x|p, pour p > 1, f(x) = x ln(x) − x+ 1, x > 0

sont convexes. Du premier exemple, en appliquant la définition de la convexité pourα = 1/2, on déduit que

|x+ y|p ≤ 2p−1(|x|p + |y|p).

Les fonctions convexes à valeurs réelles ont de bonnes propriétés de régularité, en particulier,elles admettent en tout point une dérivée à gauche et une dérivée à droite :

Lemme B.3. Soit f : R → R une fonction convexe, alors les dérivées

f ′g(x) = lim

u↑x

f(x) − f(u)x− u

et f ′d(x) = lim

v↓x

f(v) − f(x)v − x

existent et vérifient f ′g(x) ≤ f ′

d(x).

208

Page 209: Cours de Probabilités - MDI 104–114

B.3. Convexité

Preuve. Supposons que u < v, alors

f(x) − f(u)x− u

≤ f(v) − f(x)v − x

. (B.1)

Cette inégalité traduit simplement le fait que pour une fonction convexe, le coefficientdirecteur de la droite entre u et x est plus petit que celui entre v et x. On notera que uet v peuvent être du même côté par rapport à x ou de part et d’autre de x. L’idée pourétablir l’inégalité (B.1) est d’exprimer le point intermédiaire comme barycentre des deuxautres. Dans le cas où on a, par exemple, u < x < v, alors

x =(v − x

v − u

)u+

(x− u

v − u

)v ⇒ f(x) ≤

(v − x

v − u

)f(u) +

(x− u

v − u

)f(v) ,

ce qui entraîne immédiatement (B.1)en notant que

f(x) =(v − x

v − u

)f(x) +

(x− u

v − u

)f(x) ;

les cas x < u < v et u < v < x se traitent de la même manière.

Considérons maintenant u < x < v, alors le ratio f(x)−f(u)x−u

est croissant lorsque u ↑ x etmajoré par f(v)−f(x)

v−xpour tout v > x. Par suite la limite

f ′g(x) = lim

u↑x

f(x) − f(u)x− u

existe. Le même raisonnement s’adapte pour f ′d(x), et l’inégalité entre les deux dérivées s’ob-

tient immédiatement comme passage à la limite dans (B.1).

Une propriété des fonctions convexes définies sur R est particulièrement utile. Pourl’exprimer, introduisons la famille de fonctions affines (∆a,b; a, b ∈ R) définies par ∆a,b(x) =ax + b et considérons les fonctions affines (les droites) qui minorent f : ∆a,b ≤ f , i.e.∆a,b(x) ≤ f(x) pour tout x réel.

Lemme B.4. Soit f : R → R une fonction convexe, alors

f(x) = sup ∆a,b(x), ∆a,b ≤ f .

Autrement dit, f est en chaque point le suprémum de l’ensemble des droites, évaluées ence point, qui minorent f .

Preuve. Considérons maintenant la fonction affine ∆(y) = a(y − x) + f(x) avec f ′g(x) ≤

a ≤ f ′d(x). On a ∆(x) = f(x), reste à vérifier que ∆ ≤ f : cela concluera la preuve du

lemme. Si y > x, alors f(y)−f(x)y−x

≥ f ′d(x) ≥ a et ∆(y) ≤ f(y) ; un raisonnement similaire

s’applique dans le cas où y < x.

Du point de vue de l’optimisation, les fonctions convexes ont une propriété particulièrementintéressante.

209

Page 210: Cours de Probabilités - MDI 104–114

B. Notions utiles d’analyse

Théorème B.5. Soit f une fonction convexe, continue, à valeurs dans R et soitC un ensemble convexe. Si l’une des deux conditions suivantes est vérifiée :

— L’ensemble C est borné,— La fonction f est coercive :

‖x‖ → ∞ =⇒ f(x) → +∞,

alors f admet au moins un minimum global sur C. Si f est strictement convexe surC alors ce minimum est unique.

210

Page 211: Cours de Probabilités - MDI 104–114

Bibliographie

[Bil95] P. Billingsley, Probability and measure, Wiley Series in Probability and Mathe-matical Statistics, John Wiley, 1995.

[ET99] I. Ekeland and R. Témam, Convex analysis and variational problems, englished., Classics in Applied Mathematics, vol. 28, Society for Industrial and AppliedMathematics (SIAM), Philadelphia, PA, 1999, Translated from the French. MR1727362 (2000j:49001)

[Kal98] Olav Kallenberg, Foundations of modern probability, Springer-Verlag, 1998.[Kut98] K. Kuttler, Modern analysis, Studies in Advanced Mathematics, CRC Press,

1998 (English).[Oxt80] J. C. Oxtoby, Measure and category, second ed., Graduate Texts in Mathematics,

vol. 2, Springer-Verlag, New York, 1980, A survey of the analogies betweentopological and measure spaces. MR MR584443 (81j:28003)

[Roc] R.Tyrrell Rockafellar, Convex analysis, Princeton Landmarks in Mathematics.[Rud95] W. Rudin, Principes d’analyse mathématique, Dunod, 1995, Traduit de l’anglais

par G. Auliac.

211