Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La...

149
Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINE Olivier GARET Probabilités et Statistiques

Transcript of Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La...

Page 1: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Année universitaire 2019-2020

UNIVERSITÉ DE LORRAINE

Olivier GARET

Probabilités et Statistiques

Page 2: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

2

Page 3: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Introduction

Le cours contenu dans le présent polycopié reproduit pour l’essentiel(dans les sept premiers chapitres) le contenu de divers enseignements deLicence que j’ai donnés à Orléans, puis à Nancy. Le chapitre 8 reproduit lecours de statistique donné par Aline Kurtzmann dans le cadre de la prépa-ration à l’agrégation de mathématiques.

Le cours de ce polycopié a été un des ingrédients de base de l’ouvrage« De l’Intégration aux Probabilités » [3], que j’ai écrit avec Aline Kurtzmannet que nous avons publié aux éditions Ellipses. Vous êtes invités à vous yreporter pour compléter votre culture.

À la fin de chaque chapitre, le présent polycopié contient des exercicesqui serviront de base aux travaux dirigés du cours. À la fin du polycopié, ontrouve des indications pour chaque exercice. Il est recommandé de ne s’yreporter qu’après avoir un peu cherché.

Les exercices de la première série sont, pour la plupart, ceux dont unecorrection est proposée dans Garet-Kurtzmann. Cela ne veut pas dire que lesautres exercices ne méritent pas votre attention !

i

Page 4: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

ii

Page 5: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Table des matières

Table des matières iii

Notations vii

1 Calcul de lois 11.1 Prologue : les mathématiques, la modélisation . . . . . . . . . 1

Les erreurs courantes . . . . . . . . . . . . . . . . . . . 11.2 Qu’est-ce qu’une loi ? . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2 Importance de la notion de mesure image . . . . . . . 4

Une loi image : la loi hypergéométrique . . . . . . . . 41.2.3 Douce loi des couples et indépendance . . . . . . . . . 5

1.3 Identifier une loi . . . . . . . . . . . . . . . . . . . . . . . . . 51.3.1 Un outil universel : la fonction test . . . . . . . . . . . 51.3.2 Le cas discret . . . . . . . . . . . . . . . . . . . . . . . 61.3.3 Le cas continu . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Transformations . . . . . . . . . . . . . . . . . . . . . . . . . 81.4.1 Le cas discret . . . . . . . . . . . . . . . . . . . . . . . 81.4.2 Le cas continu . . . . . . . . . . . . . . . . . . . . . . . 8

Changement de variables C1 . . . . . . . . . . . . . . 8Application : calcul de l’intégrale de Gauss . . . . . . . 8Application : mesure image par un C1-difféomorphisme 9

1.5 Les lois uniformes . . . . . . . . . . . . . . . . . . . . . . . . . 111.5.1 Loi uniforme sur un ensemble fini . . . . . . . . . . . . 11

Produit . . . . . . . . . . . . . . . . . . . . . . . . . . 11Conditionnement . . . . . . . . . . . . . . . . . . . . . 11

1.5.2 Loi uniforme sur un compact de Rd . . . . . . . . . . . 12Produit . . . . . . . . . . . . . . . . . . . . . . . . . . 12Conditionnement . . . . . . . . . . . . . . . . . . . . . 12

1.5.3 Application . . . . . . . . . . . . . . . . . . . . . . . . 121.5.4 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 131.5.5 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 15

2 Espaces Lp et Lp 172.1 De Lp à Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.1.1 Inégalité de Hölder . . . . . . . . . . . . . . . . . . . . 172.1.2 Inégalité triangulaire (ou inégalité de Minkowski) . . 18

2.2 Complétude de Lp . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Théorèmes d’approximation . . . . . . . . . . . . . . . . . . . 242.4 Exercices sur les espaces Lp . . . . . . . . . . . . . . . . . . . 24

2.4.1 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 242.4.2 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 26

iii

Page 6: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

TABLE DES MATIÈRES

3 Convolution et Fourier 293.1 Produit de convolution . . . . . . . . . . . . . . . . . . . . . . 29

3.1.1 Convolution dans L1 . . . . . . . . . . . . . . . . . . . 303.1.2 Autres produits . . . . . . . . . . . . . . . . . . . . . . 313.1.3 Approximations de l’unité . . . . . . . . . . . . . . . . 323.1.4 Régularisation . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Transformée de Fourier . . . . . . . . . . . . . . . . . . . . . . 343.2.1 Propriétés élémentaires . . . . . . . . . . . . . . . . . 343.2.2 Théorème d’inversion . . . . . . . . . . . . . . . . . . 35

3.3 Exercices sur la transformation de Fourier . . . . . . . . . . . 363.3.1 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 363.3.2 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 37

4 Fonction caractéristique 394.1 Fonction génératrice d’une variable entière . . . . . . . . . . . 39

4.1.1 Fonction génératrice et indépendance . . . . . . . . . 394.1.2 Calculs de fonctions génératrices . . . . . . . . . . . . 40

Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . 40Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . 40Loi géométrique de paramètre p ∈]0, 1[ . . . . . . . . . 40Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . 40

4.1.3 Fonction génératrice et loi . . . . . . . . . . . . . . . . 404.1.4 Application : convolution de lois de Poisson . . . . . . 414.1.5 Fonction génératrice et espérance . . . . . . . . . . . . 41

4.2 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . 424.2.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . 424.2.2 Propriétés des fonctions caractéristiques . . . . . . . . 444.2.3 Fonction caractéristique et indépendance . . . . . . . . 454.2.4 Fonction caractéristique et moments . . . . . . . . . . 464.2.5 Fonctions caractéristiques des variables aléatoires à

valeurs dans N . . . . . . . . . . . . . . . . . . . . . . 474.2.6 Quelques fonctions caractéristiques de mesures à den-

sité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Loi uniforme sur [a, b] . . . . . . . . . . . . . . . . . . 48Loi exponentielle de paramètre λ . . . . . . . . . . . . 48Variable aléatoire gaussienne . . . . . . . . . . . . . . 48Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . 50

4.3 Transformée de Laplace . . . . . . . . . . . . . . . . . . . . . 514.4 Exercices sur les fonctions caractéristiques . . . . . . . . . . . 52

4.4.1 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 524.4.2 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 54

5 Lois des grands nombres 575.1 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . 57

5.1.1 Rappels d’analyse . . . . . . . . . . . . . . . . . . . . . 575.1.2 Limites supérieures, inférieures d’ensembles . . . . . . 58

5.2 Convergence en probabilité . . . . . . . . . . . . . . . . . . . 595.2.1 Comparaison avec les autres modes de convergence . . 59

Convergence dans Lp et convergence en probabilité . . 59Convergence presque sûre et convergence en probabilité 60

5.2.2 Loi faible des grands nombres . . . . . . . . . . . . . . 605.3 Lemmes de Borel-Cantelli . . . . . . . . . . . . . . . . . . . . 61

iv

Page 7: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

TABLE DES MATIÈRES

5.3.1 Premier lemme de Borel–Cantelli . . . . . . . . . . . . 615.3.2 Deuxième lemme de Borel-Cantelli . . . . . . . . . . . 62

5.4 Lois fortes des grands nombres . . . . . . . . . . . . . . . . . 645.4.1 Deux lois fortes des grands nombres . . . . . . . . . . 645.4.2 Probabilités et fréquences asymptotiques . . . . . . . . 665.4.3 Exercice : une preuve de la loi forte des grands nombres 66

5.5 Exercices sur la convergence presque sûre . . . . . . . . . . . 705.5.1 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 705.5.2 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 75

6 Convergence en loi 776.1 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . 77

6.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 776.1.2 Premiers exemples . . . . . . . . . . . . . . . . . . . . 78

Un critère de convergence en loi . . . . . . . . . . . . 78Convergence de la loi binomiale vers la loi de Poisson 79Convergence de la loi hypergéométrique vers la loi bi-

nomiale . . . . . . . . . . . . . . . . . . . . . 796.1.3 Théorème de Portmanteau . . . . . . . . . . . . . . . . 806.1.4 Lien avec les autres modes de convergence . . . . . . . 84

6.2 Convergence et fonctions caractéristiques . . . . . . . . . . . 866.2.1 Critère de convergence . . . . . . . . . . . . . . . . . . 866.2.2 Théorème de continuité de Lévy . . . . . . . . . . . . 866.2.3 Une application du théorème de Lévy . . . . . . . . . . 87

6.3 Théorème central limite en dimension 1 . . . . . . . . . . . . 876.4 Exercices sur la convergence en loi . . . . . . . . . . . . . . . 89

6.4.1 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 896.4.2 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 92

7 Statistique 957.1 Estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.1.1 Lois empiriques . . . . . . . . . . . . . . . . . . . . . . 977.1.2 Théorème de Glivenko–Cantelli . . . . . . . . . . . . . 987.1.3 Choix d’un estimateur . . . . . . . . . . . . . . . . . . 100

7.2 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . 1037.3 Tests d’hypothèses . . . . . . . . . . . . . . . . . . . . . . . . 1047.4 Exercices de statistiques . . . . . . . . . . . . . . . . . . . . . 105

7.4.1 Exercices de la série 1 . . . . . . . . . . . . . . . . . . 1057.4.2 Exercices de la série 2 . . . . . . . . . . . . . . . . . . 106

A Rappels de dénombrement 107A.1 Rappels de vocabulaire ensembliste . . . . . . . . . . . . . . . 107A.2 Applications et cardinaux : définitions et notations . . . . . . 107A.3 Principes de base du dénombrement . . . . . . . . . . . . . . 108

A.3.1 Principe de bijection . . . . . . . . . . . . . . . . . . . 108A.3.2 Principe d’indépendance . . . . . . . . . . . . . . . . . 108A.3.3 Principe de partition . . . . . . . . . . . . . . . . . . . 109A.3.4 Lemme des bergers . . . . . . . . . . . . . . . . . . . . 109

A.4 Quelques résultats incontournables . . . . . . . . . . . . . . . 110A.4.1 Nombre d’applications de D dans A . . . . . . . . . . 110A.4.2 Nombre de permutations de Ω . . . . . . . . . . . . . 110A.4.3 Nombre d’injections de D dans A . . . . . . . . . . . . 110A.4.4 Nombre de parties de Ω possédant p éléments . . . . . 111

v

Page 8: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

TABLE DES MATIÈRES

A.4.5 Nombre total de parties de Ω . . . . . . . . . . . . . . 111A.5 Équations et inéquations en entiers . . . . . . . . . . . . . . . 112A.6 Formule de Poincaré (aussi appelée formule du crible) . . . . 113A.7 Développement d’un produit de sommes . . . . . . . . . . . . 113

A.7.1 Développement d’un produit dans un anneau . . . . . 113A.7.2 Formule du multinôme . . . . . . . . . . . . . . . . . . 114

Calcul des coefficients du multinôme . . . . . . . . . . 114A.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

B Rappels et compléments d’analyse 115B.1 Analyse réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

B.1.1 Le théorème de Dini-Polyà . . . . . . . . . . . . . . . . 115B.1.2 Théorème de Helly . . . . . . . . . . . . . . . . . . . . 115

B.2 Intégration . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116B.2.1 Holomorphie d’une intégrale dépendant d’un paramètre116B.2.2 Intégration des fonctions radiales . . . . . . . . . . . . 117

B.3 Régularité des mesures . . . . . . . . . . . . . . . . . . . . . . 119

C Indications des exercices 123C.1 Exercices sur les calculs de loi . . . . . . . . . . . . . . . . . . 123C.2 Exercices sur les espaces Lp . . . . . . . . . . . . . . . . . . . 125C.3 Exercices sur la convolution et Fourier . . . . . . . . . . . . . 126C.4 Exercices sur les fonctions caractéristiques . . . . . . . . . . . 127C.5 Exercices sur la convergence presque sûre . . . . . . . . . . . 129C.6 Exercices sur la convergence en loi . . . . . . . . . . . . . . . 131C.7 Exercices sur les statistiques . . . . . . . . . . . . . . . . . . . 133

D Tables 135

Bibliographie 137

Index 138

vi

Page 9: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Notations

Card(A) ou |A| : cardinal de l’ensemble AS(A) : ensemble des permutations de ASn : ensemble des permutations de 1, . . . , nBp(A) : ensembles des parties de A avec p élémentsP(A) : ensemble des parties de AM∗ : matrice transconjuguée de MMn(K) : ensemble des matrices n× n sur le corps Kbxc : partie entière inférieure de x (bπc = b3c = 3)dxe : partie entière supérieure de x (dπe = d4e = 4)x : partie fractionnaire de x : x = x− bxcn ∧ p : plus grand commun diviseur (p.g.c.d.) des entiers n et px ∧ y : minimum des réels x et yx ∨ y : maximum des réels x et y〈·, ·〉 : produit scalaireB(X) : tribu borélienne de XV(A,A) : les applications mesurables de (A,A) dans (R,B(R))V(A,A) : les applications mesurables de (A,A) dans (R,B(R))V+(A,A) : les applications mesurables de (A,A) dans (R+,B(R+))δx : mesure de Dirac au point xBer(p) : loi de Bernoulli de paramètre pB(n, p) : loi binomiale de paramètres n et pP(λ) : loi de Poisson de paramètre λE(λ) : loi exponentielle de paramètre λN (m,σ2) : loi normale de moyenne m et de variance σ2

G(p) : loi géométrique de paramètre pΓ(a, γ) : loi Gamma de paramètre de forme a, de paramètre d’échelle γU([a, b]) : loi uniforme sur le segment [a, b]U(a, . . . , b) : loi uniforme sur l’ensemble fini a, . . . , bC(a, b) : loi de Cauchy de paramètres a et bXn =⇒ X : (Xn) converge en loi vers X

XnP−−→ X : (Xn) converge en probabilité vers X

Xnp.s.−−−→ X : (Xn) converge presque sûrement vers X

i.s. : infiniment souvent ; pour une infinité de valeursp.s. : presque sûrement (avec probabilité 1)p.p. : presque partout (sauf sur un ensemble de mesure nulle)

Page 10: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

NOTATIONS

viii

Page 11: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 1

Calcul de lois

Ce premier chapitre introduit peu de notions théoriques nouvelles. Ilvise essentiellement à voir comment pratiquer efficacement les techniquesde calcul de loi introduites au premier semestre.

1.1 Prologue : les mathématiques, la modélisation

La théorie des probabilités, comme une grande partie des mathéma-tiques, a pour origine des questionnements sur des problèmes issus de la vieréelle. Il convient aujourd’hui de bien faire la différence entre la modélisa-tion, qui est la construction d’une représentation du monde réel par des ob-jets mathématiques, et le calcul des probabilités proprement dit. On trouveencore de nombreux textes mathématiques qui entretiennent la confusionentre ces deux étapes. Cette confusion induit souvent les étudiants en er-reur et est source de déconvenues pour les usagers des probabilités qui enattendent des miracles.

La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous bien : le jardinage, ce n’est pas non plus des mathématiques, etle dire n’est pas dénigrer le jardinage. La phrase est à entendre dans uncontexte de mathématiciens, pour lesquels faire des mathématiques, c’estfaire des démonstrations. Ainsi la phase de modélisation est caractériséepar le fait que

— On fait des hypothèses. Ces hypothèses sont souvent guidées par lebon sens et l’expérience empirique. Cette expérience peut excéder (etparfois de beaucoup) la culture générale d’un mathématicien.

— On ne fait pas de preuves.Ainsi, on ne peut pas démontrer que les observations d’une suite de lancersd’une pièce non truquée sont des variables aléatoires indépendantes valant“pile” ou “face” avec une même probabilité. Cependant, l’expérience nous aappris que “tout ce passe comme si” et que des choix basés sur cette hypo-thèse n’avaient pas eu de conséquence fâcheuse.

Les erreurs courantes

Usage inapproprié de la loi uniforme L’erreur la plus courante consiste àfaire trop d’hypothèses, qui ne sont pas basées sur l’expérience. Un exempleclassique est l’étude de la loi de la somme de deux dés à six faces. Une erreurcourante consiste à remarquer que les valeurs possibles vont de 2 à 12, et en

1

Page 12: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

induire que la loi de la somme est la loi uniforme sur l’ensemble 2, . . . , 12.Essayons d’analyser cette erreur.

D’abord, notons que l’emploi de la loi uniforme est naturel, et sembleplein de bon sens dès lors que le phénomène que l’on étudie présente d’im-portantes symétries. Par exemple, il est tout à fait raisonnable de penser quesi on lance une pièce, les deux côtés ont même probabilité de tomber. Demême si on lance un dé qui à la forme d’un tétraèdre régulier ou d’un cube,l’hypothèse d’équiprobabilité est raisonnable.

En revanche, la somme de deux dés est un phénomène qui manque desymétrie, par exemple parce que 2 ne peut s’obtenir que comme somme dedeux 1 et que 7 peut s’obtenir de 6 manières différentes.

S’écarter de la réalité Cet exemple est également typique du danger qu’ily a à s’écarter de la réalité physique directement observée pour courir àl’aspect particulier de l’aspect que l’on veut étudier. Ici, la réalité physiqueest l’observation de deux nombres indiqués sur les dés. Si l’on s’en tient àcette observation, on peut postuler que les 6×6 = 36 observations possiblesont la même probabilité. Ce postulat conduira à des calculs qui donnerontle résultat raisonnable pour la loi de la somme, le même que l’on obtient sil’on suppose que les résultats des deux dés sont indépendants et suivent laloi uniforme sur 1, . . . , 6.

Toujours dans le cadre de l’expérience aléatoire d’un lancer de deux dés,une autre erreur classique est d’oublier que les deux dés sont des objetsque l’on peut observer séparément, d’identifier les résultats symétriques (1–5 et 5–1 par exemple) et de postuler que les 21 résultats possibles sontéquiprobables. Dans ce genre de problème, il ne faut jamais perdre de vueque, si on veut construire une modélisation probabiliste qui puisse rendrecompte (autant que faire se peut) de la réalité observée, il faut choisir unereprésentation qui puisse tirer parti de ce que la vie nous a appris. Si onreprésente le lancer comme un couple non ordonné, l’expérience (la vie) nenous a rien appris du tout, c’est d’ailleurs ce qui justifie que l’on confie lesoin au probabiliste de nous éclairer sur les chances des différentes issues.

Le choix des mots À la décharge des élèves et des étudiants qui font cegenre d’erreur, il faut reconnaître qu’un certain nombre de formulations co-difiées que l’on trouve dans les manuels sont assez pousse-au-crime : ainside nombreux textes parlent de dés indiscernables, ce qui incite à une modé-lisation qui ne fait pas la différence entre les deux dés. Or, s’il est bien vraique je ne peux pas faire la différence entre les deux dés lorsque je les sorsde la boîte, il n’en demeure pas moins que ce sont bien deux objets distincts,ce dont une modélisation efficace tiendra compte.

Notons aussi qu’il y a, dans le cadre des problèmes discrets, un trèsancien cousinage entre les problèmes de probabilités et les problèmes dedénombrement. Dans le cas où la probabilité mise sur l’espace est une loiuniforme, le calcul des probabilités peut se réduire à un problème de dé-nombrement. Encore faut-il que l’espace Ω des possibles ait été choisi detelle sorte que la probabilité uniforme rende compte de la réalité. Encoreune fois, l’observation de la réalité pèse sur le choix du modèle.

Dans le cadre de la description du problème et du modèle, une sourced’erreur assez fréquente est l’utilisation de termes mathématiques, qui ontun sens précis, dans le cadre informel de la description de l’expérience. Onlit par exemple dans le sujet du capes externe 2014 :

2

Page 13: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.2 Qu’est-ce qu’une loi ?

« Soient n ∈ N∗ et N ∈ N∗. On dispose de N urnes U1,. . .,UN conte-nant des boules rouges et des boules blanches et telles que, pour tout j ∈1, . . . , N , la proportion de boules rouges dans Uj est j/N . On choisit uneurne au hasard et on effectue dans cette urne n tirages indépendants d’uneboule avec remise. »

Une erreur relativement fréquente est de prendre l’énoncé au pied dela lettre est de penser que les variables aléatoires X1, . . . , Xn représentantles n tirages sont des variables indépendantes. Elles ne le sont évidemmentpas : si je tire successivement 999 boules rouges, il y a fort à parier que jesuis en train de piocher une urne contenant beaucoup de boules rouges, etdonc que j’en tirerai encore une la millième fois.

Ici, l’énoncé, en même temps qu’il décrit l’expérience physique, donneune petite indication sur la modélisation. En réalité, les tirages sont indé-pendants conditionnellement au tirage de l’urne : si on note 0 les boulesblanches et 1 les boules rouges, on a pour tout (x1, . . . , xn) ∈ 0, 1n et toutj ∈ 1, . . . , N :

P(X1 = x1, . . . , Xn = n|U = j) = (j/N)∑xi(1−j/N)n−

∑xi =

n∏i=1

P(Xi = xi|U = j).

Pour terminer ces remarques sur la modélisation, enfonçons le clou : iln’est pas possible de “montrer que” des lancers de dés sont indépendants,même si on trouve encore parfois des énoncés qui perpétuent cet abus delangage. Il faut donc les interpréter comme “donner des arguments heu-ristiques qui permettent de penser que”, même s’il n’existe le plus souventd’autre réponse possible qu ’“il est raisonnable de faire l’hypothèse que”.

Le calcul des probabilités : des mathématiques Une fois qu’est défini lemodèle, les lois des variables aléatoires, le lien à la vie réelle devient plusténu, on peut même l’oublier puisqu’on travaille avec des objets mathéma-tiques idéaux parfaitement définis. Cependant, ce lien avec le réel pourratout de même guider l’intuition vers la formation de conjectures.

1.2 Qu’est-ce qu’une loi ?

1.2.1 Rappels

Définition. Soit (Ω,F) un espace mesurable. On appelle variable aléatoiretoute application mesurable de (Ω,F) dans (R,B(R)), où B(R) est la tribuborélienne de R. De même, on appelle vecteur aléatoire toute application me-surable de (Ω,F) dans (Rd,B(Rd)), où B(Rd) est la tribu borélienne de Rd.

On appelle loi d’une variable aléatoire (ou d’un vecteur aléatoire) X définiesur (Ω,F ,P) la mesure image de P par X. Cette loi est notée PX . Dans cecontexte, où P est une mesure de probabilité, rappelons que cette loi image estune mesure de probabilité sur (R,B(R)) définie par

∀A ∈ B(R) PX(A) = P(X−1(A)).

Par définition, X−1(A) = ω ∈ Ω;X(ω) ∈ A.

Afin de simplifier les notations, on écrit toujours X ∈ A à la place deX−1(A). Ainsi, on écrit le plus souvent P(X ∈ A) et même P(X ∈ A)pour désigner PX(A). Dans le cas d’une variable aléatoire réelle, on utilise

3

Page 14: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

souvent A = x ou A =] −∞, x], etc. De plus, l’événement X−1(x) estnoté X = x, l’événement X−1(]−∞, x]) est noté X ≤ x, etc.

Le but de ce chapitre est de permettre à l’apprenti probabiliste de ré-pondre à l’angoissante question : comment calculer la loi de X ?

1.2.2 Importance de la notion de mesure image

Une nouveauté du cours de L3 par rapport à un cours de lycée où de L2,c’est que la loi d’une variable aléatoire apparaît maintenant comme une loiimage, ou une mesure image. De fait, le calcul d’une loi est toujours, d’unemanière où d’une autre un calcul de loi image.

Théorème 1.1. Soit µ une mesure de probabilité sur Rn, ν une mesure de pro-babilité sur Rp, φ une application mesurable de Rn dans Rp. On a équivalenceentre :

— ν est la mesure image de µ par φ— Si X et Y sont des variables aléatoires sur (Ω,F ,P) avec PX = µ et

Y = φ(X), alors PY = ν.

Démonstration. Soit A borélien de Rp :

PY (A) = P(Y −1(A)) = P((φ X)−1(A))

= P(X−1(φ−1(A)) = PX(φ−1(A)) = µ(φ−1(A)) = µφ(A)

Ainsi, un calcul de loi est toujours d’une manière ou d’une autre un calculde mesure image.

Il faut noter qu’un certain nombre de lois sont, par définition, des loisimages. Par exemple, la loi binomiale B(n, p) est la loi image de Ber(p)⊗n

par (x1, . . . , xn) 7→ x1 + · · ·+ xn. Une autre loi, un peu moins classique, estla loi hypergéométrique

Une loi image : la loi hypergéométrique

La loi hypergéométriqueH(N,n, k) modélise le phénomène suivant. Soitune population deN individus, composée de deux types distincts (par exempleon a n individus de taille supérieure ou égale à 1,80 m, et N − n individusmesurant moins de 1,80 m). On tire au hasard k individus dans cette popu-lation. On compte ensuite le nombre d’individus possédant un certain type(par exemple mesurant plus de 1,80 m).

De manière théorique, cela s’énonce comme suit.

Proposition 1.2. On note B(N, k) est l’ensemble des parties de 1, . . . , Nde cardinal k. La loi hypergéométrique est la loi image de la loi uniforme surΩ = B(N, k) par l’application

X : B(N, k) → Nω 7→ X(ω) = |1, . . . , n ∩ ω|.

Ainsi, pour i ∈ 0, . . . ,min(n, k), on a

P(X = i) = H(N,n, k)(i) =

(ni

)(N−nk−i)(

Nk

) .

4

Page 15: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.3 Identifier une loi

Démonstration. Notons P la loi uniforme sur Ω. On a

H(N,n, k)(i) = P(ω ∈ S),

où S = ω ∈ B(N, k); |1, . . . , n ∩ ω| = i. L’application

B(1, . . . , n, i)× B(n+ 1, . . . , N, k − i) → S

(A,B) 7→ A ∪B

est une bijection, donc

|S| = |B(1, . . . , n, i)× B(n+ 1, . . . , N, k − i)| =(n

i

)(N − nk − i

).

Comme P est la loi uniforme sur Ω, et |Ω| =(Nk

), le résultat s’ensuit.

Il faut retenir qu’une méthode très efficace pour montrer que deux va-riables aléatoires ont la même loi est de les représenter comme la loi imagede deux vecteurs de même loi par une même application.

Exemple : soient X,Y, Z trois variables aléatoires indépendantes suivantla loi exponentielle de paramètre 1. Alors X/Y et Y/Z ont même loi.

En effet la loi de (X/Y ) est la loi image de P(X,Y ) par (x, y) 7→ x/yla loi de (Y/Z) est la loi image de P(Y,Z) par (x, y) 7→ x/y. Or P(X,Y ) =E(1)⊗ E(1) = P(Y,Z), d’où le résultat.

1.2.3 Douce loi des couples et indépendance

On sait que X et Y sont indépendants sous P si et seulement si P(X,Y ) =PX ⊗ PY .

L’égalité est utile dans les deux sens : dans l’exemple précédent, l’hypo-thèse d’indépendance jointe à la connaissance des marginales nous a permisd’obtenir la loi d’un couple. C’est également utile dans l’autre sens : il estparfois plus facile de calculer la loi du couple (X,Y ) que de chercher sépa-rément les lois de X et Y .

Exemple : soient (An)n≥1 des variables aléatoires suivant la loi de Ber-noulli de paramètre p. On pose

X = infn ≥ 1;An = 1 et Y = infn ≥ 1;AX+n = 1.

La loi de X est immédiate : c’est la loi géométrique de paramètre p. Le calculdirect de la loi de Y ne semble pas facile, mais le calcul de la loi du couple(X,Y ) est assez simple : si n et ` sont des entiers naturels non nuls, on a

P(X = n, Y = `)

= P(A1 = 0, . . . , An−1 = 0, An = 1, An+1 = 0, . . . , An+`−1 = 0, An+` = 1)

= (1− p)n−1p(1− p)`−1p = (G(p)⊗ G(p))(n, `),

donc X et Y sont indépendantes et suivent la loi géométrique de para-mètre p.

1.3 Identifier une loi

1.3.1 Un outil universel : la fonction test

On se souvient que les intégrales caractérisent les mesures.

5

Page 16: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

Théorème 1.3. Soit µ et ν deux mesures sur (Rd,B(Rd)) qui donnent cha-cune une masse finie aux compacts de Rd. On suppose que pour toute fonctioncontinue à support compact f , on a

∫Rd f dµ =

∫Rd f dν. Alors µ = ν.

Démonstration. Les compacts de Rd forment un π-système qui engendre latribu borélienne de Rd (par exemple car les pavés ouverts s’écrivent commeréunion dénombrable de pavés compacts), donc il suffit de montrer que µet ν coïncident sur les compacts. Soit fn la fonction de R+ dans R+ dé-finie par fn(x) = (1 − nx)+. f est continue, vaut 1 en 0 et est nulle sur[1/n,+∞[. Soit K un compact de Rd, et posons gn(x) = fn(d(x,K)), oùd(x,K) = infd(x, y); y ∈ K. gn est continue, comme composition d’ap-plication continues, et converge simplement vers l’indicatrice de K. Comme|gn| ≤ 1K+B(0,1) qui est intégrable par rapport à µ et ν, le théorème deconvergence dominée dit que

∫Rd gn dµ converge vers

∫Rd 1K dµ = µ(K) et∫

Rd gn dν vers∫Rd 1K dν = ν(K). Vu l’hypothèse faite,

∫Rd gn dµ =

∫Rd gn dν

pour tout n, donc µ(K) = ν(K). Comme µ et ν coïncident sur les compacts,on a donc bien µ = ν.

Corollaire 1.4. Un vecteur aléatoire (une variable aléatoire) X suit la loi µsur Rd (R) si et seulement si toute fonction continue à support compact φ, ona E[φ(X)] =

∫Rd φ dµ.

Démonstration. D’après le théorème de transfert, Eφ(X) =∫φ(x) dPX(x)

et on applique le théorème précédent.

L’usage du corollaire précédent est souvent appelé technique de la fonc-tion test. C’est un outil commode d’identification d’une loi qui est universel,mais qui n’est pas toujours le plus rapide. Il est très efficace dans le cas deloi “hybrides”, ayant à la fois une composante discrète est une composantecontinue.

Exemple : soitX une variable suivant la loi uniforme sur [−1, 1]. Calculerla loi de Y = max(0, X).

On a φ(Y ) = φ(0)1X<0 + φ(X)1X≥0, donc

Eφ(Y ) = E(φ(0)1X<0) + E(φ(X)1X≥0)

= φ(0)P(X < 0) +1

2

∫[−1,1]

φ(x)1x≥0) dλ(x)

=1

2φ(0) +

1

2

∫[0,1]

φ(x) dλ(x)

On reconnait là l’intégrale de φ par rapport à la mesure 12δ0 + 1

2λ[0,1].

1.3.2 Le cas discret

Rappelons qu’une variable (un vecteur) aléatoire X est discret si il existeD dénombrable avec P(X ∈ D) = 1.

Dans le cas d’une variable aléatoire discrète (ou d’un vecteur discret),identifier la loi revient basiquement à

— identifier les valeurs possibles— calculer les probabilités des différentes valeurs.

En effet, une loi discrète est complètement caractérisée dès lors que l’onconnaît les masses des singletons.

Cette méthode est universelle, toutefois elle n’est pas toujours la plusrapide, en particulier lorsque la loi à identifier est une loi classique.

6

Page 17: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.3 Identifier une loi

1.3.3 Le cas continu

La fonction de répartition de la variable aléatoire réelle X, définie par

FX(t) = PX(]∞, t]) = P(X ≤ t)

ractérise sa loi. C’est une conséquence du théorème suivant :

Théorème 1.5 (Critère d’identification d’une mesure σ-finie). Soient P et Qdeux mesures sur (Ω,F). On suppose qu’il existe un π-système C qui engendreF (σ(C) = F) et sur lequel P et Q coïncident, c’est-à-dire que

∀A ∈ C P(A) = Q(A),

et qu’il existe une famille croissante Ωn d’éléments de C avec Ω =+∞∪n=1

Ωn et

P(Ωn) < +∞ pour tout n. Alors P = Q.

Démonstration. Voir Garet–Kurtzmann.

On va voir comment la fonction de répartition permet parfois de retrou-ver la loi d’une variable aléatoire réelle.

Théorème 1.6. Soit F la fonction de répartition associée à la loi µ. On supposeque F est de classe C1 par morceaux, avec les points de discontinuité a1, . . . , an.Alors µ se décompose en la somme d’une partie à densité, f qui est la dérivée

de F là où F est dérivable, et d’une partie discrète qui est ν =n∑i=1

µ(ai)δai .

Démonstration. On doit montrer que pour tout t ∈ R,

F (t) =

∫]−∞,t]

f(x) dλ(x) + ν(]−∞, t]).

Soient T < t < a1. D’après le théorème fondamental de l’analyse,

F (t)− F (T ) =

∫ t

Tf(x) dx =

∫]T,t]

f(x) dλ(x).

En faisant tendre T vers −∞, on obtient à gauche F (t) et à droite∫]−∞,t] f(x) dλ(x) avec le théorème de convergence monotone. (H0) est

donc vraie, où l’on note

(Hi) ∀t < ai, F (t) =

∫]−∞,t]

f(x) dλ(x)+∑j<i

µ(aj).

Il suffit alors de montrer que (Hi) =⇒ (Hi+1) pour conclure. On a

F (ai) = µ(ai) + limt→a−i

F (t) =

∫]−∞,ai]

f(x) dλ(x) +∑j<i

µ(aj) + µ(ai)

Soient ai < T < t < ai+1. D’après le théorème fondamental de l’analyse,

F (t)− F (T ) =

∫ t

Tf(x) dx =

∫]T,t]

f(x) dλ(x).

En faisant tendre T vers ai, on obtient à gauche F (t)− F (ai) et à droite∫]ai,t]

f(x) dλ(x) avec le théorème de convergence monotone. En ajoutantles deux égalités on a

F (t) =

∫]−∞,t]

f(x) dλ(x)+∑j<i+1

µ(aj).

7

Page 18: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

Remarque : dans le cours de deuxième partie de semestre, vous verrezles fonctions génératrices et les fonctions caractéristiques, qui sont des outilsplus élaborés d’identification des lois.

1.4 Transformations

On a bien compris que le travail sur les lois revenait à trouver des loisimages par des transformations. Voyons concrètement comment on procède.

1.4.1 Le cas discret

Si X est une variable aléatoire discrète à valeurs dans D, la variablealéatoire Y = φ(X) est encore une variable aléatoire discrète, à valeursdans F = φ(D), caractérisée par la valeur, pour a ∈ F de

P(Y = a) = P(φ(X) = a) = P(X ∈ φ−1(a)) =∑

x∈φ−1(a)

P(X = x).

Exemple : soit X suivant la loi binomiale B(2n, 12). On pose Y = |X−n|.

Ici X est à valeurs dans D = 0, . . . , 2n, f(x) = |x − n| et F = f(D) =0, . . . , n. Pour tout k ∈ 1, . . . , n, on a f−1(k) = n − k;n + k, tandisque f−1(0) = n. Ainsi P(Y = 0) = P(X = n) = 1

22n

(2nn

)= 1

22n(2n)!n!2

etpour k ∈ 1, . . . , n, on a P(Y = k) = P(X = n − k) + P(X = n + k) =

122n

(2nn−k)

+ 122n

(2nn+k

)= 1

22n−1(2n)!

(n+k)!(n−k)! .

1.4.2 Le cas continu

Changement de variables C1

Théorème 1.7. Soient U,U ′ deux ouverts de Rd, φ un C1-difféomorphismede U dans U ′. Soit f une application mesurable définie sur U ′. Alors f estintégrable sur U ′ si et seulement si f φ(.)× | detD. φ| est intégrable sur U etdans ce cas ∫

U ′f(y) dλ(y) =

∫Uf(φ(x))× | detDx φ| dλ(x).

Remarque 1.8. La quantité detDx φ est appelée déterminant jacobien (ouplus simplement Jacobien) de φ au point x.

Application : calcul de l’intégrale de Gauss

On prend U =]0,+∞[×]0, 2π[, U ′ = R2\(R+×0) et f(x, y) = exp(−x2+y2

2 ).On fait le changement de variable polaire : φ(r, θ) = (r cos θ, r sin θ). D’uncôté, on a∫

U ′f(x, y) d(λ⊗ λ)(x, y) =

∫R2

f(x, y) d(λ⊗ λ)(x, y) = I2,

avec I =∫R exp(−x2

2 ) dλ(x), où la dernière égalité vient du théorème deTonelli. De l’autre, on a

|detDr,θ φ| =∣∣∣∣cos θ −r sin θsin θ r cos θ

∣∣∣∣ = r,

8

Page 19: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.4 Transformations

d’où

∫]0,+∞[×]0,2π[

e−r2

2 r d(λ⊗ λ)(r, θ) =

∫]0,+∞[

(2π)re−r2

2 dλ(r) = 2π.

Pour la dernière égalité, on a remarqué que −e−r2/2 est une primitive de

re−r2

2 . On a donc I2 = 2π, soit

I =

∫R

exp(−x2

2) dλ(x) =

√2π.

Application : mesure image par un C1-difféomorphisme

Corollaire 1.9. Soient O1 et O2 deux ouverts de Rd, d ≥ 1. On suppose queT est un C1-difféomorphisme de O1 dans O2. Soit maintenant µ1 une me-sure positive sur Rd telle que µ1(Rd\O1) = 0 et admettant une densité f1 parrapport à la mesure de Lebesgue sur Rd. Alors, la mesure image de µ1 par Tadmet comme densité par rapport à la mesure de Lebesgue sur Rd la fonctionf2 définie par

f2(y) =

f1(T−1(y))|detDT−1

y | si y ∈ O2

0 si y /∈ O2

Démonstration. Soit g une fonction mesurable positive sur O2. Notons µ2 lamesure image de µ1 par T . D’après le théorème de transfert,∫O2

g dµ2 =

∫O1

(g T ) dµ1 =

∫O1

(g T )f1 dλ

=

∫O1

(g T )(x)f1(x) |detDT (x)T−1||detDxT | dλ(x)

=

∫O1

((g × (f1 T−1)× | detD.T−1|) T )(x) |detDxT | dλ(x)

=

∫O2

g × (f1 T−1)× | detD.T−1| dλ

ce qui donne le résultat voulu.

Exemple : loi Beta, loi Gamma, et loi de DirichletQuelques rappels :

— Soient a, b des réels strictement positifs. La densité de probabilité dela loi Beta de paramètres a et b est :

x 7→ 1

β(a, b)xa−1(1− x)b−1 1[0,1](x),

où β(a, b) est la fonction Beta, fonction d’Euler de première espècequi peut s’exprimer comme

β(a, b) =

∫ 1

0xa−1(1− x)b−1 dx.

— Soient a et γ des réels strictement positifs. On appelle loi GammaΓ(a, γ) la loi dont la densité par rapport à la mesure de Lebesgue est

x 7→ γa

Γ(a)xa−1e−γx 1]0,+∞[(x),

9

Page 20: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

où Γ(a) est la valeur au point a de la fonction Γ, fonction d’Euler deseconde espèce, définie par

Γ(a) =

∫R+

xa−1e−x dx.

Théorème 1.10. Soient a1, a2, λ > 0. Soit X1 et X2 indépendantes avec X1 ∼Γ(a1, λ) et X2 ∼ Γ(a1, λ). On pose

Y1 = X1/(X1 +X2) et Y2 = X2/(X1 +X2).

On dit que (Y1, Y2) suit la loi de Dirichlet de paramètres (a1, a2).Alors Y1 suit la loi Bêta de paramètres (a1, a2), X1 +X2 suit la loi Γ(a1 +

a2, λ), et Y1 et X1 +X2 sont indépendantes.De plus β(a1, a2) = Γ(a1)Γ(a2)

Γ(a1+a2) .

Démonstration. L’application T : (x, y) 7→ ( xx+y , x+y) réalise unC1-difféomorphisme

de (R∗+)2 dans ]0, 1[×R∗+, dont la réciproque est T−1(θ, s) = (θs, (1 − θ)s).

On a |DT−1(θ,s)| =

∣∣∣∣ s θ−s 1− θ

∣∣∣∣ = s. Comme la densité de (X1, X2) est

(x, y) 7→ λa1+a2

Γ(a1)Γ(a2)xa1−1ya2e−λ(x+y)1R∗+(x)1R∗+(y),

on obtient alors la densité de (Y1, X1 +X2) :

(θ, s) 7→ λa1+a2

Γ(a1)Γ(a2)s(θs)a1−1((1− θ)s)a2−1e−λs1]0,1[(θ)1R∗+(s)

= Kθa1−1(1− θ)a2−11]0,1[(θ)

β(a1, a2)

λa1+a2

Γ(a1 + a2)sa1+a2−1e−λs1R∗+(s),

où l’on a posé K = Γ(a1+a2)β(a1,a2)Γ(a1)Γ(a2) . On reconnait ainsi

P(Y1,X1+X2) = K (Bêta(a1, a2)⊗ Γ(a1 + a2, λ))

En évaluant cette égalité de mesures en Ω, on obtient 1 = K.1, d’où

PB(a1,a2) = Bêta(a1, a2)⊗ Γ(a1 + a2, λ),

ce qui nous dit que Y1 et S1 + S2 sont indépendantes et suivent respective-ment les lois Bêta(a1, a2) et Γ(a1 + a2, λ).

Lorsque φ est une application de classe C1 de Rn dans Rp avec p <n, une technique classique est de construire ψ;Rn → Rn−p telle que x 7→(φ(x), ψ(x)) réalise un C1-difféomorphisme. On applique alors le théorèmede changement de variable pour trouver la densité de (φ(X), ψ(X)) et enréintégrant, on obtient la densité de φ(X).

Exemple : soient X,Y indépendantes suivant la loi uniforme sur [0, 1].On veut calculer la loi de XY . Il suffit de compléter XY en (XY,X) SiT (x, y) = (xy, x), T est un C1-difféomorphisme de ]0, 1[2 dans O = (u, v) ∈R2; 0 < u < v < 1. Si (u, v) = T (x, y) On a alors

|detDT(x,y)| =∣∣∣∣det

(y x1 0

)∣∣∣∣ = x = v,

ce qui nous donne |detDT−1(u,v)| = v−1. Avec le théorème de C1 difféomor-

phisme, le couple (U, V ) = (XY,X) a la densité (u, v) 7→ 1v1O(u, v). La

densité de U = XY est donc u 7→∫R

1v1O(u, v) dλ(v). Sur ]0, 1[, elle vaut∫ 1

01v1u<v dv =

∫ 1udvv = − log u.

10

Page 21: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.5 Les lois uniformes

1.5 Les lois uniformes

Les lois uniformes ont une place particulière dans la littérature des exer-cices de probabilités. D’abord elles sont souvent mal nommées, ou plutôtpas nommées : quand un énoncé dire qu’une variable aléatoire est tirée “auhasard”, il veut souvent dire qu’elle suit la loi uniforme sur un ensembleque le contexte permet de préciser. Cependant, elles ont des propriétés trèsintéressantes.

1.5.1 Loi uniforme sur un ensemble fini

La loi uniforme UC sur l’ensemble fini C étant définie par

∀A ∈ P(C) UC(A) =|A||C|

,

lorsque une variable suit une loi uniforme, le calcul des probabilités estramené à un dénombrement.

Par ailleurs, on a quelques propriétés très simples, mais bien utiles :

Produit

Si C et D sont finis, alors UC×D = UC ⊗ UD.

Démonstration. Il suffit de vérifier l’égalité des mesures sur des ensemblesproduits

UC×D(A×B) =|A×B||C ×D|

=|A|.|B||C|.|D|

=|A||C||B||D|

= UC(A)UD(B) = (UC ⊗ UD)(A×B)

Par exemple, si X1, . . . , Xn suivent la loi uniforme sur C, le vecteur(X1, . . . , Xn) suit la loi uniforme sur Cn.

Conditionnement

Rappelons que si (Ω,F , µ) est un espace probabilisé et D ∈ F avecµ(D) > 0, l’application

µ(·|D) : A 7→ µ(A|D) =µ(A ∩D)

µ(D)

est une mesure de probabilité sur (Ω,F). Il est aisé de constater que laloi uniforme sur C conditionnée par D ⊂ C (ou de manière équivalenteD ∈ P(C)) est la loi uniforme sur D.

Démonstration.

UC(A|D) =UC(A ∩D)

UC(D)=|A ∩D|/|C||D|/|C|

=|A ∩D||D|

= UD(A).

Par exemple, si (X1, . . . , Xn) sont des variables indépendantes suivant laloi de Bernoulli de paramètre 1/2, la loi de (X1, . . . , Xn) sachant X1 + · · ·+Xn = k est la loi uniforme sur (x1, . . . , xn) ∈ 0, 1n : x1 + · · ·+ xn = k :c’est la loi de la suite des tirages sans remise dans une urne.

11

Page 22: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

1.5.2 Loi uniforme sur un compact de Rd

Rappelons qu’une variable aléatoire X suit la loi uniforme sur un com-pact K de Rd si elle admet la densité

x 7→ 1

λ(K)1K(x).

Par voie de conséquence, la loi uniforme UK sur le compact K de Rd vérifiepour A borélien de Rd :

UK(A) =λ(K ∩A)

λ(K).

Ainsi, lorsque une variable suit une loi uniforme, le calcul des probabilitésest ramené à un calcul d’aire.

Cette remarque est très importante car de nombreuses aires classiquesse calculent à l’aide de formules de géométrie mémorisées par tous, alorsque les calculs intégraux correspondants sont plus délicats. Par Exemple si µest la loi uniforme sur le carré [0, 1], la mesure du disque unité est l’aire d’unquart de disque, classiquement égale à π/4, alors que le théorème de Fubiniamène à calculer

∫ 10

√1− x2 dx, ce qui peut être un peu plus délicat. . .

Produit

Si C et D sont finis, alors UC×D = UC ⊗ UD.

Démonstration. Là encore, il suffit de vérifier l’égalité des mesures sur desensembles produits. La preuve est laissée au lecteur.

Par exemple, si X et Y sont des variables aléatoires indépendantes sui-vant la loi uniforme sur [0, 1], le vecteur aléatoire (X,Y ) suit la loi uniformesur le carré [0, 1]2.

Conditionnement

La loi uniforme sur C conditionnée par le borélien D (ou de manièleéquivalente D ∈ P(C)) est la loi uniforme sur C ∩D.

Par exemple, si X et Y sont des variables aléatoires indépendantes sui-vant la loi uniforme sur [0, 1], le vecteur aléatoire (X,Y ) conditionné parX+Y ≤ 1 suit la loi uniforme sur le triangle T = (x, y) ∈ R2

+;x+y ≤ 1.

1.5.3 Application

Théorème 1.11. Soit F une fonction de R dans R, croissante, continue àdroite, dont la limite est nulle en −∞ et vaut 1 en +∞. On suppose que sur(Ω,F ,P), U est une variable aléatoire suivant la loi uniforme sur [0, 1]. Onpose

∀u ∈]0, 1[ Q∗(u) = minx ∈ R : 1− F (x) ≤ u.

et∀u ∈]0, 1[ F ∗(u) = infs ∈ R : F (s) > u.

Alors F ∗(U) et Q∗(u) sont des variables aléatoires réelles dont la fonction derépartition est F .

12

Page 23: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.5 Les lois uniformes

Démonstration. On fait seulement la preuve pour F ∗ ; celle pour Q∗ est ana-logue. Notons que pour tout u ∈]0, 1[, F ∗(u) < +∞ car F a une limite 1en l’infini et F ∗(u) > −∞ car F a une limite 0 en l’infini. Comme U prendpresque sûrement ses valeurs dans ]0, 1[, la variable F ∗(U) est bien définie.On va calculer la fonction de répartition de F ∗(U), et on doit donc travaillersur l’événement F ∗(U) ≤ t. Si F (t) > U , alors F ∗(U) ≤ t par définitionde l’inf. D’autre part, si F ∗(U) ≤ t, alors, comme F est croissante, pour toutt′ > t, F (t′) > U . Donc pour tout t′ > t, on a

F (t) > U ⊂ F ∗(U) ≤ t ⊂ F (t′) > U

et donc P(U < F (t)) ≤ P(F ∗(U) ≤ t) ≤ P(U < F (t′)). On obtient ainsiF (t) ≤ P(F ∗(U) ≤ t) ≤ F (t′). Cela est vrai pour tout t′ > t. Comme F estcontinue à droite, on obtient ainsi le résultat en faisant tendre t′ vers t.

En particulier, si F est la fonction de répartition de la loi µ, F ∗(U) suitla loi µ. Cela signifie que si on sait simuler une variable aléatoire suivantla loi uniforme sur [0, 1], on sait simuler n’importe quelle variable aléatoireréelle : c’est la simulation par méthode d’inversion. Mais ce résultat a aussiune conséquence théorique importante.

Corollaire 1.12. Soit F une fonction de R dans R, croissante, continue àdroite, dont la limite est nulle en −∞ et vaut 1 en +∞. Alors il existe unemesure de probabilité sur R dont F est la fonction de répartition.

Démonstration. Il suffit de prendre la loi de F ∗(U) dans le théorème précé-dent.

Remarque 1.13. — Si a, b ∈ R sont tels que

limx→a+

F (a) = 0 et limx→b−

F (b) = 1

et que F est strictement croissante sur ]a, b[ (ce qui arrive par exemplesi la loi admet une densité de la forme 1]a,b[g avec g strictement positivesur ]a, b[), alors l’application F ∗ du théorème 1.11 est tout simplementla réciproque de l’application strictement croissante F . Si on sait lacalculer explicitement, cela permet une simulation facile.

— En revanche, si on cherche à simuler une loi discrète µ avec µ(xi) = pipour tout i ≥ 1, il suffit de poser X = xf(U), où f(x) = infn : sn >x, avec s0 = 0 et sn = p1 + · · ·+ pn.En effet, on a alors X = xn = f(U) = i = sn−1 ≤ U < sn etP(X = xn) = P(U ∈ [sn−1, sn[) = λ([sn−1, sn[) = sn − sn−1 = pn.Noter que les xi n’ont pas besoin d’être ordonnés.

1.5.4 Exercices de la série 1

Exercice 1. On rappelle que pour x réel, x désigne la partie fractionnairede x : x = bxc+ x.Soit α ∈ R et X une variable aléatoire sur (Ω,F ,P) suivant la loi uniformesur [0, 1]. Montrer que Y = X + α a la même loi que X.

Exercice 2. Soient X1 et X2 deux variables aléatoires indépendantes tellesque

P(Xi = 1) = P(Xi = −1) =1

2.

Posons X3 = X1X2. Montrer que les variables X2 et X3 sont indépendantes,ainsi que X1 et X3. En revanche, montrer que X1, X2, X3 ne le sont pas.

13

Page 24: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

Exercice 3. Les points X et Y sont répartis uniformément et indépendam-ment respectivement sur les côtés AB et BC d’un triangle ABC. SoientSABC l’aire du triangle ABC et SXBY celle du triangle XBY .Trouver P(SABC > 2SXBY ).

Exercice 4. Soit X une variable aléatoire de densité f(x) =1[0,1](x)

(1+x) log 2 . Mon-trer que 1

X = 1X − b

1X c a même loi que X.

Exercice 5. 1. On suppose que X1, . . . Xn sont des variables aléatoiresindépendantes suivant la loi uniforme sur [0, 1].Calculer E (maxX1, . . . , Xn).

2. On suppose que Y1, . . . Yn sont des variables aléatoires indépendantessuivant la loi exponentielle de paramètre 1.Calculer E (minY1, . . . , Yn).

Exercice 6. volume de la boule unité de (Rn, ‖.‖p) On rappelle que pourx ∈ Rn, on note ‖x‖p = (

∑nk=1 |xk|p)1/p.

1. Soient Y1, . . . , Yn des variables aléatoires indépendantes suivant laloi Γ(1

p , 1). On pose Xk = Y1/pk et S = Xp

1 + · · · + Xpn. Montrer que

X1 admet la densité x 7→ e−xp

1R+ (x)

Γ( 1p

+1)et que S ∼ Γ(n/p, 1).

2. Soit φ : R+ → R+ une fonction mesurable positive. Montrer que∫Rn+φ(‖x‖pp) dλ⊗n(x) = E[ψ(S)], où ψ(x) = Γ

(1

p+ 1

)nφ(x)ex.

En déduire que∫Rnφ(‖x‖pp) dλ⊗n(x) =

2nΓ(1p + 1)n

Γ(n/p)

∫R+

unp−1φ(u) du.

3. Montrer que le volume de la boule unité de (Rn, ‖.‖p) est2nΓ( 1

p+1)n

Γ(np

+1) .

4. Soit n ≥ 2. On pose Tn = (x1, . . . , xn) ∈ Rn+;x1 + · · ·+ xn ≤ 1.

Calculer∫Tn

dλ⊗n(x)

x1 + · · ·+ xn.

Exercice 7. 1. SoientX1, . . . , Xn des variables aléatoires indépendanteset identiquement distribuées suivant la loi exponentielle E(1). Calcu-ler la loi du vecteur (U1, . . . , Un−1, Sn) défini par

Sn =n∑i=1

Xi et Ui = Xi/Sn.

En déduire la loi de U = (U1, . . . , Un−1) puis celle du vecteurV = (U1, . . . , Un) où Un = Xn/Sn.

2. Soit T un triangle équilatéral de sommets a, b, c. On choisit un pointv au hasard dans T . Déterminer la loi de la surface du triangle desommets a, b, v.

Exercice 8. 1. Montrer que deux probabilités sur (N∗,P(N∗)) qui coïn-cident sur les ensembles de la forme (nN∗)n∈N∗ sont égales.

14

Page 25: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

1.5 Les lois uniformes

2. Soit s > 1. On dit que X suit une loi Zêta de paramètre s si l’on a

∀n ∈ N∗ P(X = n) =1

ζ(s)

1

ns,

où ζ(s) =+∞∑n=1

1ns . Soient X,X ′ deux variables aléatoires indépen-

dantes suivant les lois Zêta de paramètres respectifs s > 1 et t > 1.Montrer que X ∧ X ′ (p.g.c.d. de X et X ′) suit la loi Zêta de para-mètre s+ t.En déduire que P(X ∧X ′ = 1) = 1

ζ(s+t) .

1.5.5 Exercices de la série 2

Exercice 9. Application de Hénon Soient a et b des réels. On suppose que levecteur (X,Y ) suit la loi uniforme sur le compact K. On pose U = 1 + Y −aX2 et V = bX. Montrer que (U, V ) suit la loi uniforme sur un compact.

Exercice 10. Soit (Xn)n≥1 une suite de variables aléatoires indépendantesidentiquement distribuées telles que P(Xn = 1) = P(Xn = −1) = 1/2.Pour tout n ≥ 1, on pose Zn =

∏ni=1Xi. Montrer que les (Zn)n≥1 sont

indépendantes.

Exercice 11. 1. Soient X,Y des variables aléatoires suivant la loi uni-forme sur 0, 1. On pose Z = X + Y , où · désigne la partiefractionnaire. Montrer que Z suit la loi uniforme sur 0, 1, qu’elleest indépendante de X, et également de Y . Les variables X,Y, Z sontelles globalement indépendantes ?

2. Soit (Un)n≥1 une suite de variables aléatoires indépendantes suivantla loi uniforme sur [0, 1]. Pour n ≥ 1, on pose Sn = U1 + . . . Un etWn = Sn. Montrer que les (Wn)n≥1 forment une suite de variablesindépendantes. En déduire que

P (Sn < 1) = P(W1 ≤W2 ≤ · · · ≤Wn) = P(W1 < W2 < · · · < Wn) =1

n!.

3. Calculer E[T ], où T = infn ≥ 0 Sn ≥ 1.

Exercice 12. Soit s > 1. On dit que X suit une loi Zêta de paramètre s si

∀n ∈ N∗ P(X = n) = 1ζ(s)

1ns , où l’on a posé ζ(s) =

+∞∑n=1

1

ns. Soit donc X

suivant une loi Zêta de paramètre s. On tire Y au hasard – c’est-à-dire avecéquiprobabilité – entre 1 et X : PY |X=x = U(1, . . . , x) la loi uniforme sur1, . . . , x.

1. Pour n, k ∈ N∗, calculer P(Y = k|X = n).

2. On pose Z = YX . Montrer que la fonction de répartition FZ est stric-

tement croissante sur [0, 1].

3. Soient p, q deux entiers positifs premiers entre eux, avec p ≤ q. Cal-culer P(Z = p

q ).

4. On rappelle que φ(n) désigne le nombre d’entiers compris entre 1 etn qui sont premiers avec n. Déduire de ce qui précède une preuveprobabiliste de l’identité

ζ(s+ 1)

+∞∑n=1

φ(n)

ns+1= ζ(s).

15

Page 26: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 1 : Calcul de lois

Exercice 13. Soit P l’ensemble des nombres premiers. Pour p ∈ P, on noteνp(n) le plus grand entier k tel que pk divise n. Soit X une variable aléatoiresuivant la loi Zêta de paramètre s (voir exercice précédent). Montrer que lesvariables aléatoires (1 + νp(X))p∈P sont des variables indépendantes, avec1 + νp(X) ∼ G(1− 1

ps ).

Exercice 14. Dans le segment [AB] de longueur 1, on choisit au hasard unpoint M . Quelle est la probabilité pour que l’on ait AM.MB ≥ 2

9 ?

Exercice 15. Soient X1, . . . , Xn des variables aléatoires indépendantes sui-vant la loi uniforme sur [0, 1].On pose Mn = max(X1, . . . , Xn). Déterminer la fonction de répartition deMn. Montrer que Mn admet une densité que l’on déterminera.

Exercice 16. Soient X1, . . . , Xn des variables aléatoires indépendantes sui-vant la loi uniforme sur [0, 1]. On pose

Mn = max(X1, . . . , Xn) et mn = min(X1, . . . , Xn).

Montrer que Mn et 1−mn ont même loi.

Exercice 17. La tradition veut que l’Épiphanie soit l’occasion de « tirer lesrois » : une fève est cachée dans une galette, découpée entre les conviveset la personne qui obtient cette fève devient le roi de la journée. Lorsque lepremier coup de couteau est porté sur la fève, c’est la consternation ! Quelleest la probabilité de cette malheureuse issue?Hypothèses et simplifications : on admet que la galette est circulaire, derayon unité, et que la fève est aussi circulaire, de rayon r. Enfin, on supposeque

— la position du centre de la fève suit la loi uniforme sur le disque derayon 1− r ayant le même centre que la galette

— le coup de couteau est un rayon du disque représentant la galetteApplication numérique avec une fève de 2,7 centimètres de diamètre dansune galette de 23 centimètres de diamètre achetée ce matin.

Exercice 18. SoientX1, . . . , Xn des variables aléatoires indépendantes tellesque pour tout 1 ≤ i ≤ n, Xi suit la loi exponentielle E(λi).On note T = inf(X1, . . . , Xn) et N = infi ≥ 1;Xi = T.

1. Montrer que P(∃(i, j) ∈ N2 1 ≤ i < j ≤ n;Xi = Xj) = 0.

2. Pour i entre 1 etN , on pose Yi = inf(Xj ; j ∈ 1, . . . , n\i). Montrerque Yi est indépendant de Xi, puis déterminer sa loi.

3. Soit t > 0. Montrer que pour tout i compris entre 1 et n,

P(T > t,N = i) = P (Yi > Xi > t)

4. On pose λ =n∑j=1

λj . Montrer que P(T > t,N = i) = λiλ exp(−λt).

5. Montrer que T et N sont indépendantes et préciser leurs lois.

Exercice 19. Soit n un entier naturel. On considèreX une variable aléatoireexponentielle de paramètre 1 et Y une binomiale B(n, 1

2). On suppose queX et Y sont indépendantes.

Montrer que Z = XY+1 est une variable à densité et déterminer sa den-

sité.

16

Page 27: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 2

Espaces Lp et Lp

Soit (Ω,A, µ) un espace mesuré. Pour p ∈ [1,+∞[, on note Lp(Ω,A, µ)l’ensemble des applications mesurables de (Ω,A, µ) dans (R,B(R)) tellesque ∫

Ω|f(x)|p dµ(x) < +∞.

On note L∞(Ω,A, µ) l’ensemble des applications mesurables de (Ω,A, µ)dans (R,B(R)) telles que ‖f‖∞,ess < +∞, où

‖f‖∞,ess = infM ∈ R;µ(x ∈ Ω; |f(x)| > M) = 0.

Comme

x ∈ Ω; |f(x)| > ‖f‖∞,ess = ∪n≥1x ∈ Ω; |f(x)| > ‖f‖∞,ess + 1/n,

et qu’une réunion dénombrable d’ensembles de mesure nulle est de mesurenulle, on a |f | ≤ ‖f‖∞,ess presque partout.

On dit que des nombres p et q de ]1,+∞[ sont des exposants conjuguéss’ils vérifient

1

p+

1

q= 1.

On convient également que 1 et l’infini sont des exposants conjugués.

2.1 De Lp à Lp

2.1.1 Inégalité de Hölder

Théorème 2.1. Soient p et q des exposants conjugués de ]1,+∞[, (Ω,A, µ) unespace mesuré, f ∈ Lp(Ω,A, µ), g ∈ Lq(Ω,A, µ). Alors fg ∈ L1(Ω,A, µ) et

∣∣∣∣∫Ωf(x)g(x) dµ(x)

∣∣∣∣ ≤ (∫Ω|f(x)|p dµ(x)

)1/p(∫Ω|g(x)|q dµ(x)

)1/q

.

Démonstration. Si f est nulle µ−presque partout, alors l’inégalité est évi-dente (c’est en fait une égalité). Idem pour g. Dans le cas inverse, on a(∫

Ω|f(x)|p dµ(x)

)1/p

> 0 et(∫

Ω|g(x)|q dµ(x)

)1/q

> 0.

Page 28: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 2 : Espaces Lp et Lp

Bien entendu,∣∣∫

Ω fg dµ∣∣ ≤ ∫Ω |f |.|g| dµ.

En remplaçant f par |f |/(∫

Ω |f(x)|p dµ(x))1/p et g par |g|/

(∫Ω |g(x)|q dµ(x)

)1/q,on peut donc se ramener au cas où f et g sont positives avec∫

Ωf(x)p dµ(x) =

∫Ωg(x)q dµ(x) = 1.

Or pour tous x, y dans R+, on a l’inégalité 1

xy ≤ xp

p+yq

q.

Si x ou y est infini ou nul, c’est évident. Sinon, on peut écrire x = ea/p,y = eb/q et utiliser la convexité de la fonction exponentielle. Ainsi, comme fet g sont positives, on a

f(x)g(x) ≤ f(x)p

p+g(x)q

q,

d’où∫Ωf(x)g(x) dµ(x) ≤

∫Ω

f(x)p

pdµ(x) +

∫Ω

g(x)q

qdµ(x) =

1

p+

1

q= 1.

Remarque 2.2. On a µ presque partout |fg| ≤ |f |‖g‖∞,ess, et en intégrant‖fg‖1 ≤ ‖f‖1‖g‖∞,ess.

Exemple: Application à la fonction GammaSoient x, y > 0 et θ ∈]0, 1[. En posant p = 1

θ et q = 11−θ , l’inégalité de Hölder

donne∫ +∞

0e−ttθx+(1−θ)y−1 dλ(t) =

∫ +∞

0(e−ttx−1)θ(e−tty−1)1−θ dλ(t)

≤(∫ +∞

0e−ttx−1 dλ(t)

)θ (∫ +∞

0e−tty−1 dλ(t)

)1−θ

soit Γ(θx+ (1− θ)y) ≤ Γ(x)θΓ(y)1−θ ou encore

log Γ(θx+ (1− θ)y) ≤ θ log Γ(x) + (1− θ) log Γ(y).

Le logarithme de la fonction Gamma est donc une fonction convexe. On ditqu’elle est logarithmiquement convexe.

2.1.2 Inégalité triangulaire (ou inégalité de Minkowski)

Théorème 2.3. Soient p ∈ [1,+∞], (Ω,A, µ) un espace mesuré, f et g deuxéléments de V(Ω,A, µ). On a(∫

Ω|f(x) + g(x)|p dµ(x)

)1/p

≤(∫

Ω|f(x)|p dµ(x)

)1/p

+

(∫Ω|g(x)|p dµ(x)

)1/p

.

1. Parfois appelée inégalité de Young.

18

Page 29: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

2.1 De Lp à Lp

Démonstration. Dans le cas où p = 1, il s’agit d’une conséquence immédiatede l’inégalité triangulaire sur R et de la positivité de l’intégrale. Si p = +∞,on a alors |f(x)| ≤ ‖f‖∞ µ−presque partout et |g| ≤ ‖g‖∞ µ−presquepartout, ce qui implique |f + g| ≤ ‖f‖∞ + ‖g‖∞ µ−presque partout etle résultat en découle. Supposons donc p ∈]1,+∞[ et notons q l’exposantconjugué de p. Comme précédemment, on peut supposer que f et g nesont pas nulles presque partout. Aussi, si

∫Ω |f(x)|p dµ(x) = +∞ ou si∫

Ω |g(x)|p dµ(x) = +∞, l’inégalité est évidente. On suppose donc que cesdeux quantités sont finies. Comme |f + g|p ≤ (|f | + |g|)p, on peut suppo-ser sans perte de généralité que f et g sont positives. Maintenant, comme(f + g

2

)p≤ fp + gp

2par convexité de la fonction x 7→ xp, il s’ensuit égale-

ment∫

Ω |f(x) + g(x)|p dµ(x) < +∞. On écrit alors

(f + g)p = f(f + g)p−1 + g(f + g)p−1.

L’inégalité de Hölder donne∫Ωf(f + g)p−1 dµ ≤

(∫Ωfp dµ

)1/p(∫Ω

(f + g)(p−1)q dµ

)1/q

,

soit en remarquant que p = (p− 1)q∫Ωf(f + g)p−1 dµ ≤

(∫Ωfp dµ

)1/p(∫Ω

(f + g)p dµ

)1/q

.

De même, on obtient en échangeant les rôles de f et g∫Ωg(f + g)p−1 dµ ≤

(∫Ωgp dµ

)1/p(∫Ω

(f + g)p dµ

)1/q

.

En additionnant ces inégalités, on trouve∫Ω

(f + g)p dµ ≤

((∫Ωfp dµ

)1/p

+

(∫Ωgp dµ

)1/p)(∫

Ω(f + g)p dµ

)1/q

,

d’où (∫Ω

(f + g)p dµ

)1/p

≤(∫

Ωfp dµ

)1/p

+

(∫Ωgp dµ

)1/p

.

Il est maintenant simple de constater que si l’on pose

‖f‖p =

(∫Ω|f |p dµ

)1/p

,

on définit une semi-norme sur l’espace vectoriel Lp(Ω,A, µ), de même que‖ · ‖∞,ess définit une semi-norme sur l’espace vectoriel L∞(Ω,A, µ).

Remarquons bien qu’en général, l’application ‖.‖p ne définit pas unenorme sur Lp(Ω,A, µ) car l’axiome de séparation peut être pris en défaut.En effet, sur Lp(R,B(R), λ), on a bien ‖1Q‖p = 0, mais bien sûr, 1Q 6= 0.

Notons V = v ∈ Lp; ‖v‖p = 0. D’après l’inégalité triangulaire, V est unsous-espace vectoriel de Lp. Un raisonnement simple (à faire en exercice)permet en fait de montrer que V = v ∈ Lp; v = 0 µ− p.p..

Notons Lp le quotient de l’espace vectoriel Lp par son sous-espace vec-toriel V .

19

Page 30: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 2 : Espaces Lp et Lp

Remarque 2.4. 1. L’ensemble V dépend de µ, donc les classes d’équiva-lences correspondant à deux mesures µ et ν ne sont pas les mêmes.

2. Si Ω est fini et µ(Ω) < +∞, alors tous les espaces Lp pour 1 ≤ p ≤ +∞sont identiques.

3. Si Ω est dénombrable, si A = P(Ω) et si µ(x) > 0 pour tout x ∈ Ω,alors Lp = Lp pour tout 1 ≤ p ≤ +∞.

Lemme 2.5. Soit µ une mesure finie. Si 1 ≤ p ≤ r ≤ +∞, on a alors l’inclu-sion Lr ⊂ Lp.

Démonstration. Supposons r < +∞. Soit f ∈ Lr. Dans ce cas, on a toujours|f |p ≤ 1 + |f |r (pour voir cela, il suffit de séparer les cas |f | ≤ 1 et |f | > 1).On a alors∫

Ω|f |p dµ ≤

∫Ω

(1 + |f |r) dµ = µ(Ω) +

∫Ω|f |r dµ < +∞

car f est dans Lr et donc f est dans Lp.Si f ∈ L∞, on a |f(x)|p ≤ ‖f‖p∞ et donc

∫Ω |f |

p dµ ≤ ‖f‖p∞µ(Ω) < +∞.

Remarque 2.6. Ce résultat est FAUX si µ n’est pas finie. Par exemple, si µ = λ,on remarque que la fonction identiquement égale à 1 est dans L∞, alors qu’ellen’appartient à aucun Lp pour 1 ≤ p < +∞.

Soient f et g deux éléments de la même classe : k = f − g ∈ V . D’aprèsl’inégalité triangulaire ‖f‖p ≤ ‖g‖p + ‖k‖p = ‖g‖p.De même ‖g‖p ≤ ‖f‖p + ‖k‖p = ‖f‖p, d’où ‖f‖p = ‖g‖p. La semi-normepasse donc au quotient : pour f ∈ Lp, on note ‖f‖p = ‖g‖p où g est unreprésentant quelconque de la classe f . Évidemment, f 7→ ‖f‖p est encoreune semi-norme sur Lp.Mais en réalité, f 7→ ‖f‖p est une norme sur Lp. En effet, supposons ‖f‖p =0. Soit g un représentant de f . On a ‖g‖p = 0, donc g ∈ V , ce qui signifieque g est dans la classe de 0, donc f est le zéro de Lp. On a donc prouvé lerésultat suivant.

Théorème 2.7. Soit 1 ≤ p < +∞. Alors (Lp, ‖ · ‖p) est un espace vectorielnormé.

Bien que Lp ne soit pas un espace vectoriel normé, on pourra lire fré-quemment pour des fonctions (fn)n≥1, f de Lp : (fn)n≥1 converge dans Lp

(ou parfois (fn)n≥1 converge dans Lp) vers f . Cela signifie que limn→+∞

‖fn−

f‖p = 0, ou de manière équivalente, que la suite des classes dans Lp des élé-ments de (fn)n≥1 converge dans Lp vers la classe de f dans Lp.

2.2 Complétude de Lp

Théorème 2.8. Pour tout p ∈ [1,+∞[, Lp est complet.

En d’autres termes, il s’agit de montrer que (Lp, ‖ · ‖p) est un espace deBanach.

Afin de démontrer ce résultat, nous introduisons deux lemmes qui sonten fait les étapes de la preuve.

20

Page 31: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

2.2 Complétude de Lp

Lemme 2.9. Soit (fn) une suite d’éléments de Lp avec

+∞∑n=1

‖fn‖p < +∞.

Alors la suite(

n∑k=1

fk

)converge dans Lp quand n tend vers l’infini.

Démonstration. On note gn un représentant de fn. On va montrer qu’il existe

une fonction g dans Lp telle que∥∥∥∥ n∑k=1

gk − g∥∥∥∥p

tend vers 0, ce qui donnera

la convergence de la suite(

n∑k=1

fk

)vers la classe de g.

Supposons d’abord que les gk sont positives. Dans ce cas, la suite de

fonctions Sn =n∑k=1

gk converge simplement vers une fonction g mesurable

(éventuellement infinie en certains points). Cependant, d’après l’inégalitétriangulaire ∫

ΩSpn dµ ≤

(n∑k=1‖gk‖p

)p,

et donc d’après le théorème de convergence monotone∫Ωgp dµ ≤

(+∞∑k=1‖gk‖p

)p< +∞.

Ainsi g est dans Lp. Soient n et n′ des entiers tels que n′ ≥ n. On a

(Sn′ − Sn)p =

(n′∑

k=n+1gk

)p.

Faisons tendre n′ vers +∞ : d’après le théorème de convergence dominée,on a ∫

Ω(g − Sn)p dµ = lim

n′→+∞

∫Ω

(Sn′ − Sn)p dµ,

d’où‖g − Sn‖p = lim

n′→+∞‖Sn′ − Sn‖p.

Cependant, d’après l’inégalité triangulaire

‖Sn′ − Sn‖p ≤n′∑

k=n+1

‖gk‖p ≤+∞∑

k=n+1

‖gk‖p,

d’où

‖g − Sn‖p ≤+∞∑

k=n+1

‖gk‖p.

Mais on reconnaît là le reste d’une série convergente, donc ‖g − Sn‖p tendbien vers 0 lorsque n tend vers l’infini.

Dans le cas général, écrivons gk = g+k − g

−k . On définit évidemment

g+ =∑g+k et g− =

∑g−k , S+

n =n∑k=1

g+k , S−n =

n∑k=1

g−k . La série de terme

général ‖g+k ‖p est convergente car ‖g+

k ‖p ≤ ‖gk‖p.On montre ainsi que ‖S+

n − g+‖p tend bien vers 0, de même que ‖g−−S−n ‖ptend bien vers 0. Enfin, l’inégalité triangulaire permet de conclure que laquantité ‖g − Sn‖p tend bien vers 0.

21

Page 32: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 2 : Espaces Lp et Lp

Ainsi, on a montré que dans Lp, toute série absolument convergente estconvergente. Pour conclure, il suffit de s’appuyer sur le résultat d’analysesuivant.

Lemme 2.10. Un espace vectoriel normé où toute série absolument conver-gente converge est complet.

Démonstration. Remarquons d’abord que si une suite de Cauchy admet unesous-suite convergente, elle converge. En effet supposons que la suite (xn)est de Cauchy avec xnk qui converge vers `. Soient k0 tel que ‖xnk−`‖ ≤ ε/2pour k ≥ k0 et b0 tel que ‖xk−xk′‖ ≤ ε/2 lorsque k et k′ dépassent b0. Alors‖xn − `‖ ≤ ε dès que n dépasse max(b0, nk0).

Soit maintenant (xn) une suite de Cauchy dans un espace où toute sérieabsolument convergente converge. On pose n0 = 1, puis pour k ≥ 1

nk = infn > nk−1 : i, i′ ≥ n =⇒ ‖xi − xi′‖ ≤ 2−k.

Cette suite d’indices est strictement croissante et est bien définie car la suite(xk) est de Cauchy. Par construction, ‖xnk − xnk+1

‖ ≤ 2−k pour k ≥ 1, doncla série de terme général xnk−xnk+1

est absolument convergente. Comme ona fait l’hypothèse ici qu’une série absolument convergente est convergente,elle est donc convergente, ce qui veut dire que (xnk) est convergente. (xn)est donc une suite de Cauchy qui admet une sous-suite convergente, elle estdonc convergente.

Théorème 2.11. L’espace L∞ est complet.

Démonstration. Soit (gn)n≥1 une suite de Cauchy de L∞. Pour tout n ≥ 1,on note fn une fonction de L∞ qui est un représentant de la classe de gn.On note

B = ∪n≥1ω ∈ Ω; |fn(ω)| > ‖fn‖∞,ess

∪ ∪n≥1,p≥1

ω ∈ Ω; |fn(ω)− fp(ω)| > ‖fn − fp‖∞,ess

Comme B est la réunion dénombrable d’ensembles de mesure nulle sousµ, on a µ(B) = 0. Posons G = Ω\B. La suite des fonctions (fn1G)n≥1 estune suite de Cauchy dans l’espace des fonctions bornées sur Ω muni de lanorme infinie : comme cette suite de fonctions est à valeurs dans un espacecomplet, elle converge vers une fonction f . La fonction f est mesurable,comme limite ponctuelle de fonctions mesurables. Il est maintenant aisé deconstater que la suite (gn) converge dans L∞ vers la classe de f (mettonsg). Cela découle de l’inégalité

‖gn − g‖∞,ess = ‖fn1G − f‖∞,ess ≤ ‖fn1G − f‖∞.

Théorème 2.12. Soit 1 ≤ p ≤ +∞. Soient f, (fn)n≥1 des fonctions dans Lptelles que (fn)n≥1 converge dans Lp vers f . Alors, il existe une suite strictementcroissante d’indices (nk)k≥1 telle que (fnk)k≥1 converge presque partout vers f .

22

Page 33: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

2.2 Complétude de Lp

Démonstration. On pose gn = |f − fn|p. On sait que (gn) converge dans L1

vers 0 et nous devons montrer l’existence d’une suite strictement croissanted’indices (nk)k≥1 telle que (gnk)k≥1 converge presque partout vers 0.On pose n0 = 1, puis pour k ≥ 1 :

nk = infn > nk−1 : i, i′ ≥ n =⇒ ‖gi − gi′‖1 ≤ 2−k.

Cette suite d’indices est strictement croissante et est bien définie car (gk) estde Cauchy dans L1. Par construction, ‖gnk−gnk+1

‖1 ≤ 2−k pour k ≥ 1, doncla série de terme général ‖gnk − gnk+1

‖1 est convergente. Mais+∞∑k=1

‖gnk − gnk+1‖1 =

+∞∑k=1

∫|gnk − gnk+1

| dµ =

∫ +∞∑k=1

|gnk − gnk+1| dµ.

La fonction positive+∞∑k=1

|gnk − gnk+1|

est intégrable, elle est donc en particulier finie presque partout. En un pointx tel que

+∞∑k=1

|gnk(x)− gnk+1(x)| < +∞,

la suite (gnk(x))k≥1 converge. Ainsi (gnk)k≥1 converge presque partout versune fonction g∗ positive ou nulle. Mais d’après le lemme de Fatou,∫

g∗dµ =

∫lim

k→+∞gnkdµ ≤ lim

k→+∞

∫gnk dµ = 0,

donc g∗ est nulle µ−presque partout, ce qui achève la preuve.

En revanche, la convergence dans Lp n’entraîne pas la convergence presquepartout. La plupart des contre-exemples sont basés sur le modèle suivant, dit« phénomène de bosse glissante ». Pour tout n ≥ 1, on se donne un recou-vrement de [−n, n] par des ensembles An,1, . . . , An,Nn , de telle manière que

limn→+∞

max1≤i≤Nn

λ(An,i) = 0.

On peut prendre par exemple Nn = n2 et An,k = [k−1n , kn ] ∪ [− k

n ,−k−1n ],

ce qui nous donne max1≤i≤Nn

λ(An,i) = 2n .

Notons que E = (n, i);n ∈ N∗ et i ∈ 1, . . . , Nn est dénombrable. Onpeut donc choisir une bijection φ de N dans E. Soit x ∈ R. Pour tout n ≥ |x|,

on a x ∈ [−n, n] ⊂Nn∪i=1

An,i. Il existe donc i ∈ 1, . . . , Nn tel que x ∈ An,i.

Ainsi l’ensemble des e ∈ E tels que x ∈ Ae est infini, donc x ∈ limn→+∞

Aφ(n).

Ainsi R = limn→+∞

Aφ(n). Soit ε > 0. Il existe N0 tel que max1≤i≤Nn

λ(An,i) < ε

pour n > N0. On voit ainsi que l’ensemble des e ∈ E tels que λ(Ae) ≥ εest inclus dans l’ensemble fini (n, i);n ∈ 1, . . . , N0 et i ∈ 1, . . . , Nn.Par suite, l’ensemble des n tels que λ(Aφ(n)) ≥ ε est également fini, ce qui

montre que limn→+∞

λ(Aφ(n)) = 0.

On conclut que fn = 1Aφ(n) converge dans Lp vers 0, tandis que

∀x ∈ R, limn→+∞

fn(x) = 1.

23

Page 34: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 2 : Espaces Lp et Lp

2.3 Théorèmes d’approximation

Théorème 2.13. Soit S l’ensemble des fonctions simples g sur (Ω,F) tellesque

µ(x ∈ Ω; g(x) 6= 0) < +∞.

Pour tout p ∈ [1,+∞[, S est dense dans Lp(µ) (et donc les classes de cesfonctions sont denses dans Lp(µ)).

Démonstration. Il est facile de voir que S est inclus dans Lp(µ). Soit f ∈ Lp.Supposons f ≥ 0 et prenons fn sous la forme fn = φn f , où φn est unesuite croissante de fonctions qui convergent ponctuellement vers l’identité,chaque fonction fn ne prenant qu’un nombre fini de valeurs. On définit sur[0,+∞] une fonction φn par

φn(x) = 2−nb2nxc1[0,n](x) pour x < +∞ et φn(+∞) = n.

On a2−np 1fn>0 ≤ fpn 1fn>0 ≤ fp,

d’où2−np µ(fn > 0) ≤

∫Ωfp dµ,

et donc fn ∈ S. Or |fn− f |p ≤ fp, donc d’après le théorème de convergencedominée,

∫Ω |fn−f |

p dµ tend vers 0, c’est-à-dire que fn tend vers f dans Lp.Le cas général s’ensuit en séparant partie positive et partie négative, commedans la preuve du théorème 2.8.

Théorème 2.14. Soit p ∈ [1,+∞[. Les classes des fonctions continues à sup-port compact forment une partie dense dans Lp(Rd,B(Rd)).

Démonstration. Notons A l’adhérence dans Lp de l’ensemble des fonctionscontinues à support compact. On commence par montrer que A contientles indicatrices des compacts de Rd. Soit en effet K un compact de Rd. Onpose, pour n ≥ 1, fn(x) = (1−nd(x,K))+. CommeK est fermé, fn convergesimplement vers l’indicatrice deK. De plus, on a 0 ≤ fn(x)−1K ≤ 1K+B(0,1)

et |fn(x) − 1K |p ≤ 1K+B(0,1), donc par convergence dominée, fn convergedans Lp vers l’indicatrice de K. Soit alors B un borélien tel que λ(B) < +∞.D’après le théorème B.8 en annexe, la mesure de Lebesgue est régulière ;pour ε > 0 on peut trouver K compact avec K ⊂ B et λ(B)− ε ≤ λ(K). Ona ainsi ‖1K−1B‖pp = λ(B\K) ≤ ε, ce qui montre que 1B ∈ A. Comme A estun espace vectoriel, il contient les combinaisons linéaires des indicatricesdes boréliens de mesure finie, donc Lp tout entier vu le théorème 2.13.

2.4 Exercices sur les espaces Lp

2.4.1 Exercices de la série 1

Exercice 20. Soient p0 > 1 et X une variable aléatoire positive telle queX ∈ Lp0(Ω,F ,P). Pour p ∈]0, p0], on pose N(p) = (E[Xp])1/p.

1. En appliquant l’inégalité de Hölder aux fonctionsXp et 1 avec des ex-posants bien choisis, montrer que la fonction p 7→ N(p) est croissantesur ]0, p0].

24

Page 35: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

2.4 Exercices sur les espaces Lp

2. Montrer que N(p) admet une limite réelle lorsque p tend vers 0. Dé-terminer cette limite dans le cas où X suit la loi uniforme sur [0, 1].

3. Soit p ∈]0, p0]. On définit la fonction

F : R+ × R+ → R+

(x, t) 7→ ptp−11x≥t.

Montrer que F ∈ L1(R2+,B(R2

+),PX ⊗ λ), puis que

E[Xp] =

∫[0,+∞[

ptp−1P(X ≥ t) dλ(t).

Note : on rappelle que 1x≥t vaut 1 si x ≥ t, 0 sinon.

4. Soit X une variable aléatoire positive. On note

‖X‖∞,ess = supM > 0 : P(X ≥M) > 0.

On suppose dorénavant que X est telle que ‖X‖∞,ess < +∞.

(a) SoitM > ‖X‖∞,ess. Montrer que pour tout p > 1,X ∈ Lp(Ω,F ,P)avec N(p) ≤M .

(b) Montrer que limp→+∞

N(p) ≤ ‖X‖∞,ess.

(c) Soit M < ‖X‖∞,ess. Montrer que pour tout p > 1, on a

N(p) ≥MP(X ≥M)1/p, puis que limp→+∞

N(p) ≥M .

(d) Montrer que limp→+∞

N(p) = ‖X‖∞,ess.

5. Montrer que la limite de N(p) lorsque p tend vers 0 vaut 0 si logXn’est pas intégrable, exp(E[logX]) sinon.

Exercice 21. Soit (xn)n≥1 le terme général d’une suite positive de limitenulle, telle que la série de terme général (xn) diverge.On pose sn = x1 + · · ·+xn et, pour x réel, on note x la partie fractionnairede x (x = x − bxc)). On pose An = [sn, sn+1] si sn ≤ sn+1,An = ∅ sinon. Montrer que

limn→+∞

An ⊃]0, 1[.

Montrer que la suite fn(x) = 1An(x) converge dans L1 vers 0, mais neconverge pas λ-presque partout vers 0.

Quel est l’ensemble des valeurs d’adhérence de la suite (sn)n≥1 ?

Exercice 22. Théorèmes d’Egoroff et de Lusin.

1. Soit (Ω,F , µ) un espace mesuré avec µ(Ω) < +∞. Soit (fn)n≥1 unesuite de fonctions (Ω,F)−(R,B(R)) mesurables convergeant µ-presquepartout vers f . Montrer que pour tout ε > 0, il existe A ∈ F tel queµ(A) < ε et tel que fn converge uniformément vers f sur Ω\A.Indication : poser Bk,n =

⋂i≥nx ∈ E : |fi(x)− f(x)| > 1

k

, puis

montrer qu’il existe nk tel que µ(Bk,nk) ≤ ε2k

et poserA =⋃k≥1Bk,nk .

Ce résultat est le théorème d’Egoroff.

25

Page 36: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 2 : Espaces Lp et Lp

2. Soient [a, b] un intervalle compact de R et f ∈ L1([a, b]). Montrer quepour tout ε > 0, il existe un ensemble F ⊂ [a, b] tel que f est continuesur F et λ([a, b]\F ) ≤ ε. Ce résultat est le théorème de Lusin.Indication : on rappelle que les fonctions continues sont denses dansL1([a, b]).

3. Étendre le théorème de Lusin aux fonctions mesurables à valeursréelles.

Exercice 23. Étude des variations de la fonction Gamma.On rappelle que la relation Γ(x+1) = xΓ(x) permet de prolonger la fonctionΓ à R\−n;n ∈ N.

1. Montrer que la fonction Γ′

Γ est croissante sur ]0,+∞[.

2. En déduire que Γ′

Γ est croissante sur chaque intervalle de la forme]− (n+ 1),−n[, avec n ≥ 0.

3. Sur chaque intervalle ]−(n+1),−n[, avec n ≥ 0, étudier les variationsde Γ (croissance, convexité, limites aux bords).

2.4.2 Exercices de la série 2

Exercice 24. Soit f une fonction de R dans R intégrable et soit f la classede f dans L1(R,B(R), λ). Montrer que f contient au plus une fonction conti-nue.

Exercice 25. Étudier l’appartenance à L1(R,B(R), λ) et à L2(R,B(R), λ) desfonction suivantes :

1. f(t) = e−|t|.

2. g(t) = sin tt .

3. h(t) = 1√|t|(1+t2)

.

Exercice 26. Étudier dans L1(R,B(R), λ) et dans L2(R,B(R), λ) la conver-gence des suites suivantes :

1. fn(t) =√n exp(−n2t2).

2. gn(t) = n2 sin(nt)2π 1[−π/n,π/n](t).

3. hn(t) = 2πn2

√n2 − t21[−/n,n](t).

Exercice 27. Soit E = f ∈ L1(R,B(R), λ) ; |f | ≤ 1 λ− p.p. Montrer queE est un sous-ensemble fermé de L1(R, λ).

Exercice 28. Montrer que la fonction f : x 7→ 1√x(1 + | log(x)|)

est dans

Lp(]0,+∞[, λ) si et seulement si p = 2.

Exercice 29. Soient p ≥ 1 et CN∗ la mesure de comptage sur N∗. On notesimplement `p(N∗) pour Lp(N∗,P(N∗), CN∗) Donner un exemple de fonctionqui est dans `p(N∗) pour tout p > 1, mais qui n’est pas dans `1(N∗).

Exercice 30. Montrer que si f et g appartiennent à L1(X,µ) alors√|f2 + g2|

appartient aussi à L1(X,µ).

26

Page 37: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

2.4 Exercices sur les espaces Lp

Exercice 31. Soient α ∈ R et p ∈ [1, +∞[. On note fα l’application de]0, +∞[ dans ]0, +∞[ définie par fα(x) = xα.

1. Pour quelle(s) valeur(s) de α, la fonction fα est-elle dans Lp(]0, 1], λ) ?Calculer alors les normes de fα dans chacun de ces espaces.

2. Même question avec les espaces Lp([1,∞[, λ).

Exercice 32. Donner un exemple de suite (fn) dans L1(X,µ) telle que

1. (fn) converge vers f presque partout mais (fn) ne converge pas versf au sens de la norme L1 ;

2. (fn) converge vers f dans L1 mais (fn) ne converge pas vers f presquepartout ;

3. (fn) converge vers f presque partout, (∫fndµ) converge vers

∫fdµ,

mais (fn) ne converge pas vers f au sens de la norme L1.

Exercice 33. Soient (X, M, µ) un espace mesuré avec µ(X) = 1 et f , gdes fonctions mesurables sur X à valeurs dans [0, +∞] telles que fg ≥ 1.

Montrer que l’on a (

∫Xfdµ)(

∫Xgdµ) ≥ 1.

Exercice 34. Soient f ∈ Lp(X,µ), g ∈ Lq(X,µ) et r tel que 1r = 1

p + 1q .

Montrer que fg ∈ Lr(X,µ) et que ||fg||r ≤ ||f ||p||g||q.

Exercice 35. Inégalité de Hardy.Soit p ∈]1,+∞[. Pour f dans Lp(]0,+∞[) et pour x > 0, on pose

T (f)(x) =1

x

∫]0,x[

fdλ .

1. Montrer que T (f) est bien définie sur ]0,+∞[.

2. On suppose dans cette question que f est positive continue à supportcompact.

(a) Montrer que T (f) est dérivable sur ]0,+∞[ et calculer sa dérivée.

(b) Montrer que T (f) ∈ Lp(]0,+∞[).

(c) Montrer que∫

]0,∞[T (f)pdλ =

p

p− 1

∫]0,∞[

T (f)p−1fdλ.

(d) En déduire que ||T (f)||p ≤p

p− 1||f ||p.

(e) Montrer que cette inégalité reste vraie pour f de signe quelconque.3. Soit f ∈ Lp(]0,+∞[).

(a) Montrer que si (fn) est une suite de fonctions continues à sup-port compact qui converge vers f dans Lp(]0,+∞[), alors T (fn)converge vers T (f) λ−presque partout, puis que la suite (T (fn))est de Cauchy dans Lp(]0,+∞[) et enfin que (T (fn)) convergevers T (f) dans Lp(]0,+∞[).

(b) En déduire que ||T (f)||p ≤p

p− 1||f ||p.

Exercice 36. Soit (X, T , µ) un espace mesuré tel que µ(X) < +∞. On sedonne p ∈]1,+∞[ et f : X → R une application mesurable. On suppose quepour toute fonction g ∈ Lp(X,µ), la fonction fg est intégrable et il existe

C > 0 telle que pour toute fonction g ∈ Lp(X,µ) on ait∣∣∣∣ ∫ fg dµ∣∣∣∣ ≤ C||g||p.

Montrer que f ∈ Lq(X,µ) où q est défini par 1p + 1

q = 1

27

Page 38: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 2 : Espaces Lp et Lp

28

Page 39: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 3

Convolution et transformationde Fourier

Dans ce chapitre, p est un réel appartenant à [1,+∞[.

3.1 Produit de convolution

Tout d’abord, nous procédons à quelques remarques utiles pour la suite.Si f1, f2 sont deux fonctions de L1 qui représentent le même élément de

L1, alors∫f1 dµ et

∫f2 dµ sont égales. On peut donc se permettre d’écrire∫

f dµ pour f ∈ L1.L’application Tt : f 7→ (x 7→ f(x− t)) passe au quotient dans L1(Rd), car

si f1 = f2 presque partout, alors f1(.− t) = f2(.− t) presque partout.

Théorème 3.1. Pour toute fonction f dans Lp, l’application

t 7→ Ttf

est continue sur Rd pour ‖ · ‖p.

En d’autres termes, la translation est continue dans Lp.

Démonstration. Comme ‖Tt+hf − Ttf‖p = ‖Th(Ttf) − (Ttf)‖p, il suffit demontrer la continuité en 0. Commençons par le cas où f est une fonctioncontinue à support compact. Comme f est continue, Thf tend simplementvers f . En utilisant le théorème de convergence dominée, on obtient alorsla convergence dans Lp de Thf vers f .

Passons au cas général. D’après le théorème 2.14, on peut trouver g et htelles que f = g + h, g est continue à support compact et ‖h‖p ≤ ε. On a

(Ttf − f) = (Ttg − g) + (Tth− h),

d’où

‖Ttf − f‖p ≤ ‖Ttg − g‖p + ‖Tth‖p + ‖h‖p≤ ‖Ttg − g‖p + 2‖h‖p.

Cela entraîne, en faisant tendre t vers 0

limt→0‖Ttf − f‖p ≤ 2ε.

Comme cette inégalité est vraie pour tout ε, on en déduit que

limt→0‖Ttf − f‖p = 0, ce qui est le résultat voulu.

Page 40: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 3 : Convolution et Fourier

3.1.1 Convolution dans L1

Soient f, g deux éléments de L1(λd). On a alors

∫Rd

(∫Rd|f(x− t)||g(t)| dλd(t)

)dλd(x)

=

∫Rd×Rd

|f(x− t)||g(t)| dλd ⊗ λd(t, x) (Tonelli)

=

∫Rd

(∫Rd|f(x− t)||g(t)| dλd(x)

)dλd(t)

=

∫Rd|g(t)|

(∫Rd|f(x− t)| dλd(x)

)dλd(t)

=

∫Rd|g(t)|

(∫Rd|f(x)| dλd(x)

)dλd(t)

=

(∫Rd|f(x)| dλd(x)

)(∫Rd|g(t)| dλd(t)

)< +∞.

Ainsi, la fonction f ∗ g définie par

x 7→ f ∗ g(x) =

∫Rdf(x− t)g(t) dλd(t)

est définie en presque tout point x et elle est dans L1 : cette fonction est leproduit de convolution de f par g.

Les arguments évoqués précédemment fonctionnent encore. Le produitde convolution “passe au quotient” et définit ainsi une application de L1×L1

dans L1.

Au passage, nous avons démontré :

‖f ∗ g‖1 ≤ ‖f‖1‖g‖1.

En reprenant le calcul précédant et en supposant que f et g sont dans L1, lethéorème de Fubini permet alors d’écrire

∫Rd

(∫Rdf(x− t)g(t) dλd(t)

)dλd(x)

=

∫Rdg(t)

(∫Rdf(x− t) dλd(x)

)dλd(t)

=

∫Rdg(t)

(∫Rdf(x) dλd(x)

)dλd(t)

=

(∫Rdf(x) dλd(x)

)(∫Rdg(t) dλd(t)

),

soit

∫Rd

(f ∗ g)(x) dλd(x) =

(∫Rdf(x) dλd(x)

)(∫Rdg(t) dλd(t)

). (3.1)

30

Page 41: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

3.1 Produit de convolution

3.1.2 Autres produits

Supposons maintenant que g ∈ L1 et que f ∈ Lp. On a par l’inégalité deHölder ∫

|f(x− t)||g(t)| dλd(t)

=

∫|f(x− t)||g(t)|1/p|g(t)|1/q dλd(t)

≤(∫|f(x− t)|p|g(t)| dλd(t)

)1/p(∫|g(t)| dλd(t)

)1/q

.

D’où∫ (∫|f(x− t)||g(t)| dλd(t)

)pdλd(x) ≤

∫∫|f(x−t)|p|g(t)| dλd(t)dλd(x)‖g‖p/q1 .

Par ailleurs, on obtient par Fubini∫ (∫|f(x− t)|p|g(t)| dλd(t)

)dλd(x)

=

∫ (∫|f(x− t)|p|g(t)| dλd(x)

)dλd(t)

=

∫ (∫|f(x− t)|p dλd(x)

)|g(t)|dλd(t)

=

∫‖f‖pp|g(t)|dλd(t) = ‖f‖pp‖g‖1.

En résumé,∫ (∫|f(x− t)||g(t)| dλd(t)

)pdλd(x) ≤ ‖f‖pp‖g‖1+p/q

1 .

Ainsi, l’intégrale ∫f(x− t)g(t) dλd(t)

converge pour presque tout x et l’application

x 7→ f ∗ g(x) =

∫f(x− t)g(t) dλd(t)

représente un élément de Lp avec∫|f ∗ g(t)|p dλd(t) ≤ ‖f‖pp‖g‖

1+p/q1 ,

soit‖f ∗ g‖p ≤ ‖f‖p‖g‖1.

Remarque 3.2 (importante). Quel que soit l’espace où l’on définit les fonc-tions, on a toujours∫

f(x− t)g(t) dλd(t) =

∫g(x− t)f(t) dλd(t)

pour les x tels que ∫|f(x− t)g(t)| dλd(t) < +∞.

On en déduit ainsi que f ∗ g = g ∗ f toutes les fois où cela a un sens.

31

Page 42: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 3 : Convolution et Fourier

3.1.3 Approximations de l’unité

Théorème 3.3. Soit (φk)k≥1 une suite de fonctions mesurables positives tellesque

∀k ≥ 1

∫Rdφk(x) dλd(x) = 1

et pour tout δ > 0,

limk→+∞

∫Rd\B(0,δ)

φk(x) dλd(x) = 0.

Alors— pour toute fonction f uniformément continue et bornée sur Rd, la suite

(f ∗ φk) converge uniformément vers f .— pour toute fonction f dans Lp, la suite (f ∗ φk) converge vers f dansLp.

Démonstration. Soit x ∈ Rd et fixons δ > 0 quelconque.

f ∗ φk(x)− f(x) =

∫Rdf(x− t)φk(t) dλd(t)− f(x)

=

∫Rd

(f(x− t)− f(x))φk(t) dλd(t)

=

∫B(0,δ)

(f(x− t)− f(x))φk(t) dλd(t)

+

∫Rd\B(0,δ)

(f(x− t)− f(x))φk(t) dλd(t).

D’où

|f ∗ φk(x)− f(x)| ≤∫B(0,δ)

ωf (δ)φk(t) dλd(t) +

∫Rd\B(0,δ)

2‖f‖∞φk(t) dλd(t),

où ωf désigne le module de continuité de f . En passant au supremum en x,on obtient

‖f ∗ φk − f‖∞ ≤ ωf (δ) + 2‖f‖∞∫Rd\B(0,δ)

φk(t) dλd(t).

Puis, faisant tendre k vers l’infini, on trouve

limk→+∞

‖f ∗ φk − f‖∞ ≤ ωf (δ).

Comme f est uniformément continue, on obtient le premier résultat vouluen faisant tendre δ vers 0.

Prenons maintenant f dans Lp. On a

|f ∗ φk(x)− f(x)|

= |∫f(x− t)− f(x)φk(t)

1pφ

1− 1p

k (t)d dλd(t)|

≤(∫

φk(t)d dλd(t)|

)1−1/p(∫|f(x− t)− f(x)|pφk(t) dλd(t)

)1/p

≤(|∫Ttf(x)− f(x)|pφk(t) dλd(t)

)1/p

.

32

Page 43: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

3.1 Produit de convolution

En élevant à la puissance p et en intégrant, le théorème de Tonelli nousdonne

‖f ∗ φk − f‖pp ≤∫Rd‖Ttf − f‖ppφk(t) dλd(t).

Soit ε > 0. D’après le théorème 3.1, ‖Ttf−f‖pp tend vers 0 lorsque t tendvers 0. On peut donc se donner δ tel que ‖Ttf − f‖p ≤ ε sur B(0, δ). Commepour tout t, |‖Ttf − f‖pp ≤ (2‖f‖p)p, en découpant comme dans la premièrepartie, on a

‖f ∗ φk − f‖pp ≤ εp + (2‖f‖p)p∫Rd\B(0,δ)

φk(t) dλd(t).

En passant à la limite supérieure, on a limk→+∞

‖f ∗ φk − f‖pp ≤ εp, soit

limk→+∞

‖f ∗ φk − f‖p ≤ ε. On conclut en faisant tendre ε vers 0.

Théorème 3.4. Soit φ une fonction mesurable positive telle que∫Rdφ(x) dλd(x) = 1.

Pour tout k ≥ 1, posons φk(x) = kdφ(kx).Alors, pour toute fonction f dans Lp, la suite (f ∗φk) converge vers f dans Lp.

Démonstration. Un changement de variable linéaire nous donne∫Rd\B(0,δ) φk(x) dλ(x) =

∫Rd 1]kδ,+∞[(‖x‖)φ(x). En prenant δ = 0, on voit

que φk est d’intégrale 1. Le théorème de convergence dominée donne en-

suite limk→+∞

∫Rd\B(0,δ) φk(x) dλ(x) = 0, et on peut appliquer le théorème

précédent.

3.1.4 Régularisation

Théorème 3.5. Soient f ∈ Lp(Rd) et g une fonction de classe C1 à supportcompact. Alors f ∗ g est de classe C1 sur Rd, avec

Dx(f ∗ g) =

∫f(t)Dx−tg dλ

d(t).

Démonstration. Soit M tel que g(x) = 0 pour ‖x‖ ≥ M . Soit R > 0. Pardéfinition, on a

f ∗ g(x) =

∫f(x− t)g(t) dλd(t) =

∫g(x− t)f(t) dλd(t).

Ici, c’est bien sûr la deuxième écriture qui va nous intéresser.Supposons ‖x‖ ≤ R. La différentielle de g(x− t)f(t), vue comme une fonc-tion de x, est f(t)Dx−tg. Bien entendu, on a

|f(t)Dx−tg| ≤ |f(t)|‖Dg‖∞ 1B(0,R+M)(t).

Comme f ∈ Lp et ‖Dg‖∞ 1B(0,R+M) ∈ Lq, donc |f |‖Dg‖∞ 1B(0,R+M) estdans L1. Le théorème de convergence dominée pour la différenciation sousle signe somme donne alors le résultat voulu.

33

Page 44: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 3 : Convolution et Fourier

Corollaire 3.6. Soient f ∈ Lp(Rd) et g une fonction de classe Ck à supportcompact. Alors f ∗ g est de classe Ck sur Rd, avec

Dαx (f ∗ g) =

∫f(t)Dα

x−tg dλd(t),

où on a supposé que le multi-indice α = (α1, . . . , αd) ∈ Nd vérifieα1 + α2 + · · ·+ αd ≤ k.

On rappelle que Dαxf est égale à l’évaluation de la différentielle partielle

∂α1+···+αdf∂α1x1...∂

αdxdau point x = (x1, . . . , xd).

Démonstration. Par récurrence sur k.

Corollaire 3.7. Les fonctions C∞ à support compact forment un ensembledense dans Lp.

Démonstration. On peut toujours approcher une fonction quelconque de Lp

par une fonction à support compact. Ensuite, cette dernière s’approche dansLp par un polynôme ; cela provient immédiatement du Théorème 3.4 et ducorollaire précédent.

3.2 Transformée de Fourier

Définition. Soit f ∈ L1(Rd). On appelle transformée de Fourier de f , et l’onnote f la fonction à valeurs complexes définie sur Rd par

f(t) =

∫ei〈x,t〉f(x) dλd(x).

Évidemment, f 7→ f est linéaire, et comme |ei〈x,t〉f(x)| ≤ |f(x)|, on a

∀f ∈ L1, ‖f‖∞ ≤ ‖f‖1.

Remarque 3.8. Il existe de nombreuses définitions de la transformée de Fou-rier. Le lecteur trouvera par exemple

f(t) =

∫e−i〈x,t〉f(x) dλd(x),

ou encoref(t) =

∫e−2πi〈x,t〉f(x) dλd(x).

Il ne s’agit que d’une convention et il est naturel en probabilité d’utiliser ladéfinition donnée ici, comme nous le verrons dans le chapitre suivant lors de ladéfinition de la fonction caractéristique.

3.2.1 Propriétés élémentaires

Proposition 3.9. Pour f, g ∈ L1, on a— ’f ∗ g = f .g.— ‘Txf(t) = ei〈x,t〉f(t).— Si g(t) = f(t/α) avec α > 0, alors g(t) = αdf(αt).— Si g(t) = f(t)ei〈t,θ〉, alors g(t) = f(t+ θ).—∫f(x) dλd(x) = f(0).

34

Page 45: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

3.2 Transformée de Fourier

Démonstration. La première propriété mérite qu’on y consacre quelquueslignes. On a’f ∗ g(t) =

∫ei〈x,t〉

(∫f(x− u)g(u) dλd(u)

)dλd(x)

=

∫ (∫ei〈x,t〉f(x− u)g(u) dλd(u)

)dλd(x)

=

∫ (∫f(x− u)ei〈t,x−u〉g(u)ei〈t,u〉 dλd(u)

)dλd(x)

=

∫(F ∗G)(x) dλd(x),

où F (x) = f(x)ei〈x,t〉 et G(x) = g(x)ei〈x,t〉. Mais d’après l’équation (3.1), ona ∫

(F ∗G)(x) dλd(x) =

(∫F (x)dλd(x)

)(∫G(x)dλd(x)

),

d’où le résultat voulu.

Théorème 3.10 (Riemann–Lebesgue). Soit f une fonction intégrable sur R,à valeurs réelles ou complexes. Alors

f(t) =

∫Reitxf(x) dx −→

|t|→+∞0.

Démonstration. Traitons d’abord le cas où f est C∞ à support compact. Soitf une telle fonction. Comme f est à support compact (notons [a, b] un inter-valle contenant ce support), on a par intégration par parties∫

Reitxf(x) dx =

∫ b

aeitxf(x) dx =

i

tf(a)eiat − i

tf(b)eibt+

i

t

∫Reitxf ′(x) dx.

Chacun des trois termes est de la forme 1/t multiplié par une quantité bor-née, donc l’expression a bien une limite nulle. On utilise alors la densitédes fonctions C∞ à support compact dans L1 (corollaire 3.7). Soit f ∈ L1 etε > 0. Il existe fε dans L1,C∞ à support compact, telle que

∫R |f−fε| dλ ≤ ε.

Pour tout t réel, on a∣∣∣∣∫Reitxf(x) dx

∣∣∣∣ ≤ ∣∣∣∣∫Reitxfε(x) dx

∣∣∣∣+

∣∣∣∣∫Reitx(f(x)− fε(x)) dx

∣∣∣∣≤

∣∣∣∣∫Reitxfε(x) dx

∣∣∣∣+ ε

d’où limt→+∞

|∫R e

itxf(x) dx| ≤ ε. Comme ε > 0 peut être aussi petit que l’on

veut, on a limt→+∞

|∫R e

itxf(x) dx| = 0, ce qui donne le résultat voulu.

3.2.2 Théorème d’inversion

Théorème 3.11. Soit f ∈ L1(Rd) telle que f ∈ L1(Rd), alors on a

f(t) =1

(2π)d

∫e−i〈x,t〉f(x) dλd(x) p.p.

Pour montrer ce résultat, on a besoin du lemme suivant :

35

Page 46: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 3 : Convolution et Fourier

Lemme 3.12. Soit G(t) = 1(2π)d/2

e−〈t,t〉2 . Alors G(t) = e−

〈t,t〉2 = (2π)d/2G(x).

Démonstration. En utilisant le théorème de Fubini, il est aisé de voir qu’ilsuffit de démontrer le résultat en dimension 1. Cela sera redémontré dans cechapitre sous forme d’un exercice non corrigé, ainsi que, par deux méthodesdifférentes, dans le prochain chapitre.

Démonstration du théorème 3.11. Pour k ≥ 1, posons Gk(t) = kdG(kt). Ona “Gk(t) = kdk−d“G(t/k) = (2π)d/2G(t/k).

On recommence cette procédure, ce qui nous donne

Gk(t) = (2π)d/2kd“G(kt) = (2π)dkdG(kt) = (2π)dGk(t),

et comme Gk est paire

Gk(−t) = (2π)dGk(t),

soit

1

(2π)d

∫e−i〈x,t〉“Gk(x) dλd(x) = Gk(t).

On a donc

f ∗Gk(t) =1

(2π)d

∫ ∫e−i〈t−u,x〉“Gk(x)f(u) dλd(x) dλd(u)

=1

(2π)d

∫e−i〈x,t〉“Gk(x)f(x) dλd(x).

En utilisant le théorème de convergence dominée, on voit que le terme dedroite tend vers 1

(2π)d

∫e−i〈x,t〉f(x) dλd(x) lorsque k tend vers l’infini. Mais

d’après le théorème 3.4, le membre de gauche converge dans L1 vers f .Comme la convergence dans L1 entraîne la convergence d’une sous-suitepresque partout, l’unicité de la limite donne l’égalité voulue.

3.3 Exercices sur la transformation de Fourier

3.3.1 Exercices de la série 1

Exercice 37. Calculer le produit de convolution f ∗g des fonctions suivantesdéfinies sur R (a > 0, b > 0) :

1. f(x) = exp(− x2

2a2) et g(x) = exp(− x2

2b2).

(On admettra que∫R exp(−x2

2 ) dλ(x) =√

2π.)

2. f(x) = 1[−a,a](x) et g(x) = 1[−b,b](x).

Exercice 38. Pour tout entier n, on définit la fonction

gn(x) = (1− x2)n 1[−1,1](x).

On pose an =

∫Rgn(x) dx et kn = a−1

n gn.

1. Montrer que la suite (an) tend vers 0 et que an ≥ 2n+1 pour tout

entier n ≥ 0.

36

Page 47: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

3.3 Exercices sur la transformation de Fourier

2. Soit f une fonction uniformément continue sur R et bornée. Montrerque f ∗ kn converge uniformément vers f .

3. Soit f une fonction continue à support dans [−12 ,

12 ]. Montrer que la

restriction de f ∗ kn à [−12 ,

12 ] est un polynôme de degré ≤ 2n.

4. En déduire le théorème de Weierstrass : toute fonction continue d’unintervalle [a, b] dans R est limite uniforme sur [a, b] d’une suite depolynômes.

Exercice 39. Soit E ∈ B(R) tel que 0 < λ(E) < +∞.

1. Montrer que x 7→ f(x) = (1E ∗ 1−E)(x) est continue sur R.

2. En déduire que E − E = x− y / x ∈ E, y ∈ E est un voisinage de0.Indication : remarquer que si f(x) 6= 0, alors x ∈ E − E.

3.3.2 Exercices de la série 2

Exercice 40. Soit f = 1[− 12, 12

].

1. Déterminer f ∗ f et f ∗ f ∗ f .

2. On note f (∗)1 = f et pour n ≥ 2, f (∗)n = f (∗)(n−1) ∗ f . Vérifier quepour tout n ≥ 1, f (∗)n ∈ L1(R) et que ‖f (∗)n‖1 = 1.

3. Montrer que pour tout n ≥ 2, f (∗)n est de classe Cn−2.

Exercice 41. Soient f et g ∈ L1(Rn). Montrer que si f (resp. g) est nullepresque partout en dehors d’un ensemble A (resp. B) alors f ∗ g est nullepresque partout en dehors de A+B = a+ b; a ∈ A, b ∈ B.

Exercice 42. Soit f la fonction de R dans lui-même définie par f(x) = e−x2

2 .

1. Déterminer la transformée de Fourier de f en remarquant que f estsolution d’une équation différentielle linéaire.

2. SoitA une matrice carrée réelle symétrique d’ordre n définie positive.Déterminer la transformée de Fourier de la fonction de Rn dans Rdéfinie par f(x) = e−〈Ax,x〉 pour x ∈ Rn.

Exercice 43. 1. Soit f ∈ L1(Rn) telle que f ∗f = 0. Montrer que f = 0.

2. Montrer que L1(R) n’a pas d’unité pour la convolution.

Exercice 44. Déterminer la transformée de Fourier de la fonction indicatriced’un intervalle [a, b]. Montrer que 1[−1,1]∗1[−1,1] est la transformée de Fourierd’une fonction de L1(R) qu’on déterminera.

Exercice 45. Calculer la transformée de Fourier de la fonction f de R danslui-même définie par f(x) = e−a|x|, pour x ∈ R (où a > 0). En déduire la

transformée de Fourier de la fonction g : x 7→ 1

a2 + x2.

Exercice 46. Lemme de Parseval.Soient µ et ν deux mesures de probabilité sur Rd, de transformée de Fourierrespective µ et ν. Montrer que∫

Rdµ(x) dν(x) =

∫Rdν(x) dµ(x).

37

Page 48: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 3 : Convolution et Fourier

38

Page 49: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 4

Fonction génératrice etfonction caractéristique,transformée de Laplace

L’objet du présent chapitre est de montrer comment certaines propriétésdes lois des variables (ou des vecteurs) aléatoires, peuvent être étudiées àl’aide de fonctions auxiliaires définies à partir des lois. Trois transformationssont étudiées ici

— la fonction caractéristique (ou transformée de Fourier), qui est l’outilgénérique,

— la fonction génératrice, adaptée au cas des variables à valeurs en-tières,

— la transformée de Laplace, adaptée au cas des variables à valeursréelles positives.

4.1 Fonction génératrice d’une variable aléatoire àvaleurs dans N

Définition. On appelle fonction génératrice d’une variable aléatoire X à va-leurs dans N la fonction

z 7→ GX(z) := E[zX ] =+∞∑k=0

P(X = k)zk.

Usuellement, on définit cette fonction sur l’intervalle réel [−1, 1], maiselle est, en fait, toujours définie sur la boule unité complexe fermée, notéeB(0, 1).

Remarque 4.1. Si la loi de X est à support fini, alors GX est un polynôme.

4.1.1 Fonction génératrice et indépendance

Théorème 4.2. Si deux variables aléatoires X et Y sont indépendantes, on aGX+Y = GXGY .

Démonstration. Soit z ∈ B(0, 1). On a

GX+Y (z) = E[zX+Y ] = E[zXzY ] = E[zX ]E[zY ] = GX(z)GY (z).

Page 50: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

4.1.2 Calculs de fonctions génératrices

Loi de Bernoulli

La fonction génératrice d’une loi de Bernoulli de paramètre p estz 7→ (1− p) + pz, car si X suit une telle loi, on a

E[zX ] = P(X = 0)z0 + P(X = 1)z1 = (1− p) + pz.

Loi binomiale

Si X1, . . . , Xn sont des variables aléatoires indépendantes suivant la loide Bernoulli de paramètre p, alors Sn = X1 + · · ·+Xn suit la loi binomialede paramètres n et p. Ainsi, on déduit du théorème 4.2 que la fonctiongénératrice d’une loi binomiale de paramètres n et p est

GSn(z) = GX1(z)× · · · ×GXn(z) = ((1− p) + pz)n.

Loi géométrique de paramètre p ∈]0, 1[

Soient X suivant la loi géométrique de paramètre p et z ∈ B(0, 1). Lafonction génératrice de X vaut alors, par le théorème de transfert :

GX(z) = E[zX ] =+∞∑n=1

p(1− p)n−1zn =+∞∑n=0

p(1− p)nzn+1

= pz+∞∑n=0

((1− p)z)n =pz

1− (1− p)z.

Loi de Poisson

Soit X une variable aléatoire suivant une loi de Poisson de paramètreλ > 0. On a

GX(s) =

+∞∑k=0

P(X = k)sk =+∞∑k=0

e−λλk

k!sk = e−λ

+∞∑k=0

(λs)k

k!

= e−λeλs = e−λ(1−s).

4.1.3 Fonction génératrice et loi

Théorème 4.3. Soit X une variable aléatoire à valeurs dans N. Sur [0, 1[,la fonction z 7→ GX(z) est infiniment dérivable et ses dérivées sont toutespositives, avec

G(n)X (s) = E[X(X − 1) . . . (X − n+ 1)sX−n].

En particulier

P(X = n) =G

(n)X (0)

n!,

ce qui montre que la fonction génératrice caractérise la loi.

Démonstration. La fonction z 7→ GX(z) est la somme d’une série entière derayon de convergence au moins égal à 1. Ainsi, z 7→ GX(z) est holomorphe

40

Page 51: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.1 Fonction génératrice d’une variable entière

sur le disque unité ouvert et y est infiniment dérivable, avec pour tout z dansle disque ouvert unité :

G(n)X (z) =

+∞∑k=n

k(k − 1) . . . (k − n+ 1)P(X = k)zk−n.

Il suffit maintenant d’appliquer le théorème de transfert pour constater quele membre de droite est l’espérance de X(X − 1) . . . (X − n+ 1)zX−n.

En prenant z = 0, on obtient

G(n)X (0) = E

[X(X − 1) . . . (X − n+ 1) 1X−n=0

]= E

[n(n− 1) . . . (n− n+ 1) 1X−n=0

]= n!P(X = n).

La restriction à un intervalle de R d’une fonction holomorphe est évi-demment une fonction infiniment dérivable. Lorsque s ∈ [0, 1[, on a pourtout ω ∈ Ω :

X(ω)(X(ω)− 1) . . . (X(ω)− n)(X(ω)− n+ 1)sX(ω)−n ≥ 0.

Comme l’espérance d’une variable aléatoire positive est positive, le résultats’ensuit.

4.1.4 Application : convolution de lois de Poisson

Théorème 4.4. Soient X et Y deux variables aléatoires indépendantes, Xsuivant une loi de Poisson de paramètre λ et Y une loi de Poisson de paramètreµ. Alors X + Y suit une loi de Poisson de paramètre λ+ µ.

Démonstration. On a vu qu’une variable aléatoire réelle suivant une loi dePoisson de paramètre λ admet pour fonction génératrice s 7→ e−λ(1−s), ceciquel que soit λ > 0.En particulier, il s’ensuit que GX(s) = e−λ(1−s) et GY (s) = e−µ(1−s). Or, ona GX+Y (s) = GX(s)GY (s) = e−λ(1−s)e−µ(1−s) = e−(λ+µ)(1−s). Ainsi X + Ya la même fonction génératrice qu’une loi de Poisson de paramètre λ + µ.Mais d’après le théorème 4.3, la fonction génératrice détermine la loi, doncX + Y suit la loi de Poisson de paramètre λ+ µ.

4.1.5 Fonction génératrice et espérance

Théorème 4.5. Soit X une variable aléatoire à valeurs dans N.Alors EX < +∞ si et seulement si GX admet une dérivée à gauche en 1. Dansce cas G′X(1) = EX.

Démonstration. On note ν la loi de X. Pour x ∈ [0, 1[, on a

GX(1)−GX(x)

1− x=

+∞∑n=0

1− xn

1− xν(n).

Pour tout n, on a 1−xn1−x = 1 + x+ · · ·+ xn−1 : c’est donc une fonction crois-

sante de x. De plus limx→1−

1−xn1−x = n. D’après le théorème de convergence

monotone (on intègre sur N par rapport à la mesure de comptage), on adonc

limx→1−

GX(1)−GX(x)

1− x=

+∞∑n=0

nν(n) =

∫x dν(x) = EX.

41

Page 52: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

4.2 Fonctions caractéristiques

4.2.1 Motivations

La fonction caractéristique est un outil analogue à la fonction généra-trice, qui permet de généraliser les techniques des fonctions génératrices auxvariables aléatoires à valeurs réelles, et même aux vecteurs aléatoires. Dansd’autres branches des mathématiques, la fonction caractéristique est appe-lée “transformée de Fourier”, que nous avons déjà présentée au chapitre 3.Si X est une variable aléatoire à valeurs dans Rd, on peut considérer, pourt ∈ Rd, exp(i〈t,X〉) comme une variable aléatoire à valeurs complexes, cequi signifie que ses parties réelle cos(〈t,X〉) et imaginaire sin(〈t,X〉) sontdes variables aléatoires réelles. Comme ces variables sont bornées (par 1),elles admettent une espérance, qu’il est naturel d’écrire

E exp(i〈t,X〉) = E cos(〈t,X〉) + iE sin(〈t,X〉).

Définition. On appelle fonction caractéristique d’une mesure de probabilité µsur Rd la fonction complexe définie en tout point de Rd par

∀t = (t1, . . . , td) ∈ Rd,

φµ(t1, . . . , td) =

∫Rd

exp(i(t1x1 + t2x2 + · · ·+ tdxd)) dµ(x).

Par extension, on appelle fonction caractéristique d’un vecteur aléatoire X eton note φX la fonction caractéristique de sa loi. Ainsi

∀t ∈ Rd φX(t) = φPX (t) =

∫Rd

exp(i〈t, x〉) dPX(x) = Eei〈t,X〉.

Remarque 4.6. La fonction caractéristique ne dépend en fait que de la loi deX, notée PX . Il s’agit tout simplement de la transformée de Fourier de la loiPX .

On va démontrer ici un résultat d’analyse important, qui justifie la déno-mination de fonction caractéristique et rend cet outil pertinent.

Théorème 4.7. Soient µ et ν deux mesures de probabilité sur Rd. On a

∀t ∈ Rd φµ(t) = φν(t) ⇐⇒ µ = ν.

Démonstration. On va se concentrer sur le cas de la dimension 1. Les dimen-sions plus grandes compliquent en effet les écritures sans apporter d’idéenouvelle.

En fait, on va établir la formule d’inversion suivante :

µ(]a, b[) +1

2(µ(a) + µ(b)) = lim

T→+∞

1

∫ T

−T

e−ita − e−itb

itφµ(t) dt.

Posons

IT (a, b) =1

∫ T

−T

e−ita − e−itb

itφµ(t) dt.

Remplaçons φµ par sa définition :

IT (a, b) =1

∫ T

−T

∫e−ita − e−itb

iteitx dµ(x) dt.

42

Page 53: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.2 Fonctions caractéristiques

On peut utiliser le théorème de Fubini, ce qui nous donne

IT (a, b) =1

∫ ∫ T

−T

e−ita − e−itb

iteitx dt dµ(x)

=1

∫ (∫ T

−T

eit(x−a) − eit(x−b)

itdt

)dµ(x).

Or la formule de Moivre et la parité du cosinus donnent∫ T

−T

eit(x−a) − eit(x−b)

itdt =

∫ T

−T

sin(t(x− a))− sin(t(x− b))t

dt

d’où

IT (a, b)

=

∫ (sign(x− a)

∫ |x−a|T−|x−a|T

sin t

tdt− sign(x− b)

∫ |x−b|T−|x−b|T

sin t

tdt

)dµ(x).

De plus, l’application

y 7→∫ y

−y

sin t

tdt

est une application continue qui admet comme limite π lorsque y tend versl’infini. En particulier, sa norme est bornée par une constante M .

La quantité apparaissant sous l’intégrale est donc bornée parM/π. LorsqueT tend vers l’infini, elle converge vers la fonction

Ia,b =

0, si x < a

1/2, si x = a

1, si x ∈]a, b[

1/2, si x = b

0, si x > b.

Ainsi, IT (a, b) converge vers∫Ia,b dµ, ce qui donne la convergence vers la

limite annoncée. Si µ(a) = µ(b) = 0, alors Ia,b est µ−presque sûrementl’indicatrice de ]a, b[, ce qui donne

∫Ia,b dµ =

∫1]a,b[ dµ = µ(]a, b[).

Ainsi, si deux mesures µ et ν ont la même fonction caractéristique, on aµ(]a, b[) = ν(]a, b[) quels que soient a et b dans

R\x ∈ R;µ(x) > 0 ou ν(x) > 0.

Mais ces ensembles forment un π-système qui engendre la tribu, donc lesdeux mesures coïncident.

Donnons une conséquence frappante de ce théorème qui nous sera utiledans l’étude des vecteurs gaussiens.

Théorème 4.8. Soient X et Y deux vecteurs aléatoires sur Rd tels que pourtout a ∈ Rd, 〈X, a〉 et 〈Y, a〉 ont même loi. Alors X et Y ont même loi.

Démonstration. On va montrer que X et Y ont même fonction caractéris-tique, ce qui assurera qu’ils ont même loi. Soit a ∈ Rd. On pose Z = 〈X, a〉et T = 〈Y, a〉. Comme Z et T ont même loi, on a EeiZ = EeiT . Mais on aaussi par définition de Z et T : EeiZ = Eei〈X,a〉 = φX(a) et EeiT = Eei〈Y,a〉 =φY (a), donc φX(a) = φY (a). Ainsi φX = φY , donc X et Y ont même loi.

43

Page 54: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

4.2.2 Propriétés des fonctions caractéristiques

Théorème 4.9. Soit µ une mesure de probabilité sur Rd. On a les propriétéssuivantes :

i) φµ(0) = 1.

ii) |φµ| ≤ 1.

iii) φ est uniformément continue sur Rd.

iv) Si e1, . . . , ep sont des éléments de Rd, la matrice A de taille p× p définiepar ak,l = φµ(ek − el) est hermitienne positive.

Démonstration. i) φµ(0) =∫Rd e

i〈x,0〉dµ(x) =∫Rd 1 dµ = 1.

ii) |φµ(t)| = |∫Rd e

i〈x,t〉dµ(x)| ≤∫Rd |e

i〈x,t〉|dµ(x) =∫Rd 1 dµ = 1.

iii) Soient t, t′ ∈ Rd. On a

|φµ(t)− φµ(t′)| =

∣∣∣∣∫Rdei〈t,x〉 − ei〈t′,x〉 dµ(x)

∣∣∣∣=

∣∣∣∣∫Rdei〈t,x〉(1− ei〈(t′−t),x〉) dµ(x)

∣∣∣∣≤

∫Rd|1− ei〈(t′−t),x〉| dµ(x).

Il suffit maintenant de voir que la fonction u 7→∫Rd |1− e

i〈u,x〉| dµ(x)admet une limite nulle en 0 pour conclure. Or ce dernier point estassuré par le théorème de convergence dominée de Lebesgue, carpour a, y ∈ R, on a |1− eiay| ≤ min(|ay|, 2).

iv) On remarque que, pour tout p−uplet de nombres réels x1, . . . , xp, ona

0 ≤∫Rd

∣∣∣∣ p∑k=1

xk exp(i〈ek, x〉)∣∣∣∣2 dµ(x)

=

∫Rd

p∑k=1

p∑l=1

xkxl exp(i〈ek − el, x〉) dµ(x)

=p∑

k=1

p∑l=1

xkxl

∫Rd

exp(i〈ek − el, x〉) dµ(x)

=p∑

k=1

p∑l=1

xkxlφµ(ek − el).

Exemple: Pour n = 1, soit f une fonction positive 2π-périodique intégrablesur [−π, π[, et soit µ la mesure définie par

dµ(x) :=f(x)

2π1[−π,π[(x) dλ(x).

φµ(k) est alors le k−ième coefficient de Fourier de f . On prend alors classi-quement ek = k.Ainsi, si f est non nulle, la matrice A est en fait définie positive (c’est-à-direque la forme quadratique définie par A est strictement positive pour v 6= 0 :

44

Page 55: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.2 Fonctions caractéristiques

pour tout vecteur colonne v 6= 0, on a vtAv > 0) car

p∑k=1

p∑l=1

xkxlφµ(k − l) = 0 =⇒∫

[−π,π[

∣∣∣∣ p∑k=1

xk exp(ikx)

∣∣∣∣2 dµ(x) = 0

=⇒ 12π

∫[−π,π[

∣∣∣∣ p∑k=1

xk exp(ikx)

∣∣∣∣2 f(x) dλ(x) = 0

=⇒∣∣∣∣ p∑k=1

xk exp(ikx)

∣∣∣∣2 f(x) = 0 p.p. sur [−π, π].

Comme un polynôme trigonométrique non nul n’a qu’un nombre fini dezéros sur [−π, π], on en déduit que f est presque partout nulle, ce qu’on avaitexclu. En fait, un théorème difficile nous dit que les propriétés énoncées ci-dessus sont largement suffisantes pour permettre d’affirmer qu’une fonctiondonnée est une fonction caractéristique. Il s’agit du théorème de Bochner,que nous admettrons ici.

Proposition 4.10 (Bochner). Soit φ : Rn → C une fonction continue en0, vérifiant φ(0) = 1 et de type positif, c’est-à-dire que si e1, . . . , ep sont deséléments quelconques de Rn, la matrice A de taille p× p définie parak,l = φ(ek − el) est hermitienne positive.

Alors il existe une unique mesure de probabilité µ sur Rn telle que φ = φµ.

Le théorème très simple ci-après est d’usage courant.

Théorème 4.11. Soient X un vecteur aléatoire de Rd, A une application li-néaire de Rd dans Rn et b ∈ Rn. On pose Y = AX + b. Alors

∀t ∈ Rn φY (t) = ei〈b,t〉φX(A∗t).

Démonstration. On écrit

φY (t) = Eei〈Y,t〉 = Eei〈AX+b,t〉 = Eei〈AX,t〉ei〈b,t〉

= Eei〈X,A∗t〉ei〈b,t〉 = ei〈b,t〉φX(A∗t).

4.2.3 Fonction caractéristique et indépendance

Théorème 4.12. Soient X et Y deux vecteurs aléatoires indépendants à va-leurs dans Rd. Alors

∀t ∈ Rd, φX+Y (t) = φX(t)φY (t).

Démonstration. On utilise l’indépendance de X et Y :

φX+Y (t) = Eei〈t,X+Y 〉 = Eei〈t,X〉ei〈t,Y 〉 = Eei〈t,X〉Eei〈t,Y 〉 = φX(t)φY (t).

Théorème 4.13. Soient X et Y deux vecteurs aléatoires indépendants, Xétant à valeurs dans Rn et Y à valeurs dans Rp. Alors le vecteur (X,Y ) dedimension n+ p admet comme fonction caractéristique la fonction

∀(s, t) ∈ Rn × Rp, φ(X,Y )(s, t) = φX(s)φY (t).

45

Page 56: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

Démonstration. On écrit

φ(X,Y )(s, t) = Eei(〈s,X〉+〈t,Y 〉) = E[ei〈s,X〉ei〈t,Y 〉]

= Eei〈s,X〉Eei〈t,Y 〉 = φX(s)φY (t).

Corollaire 4.14. Si µ et ν sont des mesures de probabilité respectivement dé-finies sur Rn et Rp, alors

∀(s, t) ∈ Rn × Rp, φµ⊗ν(s, t) = φµ ⊗ φν(s, t) = φµ(s)φν(t).

Démonstration. Il suffit de considérer un couple (X,Y ) de variables aléa-toires de loi µ⊗ ν. Comme X et Y sont indépendantes, on a

φµ⊗ν(s, t) = φ(X,Y )(s, t) = φX(s)φY (t) = φµ(s)φν(t).

Le théorème 4.13 admet une réciproque.

Théorème 4.15. Soient X et Y deux vecteurs aléatoires, X étant à valeursdans Rn et Y à valeurs dans Rp. Si

∀(s, t) ∈ Rn × Rp, φ(X,Y )(s, t) = φX(s)φY (t),

alors X et Y sont indépendants.

Démonstration. On suppose que φP(X,Y )(s, t) = φPX (s)φPY (t). Mais d’après

le corollaire précédent, on a φPX (s)φPY (t) = φPX⊗PY (s, t).Ainsi φP(X,Y )

(s, t) = φPX⊗PY (s, t). Comme la fonction caractéristique carac-térise la loi, on a P(X,Y ) = PX ⊗ PY , ce qui signifie que X et Y sont indé-pendants.

En revanche, le théorème 4.12 n’admet pas de réciproque : on verra enexercice des variables aléatoires X et Y non-indépendantes telles queφX+Y = φXφY .

4.2.4 Fonction caractéristique et moments

Théorème 4.16. Si X est une variable aléatoire à valeurs dans Rd de loi µtelle que ‖X‖ admette un moment d’ordre N , alors la fonction caractéristiquede X est de classe CN .

Si k1, . . . , kd sont des entiers naturels dont la somme k = k1 + · · ·+ kd nedépasse pas N , on a alors

∀u ∈ Rd∂kφX

∂k11 . . . ∂kdd(u) = ik

∫Rdei〈u,x〉

d∏j=1

xkjj dµ(x). (4.1)

Ainsi, on a en particulier

∂kφX

∂k11 . . . ∂kdd(0) = ikE

[d∏j=1

Xkjj

]. (4.2)

46

Page 57: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.2 Fonctions caractéristiques

Démonstration. On montre d’abord le lemme suivant : si P ∈ R[X1, . . . , Xd]est le monôme de degré k : P (X) = Xα1

1 . . . Xαdd avec α1 + · · · + αd = k et

E(‖X‖k+1) < +∞, alors

Ψ : u 7→ E(ei〈u,X〉P (X))

est une application de classe C1 de Rd dans C avec pour tout j ∈ 1, . . . , d :

∀u ∈ Rd∂Ψ

∂j(u) = E(iei〈u,X〉XjP (X)).

Le lemme se montre facilement à l’aide du théorème de dérivation sous lesigne intégrale et de la majoration |P (x)| ≤ ‖x‖k∞.

La première formule s’en déduit simplement par récurrence sur k. Pourla deuxième formule, il suffit de prendre u = 0.

Dans le cas des variables aléatoires réelles, le théorème s’énonce évidem-ment plus simplement.

Corollaire 4.17. Si X est une variable aléatoire réelle admettant un momentd’ordre N , alors la fonction caractéristique de X est de classe CN et on a

∀k ∈ 1, . . . , N, φ(k)X (0) = ikE[Xk]. (4.3)

En particulier, siX admet un moment d’ordre 2 et est centrée avec une varianceσ2, on a alors le développement limité en 0 :

φX(t) = 1− σ2t2

2+ o(t2).

Démonstration. Si X admet un moment d’ordre 2, alors φX est de classe C2

et donc

φX(t) = φX(0) + φ′X(0)t+φ′′X(0)

2t2 + o(t2).

On a de plus φX(0) = 1, φ′X(0) = iEX = 0 et φ′′X(0) = −EX2 = −VarXcar EX = 0. Il suffit de substituer pour conclure.

4.2.5 Fonctions caractéristiques des variables aléatoires à va-leurs dans N

Pour une variable aléatoire à valeurs dans N, le calcul de la fonctioncaractéristique est équivalent à celui de la fonction génératrice. En effet, ona la formule :

∀t ∈ R, φX(t) = E[eitX ] = E[(eit)X ] = GX(eit).

On laisse au lecteur le soin de calculer la fonction caractéristique de la loi deBernoulli, de la loi binomiale, de la loi de Poisson et de la loi géométrique.

4.2.6 Quelques fonctions caractéristiques de mesures à densité

Pour une mesure à densité, le calcul de la fonction caractéristique est enfait le calcul de la transformée de Fourier de la densité. Lorsque l’on sort descas simples où une primitive peut facilement être trouvée, ces intégrales sontsouvent calculées en utilisant des techniques issues de la théorie de l’ana-lyse complexe, par exemple en utilisant la méthode des résidus ou encore

47

Page 58: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

en appliquant un théorème de prolongement analytique. D’autres méthodespeuvent être utiles, par exemple reconnaître la transformée de Fourier d’unefonction connue, ou utiliser un théorème d’inversion, ou expliciter une équa-tion différentielle satisfaite par la fonction caractéristique, puis la résoudre.Nous traiterons d’abord la méthode de la théorie de la variable complexequi, nous ne le cachons pas, a notre préférence, mais donnerons égalementun calcul de pure analyse réelle, pour ne pas pénaliser le lecteur qui n’estpas familier de cette théorie.

Loi uniforme sur [a, b]

On commence par calculer la fonction caractéristique de la loi uniformesur [−1, 1]. Pour t 6= 0, on a

φX(t) = EeitX =

∫ 1

−1

1

2eitx dx =

[eitx

2it

]1

−1

=eit − e−it

2it=

sin t

t.

La formule se prolonge par continuité pour t = 0 (avec φX(0) = 1).Maintenant, si on pose Y = a+b

2 + b−a2 X, alors Y suit la loi uniforme sur

[a, b] et on a

φY (t) = eia+b2 φX((b− a)t) = ei

a+b2

sin (b−a)t2

(b−a)t2

.

Loi exponentielle de paramètre λ

On commence par calculer la fonction caractéristique de la loi exponen-tielle de paramètre 1. Pour tout réel t, on a

φX(t) = EeitX =

∫ +∞

0e−xeitx dx =

[e(−1+it)x

−1 + it

]+∞

0

=0− 1

−1 + it=

1

1− it.

Maintenant, si on pose Y = 1λX, alors Y suit la loi E(λ) et on a

φY (t) = φX

(1

λt

)=

1

1− i tλ=

λ

λ− it.

Variable aléatoire gaussienne

Théorème 4.18. La fonction caractéristique de la loi normale N (m,σ2) est

t 7→ exp(imt) exp

−1

2σ2t2

.

Démonstration. On va d’abord déterminer la fonction caratéristique de la loiN (0, 1). Nous devons calculer

φX(t) =1√2π

∫R

exp(−x2/2) exp(itx) dλ(x).

Ainsi, cela achèvera la preuve du lemme 3.12.Méthode 1 : utilisation de la théorie des fonctions holomorphes.Pour z ∈ C, on pose

fz(x) = exp(−x2/2) exp(xz).

48

Page 59: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.2 Fonctions caractéristiques

Pour tout x ∈ R, la fonction z 7→ fz(x) est holomorphe sur C. D’autrepart, pour z ∈ D(0, R) la fonction x 7→ fz(x) est dominée par la fonctionintégrable x 7→ exp(−x2/2) exp(R|x|), car ∀x ∈ R, ∀z ∈ D(0, R), on a

| exp(−x2/2) exp(xz)| = exp(−x2/2) exp(xRe z) ≤ exp(−x2/2) exp(R|x|).

Il s’ensuit que z 7→∫R fz(x)dλ(x) est holomorphe.

Pour z réel, on a

1√2π

∫R

exp(−x2/2) exp(zx) dλ(x)

=1√2π

∫R

exp(−((x− z)2 − z2)/2) dλ(x)

=1√2π

∫R

exp(−(x− z)2/2) dλ(x) exp

(z2

2

)= exp

(z2

2

),

car l’expression intégrée n’est autre que la densité de la loi N (z, 1). Mais sideux fonctions holomorphes coïncident sur R, elles coïncident sur C. On adonc

∀z ∈ C,1√2π

∫R

exp(−x2/2) exp(zx) dλ(x) = exp

(z2

2

).

On particularise alors z en it, t étant réel, et on obtient

φX(t) =1√2π

∫R

exp(−x2/2) exp(itx) dx = exp

(− t

2

2

).

Méthode 2 : utilisation d’une équation différentielle.On s’appuie sur le lemme suivant :

Lemme 4.19. Soit g une fonction dérivable sur R telle qu’il existe A > 0 etc > 0 tels que

∀x ∈ R |g(x)|+ |g′(x)| ≤ A exp(+c|x|).

Si X ∼ N (0, 1), alors g′(X) et Xg(X) sont intégrables et on a

E[g′(X)] = E[Xg(X)].

Démonstration. Il est facile de vérifier que

(g(x)f(x))′ = (g′(x)− xg(x))f(x).

On a donc pour tout a, b ∈ R,

g(b)f(b)− g(a)f(a) =

∫ b

ag′(x)f(x) dx−

∫ b

axg(x)f(x) dx.

Les hypothèses faites sur g et g′ assurent l’intégrabilité sur R de g′f et gf .

Comme, de plus lima→−∞

g(a)f(a) = limb→+∞

g(b)f(b) = 0, on en déduit que

0 =

∫Rg′(x)f(x) dλ(x)−

∫Rxg(x)f(x) dλ(x),

soit E[g′(X)] = E[Xg(X)].

49

Page 60: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

On pose gt(x) = eitx. On a φX(t) = E[gt(X)]. Avec l’aide du théorèmede dérivation sous le signe intégrale, on montre facilement que

φ′X(t) =1√2π

∫R

exp(−x2/2)ix exp(itx) dx = iE[Xgt(X)].

Mais d’après la formule d’intégration par parties de la variable gaussienne(vue au lemme 4.19), on a E[Xgt(X)] = E[g′t(X)]. Cependant, pour tout xréel, on a g′t(x) = itgt(x), d’où

φ′X(t) = iE[Xgt(X)] = iE[g′t(X)] = iE[itgt(X)] = −tE[gt(X)] = −tφX(t).

L’équation différentielle se résout classiquement.On pose F (t) = exp(t2/2)φX(t). On a F (0) = 1 et F ′(t) = 0, donc F estconstante égale à un, ce qui donne φX(t) = exp(−t2/2).

Pour passer au cas général, on pose Y = σX+m ; on a Y ∼ N (m,σ2), et

alors φY (t) = EeitY = eit(σX+m) = eimtEeitσX = eimtφX(σt) = eimte−σ2t2

2 .

Loi de Cauchy

Théorème 4.20. La fonction caractéristique de la loi de Cauchy C(a, b) est

t 7→ φ(t) = eiate−b|t|.

Démonstration. Rappelons que la loi de Cauchy C(a, b) admet comme den-sité par rapport à la mesure de Lebesgue :

x 7→ 1

π

b

(x− a)2 + b2.

On va d’abord calculer la fonction caractéristique de C(0, 1).Méthode 1 : utilisation de la théorie des fonctions holomorphes.

On suppose d’abord que t > 0. Pour R > 1, on intègre la fonction f(z) =eitz

1+z2sur le contour γR.

R−R 0

iR

• i

γR

Le seul pôle de f à l’intérieur de la courbe est i, donc pour R > 1, on a

1

2iπ

∫γR

f(z) dz = Resif(z).

Or 11+(i+h)2

= 1h

12i+h , donc Resif(z) = e−t

2i . Ainsi,

∀R > 1,1

π

∫γR

f(z) dz = e−t.

50

Page 61: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.3 Transformée de Laplace

Par ailleurs, ∫γR

f(z) dz =

∫ R

−Rf(t) dt+ iR

∫ π

0f(Reiθ)eiθ dθ.

Mais, lorsque z = Reiθ et sin θ ≥ 0, on a

|f(Reiθ)eiθ| = e−Rt sin θ

|1 + z2|≤ 1

R2 − 1.

(C’est ici qu’on utilise l’hypothèse t > 0.) Ainsi,

limR→+∞

iR

∫ π

0f(Reiθ)eiθ dθ = 0.

On en déduit que

e−t =1

π

∫ +∞

−∞f(t) dt.

Donc si X ∼ C(0, 1), on a alors

∀t > 0 φX(t) = e−t.

Comme la loi de X est symétrique (PX = P−X) et que φ(0) = 1, on a

∀t ∈ R φX(t) = e−|t|.

Méthode 2 : utilisation de l’inversion de Fourier.Cette méthode n’est pas naturelle, mais elle est classique. Elle suppose de

“connaître le résultat à l’avance”. Posons f(x) = e−|x|. Un calcul simpledonne f(t) = 2

1+t2. On remarque que f ∈ L1, donc d’après le théorème

d’inversion, on a pour λ−presque tout x

e−|x| =

∫R

1

2πe−ixt

2

1 + t2dλ(t) =

∫Reixt

1

π

1

1 + t2dλ(t) = φX(x)

par symétrie. L’ensemble des x ∈ R tels que φX(x) 6= e−|x| est un ouvert, carx 7→ φX(x) − e−|x| est continue. Comme il est de mesure nulle, il est vide,ce qui nous donne φX(t) = e−|t| pour tout t dans R.Pour conclure, on remarque enfin que si on pose Y = bX + a, on aY ∼ C(a, b), et alors

φY (t) = EeitY = eit(bX+a) = eiatEeitbX = eiatφX(bt) = eiate−b|t|.

4.3 Transformée de Laplace

On note H+ = a + ib; (a, b) ∈ R∗+ × R le demi-plan positif ouvert etH+ = a + ib; (a, b) ∈ R+ × R le demi-plan positif fermé. À toute mesurede probabilité µ sur R+, on associe une fonction Lµ définie sur le demi-planpositif fermé par

∀z ∈ H+ Lµ(z) =

∫R+

e−zt dµ(t).

51

Page 62: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

C’est la transformée de Laplace de µ. On définit également la fonctiongénératrice des moments Mµ par

Mµ(z) = Lµ(−z) =

∫R+

ezt dµ(t).

Mµ(z) peut éventuellement valoir +∞. On définit la transformée de Laplaced’une variable aléatoire positive X par

∀z ∈ H+ LX(z) = E[e−zX ] =

∫R+

e−zt dPX(t).

Comme on l’a fait pour les fonctions génératrices ou caractéristiques, il estfacile de voir que si X et Y sont des variables aléatoires indépendantes, ona

∀z ∈ H+ LX+Y (z) = LX(z)LY (z).

Théorème 4.21. Lµ est continue sur H+, holomorphe sur H+, avec

∀n ∈ N ∀z ∈ H+, L(n)µ (z) = (−1)n

∫R+

tne−zt dµ(t).

La restriction de Lµ au demi-axe réel positif est telle que Mµ est absolumentmonotone, c’est-à-dire que toutes ses dérivées sont positives (pour tout n ≥ 0,z > 0, on a (−1)nL(n)

µ (z) ≥ 0). Cette restriction suffit à caractériser µ.

Démonstration. La continuité découle aisément du théorème de continuitésous le signe intégrale, et de la majoration |ezx| ≤ 1. L’holomorphie etl’expression des dérivées découlent de cette même majoration et du théo-rème B.3. La positivité des dérivées est évidente sur l’expression trouvée.Si Lµ et Lν coïncident sur le demi-axe réel positif, elles coïncident sur ledemi-espace positif ouvert, par le principe de prolongement analytique. Parcontinuité, elles coïncident sur l’axe des imaginaires purs, donc les fonctionscaractéristiques coïncident, ce qui entraîne l’égalité des mesures.

De même que le théorème de Bochner décrivait les fonction caracté-ristiques, le théorème suivant, dû à Bernstein, permet de caractériser lestransformées de Laplace des mesures de probabilité.

Théorème 4.22 (de Bernstein). Soit f une fonction continue sur R−, infini-ment dérivable sur R∗− et absolument monotone, c’est-à-dire que

∀x < 0, ∀n ≥ 0, f (n)(x) ≥ 0

et f(0) = 1. Alors, il existe une unique mesure de probabilité µ telle que

∀x ≥ 0, f(−x) = Lµ(x) =

∫R+

e−xt dµ(t).

Démonstration. On renvoie à Garet–Kurtzmann pour la preuve.

4.4 Exercices sur les fonctions génératrices et les fonc-tions caractéristiques

4.4.1 Exercices de la série 1

Exercice 47. Pour tout r > 0, on pose Γ(r) =∫∞

0 e−ttr−1dt. On rappelleque la loi Γ(r, λ) est la probabilité de densité

γr,λ(t) =λr

Γ(r)e−λttr−1 1R+(t).

52

Page 63: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.4 Exercices sur les fonctions caractéristiques

1. Calculer la transformée de Laplace de Γ(r, λ).

2. Montrer que si X et Y sont des variables indépendantes de loi res-pectives Γ(r, λ) et Γ(s, λ) alors X + Y suit une loi Γ(r + s, λ).

3. Soient X1, . . . , Xn des variables indépendantes de loi exponentiellede paramètre λ. Calculer la loi de X1 + · · ·+Xn.

4. Soient X1, . . . , Xn des variables indépendantes de loi N (0, 1). Mon-trer que X2

1 suit une loi Γ et en déduire la loi de X21 + · · · + X2

n

(appelée loi du χ2).

Exercice 48. Soient (Xn) une suite de variables aléatoires indépendantesde même loi non dégénérée à valeurs dans N et T une variable aléatoire àvaleurs dans N∗ indépendante des précédentes. On définit, pour tout n ∈ N∗,

la variable Sn =n∑j=1

Xj , puis S(ω) = ST (ω)(ω) pour tout ω ∈ Ω.

1. SiGT etGX1 désignent les fonctions génératrices de T etX1, montrerque la fonction génératrice de S est donnée par GS = GT GX1 .

2. Formule de Wald.Si X1 et T admettent les moyennes (espérances) m et t, montrer queE[S] = mt.

Exercice 49. Loi de Laplace.Soient X et ε deux variables aléatoires indépendantes, où X suit la loi ex-ponentielle de paramètre 1 et ε la loi de Rademacher : Pε = 1

2δ1 + 12δ−1.

On appelle loi de Laplace la loi de εX.

1. Montrer que la loi de Laplace est une loi à densité.

2. Calculer la fonction caractéristique de la loi de Laplace.

Exercice 50. On considère quatre variables aléatoires indépendantes iden-tiquement distribuées X1,1,X1,2, X2,1, X2,2 de loi N (0, 1).

1. On note U = X1,1X2,2 et V = X1,2X2,1. Déterminer la fonction ca-ractéristique de U et de V .

2. Montrer que le déterminant∣∣∣∣X1,1 X1,2

X2,1 X2,2

∣∣∣∣ suit la loi de Laplace définie

dans l’exercice précédent.

Exercice 51. Probabilité de retour en zéro au temps n d’une marche aléatoiresymétrique.

1. Soit X une variable aléatoire à valeurs dans Z. Montrer que

P(X = 0) =1

∫ π

−πE[eiθX ] dθ.

2. Soit (Xi)i≥1 une suite de variables aléatoires indépendantes identi-quement distribuées, avec P(X1 = 1) = P(X1 = −1) = 1/2. Onconsidère la somme partielle Sn = X1 + · · ·+Xn.

(a) Montrer que P(S2n = 0) = 12π

∫ π−π cos2n(θ) dθ. En déduire la di-

vergence de la série de terme générale P(S2n = 0).

(b) Montrer l’équivalent à l’infini P(S2n = 0) ∼ 1√πn

.

53

Page 64: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

Exercice 52. Soit µ une mesure de probabilité sur R, de fonction caracté-ristique φ.

1. Montrer que pour tout réel a et pour tout T > 0,

1

2T

∫[−T,T ]

e−itaφ(t) dλ(t) = µ(a) +

∫R\a

sin(T (x− a))

T (x− a)dµ(x)

2. En déduire que µ(a) = limT→+∞

12T

∫[−T,T ] e

−itaφ(t) dλ(t).

3. Montrer enfin qu’une mesure de probabilité µ sur R dont la fonctioncaractéristique a une limite nulle en +∞ et en −∞ est sans atome.Rappel : un atome de µ est un singleton de mesure strictement posi-tive.

4.4.2 Exercices de la série 2

Exercice 53. 1. On suppose que X et Y sont des variables aléatoiresà valeurs entières, de fonctions génératrices GX et GY . Soit A unévénement indépendant de X et de Y , avec P(A) = p. On note Z lavariable aléatoire définie par Z(ω) = X(ω) 1A(ω)+Y (ω) 1Ac(ω), i.e.

Z(ω) =

X(ω) si ω ∈ AY (ω) si ω /∈ A.

Montrer que la fonction génératrice de Z est pGX + (1− p)GY .

2. On lance trois fois de suite un dé à six faces. À chaque série de troislancers est associé un score. Le score se calcule comme suit. Si letroisième lancer est un “1”, le score est le nombre de nombres pairsapparus lors des deux premiers lancers. Sinon, le score est le nombrede “6” apparus lors des deux premiers lancers.Quelle est la loi du score?Exemples :— 2− 4− 1 rapporte 2 points— 6− 1− 2 rapporte 1 point— 1− 4− 2 rapporte 0 point— 5− 2− 3 rapporte 0 point.

Exercice 54. Soient N une variable aléatoire suivant une loi de Poissonde paramètre λ et (Xi)i≥1 une suite de variables aléatoires réelles indépen-dantes identiquement distribuées de loi de Bernoulli de paramètre p, cettesuite étant aussi indépendante de N . Montrer que S = X1 +X2 + · · ·+XN

suit la loi de Poisson de paramètre λp.

Exercice 55. 1. Soit K un vecteur aléatoire n-dimensionnel dont lescomposantes sont indépendantes et suivent la loi de Poisson de para-mètre λ. Soit L un vecteur aléatoire n-dimensionnel dont les compo-santes sont indépendantes et suivent la loi de Bernoulli de paramètrep. On suppose que K et L sont indépendants. Déterminer la fonctiongénératrice de 〈K,L〉.

2. On suppose que, pour tout k ≥ 0, Xk suit une loi de Poisson deparamètre kλ. Soit T une variable aléatoire indépendante de la suite(Xk)k≥0 et suivant la loi binomiale B(n, p). Déterminer la fonctiongénératrice de XT .

54

Page 65: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

4.4 Exercices sur les fonctions caractéristiques

3. En déduire que 〈K,L〉 suit la même loi que XT .

Exercice 56. Un joueur joue à pile ou face avec n ≥ 2 pièces équilibréesqu’il lance simultanément. S’il n’obtient aucun pile, son gain est nul et lapartie s’arrête. S’il obtient au moins un pile, il relance la première pièceautant de fois qu’il a obtenu de piles à la première phase du jeu et gagneautant d’unités que le nombre de piles obtenus lors de cette deuxième sériede lancers. On note X1 le nombre de piles obtenus à la première étape, etX2 le gain du joueur.

1. Déterminer la fonction génératrice de X2.

2. En déduire que

∀k ∈ 0, . . . , n, P(X2 = k) =

(n

k

)1

3k

(3

4

)n.

Exercice 57. Montrer que la convolée de deux lois de Cauchy est une loi deCauchy.

Exercice 58. Donner un exemple de variable aléatoire X dont la fonctioncaractéristique φX vérifie (φX)2 = φ2X . En déduire que la propriété

∀t ∈ R, φX+Y (t) = φX(t)φY (t)

n’implique PAS que X et Y sont indépendantes.

Exercice 59. Soit X ∼ N (0, 1). Montrer que ∀n ≥ 0, E[X2n] = (2n)!n!2n .

Exercice 60. Soient X et Y deux variables aléatoires admettant chacune unmoment d’ordre 3. On pose φ(x, y) = E exp(i(xX + yY )).

1. Montrer que X2Y est intégrable.

2. Quelle est la régularité de φ?

3. Exprimer E[X2Y ] en fonction de φ.

Exercice 61. Soit X une variable aléatoire dont la fonction caractéristiqueest de module constant. On se propose de montrer que X est constante.

1. Soit t non nul. Posons At = θtt + 2π

t Z. Montrer qu’il existe θt tel queφ(t) = eiθt et P(X ∈ At) = 1.

2. Soient t et t′ non nuls, x, y ∈ At∩At′ . Montrer que x−y ∈ 2πZt ∩

2πZt′ .

Conclure.

Exercice 62. Soit (Xn)n≥1 une suite de variables aléatoires indépendantesidentiquement distribuées à valeurs dans Z. On suppose que X1 est centrée,avec un moment d’ordre deux. Montrer que la marche aléatoire (Sn)n≥1

associée, définie par Sn = X1 + · · ·+Xn est récurrente.

Exercice 63. Soient (X,Y ) et (X ′, Y ′) deux vecteurs aléatoires. On supposeque, pour tout disque euclidien ouvert D du plan, on a

P((X,Y ) ∈ D) = P((X ′, Y ′) ∈ D).

1. Montrer que pour tout demi-plan ouvert H du plan, on a

P((X,Y ) ∈ H) = P((X ′, Y ′) ∈ H).

55

Page 66: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 4 : Fonction caractéristique

2. Soient a, b réels. Montrer que aX + bY et aX ′ + bY ′ ont même loi.

3. Montrer que les vecteurs (X,Y ) et (X ′, Y ′) ont même loi.

Exercice 64. Soit Y une variable aléatoire à valeurs dans N∗. On note φYsa fonction caractéristique. On fabrique une variable aléatoire Z à partir deY : Z est choisi au hasard de manière uniforme entre 0 et Y − 1. Ainsi, onsuppose que

∀n ∈ N∗ ∀k ∈ 0, . . . , n− 1 P(Z = k|Y = n) =1

n.

1. Montrer que

∀t ∈ R\2πZ E(eitZ1Y=n

)=

1

n

1− eint

1− eitP(Y = n).

2. On note φZ la fonction caractéristique de Z. Montrer que

∀t ∈ R\2πZ φZ(t) =i

eit − 1

∫ t

0φY (x) dx.

3. On suppose que Y admet un moment d’ordre 1. Montrer que Z ad-met un moment d’ordre 1, puis que EZ = EY−1

2 .

4. Soient X1 et X2 deux variables aléatoires indépendantes suivant laloi géométrique de paramètre p, avec p ∈]0, 1[. On pose Y = X1 +X2 − 1. Montrer que la fonction caractéristique de Y vérifie

∀t ∈ R\2πZ φY (t) =p2eit

(1− (1− p)eit)2.

5. Montrer que dans ce cas, Z + 1 suit la loi géométrique de paramètrep.

56

Page 67: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 5

Convergences, lois des grandsnombres

5.1 Convergence presque sûre

Définition. Soit (Ω,F ,P) un espace probabilisé. On dit qu’une suite de va-riables (ou de vecteurs) aléatoires (Xn)n≥0 définies sur (Ω,F ,P) convergepresque sûrement vers une variable (ou un vecteur) aléatoire X si

P(ω ∈ Ω;Xn(ω)→ X(ω)) = 1.

On écrit alors Xnp.s.−−−→ X.

La convergence presque sûre n’est autre que la convergence presque par-tout relativement à une mesure de probabilité. On a alors les résultats clas-siques suivants. Si Xn

p.s.−−−→ X et Ynp.s.−−−→ Y , (avec X et Y dans Rd, d ≥ 1)

alors— ∀a ∈ R, aXn

p.s.−−−→ aX.— Xn + Yn

p.s.−−−→ X + Y .— 〈Xn, Yn〉

p.s.−−−→ 〈X,Y 〉.Plus généralement, si (Xi)i et X sont à valeurs dans une partie E de Rd

et si Xnp.s.−−−→ X, alors pour toute fonction f continue définie sur E, on a

f(Xn)p.s.−−−→ f(X).

Remarque 5.1. Il est intéressant de remarquer que la convergence presquesûre d’une suite de vecteurs aléatoires est équivalente à la convergence presquesûre de chacune de ses composantes.

On se souvient qu’on a étudié au chapitre 2 les liens entre convergencedans Lp et convergence presque partout. Ainsi, d’après le théorème 2.12,la convergence dans Lp entraîne la convergence presque partout (appeléeici convergence presque sûre) d’une sous-suite. Cependant, même dans lecadre d’une mesure de probabilités, la convergence dans Lp n’entraine tou-jours pas la convergence presque sûre : on peut par exemple se reporter àl’exercice corrigé 21.

5.1.1 Rappels d’analyse

En probabilités, le retour aux ε est très fréquent. Si l’on ne veut pasque cela devienne trop compliqué, il importe de bien connaître les outilsd’analyse permettant de simplifier les choses. Rappelons quelques propriétésdes limites supérieures.

Page 68: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

— Pour x ∈ R, on a

limn→+∞

xn = x ⇐⇒ limn→+∞

|xn − x| = 0.

— On a les équivalences

limn→+∞

xn ≤M ⇐⇒ ∀ε > 0 n : xn ≥M + ε est fini (5.1)

et

limn→+∞

xn ≥M ⇐⇒ ∀ε > 0 n : xn ≥M − ε est infini. (5.2)

5.1.2 Limites supérieures, inférieures d’ensembles

Dans la pratique, comment montre-t-on que limn→+∞

Xn = M presque

sûrement? Comme vous l’avez deviné, on montre que limn→+∞

Xn ≥ M

presque sûrement, puis que limn→+∞

Xn ≤M presque sûrement.

L’équivalence 5.2 dit exactement quelim

n→+∞Xn ≥M

= ∩

ε>0lim

n→+∞Xn ≥M − ε.

Comme la suite limn→+∞

Xn ≥M − ε est monotone en ε, on a

lim

n→+∞Xn ≥M

= ∩

ε∈Q∗+lim

n→+∞Xn ≥M − ε. (5.3)

L’avantage est que l’intersection est maintenant dénombrable. Or, on a lerésultat classique très utile suivant.

Théorème 5.2. L’intersection d’une famille dénombrable d’événements est deprobabilité 1 si et seulement si chacun des événements est de probabilité 1.

Démonstration. Soit D un ensemble d’indices dénombrable. Soit (An)n∈D

une famille d’événements indicée par D. On pose A = ∩n∈D

An. Pour tout

n, A ⊂ An, donc P(A) ≤ P(An). Ainsi si P(A) = 1, on a pour tout n ∈ DP(An) = 1. Réciproquement, on a

P(Ac) = P( ∪n∈D

Acn) ≤∑n∈D

P(Acn) ≤∑n∈D

0 = 0.

Donc P(A) = 1− P(Ac) = 1− 0 = 1.

Pour prouver que limn→+∞

Xn ≥ M presque sûrement, il suffit donc de

prouver que ∀a < M, P(

limn→+∞

Xn ≥ a)

= 1.

58

Page 69: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.2 Convergence en probabilité

De la même manière, on voit que pour avoir limn→+∞

Xn ≤ M presque

sûrement, il suffit donc de prouver que ∀a > M, P(

limn→+∞

Xn < a)

=

1 ou, de manière équivalente, que ∀a > M, P(

limn→+∞

Xn ≥ a)

= 0.

On peut donc énoncer le théorème suivant.

Théorème 5.3. Soient Xn une suite de variables aléatoires et M un réel. Onsuppose que

1. ∀a < M, P(

limn→+∞

Xn ≥ a)

= 1,

2. ∀a > M, P(

limn→+∞

Xn ≥ a)

= 0.

Alors, limn→+∞

Xn = M presque sûrement.

Le théorème suivant très important en est une application directe

Théorème 5.4 (Critère fondamental de convergence presque-sûre). La suitede variables aléatoires (Xn) converge presque sûrement vers la variable aléa-toire X si et seulement si

∀ε > 0 P(

limn→+∞

|Xn −X| ≥ ε)

= 0.

Démonstration. Il suffit d’appliquer le lemme précédent à la suite de va-riables aléatoires (|Xn −X|)n≥0, avec M = 0 et a = ε.

5.2 Convergence en probabilité

Définition. On dit que la suite (Xn)n≥1 converge en probabilité vers X si

∀ε > 0 limn→+∞

P(|Xn −X| ≥ ε) = 0.

On écrit alors XnP−−→ X.

On peut remarquer que si Xn tend en probabilité vers X et Yn en proba-bilité vers Y , alors

— le couple (Xn, Yn) tend en probabilité vers (X,Y ).— Xn + Yn tend en probabilité vers X + Y .

En effet, on a les inégalités

P((‖(Xn, Yn)− (X,Y )‖∞ ≥ ε) ≤ P(|Xn −X| ≥ ε) + P(|Yn − Y | ≥ ε)

et P(|(Xn + Yn)− (X + Y )| ≥ ε) ≤ P(|Xn −X| ≥ ε/2) + P(|Yn − Y | ≥ ε/2).

5.2.1 Comparaison avec les autres modes de convergence

Convergence dans Lp et convergence en probabilité

Théorème 5.5. La convergence dans Lp (p ≥ 1) implique la convergence enprobabilité.

59

Page 70: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

Démonstration. On a

P(|Xn −X| ≥ ε) = P(|Xn −X|p ≥ εp) ≤E|Xn −X|p

εp.

La réciproque est fausse : la convergence en probabilité n’entraîne pas laconvergence dans Lp (voir par exemple l’exercice corrigé 66).

Convergence presque sûre et convergence en probabilité

Théorème 5.6. La convergence presque sûre implique la convergence en pro-babilité.

Démonstration. Soit ε > 0. D’après le théorème 5.4, on a

P(

limn→+∞

|Xn −X| ≥ ε)

= 0.

Or, d’après le théorème de continuité séquentielle décroissante, on a

P(

limn→+∞

|Xn −X| ≥ ε)

= limn→+∞

P(

+∞∪k=n|Xk −X| ≥ ε

).

Comme

0 ≤ P(|Xn −X| ≥ ε) ≤ P(

+∞∪k=n|Xk −X| ≥ ε

),

on en déduit que

limn→+∞

P(|Xn −X| ≥ ε) = 0.

Comme ε est quelconque, on conclut queXn converge en probabilité versX.

En revanche, la convergence en probabilité n’entraîne pas la conver-gence presque sûre. Un exemple sera traité un peu plus loin dans ce cha-pitre.

Remarque 5.7. Il y a une différence fondamentale entre la convergence presquesûre et les autres modes de convergence évoqués ici : pour une suite (Xn)n≥1,la convergence en probabilité ou dans Lp ne met en jeu que la suite des distri-butions des variables individuelles, alors que la convergence presque sûre meten jeu les distributions conjointes.

5.2.2 Loi faible des grands nombres

On va commencer par un résultat qui n’est optimal, ni dans ses hypo-thèses, ni dans sa conclusion, mais dont la preuve, très classique, est à mé-moriser. On pourra alors passer à des énoncés plus raffinés.

Théorème 5.8. Soit (Xn)n≥0 une suite de variables aléatoires de même loi,admettant un moment d’ordre 2 et deux à deux non corrélées.On pose

Sn =

n∑k=1

Xk et Mn =1

nSn.

Alors MnL2

−−→ EX0. On dit que Mn converge en moyenne quadratique versEX0. On a également Mn

P−−→ EX0.

60

Page 71: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.3 Lemmes de Borel-Cantelli

Démonstration. On a EMn = 1nESn = 1

n

n∑k=1

EXk = 1nnEX0 = EX0. Par

conséquent E|Mn − EX0|2 = VarMn = 1n2 VarSn. Comme les Xk sont deux

à deux non corrélées, on a

VarSn =

n∑k=1

VarXk = nVarX1.

On a doncE(|Mn − EX0|2

)=

VarX1

n, (5.4)

qui tend bien vers zéro.

Le théorème qui précède est la loi faible des grands nombres classique,qu’il faut retenir en première approche. Elle a toutefois le défaut de requérirun moment d’ordre deux, ce qui est un peu dommage.

5.3 Lemmes de Borel-Cantelli

5.3.1 Premier lemme de Borel–Cantelli

Théorème 5.9. Soit (An)n≥1 une suite d’événements. Si la série de terme gé-

néral P(An) converge, alors P(

limn→+∞

An

)= 0.

Démonstration. On pose Bn =+∞∪k=n

Ak. La suite (Bn) est décroissante, et

l’intersection des (Bn) est, par définition, limn→+∞

An. D’après le théorème

de continuité séquentielle décroissante, on a donc

0 ≤ P(

limn→+∞

An

)= lim

n→+∞P(Bn).

Or on a de plus

P(Bn) = P(

+∞∪k=n

Ak

)≤

+∞∑k=n

P(Ak) = rn.

Comme rn est le reste d’ordre n d’une série convergente, rn est de limite

nulle, et donc, par comparaison P(

limn→+∞

An

)= 0.

Remarque 5.10. — Dans un contexte probabiliste, on écrit parfois

An infiniment souvent ou An i.s. pour limn→+∞

An.

La propriété “P(

limn→+∞

An

)= 0” signifie que presque sûrement, seul

un nombre fini de An se réalisent.— On dit parfois que la suite (Xn)n≥1 converge presque complètement vers

X si quel que soit ε > 0, la série de terme général P(|Xn − X| > ε)converge. À l’aide du lemme de Borel-Cantelli et du critère fondamentalde convergence presque sûre, il n’est pas difficile de voir que la conver-gence presque complète entraîne la convergence presque sûre. Ce petit

61

Page 72: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

raisonnement se retrouvera fréquemment dans les exercices. On peutnoter que, comme la convergence en probabilité ou la convergence dansLp, la convergence presque complète ne met en jeu que la suite des dis-tributions des variables individuelles.

5.3.2 Deuxième lemme de Borel-Cantelli

Le deuxième lemme de Borel-Cantelli est une sorte de réciproque dupremier, dans le cas où les événements considérés sont indépendants. Ici,on choisit de présenter d’emblée une généralisation du deuxième lemmede Borel-Cantelli, due à Erdös et Renyi (1959). Le théorème classique s’endéduira aisément.

Théorème 5.11 (Erdös-Renyi). Soit (An)n≥1 une suite d’événements. On pose

Nn =

n∑k=1

1Ak , N =

+∞∑k=1

1Ak et mn =

n∑k=1

P(Ak) = ENn.

Silim

n→+∞mn = +∞ et lim

n→+∞

VarNn

m2n

= 0,

alors

P(

limn→∞

An

)= 1.

Remarque 5.12. On a limn→∞

An = N = +∞.

Démonstration. Pour mn > a, on a

P(N ≤ a) ≤ P(Nn ≤ a) ≤ P(|Nn −mn| ≥ mn − a) ≤ VarNn

(mn − a)2.

En faisant tendre n vers +∞, on en déduit que

∀a ∈ N P(N ≤ a) = 0.

Ainsi

P(N < +∞) = P( lim ↑a→+∞

N ≤ a) = lima→+∞

P(N ≤ a) = lima→+∞

0 = 0.

Théorème 5.13 (Second lemme de Borel-Cantelli). Soit (An)n≥1 une suited’événements indépendants. Si la série de terme général P(An) diverge, alors

P(

limn→+∞

An

)= 1.

Démonstration. On va appliquer le théorème précédent. Comme les (Ak)k≥1

sont indépendants, leurs indicatrices sont des variables aléatoires indépen-dantes, et donc

VarNn =n∑k=1

Var 1Ak =n∑k=1

P(Ak) (1− P(Ak)) ≤n∑k=1

P(Ak) = mn.

Ainsi VarNnm2n≤ 1

mn. Comme lim

n→+∞mn =

+∞∑k=1

P(Ak) = +∞, le résultat

s’ensuit.

62

Page 73: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.3 Lemmes de Borel-Cantelli

Remarque 5.14. La propriété “P(

limn→+∞

An

)= 1” signifie que presque

sûrement, An est réalisé pour une infinité de valeurs de n.

Scolie : La conclusion du second lemme de Borel-Cantelli reste-t-ellevraie si l’on suppose seulement que les (Ak)k≥1 sont deux à deux indépen-dants ? Que les (Ak)k≥1 sont négativement corrélés 1 ?

Corollaire 5.15 (loi 0–1 de Borel). Soit (An)n≥1 une suite d’événements in-

dépendants. La probabilité de l’événement P(

limn→+∞

An

)ne peut valoir que

0 ou 1. Elle vaut 1 si et seulement si la série de terme général P(An) diverge.

Démonstration. C’est une conséquence immédiate des deux lemmes de Borel-Cantelli.

Théorème 5.16. Soit (Xn)n≥0 une suite convergeant en probabilité vers X.Alors, il existe une sous-suite (Xnk)k≥1 telle que Xnk

p.s.−−−→k→∞

X.

Démonstration. On pose n0 = 0, puis pour k ≥ 1 :

nk = inf

n > nk−1;P

(|Xn −X| ≥

1

k

)≤ 1

2k

.

À k fixé, P(|Xn −X| ≥ 1

k

)tend vers 0 quand n tend vers l’infini, donc on a

bien, pour tout k, nk < +∞.De plus, on a pour tout k ≥ 1,

P(|Xnk −X| ≥

1

k

)≤ 1

2k.

Comme la série de terme général 12k

converge, le premier lemme de Borel-Cantelli nous permet d’affirmer que

P(

limk→+∞

|Xnk −X| ≥1

k)

= 0,

ce qui est équivalent à

P(

limk→+∞

|Xnk −X| <1

k)

= 1.

Cela veut dire que pour presque tout ω, il existe un k0(ω) tel que

k ≥ k0(ω) =⇒ |Xnk(ω)−X(ω)| < 1

k,

ce qui implique bien sûr que Xnk(ω) tend vers X(ω) pour P-presque tout ω.

Corollaire 5.17. Si (Xn) est une suite à valeurs dans E⊂ Rd convergeant enprobabilité versX et si f est une fonction continue sur E, alors f(Xn) convergeen probabilité vers f(X).

1. C’est-à-dire que P(Ai ∩Aj) ≤ P(Ai)P(Aj) pour i 6= j.

63

Page 74: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

Démonstration. Soit ε > 0. On doit montrer que la suiteun = P(|f(Xn)−f(X)| ≥ ε) converge vers 0. Soit (nk)k≥1 une suite d’entiers

strictement croissante telle que limk→+∞

unk = limn→+∞

un. On pose Yk =

Xnk . Yk tend en probabilité versX, donc il existe une suite (mk)k≥1 d’entiersstrictement croissante telle que Ymk converge presque sûrement versX. Cecientraîne que f(Ymk) converge presque sûrement vers f(X), et donc quef(Ymk) converge en probabilité vers f(X). Une suite convergente a la mêmelimite que chacune de ses sous-suites :

limk→+∞

P(|f(Yk)− f(X)| ≥ ε) = limk→+∞

P(|f(Ymk)− f(X)| ≥ ε) = 0,

soit limk→+∞

unk = limn→+∞

un = 0.

5.4 Lois fortes des grands nombres

Il existe de nombreuses lois fortes des grands nombres, c’est-à-dire desthéorèmes de convergence presque sûre pour les moyennes de suite de va-riables aléatoires. La plus ancienne est dûe à Émile Borel : elle concerne larépartition des chiffres du dévoloppement en base deux d’un réel de [0, 1].

On va ici présenter deux théorèmes : le premier concerne des variablesnon-corrélées, qui n’ont pas nécessairement la même loi. Sa preuve est assezcourte. Le second théorème présenté , dû à Etemadi, est l’aboutissementd’une longue suite d’améliorations successives : c’est ce résultat que nousappellerons « la loi forte des grands nombres ».

5.4.1 Deux lois fortes des grands nombres

Théorème 5.18. Soit (Xn)n≥1 une suite de variables aléatoires de carré inté-

grables, deux à deux non corrélées, et telles que supn≥1

VarXn < +∞. Alors, si

l’on pose Sn = X1 + · · ·+Xn, on a

Sn − E[Sn]

n

p.s.−−−→ 0.

Démonstration. On pose C = supn≥1

VarXn < +∞. Quitte à remplacer Xi

par Xi − E[Xi], on peut supposer sans perte de généralité que les Xi sontcentrés

Var

(Snn

)=

1

n2

n∑k=1

VarXk ≤C

n.

Avec l’inégalité de Tchebitchev, cela donne

P(∣∣∣∣Sn − E[Sn]

n

∣∣∣∣ ≥ ε) ≤ ε−2 VarSnn≤ C

nε2,

d’où

P(∣∣∣∣Sn2

n2

∣∣∣∣ ≥ ε) ≤ C

n2ε2,

ce qui, avec le lemme de Borel-Cantelli, donne la convergence presque sûrede Sn2

n2 vers 0. Soit maintenant n ≥ 1 et notons p = p(n) = b√nc2. On a

64

Page 75: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.4 Lois fortes des grands nombres

n + 1 − 2√n = (

√n − 1)2 ≤ p(n) ≤ n, donc n − p(n) = O(

√n), et en

particulier lim p(n)n = 1. Notons Dn,p = Xp+1 + · · ·+Xn. On a

Var

(Dn,p

n

)=

1

n2VarDn,p ≤

C(n− p(n))

n2=O(√n)

n2= O(

1

n3/2).

Par les mêmes arguments que précédemment, Dn,pn tend presque sûrement

vers 0. Comme lim p(n) = +∞ et queSp(n)p(n) a les mêmes termes que Sn2

n2 ,Sp(n)p(n) tend également presque sûrement vers 0, d’où on déduit que Sn

n tendpresque sûrement vers 0 avec l’identité

Snn

=Dn,p

n+p(n)

n

Sp(n)

p(n).

Corollaire 5.19. Soit (Xn)n≥1 une suite de variables aléatoires deux à deuxindépendantes, de même loi µ. On suppose que µ admet un moment d’ordre 2.Alors

X1 + · · ·+Xn

n

p.s.−−−→ EX1.

Démonstration. Des variables indépendantes sont non corrélées ; on appliquele théorème précédant en notant qu’ici E[Sn] = nE[X1].

En réalité, l’existence d’un moment d’ordre 2 n’est pas nécessaire, commele montre le résultat suivant, dû à Etemadi :

Théorème 5.20 (Etemadi). Soit (Xn)n≥1 une suite de variables aléatoiresdeux à deux indépendantes, de même loi µ. On suppose que µ admet un mo-ment d’ordre 1. Alors

X1 + · · ·+Xn

n

p.s.−−−→ EX1.

C’est ce dernier théorème que nous demandons au lecteur de retenir enpremière approche. Il sera démontré un peu plus loin sous la forme d’unexercice corrigé.

Notons que ce résultat avait été démontré par Kolmogorov en 1929 sousl’hypothèse plus forte d’une indépendance globale.

Remarque 5.21. On remarque que les hypothèses de la loi forte des grandsnombres sont, en un certain sens, minimales. En effet, on verra en exercice quesi des variables aléatoires indépendantes identiquement distribuées (Xn)n≥1 ne

sont pas intégrables, alors supn≥1

|Sn|n = +∞ presque sûrement, alors qu’il serait

presque sûrement fini si Sn/n convergeait presque sûrement.

Par la loi faible des grands nombres, on obtient que X1+···+Xnn fluctue de

moins en moins et converge vers l’espérance. Cela se traduit par : pour toutε > 0, la moyenne empirique X1+···+Xn

n est comprise entre [E(X1) − ε] et[E(X1) + ε] avec une probabilité tendant vers 1 lorsque n tend vers l’infini.La loi forte des grands nombres dit beaucoup plus. Avec probabilité 1, pourtout ε > 0, on peut trouver nε tel que

∣∣X1+···+Xnn − EX1

∣∣ < ε si n ≥ nεet ces nε ne dépendent que de ε et du tirage de Xi. En particulier, il suffitd’effectuer une seule suite infinie de répétitions d’une expérience aléatoirepour découvrir empiriquement la valeur de P(A), qui est la fréquence d’ap-parition d’un événement A.

65

Page 76: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

5.4.2 Probabilités et fréquences asymptotiques

Théorème 5.22. Soit (An)n≥0 une suite d’événements indépendants de mêmeprobabilité p sur (Ω,F ,P). Pour ω ∈ Ω, on noteNn(ω) le nombre d’événementsqui sont réalisés parmi A1, . . . , An. Ainsi, on a

Nn =

n∑k=1

1Ak et Fn =1

nNn.

Alors P(Fn → p) = 1.

Démonstration. On pose Xk = 1Ak et on applique le théorème 5.20. Xk

admet bien un moment d’ordre 1 car 0 ≤ Xk ≤ 1 et l’on a EX1 = P(A1) = p.

5.4.3 Exercice : une preuve de la loi forte des grands nombres

La preuve, désormais classique, présentée ici sous forme d’exercice, estdue à Etemadi [2]. On admirera l’habileté avec laquelle sont combinés deuxtypes d’arguments classiques : les arguments de troncature, et l’utilisationde sous-suites pour lesquelles il y a convergence presque complète.

La belle méthode d’Etemadi a d’ailleurs fait florès : on pourra par exemplevoir dans le traité de Bulinski et Shashkin [1] comment elle peut être utiliséepour généraliser le théorème 5.18 à certaines familles de variables aléatoiresdépendantes.

Soit (Xn)n≥1 une suite de variables aléatoires positives de même loi deuxà deux indépendantes, admettant un moment d’ordre un. On pose

Sn =n∑i=1

Xi et Qn =1

nSn.

On considère également les variables aléatoires tronquées : X∗i = Xi1Xi≤i

et les sommes et quotients associés : S∗n =n∑i=1

X∗i et Q∗n = S∗n/n.

1. Montrer que

VarS∗n ≤n∑i=1

E((X∗i )2

).

En déduire queVarS∗n ≤ nE[X2

1 1X1≤n].

2. Soit β > 1. On note un l’entier le plus proche de βn. Montrer queun ∼ βn. En déduire que

+∞∑n=N

1

un= O(

1

uN).

3. Montrer qu’il existe une constante C > 0 telle que

∀N ≥ 1

+∞∑n=N

1

un≤ C 1

uN.

66

Page 77: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.4 Lois fortes des grands nombres

4. Montrer que

+∞∑n=1

VarQ∗un ≤ E

(X2

1

+∞∑n=1

1

un1X1≤un

),

puis+∞∑n=1

VarQ∗un ≤ E

X21

∑n:un≥X1

1

un

.

5. En déduire que+∞∑n=1

VarQ∗un < +∞.

6. Montrer queQ∗un − EQ∗un → 0 p.s.

7. Montrer quelim

n→+∞E[X∗n] = E[X1].

8. Montrer que limE[Q∗n] = E[X1]. (Indication : on pourra utiliser lethéorème de Cesàro 2)

9. En déduire queQ∗un → E[X1] p.s.

10. Montrer que la série de terme général P(Xn 6= X∗n) converge.

11. A l’aide du lemme de Borel-Cantelli, montrer que pour presque toutω, il existe un n0(ω) tel que les suites (Xn(ω)) et (X∗n(ω)) coïncidentà partir du rang n0(ω).

12. Montrer queQun → E[X1] p.s.

13. Si un ≤ k ≤ un+1, montrer que

unun+1

Qun ≤ Qk ≤un+1

unQun+1 .

14. En déduire que

1

βE[X1] ≤ lim

k→+∞Qk ≤ lim

k→+∞Qk ≤ βE[X1] p.s.

15. On note

Ωβ =

ω ∈ Ω;

1

βE[X1] ≤ lim

k→+∞Qk(ω) ≤ lim

k→+∞Qk(ω) ≤ βE[X1]

.

Montrer que

P(

+∞∩n=1

Ω1+1/n

)= 1.

16. Montrer quelim

k→+∞Qk = E[X1] p.s.

17. Montrer que le résultat de la dernière question demeure vrai si l’onne suppose plus que les (Xn) sont des variables positives.

2. Ernesto Cesàro, mathématicien italien (1859–1906). Ses travaux portent essentielle-ment sur la géométrie différentielle.

67

Page 78: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

Solution

1. Les variables aléatoires (X∗i )i≥1 sont deux à deux indépendantes, carelles sont fabriquées à partir des variables aléatoires (Xi)i≥1 qui sontelles mêmes deux à deux indépendantes. On a donc

VarS∗n =n∑i=1

VarX∗i ≤n∑i=1

E((X∗i )2

)≤

n∑i=1

E[X2i 1Xi≤i]

≤n∑i=1

E[X2i 1Xi≤n] = nE[X2

1 1X1≤n],

où la dernière égalité découle de l’identique distribution des Xi.

2. On a pour tout n |un − βn| ≤ 1. Comme βn tend vers l’infini, on aun − βn = o(βn), soit un ∼ βn. 1

un∼ β−n et que la série à termes

positifs β−n est convergence, on a l’équivalence des restes :

+∞∑n=N

1

un∼

+∞∑n=N

β−n = (1− β−1)−1β−N ∼ (1− β−1)−1 1

uN.

3. La suite uN+∞∑n=N

1un

converge lorsque N tend vers l’infini, elle est

donc bornée par une constante C.

4. On a+∞∑n=1

VarQ∗un =+∞∑n=1

1

u2n

VarS∗un ≤+∞∑n=1

1

u2n

unEX21 1X1≤un

≤ E

(X2

1

+∞∑n=1

1

un1X1≤un

)Mais on peut remarquer que l’on a

E

(X2

1

+∞∑n=1

1

un1X1≤un

)= E

X21

∑n:un≥X1

1

un

.

5. On en déduit que

+∞∑n=1

VarQ∗un ≤(EX2

1

C

uinfn∈N;un≥X1

)≤ E

[X2

1

C

X1

]= CEX1 < +∞.

6. Soit ε > 0 quelconque. Comme P(|Q∗un − EQ∗un | ≥ ε) ≤VarQ∗un

ε2(par

Chebychev), la question précédente permet d’affirmer que la sériede terme général P(|Q∗un − EQ∗un | ≥ ε) est convergente. D’après lelemme de Borel-Cantelli, on peut donc dire que

P(

limn→+∞

|Q∗un − EQ∗un | ≥ ε)

= 0,

ceci pour ε strictement positif quelconque. D’après le critère fonda-mental de convergence presque sûre, on peut alors affirmer que

Q∗un − EQ∗un → 0 p.s.

68

Page 79: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.4 Lois fortes des grands nombres

7. EX∗n = EXn1Xn≤n = EX11X1≤n, car X1 et Xn ont même loi.Comme la suite (X11X1≤n)n≥1 converge en croissant vers X1, lethéorème de convergence monotone permet d’affirmer que la suite(EX∗n) converge vers EX1.

8. EQ∗n = 1n

(n∑k=1

EX∗n)

. D’après la question précédente EX∗n converge

vers EX1, et avec le théorème de Cesàro, les moyennes convergentégalement vers EX1.

9. On a Q∗un − EX1 =(Q∗un − EQ∗un

)+(EQ∗un − EX1

). (EQ∗un) est une

sous-suite d’une suite (déterministe) qui converge vers EX1, doncelle converge aussi vers EX1. CommeQ∗un−EQ

∗un tend vers 0 presque

sûrement et que la convergence presque sûre est compatible avec lasomme, on en déduit que Q∗un tend presque sûrement vers EX1.

10. P(Xn 6= X∗n) = P(Xn > n) = P(X1 > n). Pour tout n ≥ 0, on aP(X1 > n) ≤

∫]n−1,n] P(X1 > t) dλ(t). Ainsi

+∞∑n=1

P(Xn 6= X∗n) =+∞∑n=1

P(X1 > n) ≤∫ ,+∞

0P(X1 > t) dt ≤ EX1 < +∞.

11. Ainsi, avec le lemme de Borel-Cantelli, P(

limn→+∞

Xn 6= X∗n))

=

0, ce qui équivaut à P(

limn→+∞

Xn = X∗n)

= 1 : pour presque tout

ω, on a ω ∈ Xn = X∗n) dès que n ≥ n0(ω), c’est-à-dire que lessuites (Xn(ω)) et (X∗n(ω)) coïncident à partir du rang n0(ω).

12. Pour presque tout ω, on peut écrire dès que un ≥ n0(ω)

Qun − EX1 =Sun0−1 − S∗un0−1

un+(Q∗un − EX∗1

).

Bien sûr,Sun0−1−S

∗un0−1

untend vers 0 lorsque n tend vers l’infini. Quant

au deuxième terme, il tend presque sûrement vers zéro, d’après laquestion 9.Détaillons le raisonnement :

si ω ∈(

limn→+∞

Xn = X∗n))∩ Q∗un → EX1,

alors ω ∈ Qun → EX1. Comme l’intersection de deux ensemblesde mesure 1 est un ensemble de mesure 1, on en déduit que Qunconverge presque sûrement vers EX1.

13. Comme on fait des sommes de termes positifs, on a Sun ≤ Sk ≤Sun+1 . On en déduit que

unun+1

Qun ≤unkQun ≤ Qk ≤

un+1

kQun+1 ≤

un+1

unQun+1 .

14. Si nk désigne la partie entière du logarithme de n en base β, on aunkunk+1

Qunk ≤ Qk ≤unk+1

unkQunk+1 .

Comme limk→+∞

unkunk+1

= 1β > 0 et lim

k→+∞

unk+1

unk= β > 0, on en

déduit

1

βEX1 ≤ lim

k→+∞Qk ≤ lim

k→+∞Qk ≤ βEX1 p.s.

69

Page 80: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

15. On a montré à la question précédente que pour tout β > 1, P(Ωβ) =1. En particulier ∀n ≥ 1 P(Ω1+1/n) = 1. Comme l’intersection d’unefamille dénombrable d’événements de probabilité un est de probabi-lité un, on a bien

P(

+∞∩n=1

Ω1+1/n

)= 1.

16. Soit ω ∈+∞∩n=1

Ω1+1/n. On a pour tout n ≥ 1

1

1 + 1n

EX1 ≤ limk→+∞

Qk(ω) ≤ limk→+∞

Qk(ω) ≤(

1 +1

n

)EX1.

En faisant tendre n vers l’infini, on obtient

EX1 ≤ limk→+∞

Qk(ω) ≤ limk→+∞

Qk(ω) ≤ EX1,

soit limk→+∞

Qk(ω) = EX1. Comme P(

+∞∩n=1

Ω1+1/n

)= 1, on a bien

limk→+∞

Qk = EX1 p.s.

17. C’est un raisonnement classique : si (Xn)n≥1 est une suite de va-riables aléatoires indépendantes identiquement distribuées, on vaalors poser X+

n = max(0, Xn) et X−n = max(0,−Xn) : on a Xn =X+n −X−n . Ainsi

1

n

(n∑k=1

Xk

)=

1

n

(n∑k=1

X+k

)− 1

n

(n∑k=1

X−k

).

Le théorème démontré à la question précédente (loi des grands nom-bres pour des suites de variables aléatoires positives intégrables deuxà deux indépendantes identiquement distribuées) s’applique aux deux

termes de la différence, de sorte que 1n

(n∑k=1

Xk

)converge presque

sûrement vers EX+1 − EX−1 = EX1.

5.5 Exercices sur la convergence presque sûre

5.5.1 Exercices de la série 1

Exercice 65. Soit (Xn)n≥1 une suite de variables aléatoires indépendantestelles que pour tout n ≥ 1, on ait P(Xn =

√n) = P(Xn = −

√n) = 1

2 . On

pose Sn =n∑i=1

Xi.

1. Montrer que Snn3/2

P−−→ 0.

2. Montrer que Sn2n3

p.s.−−−→ 0.

Indication : montrer que ∀ε > 0, on a+∞∑n=1

P(|Sn2 |n3 > ε

)< ∞ et

appliquer le lemme de Borel-Cantelli.

70

Page 81: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.5 Exercices sur la convergence presque sûre

3. En s’inspirant de la preuve du théorème 5.18, montrer que Sn/n3/2

converge presque sûrement vers 0.

Exercice 66. Soit X une variable aléatoire de densité f(x) = e−x1R+(x).Posons Yn = X 1[0,n[(X) + e2n 1[n,+∞[(X).

1. Vérifier que Yn converge vers X en probabilité et presque sûrement.

2. Calculer E(Yn).

3. Est-il vrai que Yn converge vers X dans L1 ?

Exercice 67. Soit (Xn)n≥1 une suite de variables aléatoires telle que

P(Xn = −n) = P(Xn = n) =1

2n2et P(Xn = 0) = 1− 1

n2.

La suite (Xn)n≥1 satisfait-elle la loi forte des grands nombres?

Exercice 68. Soit (Xn)n≥1 une suite de variables aléatoires indépendantesidentiquement distribuées, P(X1 = 1) = p, P(X1 = 0) = 1 − p. Soit Yk unevariable aléatoire telle que Yk = 0 si Xk = Xk+1 et Yk = 1 si Xk 6= Xk+1.Posons Sn = Y1 + · · ·+ Yn.

1. Calculer la moyenne et la variance de Sn.

2. Montrer que Snn converge dans L2 vers 2p(1− p).

3. Étudier la convergence presque sûre.

Exercice 69. On fait une infinité de lancers d’une pièce de monnaie équi-librée. Quelle est la probabilité de l’événement “on obtient une infinité defois deux “face” consécutifs” ?

Exercice 70. Soit (Xn)n≥1 une suite de variables aléatoires indépendantesidentiquement distribuées avec E|X1| = +∞.

1. Soit a > 0. Montrer que limn→+∞

|Xn|n ≥ a p.s.

2. On pose Sn =n∑k=1

Xk. Montrer que supn≥1

|Sn|n = +∞ p.s.

Exercice 71. Variables M -dépendantes. Application au singe dactylographe.Soit M un entier. On dit que des variables aléatoires (Xn)n≥1 sont deux-à-deux M -dépendantes si Xi et Xj sont indépendantes dès que |i− j| ≥M .

1. Soit (Xn)n≥1 une suite de variables aléatoires de même loi intégrable,que l’on suppose deux à deux M -dépendantes.

(a) Montrer que Xnn converge presque sûrement vers 0.

Indication : on pourra utiliser le lemme de Borel-Cantelli.

(b) Montrer que la suite (Xn)n≥1 vérifie la loi forte des grands nombres.Indication : remarquer que 1

Mn

∑Mnk=1Xk = 1

M

∑Mi=1

1i

∑i−1j=0XMj+i.

2. Soit (Xn) une suite de variables aléatoires indépendantes identique-ment distribuées à valeurs dans D fini ou dénombrable.On note P(X1 = i) = pi pour i ∈ D.Montrer que pour tout ` ≥ 1 et pour tout (a1, . . . , a`) ∈ D`, si on pose

Sn =n−1∑k=0

1Xk+1=a1,...,Xk+`=a`, alors on aSnn

p.s.−−−→∏i=1

pai .

71

Page 82: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

3. Commenter la citation suivante : “Concevons qu’on ait dressé un mil-lion de singes à frapper au hasard sur les touches d’une machine àécrire et que, sous la surveillance de contremaîtres illettrés, ces singesdactylographes travaillent avec ardeur dix heures par jour avec unmillion de machines à écrire de types variés. Les contremaîtres illet-trés rassembleraient les feuilles noircies et les relieraient en volumes.Et au bout d’un an, ces volumes se trouveraient renfermer la copieexacte des livres de toute nature et de toutes langues conservés dansles plus riches bibliothèques du monde. Telle est la probabilité pourqu’il se produise pendant un instant très court, dans un espace dequelque étendue, un écart notable de ce que la mécanique statistiqueconsidère comme le phénomène le plus probable.” Émile Borel, Mé-canique Statistique et Irréversibilité, J. Phys. 5e série, vol. 3, 1913,pp.189-196.

Exercice 72. Représentation g-adique.On sait démontrer que pour un entier g ≥ 2 fixé, chaque réel ω ∈ [0, 1[

admet une unique représentation sous la forme

ω =

∞∑i=1

aig−i où ai ∈ 0, 1, . . . , g − 1

telle que la suite ai ne soit pas constamment égale à g − 1 à partir d’uncertain rang. Cette écriture est appelée la représentation g-adique. Lorsqueg = 2, on parle de représentation dyadique.

Après avoir établi l’existence et l’unicité de cette représentation, on sepropose d’étudier la répartition des ai et on montrera que pour λ-presquetout ω ∈ [0, 1[, les ai sont uniformément répartis sur 0, 1, . . . , g − 1. Plusprécisément, on dit que ω est g-normal si pour tout ` ≥ 1 et quels que soientb1, . . . , b` compris entre 0 et g − 1, on a

limn→+∞

1

n

n∑i=1

1ai=b1,ai+1=b2,...,ai+`−1=b` =1

g`p.s.

(c’est-à-dire que la fréquence asymptotique de chaque séquence de chiffresde longueur ` est 1/g`).

On montrera que presque tous les nombres dans [0, 1[ sont g-normaux.On considère l’espace probabilisé (Ω,F ,P) = ([0, 1[,B([0, 1[), λ [0,1[). Soit

g ≥ 2 un entier. On pose Xg0 (ω) = ω.

1. On définit les variables Agi et Xgi par les récurrences Xg

i = gXgi−1

et Agi = bgXic. Montrer que pour tout ω ∈ [0, 1[, on a

ω = X0(ω) =+∞∑i=0

Agi (ω)

gi+1avec Agi ∈ 0, 1, . . . , g − 1

et que la suite Agi (ω) contient une infinité de termes différents deg − 1 : c’est le développement g-adique de ω. Vérifier l’unicité d’unetelle décomposition.

2. On note G l’application de [0, 1[ dans 0, . . . , g − 1 × [0, 1[ qui à xassocie G(x) = (bgxc, gx). Montrer que la loi image de P par G estU(0, . . . , g − 1)⊗ P.Indication : on commencera par calculer PG(k × [0, x]).

72

Page 83: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.5 Exercices sur la convergence presque sûre

3. Montrer que les Xgi suivent la loi uniforme sur [0, 1] et que les Agi

suivent la loi uniforme sur 0, . . . , g − 1.

4. Montrer que les (Agi )i≥0 sont indépendants.

5. En utilisant les résultats de l’exercice 71, montrer que P-presque toutnombre dans [0, 1[ est g-normal.

6. Un nombre ω ∈ [0, 1[ s’appelle absolument normal s’il est g-normalpour tout g = 2, 3, . . .. Montrer finalement que P-presque tout nombredans [0, 1[ est absolument normal.

Nous ne connaissons pourtant que très peu d’exemples concrets de nombresg-normaux et nous ignorons tout sur la normalité des nombres π,

√2, log 2

ou encore e. À titre d’exemple, notons que le nombre

0, 12345678910111213 . . .

est 10-normal. En revanche, et bien que, comme nous l’avons vu, presquetout réel ω ∈ [0, 1[ ait cette propriété, on ne sait pas exhiber de nombre quisoit g-normal quel que soit g ≥ 2.

Exercice 73. Existence de variables aléatoires indépendantes suivant une loiquelconque.Grâce à l’exercice précédent, nous remarquons qu’on sait construire unesuite de variables aléatoires indépendantes identiquement distribuées sur(Ω,F ,P) suivant la loi Ber(1/2). Soit (Xn)n≥1 une telle suite. On pose Sn =n∑k=1

Xk2k

et S =+∞∑k=1

Xk2k

.

1. Soient n ≥ 1 et k ∈ 0, . . . , 2n − 1. Montrer queS <

k

2n

Sn <

k

2n

+∞∩

k=n+1Xk = 1.

En déduire que P(S < k

2n

)= k

2n .

2. Déterminer la loi de S.

3. Que dire de la loi de la suite de variables aléatoires (Ui)i≥1 définies

par Ui =+∞∑k=1

X2k(2i+1)

2k?

4. Soit (µi) une suite de mesures de probabilités sur R. En utilisant lethéorème 1.11 et l’exercice précédent, montrer qu’on peut construiresur l’espace probabilisé ([0, 1[,B([0, 1[), λ [0,1[) une famille (Zi)i≥1 devariables indépendantes telles que pour tout i, Zi suit la loi µi.

Exercice 74. Soit (Xn)n≥1 une suite de variables aléatoires indépendantes

suivant une loi exponentielle de paramètre 1. Calculer limn→+∞

Xnlogn .

Exercice 75. Soit (Xn)n≥1 une suite de variables aléatoires indépendantestelle que pour tout n, Xn suit une loi binomiale B(n, 1

n1,01789 ). Montrer quel’ensemble des valeurs d’adhérence de (Xn)n≥1 est presque sûrement égal àun ensemble déterministe que l’on précisera.

Exercice 76. Lemme de Kochen–Stone [5].

73

Page 84: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

1. Inégalité de Paley-Zygmund.Soit X une variable aléatoire de carré intégrable et d’espérance stric-tement positive. Montrer que pour tout λ ∈]0, 1[,

P(X > λE[X]) ≥ (1− λ)2 (EX)2

E[X2].

Indication : majorer et minorer E[X1X≤λ].

2. Soit (Bn)n une famille d’événements. Montrer que

P(

limn→+∞

Bn

)≥ lim

n→+∞P(Bn).

3. Soit (Bn)n≥1 une famille d’événements telle que+∞∑n=1

P(Bn) = +∞.

On pose Nn =n∑k=1

1Bk et on rappelle que

limn→+∞

Bn = limn→+∞

Nn = +∞. Montrer que

P(

limn→+∞

Bn

)≥ lim

n→+∞

(ENn)2

E[N2n].

Ce résultat est le lemme de Kochen–Stone.

4. Que se passe-t-il lorsque les événements Bn sont deux-à-deux indé-pendants ?

Exercice 77. Soit (Xn)n≥1 une suite de variables aléatoires de même loinon dégénérée (c’est-à-dire que leur loi n’est pas une mesure de Dirac). Soit(an)n≥1 une suite réelle. On suppose que (anXn)n≥1 tend en probabilitévers zéro. Montrer que (an)n≥1 tend vers zéro. Montrer que la réciproqueest aussi vraie.

Exercice 78. Soit (Xn)n≥1 une suite de variables aléatoires indépendantes

suivant les lois de Poisson de paramètres respectifs λn. On pose Yn =n∏i=1

Xi.

1. Montrer que P(Xn 6= 1) ≥ 1− 1/e.En déduire que P(Xn 6= 1 pour une infinité de n) = 1.

2. On pose p =∏+∞n=1(1− e−λn). Montrer que

Ynp.s.−−−→

0 avec probabilité 1− p+∞ avec probabilité p

3. Calculer cette probabilité quand

(a) λn = o(log(n)),

(b) λn = 2 log(n+ 1).

Exercice 79. Limites supérieures de variables de Poisson.Soit (Xn)n≥1 une suite de variables aléatoires telle que pour tout n, Xn suitla loi de Poisson de paramètre λn.

74

Page 85: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

5.5 Exercices sur la convergence presque sûre

1. On suppose que+∞∑n=1

λ2n < +∞. Montrer que

limn→+∞

Xn ≤ 1 p.s.

Indication : on pourra remarquer que 1Xn≥2 ≤ 12Xn(Xn − 1).

2. Plus généralement, que dire si+∞∑n=1

λkn < +∞, avec k un entier posi-

tif ?

3. On suppose désormais que les variables (Xn)n≥1 sont indépendanteset que λn = 1

nα , où α est un réel strictement positif. Caractériserà l’aide de α l’ensemble aléatoire formé des valeurs d’adhérence de(Xn)n≥1.

5.5.2 Exercices de la série 2

Exercice 80. Soient s ∈]0, 1[ et (xn) une suite de limite `. On pose, pour

n ≥ 1 : mn =∑n

j=0

(nj

)sj(1− s)n−jxj . Montrer que lim

n→+∞mn = `.

Exercice 81. Soit (Xn)n≥1 une suite de variables aléatoires indépendantes

suivant la loi N (m,σ2). Montrer que la suite X21+···+X2

n

n converge presquesûrement et déterminer sa limite.

Exercice 82. On considère une suite infinie de lancers de “pile ou face”avec une pièce équilibrée. On note Nn le nombre de “pile” observés parmiles n premiers lancers. Montrer que presque sûrement, il existe n tel queNn ≥ n/3.

Exercice 83. On dit que la suite (Xn)n≥1 converge presque complètementvers X si quel que soit ε > 0, la série de terme général P(|Xn − X| > ε)converge. Montrer que les deux énoncés suivant sont équivalents :

— (Xn)n≥1 converge presque complètement vers 0.— Si une suite (X ′n) de variables aléatoires sur (Ω,F ,P) est telle que

pour tout n, Xn et X ′n ont même loi, alors (X ′n)n≥1 converge presquesûrement vers 0.

Exercice 84. Soit (Xn)n≥1 une suite de variables aléatoires identiquementdistribuées telle qu’il existe α > 0 avec E exp(α|X1|) < +∞. Montrer que

limn→+∞

Xn

(log n)32

= 0.

Exercice 85. Soit (Xn)n≥1 une suite de variables aléatoires indépendantessuivant la loi N (0, 1).

1. Calculer limn→+∞

Xn√2 logn

.

2. On se donne maintenant une deuxième suite (Yn)n≥1 de variablesaléatoires indépendantes suivant la loi N (0, 1). Cette deuxième suiteest supposée indépendante de la première. Comparer

limn→+∞

Xn√2 log n

+ limn→+∞

Yn√2 log n

et limn→+∞

(Xn + Yn)√2 log n

.

75

Page 86: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 5 : Lois des grands nombres

Exercice 86. Soient p ∈ [0, 1] et (Un)n≥0 une suite de variables aléatoiresindépendantes suivant la loi uniforme sur [0, 1]. On note Tn le nombre defois où la ligne polygonale reliant successivement (0, U0), (1, U1), (2, U2), . . .coupe la droite d’équation y = p avant le temps n. Dans notre exemple,p = 0.4 et T20 = 8.

0

0.2

0.4

0.6

0.8

1

5 10 15 20

trajectoirey = p

Montrer que Tnn converge presque sûrement et déterminer sa limite.

Exercice 87. Soit (Xn)n≥1 une suite de variables aléatoires de Bernoulliindépendantes de paramètre 1/2. On pose

Mn =

(2 +Xn 1

1 2 +Xn

)et

An = Mn ×Mn−1 × · · · ×M2 ×M1.

1. Montrer que la suite (detAn)1/n converge presque sûrement et dé-terminer sa limite.

2. Soit (x, y) ∈ R2\(0, 0). On pose

Yn = An

(xy

).

Montrer que

‖Yn‖1/np.s.−−−→

√2 si x+ y = 0√12 si x+ y 6= 0.

76

Page 87: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 6

Convergence en loi

6.1 Convergence en loi

6.1.1 Définition

On dit qu’une suite (µn)n≥1 de mesures de probabilité sur Rd convergefaiblement vers la mesure de probabilité µ lorsque pour toute fonction fcontinue bornée de Rd dans R, on a 1

limn→+∞

∫Rdf dµn =

∫Rdf dµ. (6.1)

Par extension, on dit qu’une suite de variables aléatoires (Xn)n convergeen loi vers la variable aléatoire X (ou vers la loi µ) si la suite de mesures(PXn) converge faiblement vers PX (ou vers la loi µ).

Ainsi, dire queXn converge en loi versX signifie que pour toute fonctioncontinue bornée, Ef(Xn) converge vers Ef(X).On note cette propriété Xn =⇒ X.

Rappelons que si µ et ν sont deux mesures qui chargent finiment lescompacts de Rd et telles que pour toute fonction f continue bornée de Rddans R, on a

∫Rd f dµ =

∫Rd f dν, alors µ = ν.

On en déduit immédiatement l’unicité de la limite pour la convergenceen loi.

Théorème 6.1. Soit g une fonction continue définie sur Rd. Si la suite (Xn)n≥1

converge en loi vers X, alors la suite (Yn)n≥1 définie par Yn = g(Xn) convergeen loi vers g(X).

Démonstration. Soit f une fonction continue bornée. On a par définition deYn : Ef(Yn) = Ef(g(Xn)) = E(f g)(Xn). Comme f et g sont continues,f g est continue. Comme f est bornée, f g est aussi bornée. Ainsi, f gest continue, bornée et (Xn)n≥1 converge en loi vers X, donc E(f g)(Xn)converge vers E(f g)(X) = Ef(g(X)), ce qui achève la preuve.

Corollaire 6.2. Soient (Xn)n≥1 et (Yn)n≥1 deux suites de vecteurs aléatoiresà valeurs dans Rd. Si (Xn, Yn)n≥1 converge en loi vers (X,Y ), alors

1. Il est possible de définir plusieurs notions de convergence pour des mesures finies(µn)n≥1 et µ. On parle alors de convergence étroite lorsque (6.1) est vérifiée pour les fonc-tions continues bornées, et de convergence vague lorsque (6.1) est vérifiée pour les fonctionscontinues à support compact. Ces deux notions coïncident lorsque les (µn)n≥1 et µ sont desmesures de probabilité. Ne travaillant qu’avec des mesures de probabilité, nous ne parleronsici que de convergence faible.

Page 88: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

1. Xn + Yn converge en loi vers X + Y .

2. 〈Xn, Yn〉 converge en loi vers 〈X,Y 〉.

Démonstration. Il suffit d’appliquer le théorème précédent à la fonction conti-nue (x, y) 7→ x+ y et à la fonction continue (x, y) 7→ 〈x, y〉.

6.1.2 Premiers exemples

Un critère de convergence en loi

Théorème 6.3 (Lemme de Scheffé).Soient (Ω,A, µ) un espace mesuré ; f, (fn)n≥1 : Ω → R+ des applicationspositives intégrables par rapport à µ telles que

a) fn → f µ−p.p.

b) limn→∞

∫Ω fn dµ(x) =

∫Ω f dµ(x).

Alors fnL1

−−→ f .

Démonstration. On a

f + fn = max(f, fn) + min(f, fn)

et |f − fn| = max(f, fn)−min(f, fn).

On en déduit immédiatement que

f + fn − |f − fn| = 2 min(f, fn),

d’où

|f − fn| = f + fn − 2 min(f, fn) = −f + fn + 2(f −min(f, fn)).

Ainsi, on obtient

‖fn−f‖L1(µ) = −∫

Ωf(x)dµ(x)+

∫Ωfn(x)dµ(x)+2

∫Ω

(f−min(f, fn))(x)dµ(x).

D’après la deuxième hypothèse, −∫

Ω f(x)dµ(x) +∫

Ω fn(x)dµ(x) tendvers 0 lorsque n tend vers +∞. D’autre part, on a 0 ≤ f −min(f, fn) ≤ f carf est à valeurs positives ou nulles, et f −min(f, fn)→ 0 µ−p.p. D’après lethéorème de convergence dominée, on a donc

∫Ω (f −min(f, fn)) dµ → 0

p.p., d’où le résultat.

Corollaire 6.4. Soit (Ω,A, µ) un espace mesuré. Soient ν et (νn)n≥1 des me-sures de probabilité sur (Ω,A, µ) admettant les densités f et (fn)n≥1 par rap-port à µ. On suppose que fn → f µ−p.p. Alors (νn) converge faiblement versν.

Démonstration. Soit g une fonction continue bornée sur Ω. On a∣∣∣∣∫ g(x) dνn(x)−∫g(x) dν(x)

∣∣∣∣ =

∣∣∣∣∫ g(x)f(x) dµ(x)−∫g(x)fn(x) dµ(x)

∣∣∣∣≤

∫|g(x)(f(x)− fn(x))| dµ(x)

≤ ‖g‖∞∫|f(x)− fn(x)| dµ(x),

qui tend vers 0 d’après le théorème de Scheffé. Comme cette convergencea lieu pour toute fonction continue bornée g, on trouve que νn converge enloi vers ν.

78

Page 89: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.1 Convergence en loi

Corollaire 6.5. Soient X et (Xn)n≥1 des variables aléatoires discrètes à va-leurs dans un ensemble dénombrable D. On suppose que

∀k ∈ D, limn→+∞

P(Xn = k) = P(X = k).

Alors (Xn)n≥1 converge en loi vers X.

Démonstration. Il suffit de remarquer que PX et PXn pour n ≥ 1 ont unedensité par rapport à la mesure de comptage sur D et appliquer le corollaireprécédent.

Convergence de la loi binomiale vers la loi de Poisson

Théorème 6.6. Soit, pour n ≥ 1, une variable aléatoire Xn suivant la loibinomiale de paramètres n et pn. On suppose que

limn→∞

npn = λ > 0.

Alors Xn converge en loi vers la loi de Poisson de paramètre λ.

Démonstration. D’après le corollaire 6.5, il suffit de montrer que pour toutentier k ≥ 0, P(Xn = k) converge vers e−λ λ

k

k! . On a

P(Xn = k) =

(n

k

)pkn(1− pn)n−k =

(n

k

)pkn(1− pn)n(1− pn)−k.

On a les équivalents quand n tend vers l’infini(nk

)= n(n−1)...(n−k+1)

k! ∼ nk

k! etpkn ∼ (λ/n)k = λkn−k. D’autre part, on a l’équivalent à l’infini

log(1− pn)n = n log(1− pn) = n(−pn + o(pn)) ∼ −npn ∼ −λ.

Ainsi, log(1 − pn)n converge vers −λ donc (1 − pn)n converge vers e−λ. Enmettant ensemble les équivalents, on obtient le résultat souhaité.

Application pratique. Si n est “grand” et np “pas trop grand”, on peut rem-placer la loi binomiale par une loi de Poisson. D’après une grand-mère sta-tisticienne, n est grand à partir de 30 et np n’est pas trop grand jusqu’à 10.Ce théorème peut être interprété de la manière suivante : la loi de Poissonest une bonne modélisation pour le nombre de fois où un événement raresurvient (par exemple, un tremblement de terre).

Remarque 6.7. La loi de Poisson peut intervenir lorsque l’on compte des événe-ments rares, même lorsque l’on compte des événements dépendants, pourvu quecette dépendance soit limitée. Par exemple soit σn une permutation aléatoire,suivant la loi uniforme sur Sn. Si l’on note Dn le nombre de points fixes de σn,on peut montrer que P(Dn = k) =

(nk

)dn−kn! = 1

k!dn−k

(n−k)! . Comme dn ∼ 1en!, on

conclut que Dn converge en loi vers la loi de Poisson de paramètre 1.

Convergence de la loi hypergéométrique vers la loi binomiale

Théorème 6.8. Soit, pour j ≥ 1, une variable aléatoire Xj suivant la loi hy-pergéométrique de paramètres (Nj , nj , k). On suppose que Nj tend vers l’infiniet que l’on a

limj→∞

njNj

= p.

Alors Xj converge en loi vers une variable de loi binomiale B(k, p).

79

Page 90: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

Démonstration. D’après le corollaire 6.5, il suffit de montrer que pour toutentier i ≥ 0, P(Xj = i) converge vers

(ki

)pi(1 − p)k−i. On a, à i fixé, l’équi-

valent à l’infini (en j)

P(Xj = i) =

(nji

)(Nj−ik−i)(Nj

k

) ∼niji!

(Nj−nj)k−i(k−i)!Nkj

k!

.

Orniji!

(Nj−nj)k−i(k−i)!Nkj

k!

=k!

i!(k − i)!

(njNj

)i(1− nj

Nj

)k−i.

Comme cette dernière quantité converge vers(ki

)pi(1− p)k−i lorsque j tend

vers l’infini, cela achève la preuve.

6.1.3 Théorème de Portmanteau

On va maintenant énoncer le théorème de Portmanteau 2 dans Rd. Ex-ceptée la propriété (6), qui n’a pas de sens hors de Rd, le reste de l’équi-valence demeure vrai dans un cadre beaucoup plus général que celui danslequel nous nous sommes placés ici.

Théorème 6.9. Les propositions suivantes sont équivalentes :

1. µn converge faiblement vers µ.

2. Pour toute fonction f uniformément continue bornée de Rd dans R, ona

limn→+∞

∫Rdf dµn =

∫Rdf dµ.

3. Pour tout fermé F , µ(F ) ≥ limn→+∞

µn(F ).

4. Pour tout ouvert O, µ(O) ≤ limn→+∞

µn(O).

5. Pour tout borélien A dont la frontière ∂A vérifie µ(∂A) = 0,

on a limn→+∞

µn(A) = µ(A).

6. Pour tout pavé A =d∏i=1

]ai, bi] dont la frontière ∂A vérifie µ(∂A) = 0,

on a limn→+∞

µn(A) = µ(A).

Démonstration. On va prouver successivement (3) ⇐⇒ (4) puis les impli-cation (1) =⇒ (2) =⇒ (3) =⇒ (4) =⇒ (5) =⇒ (6) =⇒ (1).

2. Les exégètes divergent quant à l’origine du nom. Faut-il retenir que l’on peut y ac-crocher n’importe quoi, ou, dans le sens anglais du mot, qu’il permet d’emporter ce quel’on veut ? En tout cas, une chose est sûre, c’est à Patrick Billingsley que revient l’honneurd’avoir, dans la 2e édition de Convergence of Probability Measures, rendu justice au travail dePortmanteau [6].

80

Page 91: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.1 Convergence en loi

— Pour voir que (3) ⇐⇒ (4), il suffit de remarquer que

supO ouvert

(µ(O)− lim

n→+∞µn(O)

)= sup

F fermé

(µ(F c)− lim

n→+∞µn(F c)

)= sup

F fermé

(1− µ(F )− lim

n→+∞(1− µn(F ))

)= sup

F fermé

(−µ(F )− lim

n→+∞− µn(F )

)= sup

F fermé

(−µ(F ) + lim

n→+∞µn(F )

).

Ainsi, si l’un des supremum est négatif, alors l’autre l’est aussi.— Preuve de (2) =⇒ (3). Soit F un fermé de Rd. Pour tout x ∈ Rd, on

pose dF (x) = d(x, F ) = inf(‖y − x‖ : y ∈ F ) et, pour ε > 0, Gεest la fonction continue définie sur R par Gε(x) =

(1− |x|ε

)+. On a

Gε dF ≥ 1F , donc

limn→+∞

∫Gε dF dµn ≥ lim

n→+∞

∫1F dµn.

Comme Gε dF est uniformément continue (c’est la composée d’uneapplication 1-lipschitzienne et d’une application 1

ε -lipschitzienne), ona

limn→+∞

∫Gε dF dµn =

∫Gε dF dµ,

d’où

∀ε > 0,

∫Gε dF dµ ≥ lim

n→+∞µn(F ).

Or par définition de la mesure image, on a∫Gε dF dµ =

∫Gε dµdF .

Lorsque ε tend vers 0, Gε converge vers l’indicatrice de 0 et donc parconvergence dominée,

∫Gε dF dµ =

∫Gε dµdF converge vers∫

10 dµdF = µdF (0) = µ(dF = 0) = µ(F ).

— Preuve de (3, 4) =⇒ 5. On a ⊂ A ⊂ A, d’où

limn→+∞

µn(A) ≤ limn→+∞

µn(A) ≤ µ(A),

et limn→+∞

µn(A) ≥ limn→+∞

µn() ≥ µ().

Par ces deux inégalités, on obtient

µ() ≤ limn→+∞

µn(A) ≤ limn→+∞

µn(A) ≤ µ(A).

Comme µ(A) − µ() = µ(∂A) = 0, la suite (µn(A))n≥1 admet unelimite supérieure qui coïncide avec sa limite inférieure. Elle convergedonc vers µ(A) = µ(), c’est-à-dire vers µ(A), car µ() ≤ µ(A) ≤ µ(A).

81

Page 92: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

— (5) =⇒ (6) est évident— Preuve de (6) =⇒ (1). L’idée est d’approcher la fonction f par une

somme d’indicatrices de pavés dont la frontière est de mesure nulle.On va commencer par exhiber un grand ensemble de mesure nulle.Soit T une base de R vu comme un Q-espace vectoriel telle que 1 ∈ T .On peut toujours se ramener au cas où tous les éléments de la basesont dans [0, 1]. Pour t ∈ T et k ∈ 1, . . . , d, notons

Pkt = x ∈ Rd;xk − t ∈ Q.

Pkt est une réunion d’hyperplans orthogonaux au k-ième vecteur dela base de Rd. À k fixé, les ensembles (Pkt )t∈[0,1[∩T sont disjoints.Comme µ est une probabilité, l’ensemble des t ∈ [0, 1[∩T tels queµ(Pkt ) > 0 est au plus dénombrable. Comme T n’est pas dénom-brable 3, il existe tk tel que µ(Pktk) = 0. Pour un entier p, on poseBp = x ∈ Rd; ‖x− t‖∞ ≤ p, où t = (t1, . . . , td). Soit ε > 0. On peuttrouver p tel que µ(Bp) ≥ 1− ε

2 . D’après ce qui précède, µ(∂Bp) = 0.On peut donc trouver n0 tel que n ≥ n0 entraîne µn(Bp) ≥ 1− ε. OrBp est compact. On note ωf le module de continuité de la restrictionde f à Bp, défini pour η > 0 par

ωf (η) = sup(|f(x)− f(y)| : ‖x− y‖∞ ≤ η, x, y ∈ Bp).

Pour N ≥ 1, on pose

fN (x) = 1Bp(x) f

(t1 +

dN(x− t1)eN

, . . . , td +dN(x− td)e

N

).

On a|fN (x)− f(x)| ≤ ωf (1/N) + 2‖f‖∞ 1Bcp(x).

Ainsi

∀N ∈ N,∫Rd|fN (x)− f(x)|dµ(x) ≤ ωf (1/N) + 2‖f‖∞

ε

2,

∀N ∈ N, limn→∞

∫Rd|fN (x)− f(x)|dµn(x) ≤ ωf (1/N) + 2‖f‖∞ε.

Soit n0 un entier tel que ωf (1/n0) ≤ ε. On a∫Rd|fn0(x)− f(x)| dµ(x) ≤ ε+ 2‖f‖∞

ε

2

et

limn→∞

∫Rd|fn0(x)− f(x)| dµn(x) ≤ ε+ 2‖f‖∞ε.

On a de plus,

fn0(x) =∑

y∈(t+ 1

n0Zd)∩Bp

f(y) 1y+]− 1n0,0]d(x).

3. En effet, si on avait T = ti; i ∈ N∗, on aurait

R =+∞∪n=1

n∑i=1

λiti; (λ1, . . . , λn) ∈ Qn, ce qui contredirait le fait que R n’est pas

dénombrable.

82

Page 93: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.1 Convergence en loi

Ainsi, fN s’écrit comme une combinaison linéaire finie d’indicatricesde pavés de Rd dont la frontière est de µ-mesure nulle. On a donc

limn→+∞

∫fN dµn =

∫fN dµ.

Comme∫f dµ−

∫f dµn =

∫f dµ−

∫fN dµ+

∫fN dµ−

∫fN dµn

+

∫fN dµn −

∫f dµn,

on a

limn→∞

∣∣∣∣∫Rdf(x) dµ(x)−

∫Rdf(x) dµn(x)

∣∣∣∣≤

∫Rd|f(x)− fn0(x)| dµ(x)

+ limn→∞

∣∣∣∣∫Rdfn0(x) dµ(x)−

∫Rdfn0(x) dµn(x)

∣∣∣∣+ lim

n→∞

∫Rd|fn0(x)− f(x)| dµn(x)

≤ (ε+ ‖f‖∞ε) + 0 + (ε+ 2‖f‖∞ε)≤ ε(2 + 3‖f‖∞).

Comme ε est arbitraire, on en déduit que∫Rd f(x) dµn(x) converge

vers∫Rd f(x) dµ(x), et cela pour toute fonction continue bornée f .

La condition (1) est donc vérifiée.

Corollaire 6.10. Soient (Xn) une suite de variables aléatoires réelles, et Xune variable aléatoire de fonction de répartition FX . On a équivalence entre

— (Xn) converge en loi vers X.— Pour tout point x où la fonction de répartition de X est continue,

FXn(x) tend vers FX(x) lorsque n tend vers l’infini.

Démonstration. Sens direct : posons A =]−∞, x]. A est un borélien dont lafrontière x est telle que PX(x) = 0, car x est un point de continuité deFX . Comme PXn(A) = FXn(x) et PX(A) = FX(x), il suffit donc d’appliquerle théorème de Portmanteau pour conclure. Réciproquement, soit ]a, b] unintervalle de R, avec PX(∂]a, b]) = PX(a; b) = 0. a et b étant des points de

continuité de FX , on a par hypothèse FX(a) = limn→+∞

FXn(a) et

FX(b) = limn→+∞

FXn(b), donc

PX(]a, b]) = FX(b)−FX(a) = limn→+∞

FXn(b)−Fn(a) = limn→+∞

PXn(]a, b]).

On a vérifié la propriété (6) du Théorème de Portmanteau, et par consé-quent Xn converge en loi vers X.

Remarque 6.11. Cette dernière conséquence de la convergence en loi est trèsutile, par exemple en statistique (voir le chapitre 7).

83

Page 94: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

Le théorème suivant est également très utile.

Théorème 6.12. Si des mesures de probabilités (µn)n≥1 et µ sur (Rd,B(Rd))sont telles que pour toute fonction f continue positive à support compact de Rddans R, on a

limn→+∞

∫Rdf dµn =

∫Rdf dµ,

alors µn converge faiblement vers µ.

Démonstration. Soit ε > 0. Notons gA la fonction continue, affine sur [A/2, A],valant 1 sur ]−∞, A/2], 0 sur [A,+∞[, et hA = gA ‖.‖. On a∫

RdhA dµ ≥ µ(B(0, A/2)),

de sorte que si l’on prend A suffisamment grand, on a∫RdhA dµ ≥ 1− ε.

Comme hA est continue positive à support compact,∫Rd hA dµn converge

vers∫Rd hA dµ. Ainsi, il existe n0 tel que

n ≥ n0 =⇒∫RdhA dµn ≥ 1− 2ε et µn(B(0, A)) ≥ 1− 2ε.

Soit maintenant f une fonction continue bornée positive. On a∫f dµn −

∫f dµ =

(∫fh2A dµn −

∫fh2A dµ

)+

(∫f(1− h2A) dµn −

∫f(1− h2A) dµ

).

Ainsi pour n ≥ n0, on a∣∣∣∣∫ f dµn −∫f dµ

∣∣∣∣ ≤ ∣∣∣∣∫ fh2A dµn −∫fh2A dµ

∣∣∣∣+ 3ε‖f‖∞.

Comme fh2A est une fonction continue positive à support compact, la suitedes intégrales

∫fh2A dµn converge vers

∫fh2A dµ, d’où

limn→+∞

∣∣∣∣∫ f dµn −∫f dµ

∣∣∣∣ ≤ 4ε‖f‖∞.

Comme ε est arbitraire, on en déduit que∫f dµn converge vers

∫f dµ.

Le passage à une fonction continue bornée de signe quelconque ne posepas de problème, car f = max(f, 0) −max(−f, 0) et le résultat s’ensuit parlinéarité.

6.1.4 Lien avec les autres modes de convergence

Théorème 6.13. Soient (Xn)n≥1 une suite de variables aléatoires et X unevariable aléatoire.

1. Si Xn converge en probabilité vers X, alors Xn converge en loi vers X.

2. Si Xn converge en loi vers une constante a (ou de manière équivalentevers une masse de Dirac δa), alors Xn converge en probabilité vers a.

84

Page 95: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.1 Convergence en loi

Démonstration. 1. Soit f une fonction continue bornée. Soit xn = Ef(Xn).La suite (xn)n≥1 est bornée. Soit a une valeur d’adhérence de (xn)n≥1,

avec limk→+∞

xnk = a. Comme Xnk converge en probabilité vers X,

on peut (d’après le théorème 5.16) en extraire une sous-suite (Xnmk)

telle que limk→+∞

Xnmk= X presque sûrement. Par continuité, on

trouve que limk→+∞

f(Xnmk) = f(X) presque sûrement. Ainsi, le

théorème de convergence dominée donne limk→+∞

Ef(Xnmk) = Ef(X),

c’est-à-dire limk→+∞

xnmk = Ef(X). Or (xnmk ) est une sous-suite de

(xnk) qui converge elle-même vers a, donc a = Ef(X). Comme(xn)n≥1 est une suite bornée dont Ef(X) est l’unique valeur d’adhé-rence, elle converge vers Ef(X). De plus, pour toute fonction conti-nue bornée f , Ef(Xn) converge vers Ef(X), donc (Xn)n≥1 convergeen loi vers X.

2. Soit ε > 0. Posons F = x ∈ Rd; ‖a− x‖ ≥ ε.On a P(‖Xn − a‖ ≥ ε) = PXn(F ). Or F est fermé et PXn convergefaiblement vers δa, donc, d’après le théorème de Portmanteau,

limn→∞

PXn(F ) ≤ δa(F ) = 0.

Ainsi, pour tout ε > 0, P(‖Xn − a‖ ≥ ε) tend vers 0 quand n tendvers l’infini : (Xn)n≥1 converge en probabilité vers a.

Le résultat suivant est connu sous le nom de théorème de Slutsky (par-fois lemme de Slutsky) et est très utile dans la pratique.

Théorème 6.14. Soient (Xn)n≥1 et (Yn)n≥1 deux suites de vecteurs aléatoiresà valeurs dans Rd. Si (Xn)n≥1 converge en loi vers un vecteur aléatoire X et(Yn)n≥1 converge en loi vers un vecteur constant c, alors

— Xn + Yn converge en loi vers X + c.— 〈Xn, Yn〉 converge en loi vers 〈X, c〉.

Démonstration. Si on montre que (Xn, Yn)n≥1 converge en loi vers (X, c),alors il suffira d’appliquer le théorème 6.1 pour obtenir le résultat. Pour cefaire, nous allons utiliser le théorème de Portmanteau.

Tout d’abord, prouvons que (Xn, c)n≥1 converge en loi vers (X, c). Ce ré-sultat est vrai si on sait montrer que pour toute fonction continue bornée f ,Ef(Xn, c) converge vers Ef(X, c). Pour ce faire, posons g(x) = f(x, c). Bienentendu, g hérite des propriétés de continuité et bornitude de f . Commela suite (Xn) converge en loi vers X, le théorème de Portmanteau impliqueque Eg(Xn) converge vers Eg(X). Cette dernière convergence équivaut à laconvergence de Ef(Xn, c) vers Ef(X, c).

Comme (Yn) converge en loi vers une constante, il s’agit en fait d’uneconvergence en probabilité. Ainsi, ‖(Xn, Yn)− (Xn, c)‖ = ‖Yn− c‖ convergeen probabilité vers 0. On a donc que ‖(Xn, Yn) − (Xn, c)‖ converge en pro-babilité vers 0 et (Xn, c) converge en loi vers (X, c).

Montrons que cela suffit à obtenir la convergence en loi de (Xn, Yn) vers(X, c). En effet, si Un − Vn converge en probabilité vers 0 et Un converge en

85

Page 96: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

loi vers U , alors Vn converge en loi vers U . Nous avons une fois de plus be-soin du théorème de Portmanteau. Soit f une fonction uniformément conti-nue, bornée par M . Soit ε > 0. Il existe δ > 0 tel que ‖u − v‖ ≤ δ implique|f(u)− f(v)| ≤ ε. On a alors

|Ef(Un)− Ef(Vn)| ≤ E|f(Un)− f(Vn)|≤ εE(1‖Un−Vn‖<δ) + 2MP(‖Un − Vn‖ ≥ δ)≤ εP(‖Un − Vn‖ < δ) + 2MP(‖Un − Vn‖ ≥ δ)≤ ε+ 2MP(‖Un − Vn‖ ≥ δ).

À partir de là, on utilise l’inégalité triangulaire

|Ef(Vn)− Ef(U)| ≤ |Ef(Un)− Ef(Vn)|+ |Ef(Un)− Ef(U)|≤ ε+ 2MP(‖Un − Vn‖ ≥ δ) + |Ef(Un)− Ef(U)|.

Comme les deux derniers termes de cette inégalité tendent vers 0, on conclut

que limn→+∞

|Ef(Vn) − Ef(U)| ≤ ε. Comme ε est quelconque, on en déduit

le résultat cherché.

6.2 Convergence en loi sur Rd grâce aux fonctionscaractéristiques

6.2.1 Critère de convergence

Théorème 6.15 (premier théorème de Lévy). Soit (µn)n≥1 une suite de me-sures de probabilité et µ une mesure de probabilité donnée sur (Rd,B(Rd)).Alors la suite (µn)n≥1 converge faiblement vers µ si et seulement si

∀t ∈ Rd, limn→+∞

φµn(t) = φµ(t).

La preuve dépasse le cadre de ce cours. On pourra la trouver dans Garet–Kurtzmann.

6.2.2 Théorème de continuité de Lévy

Théorème 6.16 (continuité de Lévy). Soient (µn)n≥1 une suite de mesuresde probabilité et φ une fonction donnée. Si

∀t ∈ Rd limn→+∞

φµn(t) = φ(t)

et si φ est continue en 0, alors il existe une unique mesure de probabilité µ telleque φ = φµ et la suite (µn)n≥1 converge faiblement vers µ.

La preuve de ce théorème est reportée à la fin du chapitre.Ce dernier théorème est intéressant si la loi limite est une loi nouvelle,

inconnue. L’appliquer lorsque la loi est une loi bien connue est assez mal-adroit.

86

Page 97: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.3 Théorème central limite en dimension 1

6.2.3 Une application du théorème de Lévy

Le résultat qui suit peut être démontré sans l’aide du théorème de Lévy,mais ce dernier théorème en rend la preuve particulièrement simple.

Théorème 6.17. Si µn tend faiblement vers µ et νn tend faiblement vers ν,alors la suite (µn ⊗ νn)n≥1 converge faiblement vers µ⊗ ν.

Démonstration. Soient s, t ∈ Rd. On a φµn⊗νn(s, t) = φµn(s)φνn(t). Commeµn converge faiblement vers µ, φµn(s) converge vers φµ(s). De même, φνn(t)converge vers φν(t). Ainsi φµn⊗νn(s, t) converge vers φµ(s)φν(t) = φµ⊗ν(s, t),donc d’après le théorème de Lévy, la suite (µn⊗ νn)n≥1 tend faiblement versµ⊗ ν.

Théorème 6.18. Si µn tend faiblement vers µ et νn tend faiblement vers ν,alors la suite (µn ∗ νn)n≥1 tend faiblement vers µ ∗ ν.

Démonstration. Soient (Xn, Yn) de loi µn⊗νn et (X,Y ) de loi µ⊗ν. D’aprèsle théorème 6.17, (Xn, Yn) converge en loi vers (X,Y ), et donc d’après lecorollaire 6.2, Xn + Yn converge en loi vers X + Y . Mais la loi de Xn + Ynest µn ∗ νn et la loi de X + Y est µ ∗ ν, donc le résultat est démontré.

6.3 Théorème central limite en dimension 1

En dimension 1, le théorème s’énonce comme suit.

Théorème 6.19. Soit (Xn)n une suite de variables aléatoires réelles indépen-dantes identiquement distribuées admettant un moment d’ordre 2. On note ml’espérance et σ2 la variance communes à ces variables. Alors

(X1 + · · ·+Xn)− nm√n

=⇒ N (0, σ2).

Démonstration. On pose Sn = (X1 + · · · + Xn) − nm =n∑k=1

(Xk − m).

Notons φ la fonction caractéristique de X1 −m.Comme les variables aléatoires X1 −m, . . . ,Xn −m sont indépendantes etde même loi, la fonction caractéristique de Sn/

√n vaut

φSn/√n(t) = φSn

(t√n

)=

n∏k=1

φXk−m

(t√n

)= φ

(t√n

)n.

D’après le théorème de Lévy, pour montrer que Sn/√n converge en loi

vers N (0, σ2), il suffit de montrer que

∀t ∈ R limn→+∞

φ

(t√n

)n= exp

(−σ

2

2t2),

car t 7→ exp(−σ2

2 t2) est la fonction caractéristique de la loi N (0, σ2).

Pour ce faire, on utilisera le développement limité établi au corollaire 4.17 :

φ(x) = 1− σ2

2x2 + o(x2). (6.2)

87

Page 98: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

L’introduction du logarithme complexe peut être évitée en remarquant quepour des nombres complexes z et u de module inférieur ou égal à 1, on a

∀n ∈ N∗, |zn − un| =∣∣∣∣(z − u)

(n−1∑k=0

zkun−1−k)∣∣∣∣ ≤ n|z − u|.

Il s’ensuit que

∣∣∣∣φ( t√n

)n− exp

(−σ

2

2t2)∣∣∣∣ =

∣∣∣∣φ( t√n

)n− exp

(−σ

2

2nt2)n∣∣∣∣

≤ n

∣∣∣∣φ( t√n

)− exp

(−σ

2

2nt2)∣∣∣∣ .

On a d’une part exp(−σ2

2n t2) = 1 − σ2

2n t2 + o(1/n), et d’autre part, d’après

l’équation (6.2), φ( t√n

) = 1 − σ2

2n t2 + o(1/n). On obtient ainsi le résultat

cherché, à savoir n∣∣∣φ( t√

n

)− exp

(−σ2

2n t2)∣∣∣ = o(1), ce qui achève la preuve.

Une application importante est l’étude des fluctuations des fréquencesde réussite dans une suite d’épreuves indépendantes de même probabilité,ou de manière équivalente, l’approximation d’une loi binomiale par une loigaussienne.

Théorème 6.20. Soit (Ω,F ,P) un espace probabilisé sur lequel est définie unesuite d’événements indépendants (An)n≥1 de même probabilité p.Pour ω ∈ Ω, on note Nn(ω) le nombre d’événements qui sont réalisés parmiA1, . . . , An. Ainsi, on a

Nn =n∑k=1

1Ak

et Nn suit la loi binomiale B(n, p). Alors on a

Nn − np√n

=⇒ N (0, p(1− p)).

Démonstration. Il suffit d’appliquer le théorème précédent à la suite (1An)n≥1,qui est une suite de variables de Bernoulli indépendantes, d’espérance p etde variance p(1− p).

L’histogramme ci-dessous représente le nombre d’observations de chaqueentier compris entre 0 et 100 pour une simulation de 15000 variables aléa-toires indépendantes suivant la loi B(100, 1

2).

88

Page 99: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.4 Exercices sur la convergence en loi

0

200

400

600

800

1000

1200

−20 0 20 40 60 80 100 120

’binom.dat’

6.4 Exercices sur la convergence en loi

6.4.1 Exercices de la série 1

Exercice 88. Soit (Un)n≥1 une suite de variables aléatoires indépendantesde même loi N (0, 1). Pour tout θ ∈ R, on définit la suite (Xn)n≥0 par larelation de récurrence Xn = θXn−1 +Un pour tout n ≥ 1 et X0 = 0 presquesûrement.

1. Déterminer les lois des variables aléatoires Xn.

2. Étudier la convergence en loi de la suite de variables aléatoires (Xn)n≥0.

Exercice 89. Soit Xn suivant la loi uniforme sur 0, . . . , n−1. Montrer queXn/n converge en loi vers la loi uniforme sur [0, 1].

Exercice 90. On suppose que pour tout n, Xn suit la loi Gamma Γ(2, n).

1. Montrer que Xn converge en loi vers 0.

2. En déduire un équivalent de∫ +∞

0 | sin t|e−nt dt.

Exercice 91. Soit (Xn)n une suite de variables aléatoires indépendantesidentiquement distribuées de loi uniforme sur [0, 1].

1. Déterminer la loi de la variable aléatoire Mn = max1≤j≤n

Xj .

2. Démontrer que Mn converge vers 1 en loi et presque sûrement.

3. Démontrer que la suite de variables aléatoires (n(1−Mn))n convergeen loi et trouver la loi limite.

Exercice 92. Une preuve probabiliste de la formule de Stirling.Soit (Xn)n≥0 une suite de variables aléatoires indépendantes suivant la loiexponentielle de paramètre 1. On pose

Sn =n∑k=0

Xk.

89

Page 100: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

1. Soient (Yn)n≥1 une suite de variables aléatoires convergeant en loivers une variable aléatoire Y , (an)n≥1 et (bn)n≥1 des suites de réelsconvergeant respectivement vers les réels a et b. Montrer que la suitede variables aléatoires (anYn+bn)n≥1 converge en loi vers la variablealéatoire aY + b.

2. Montrer que Sn−n√n

converge en loi vers la loi N (0, 1).

3. Montrer que Sn suit la loi Γ(n + 1, 1). En déduire que la densité deSn−n√

ns’écrit gn(x) = anhn(x), avec

an =nn+1/2e−n

√2π

Γ(n+ 1)

et

hn(x) =1√2πe−√nx

(1 +

x√n

)n1[−√n,+∞[.

4. Montrer que

limn→+∞

∫ 1

0gn(x) dx =

∫ 1

0

1√2πe−

x2

2 dx.

5. Montrer que

limn→+∞

∫ 1

0hn(x) dx =

∫ 1

0

1√2πe−

x2

2 dx.

6. En déduire la formule de Stirling :

n! ∼√

2πnn+1/2e−n.

Exercice 93. Existence des lois stables d’indice α.Soit (Yn,k) une suite de variables aléatoires indépendantes suivant la loi dePoisson P(cnα/|k|1+α), où c est une constante positive et α un réel vérifiant0 < α < 2. On pose

Zn =1

n

n2∑k=−n2

kYn,k.

1. Montrer que la fonction caractéristique de Zn s’écrit sous la formeφZn(θ) = exp(−2cθαun(θ)), avec

un(θ) =

∫ n|θ|

0f

nbnxθc)dx,

où f(x) = 1−cosxx1+α

.Indication : on reconnaîtra une “somme de Riemann”.

2. Montrer que, pour un choix approprié de c, la suite de fonctions (φZn)converge vers φ(θ) = exp(−|θ|α). (Pour ce faire, on pourra remarquerque |f(x)| ≤ min

(2

x1+α, 1xα ,

12

1xα−1

).)

3. Soit α tel que 0 < α ≤ 2. Montrer qu’il existe une mesure mα dont lafonction caractéristique est la fonction θ 7→ exp(−|θ|α).

4. Soient X1, . . . , Xn des variables aléatoires indépendantes identique-ment distribuées suivant la loi mα. Montrer qu’il existe un réel λn telque λn(X1 +X2 + · · ·+Xn) suive la loi mα.

90

Page 101: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.4 Exercices sur la convergence en loi

Exercice 94. Soit (Xn) une suite de variables aléatoires convergeant en loivers une variable aléatoire X.

1. Montrer que la famille (Xn)n≥1 est tendue.

2. On pose φn = φXn . Montrer que la famille (φn)n≥1 est uniformémentéquicontinue, c’est-à-dire que

∀ε > 0 ∃η > 0 ∀n ≥ 1, ∀(x, y) ∈ R2, |x−y| ≤ η =⇒ |φn(x)−φn(y)| ≤ ε.

Exercice 95. Renouvellement.Soit (Xn)n≥1 une suite de variables aléatoires positives, indépendantes et decarré intégrable, avec E(Xn) = 1.On pose Sn = X1 + · · ·+Xn et Nt = infn ≥ 1;Sn ≥ t.Montrer que Nt−t√

tconverge en loi vers N (0, 1) quand t tend vers l’infini

(c’est-à-dire que Ntn−tn√tn

converge en loi vers N (0, 1) pour toute suite tn

tendant vers l’infini +∞).

Exercice 96. 1. Interpréter la quantité e−nn∑k=0

nk

k! comme une proba-

bilité. À l’aide du théorème central de la limite, démontrer la relation

limn→+∞

e−nn∑k=0

nk

k!=

1

2.

2. On tire avec remise dans une urne contenant n boules jusqu’à cequ’une boule ait été tirée deux fois. Quelle est l’espérance du nombreXn de couleurs différentes qui ont été tirées ? Donner un équivalentlorsque n tend vers l’infini.

Exercice 97. Soient (Xn)n≥1 des variables indépendantes de même loi avecP(Xn = ±1) = 1/2. Alors Zn = 1√

n(X1 + · · · + Xn) converge en loi vers

une variable aléatoire Z ∼ N (0, 1). Montrer qu’en revanche, il n’y a pasconvergence en probabilité.

Exercice 98. Soient (Xn)n≥1 des variables indépendantes de même loi avecP(Xn = ±1) = 1/2. On pose Sn = X1 + · · ·+Xn. Déterminer une constanteA telle que E(|Sn|) ∼ A

√n.

Exercice 99. Convergence vers la loi Zêta. Application à la densité naturelledes couples d’entiers premiers entre eux et des entiers sans facteur carré.

1. Soient X, (Xn)n≥1 des variables aléatoires à valeurs dans N∗. On sup-pose que :— (Xn) est tendue,— pour tout N ≥ 1, P(N |Xn)→ P(N |X).Le but de la question est de montrer que (Xn) converge en loi versX.Pour p premier et x entier naturel non nul, on note νp(x) l’exposantde p dans la décomposition de x en produit de facteurs premiers(c’est la valuation p-adique de x). Pour N ≥ 1, on note encore

ψN (x) =N∏i=1

pνpi (x)i .

91

Page 102: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

(a) Montrer que pour tout entier naturel N , la suite de vecteurs aléa-toires (νp1(Xn), . . . , νpN (Xn))n≥1 converge en loi vers le vecteur(νp1(X), . . . , νpN (X)). En déduire que ψN (Xn) converge en loivers ψN (X).

(b) Soit ε > 0. Montrer qu’il existe N tel que P(X > pN ) ≤ ε/3 etpour tout n ≥ 1, P(Xn > pN ) ≤ ε/3, puis que pour toute variablealéatoire Y à valeurs dans N∗ et tout entier naturel i, on a

|P(Y = i)− P(ψN (Y ) = i)| ≤ P(Y > pN ).

(c) Conclure.

2. Soient Xn, Yn des variables aléatoires indépendantes suivant la loiuniforme sur 1, . . . , n. On note Zn = Xn ∧ Yn et Wn = r(Xn), oùr(n) est le plus grand entier a tel que a2 divise n.Montrer que Wn et Zn convergent en loi vers la loi Zêta de para-mètre 2. Que valent limn→+∞ P(Zn = 1) et limn→+∞ P(Wn = 1) ?Interpréter.

Remarque : on montre de la même manière le résultat suivant, dû à ErnestoCesàro. SoientX1

n, . . . , Xmn des variables aléatoires indépendantes suivant la

loi uniforme sur 1, . . . , n. On note Zn = X1n ∧ · · · ∧Xm

n et Wn = rm(X1n),

où rm(n) est le plus grand entier a tel que am divise n. Alors Wn et Znconvergent en loi vers la même loi Zêta de paramètre m.

On pourra également trouver dans [4] une extension des résultats de cetexercice à l’anneau Z[i].

6.4.2 Exercices de la série 2

Exercice 100. Soit (Xλ)λ>0 une famille de variables aléatoires telle quepour tout λ > 0, Xλ suive une loi de Poisson P(λ). Montrer que la suite determe général

Xλ − λ√λ

converge faiblement (en loi) vers la loi N (0, 1) lorsque λ tend vers l’infini.

Exercice 101. 1. Soit (Un)n≥1 une suite de variables aléatoires indé-pendantes suivant la loi uniforme sur [0, 1]. Pour x > 0, on pose

Xxn =

n∑k=1

1Uk≤ xn.

Montrer que (Xxn)n≥1 converge en loi et déterminer la loi limite.

2. Soit (un)n≥0 une suite croissante, de limite ` ∈ R. Pour x > 0, onpose

f(x) =+∞∑k=0

e−xxk

k!uk.

Montrer que f est une fonction croissante et déterminer sa limite en+∞.

Exercice 102. Jean joue au jeu suivant. Sur chaque case d’un plateau carréde taille n × n, il dispose une pièce de 1 e, les côtés visibles étant choisisau hasard (c’est-à-dire avec équiprobabilité), de manière indépendante. En-suite, il tire au hasard un nombre X compris entre 1 et n. Deux possibilitéss’offrent alors à lui :

92

Page 103: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

6.4 Exercices sur la convergence en loi

— soit retourner tous les pions de la colonne X,— soit retourner tous les pions de la ligne X.

Son but est de maximiser le nombre de faces. On suppose que Jean agitintelligemment. On note alors Fn (resp. Pn) le nombre de faces (resp. depiles) dans la configuration ainsi obtenue. On pose Dn = Fn − Pn.

Montrer que

EDn ∼n→+∞

√4n

π,

mais que

limn→+∞

P (Dn ≥ 0) =1

2.

Exercice 103. Soit (Xn)n≥1 une suite de variables aléatoires positives conver-geant en loi vers X. Montrer que

E[X] ≤ limn→+∞

E[Xn].

Indication : on pourra utiliser le fait que E[Xn] =∫R+ P(Xn > t) dλ(t).

Exercice 104. Soit n ≥ 1. Montrer qu’on peut choisir un réel λn de tellesorte que la mesure µn dont le support est exactement −n,−(n−1), . . . , n−1, n et vérifiant

∀k ∈ −n,−(n− 1), . . . , n− 1, n, µn(k) = λn(2n+ 1− 2|k|)

soit une mesure de probabilité. Soit maintenant Xn suivant la loi µn. Mon-trer que Xn/n converge en loi.

93

Page 104: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 6 : Convergence en loi

94

Page 105: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Chapitre 7

Statistique

En statistique, on observe un certain nombre de variables aléatoires,dont les lois sont (partiellement ou totalement) inconnues. À partir de cesobservations, on cherche à obtenir le plus possible d’informations sur ceslois.

Par exemple, on fabrique des pièces sur une machine. Chaque pièce fa-briquée est défectueuse avec une probabilité p inconnue. La valeur de pdépend du réglage de la machine et en particulier, plus p est proche de 0,meilleur est le réglage (mais il ne peut pas être parfait, bien entendu). Avantde lancer la fabrication, on veut s’assurer que la machine est “bien réglée”, c’est-à-dire que p est proche de 0 (même si p ne peut pas valoir 0). Pource faire, on fabrique un nombre n de pièces qui servent à tester le réglage.L’observation consiste à compter le nombre X de pièces défectueuses parmiles n pièces fabriquées. On se pose alors deux questions naturelles :

— trouver “la” valeur de p. Cela s’appelle estimer le paramètre p. Danscet exemple, il est naturel de prendre comme estimateur la propor-tion de pièces défectueuses, soit pn = X/n,

— s’assurer que la vraie valeur de p ne dépasse pas un seuil critique p0

fixé à l’avance (sinon, il faut refaire le réglage). On teste le fait quep ≤ p0.

Ces deux problèmes sont de nature mathématique différente. Leur pointcommun est qu’on ne peut pas arriver à une conclusion certaine. En effet,si n est assez grand, alors la valeur exacte de p sera proche de l’estimationpn, mais elle ne lui sera vraisemblablement pas égale. De même, on peutdécider que p ≤ p0 si X/n est suffisamment petite, mais on ne sera jamaiscertain que la vraie valeur de p soit effectivement inférieure au seuil p0.

On peut toujours représenter un problème de statistique de la manièresuivante.

Définition. On appelle modèle statistique la donnée de :

1. un espace d’états Ω (l’ensemble de tous les résultats possibles de l’expé-rience), que l’on munit de la tribu des événements F ,

2. une famille (Pθ, θ ∈ Θ) de probabilités sur (Ω,F).

Une variable aléatoire sur cet espace est appelée statistique.

On cherche toujours, à partir de la connaissance de l’observation (aléa-toire) ω, à obtenir des renseignements sur la valeur inconnue (et non aléa-toire) du paramètre θ :

1. soit on veut trouver la valeur de θ (ou d’une fonction de θ) et onparle alors d’estimation ponctuelle,

Page 106: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 7 : Statistique

2. soit on veut savoir si θ se trouve dans une partie Θ0 de l’ensemble Θ(ou dans son complémentaire) et on parle alors de test statistique.

Exemple:

1. Reprenons l’exemple de la fabrication de pièces. On observe le nombreX de pièces défectueuses, donc Ω = 0, . . . , n avec la tribu F =P(Ω) et X(ω) = ω. L’ensemble des paramètres est Θ =]0, 1[ et pourθ ∈ Θ, la probabilité Pθ est la loi binomiale B(n, θ).

2. On veut mesurer une longueur inconnue l et pour ce faire, on prendn mesures successives, dont les résultats sont X1, . . . , Xn. Le modèleest constitué de Ω =]0,+∞[n muni de la tribu borélienne et des va-riables aléatoires Xi(x1, . . . , xn) = xi si ω = (x1, . . . , xn) ∈ Ω. Il estnaturel de supposer que les Xi sont indépendantes, de même loi µadmettant pour moyenne la quantité l à mesurer. En terme de modèlestatistique, Θ est l’ensemble de toutes les probabilités sur ]0,+∞[ etPθ est l’unique probabilité sur Ω pour laquelle les Xi sont indépen-dantes et de loi θ. L’espace Θ est donc très gros, mais on ne s’intéressequ’à la fonction f(θ) =

∫x dθ(x), qui est la moyenne de la loi θ et

supposée être égale à la quantité l cherchée.

On voit sur ces exemples deux sortes de modèles statistiques. Dans uncas, l’espace Θ est une partie de R (ou Rd) : on a un problème paramétrique.Dans l’autre cas, Θ est l’espace de toutes les probabilités sur un ensembledonné : on a un problème non-paramétrique. Ici, on ne considérera que desproblèmes paramétriques.

Les problèmes statistiques se posent très souvent dans le cadre des échan-tillons.

Définition. Un modèle statistique (Ω,F , (Pθ, θ ∈ Θ)) étant fixé, on appelleéchantillon une famille (Xi)i∈I de variables aléatoires à valeurs dans l’espaceE (en général, Z,R ou Rd) telle que pour tout θ ∈ Θ, les variables aléa-toires (Xi)i∈I forment une famille de variables aléatoires indépendantes iden-tiquement distribuées. En particulier, on parlera de n-échantillon un ensemble(X1, . . . , Xn) de n variables aléatoires sur (Ω,F) , telles que pour tout θ ∈ Θ,les variables aléatoires X1, . . . , Xn forment une famille de variables aléatoiresindépendantes identiquement distribuées.

Remarque 7.1. L’exemple de mesure de longueur précédent est un exemplede modèle basé sur un n-échantillon. Dans le cas des pièces défectueuses, ils’agit d’un 1-échantillon. On peut cependant le voir comme un modèle à néchantillons en notant Xi la variable aléatoire de Bernoulli qui vaut 1 si lapièce i est défectueuse. Dans cette version du modèle, on a Ω = 0, 1n etaussi pour ω = (i1, . . . , in) ∈ Ω et X(ω) = Sn(ω) =X1(ω) + · · · + Xn(ω) =i1 + · · ·+ in, on a Pθ(ω) = θX(ω)(1− θ)n−X(ω) pour θ ∈ [0, 1].

7.1 Estimateurs

On suppose donné le modèle statistique (Ω,F , (Pθ)θ∈Θ). Soit f une fonc-tion connue sur Θ, supposée à valeurs réelles pour simplifier, f : Θ→ R. Onveut estimer la quantité inconnue f(θ).

Estimer f(θ) signifie qu’au vu de l’observation ω, on “décide” que la va-leur f(θ) vaut un certain nombre, noté T (ω) qui dépend de ω. On choisitdonc une variable aléatoire réelle, appelée statistique, T . Dans le cadre del’estimation, T est appelée estimateur de f(θ).

96

Page 107: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

7.1 Estimateurs

7.1.1 Lois empiriques

Si X1, . . . , Xn est un n-échantillon, on peut lui associer une mesure deprobabilité appelée loi empirique ou distribution empirique : il s’agit de

µn =1

n

n∑i=1

δXi .

Des estimateurs très classiques sont associés à la distribution empirique :

1. La fonction de répartition empirique est la fonction de répartitionassociée à la loi µn : on a

Fn(x) = µn(]−∞, x]) =1

n

n∑i=1

1Xi≤x.

C’est un estimateur de la fonction de répartition.

2. la moyenne empirique, qui est la moyenne de la distribution empi-rique µn, est un estimateur de la moyenne

Xn =

∫Rx dµn =

1

n

n∑i=1

Xi,

3. la variance empirique, qui est la variance de la distribution empiriqueµn, est un estimateur de la variance

S2n =

∫R

(x− Xn)2 dµn =1

n

n∑i=1

(Xi − Xn)2.

Théorème 7.2. Soit X1, . . . , Xn, . . . un échantillon infini d’une loi de carréintégrable. On a alors

1. la fonction de répartition empirique Fn(x) converge (lorsque n→ +∞)presque sûrement vers F (x),

2. la moyenne empirique Xn converge presque sûrement vers EX1,

3. la variance empirique S2n converge presque sûrement vers Var(X1).

Démonstration. 1. Fn(x) est la somme de variables aléatoires indépen-dantes suivant la même loi de Bernoulli dont le paramètre est l’espé-rance E(1X1≤x) = P(X1 ≤ x) = F (x). De plus, sa variance vaut

Var(1X1≤x) = E12X1≤x − P(X1 ≤ x)2 = F (x)− F (x)2.

Ainsi, on voit que 1X1≤x suit une loi de Bernoulli de paramètreF (x). D’après la loi forte des grands nombres, Fn(x) converge presquesûrement vers la moyenne de 1X1≤x, qui n’est autre que F (x).

2. Le résultat découle directement de la loi forte des grands nombres.

3. Remarquons que S2n =

(1n

n∑i=1

X2i

)−X2

n. Le premier terme converge

presque sûrement vers Var(X1) + (EX1)2 tandis que le second tendpresque sûrement vers (EX1)2. On en déduit que S2

n converge presquesûrement vers Var(X1) + (EX1)2 − (EX1)2 = Var(X1).

97

Page 108: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 7 : Statistique

Définition. L’estimateur Tn, construit à partir d’un n−échantillon, de f(θ) estconsistant (ou convergeant) si Tn converge en probabilité vers f(θ) pour toutθ ∈ Θ. Il est dit fortement consistant si Tn converge Pθ-presque sûrement versf(θ) pour tout θ ∈ Θ.

Par le théorème 7.2, on voit que les estimateurs Fn(x), Xn et S2n sont

fortement consistants.Exemple: Supposons qu’on observe un n-échantillon de la loi gaussienneN (θ, 1). Un estimateur raisonnable de θ est la moyenne empirique

X =1

n(X1 + · · ·+Xn).

7.1.2 Théorème de Glivenko–Cantelli

Théorème 7.3 (Glivenko–Cantelli). Soit (X1, . . . , Xn) un n−échantillon dela loi µ, de fonction de répartition F , et Fn la fonction de répartition empiriqueassociée :

Fn(x) =1

n

n∑k=1

1]−∞,x](Xk).

Alors,lim

n→+∞‖Fn − F‖∞ = 0 P− p.s.

Démonstration. Commençons d’abord par expliquer comment on peut, enpratique, calculer la quantité ‖Fn − F‖∞. Cela assurera en particulier lamesurabilité de ‖Fn − F‖∞.

Réordonnons les nombres X1, . . . , Xn en X(1), X(2), . . . , X(n) de tellesorte que X(1) ≤ X(2) ≤ · · · ≤ X(n) (c’est ce que l’on appelle une statis-tique d’ordre). Les fonctions ainsi définies sont bien des variables aléatoirespuisque l’on a l’identité

X(k) ≤ t =

n∑i=1

1[0,t](Xi) ≥ k

.

Pour 0 ≤ k ≤ n, la fonction Fn−F vaut kn −F (t) sur [X(k), X(k+1)[, avec

la convention X(0) = −∞ et X(n+1) = +∞. Comme Fn−F est décroissanteet continue à droite sur [X(k), X(k+1)[, on a

supt∈[X(k),X(k+1)]

∣∣∣∣kn − F (t)

∣∣∣∣ = max

(∣∣∣∣kn − F (X(k))

∣∣∣∣ , ∣∣∣∣kn − F (X(k+1)−0)

∣∣∣∣) .Ici, F (x−0) désigne la limite de F en x à gauche. Comme Fn et F ont lesmêmes limites en −∞ et en +∞, on a simplement

‖Fn − F‖∞ = max

(max

1≤k≤n

∣∣∣∣kn − F (X(k))

∣∣∣∣ , max1≤k≤n

∣∣∣∣k − 1

n− F (X(k)−0)

∣∣∣∣) ,ce qui montre que ‖Fn − F‖∞ est bien mesurable. On peut aller plus loin :le même raisonnement que ci-dessus montre que l’application

ψn : (x1, . . . , xn) 7→ supx∈R

∣∣∣∣∣F (x)− 1

n

n∑k=1

1]−∞,x](xk)

∣∣∣∣∣ .98

Page 109: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

7.1 Estimateurs

est (Rn,B(Rn))−(R,B(R)) mesurable et on a ‖Fn−F‖∞ = ψn(X1, . . . , Xn).Ainsi P(‖Fn − F‖∞ → 0) = PX(ψn(Π1, . . . ,Πn) → 0) : ainsi le résultatrecherché ( P(‖Fn−F‖∞ → 0) = 1) est une propriété de la loi du processus(Xn)n≥1 : pour montrer que le théorème est vrai, on peut donc choisir lesXn

sur l’espace de notre choix, pourvu qu’elles forment une suite de variablesaléatoires identiquement distribuées de loi µ.

Soit donc (Un)n≥1 une suite de variables aléatoires indépendantes sui-vant la loi uniforme sur [0, 1]. D’après le théorème 1.11, les variables aléa-toires Xk = Q∗(Uk), avec Q∗(u) = infx ∈ R; 1 − F (x) ≤ u forment unéchantillon de la loi µ. On a

‖Fn − F‖∞ = supx∈R

∣∣∣∣∣ 1nn∑k=1

1]−∞,x](Xk)− F (x)

∣∣∣∣∣= sup

x∈R

∣∣∣∣∣ 1nn∑k=1

1]−∞,x](Q∗(Uk))− F (x)

∣∣∣∣∣= sup

x∈R

∣∣∣∣∣ 1nn∑k=1

1]−∞,F (x)](Uk)− F (x)

∣∣∣∣∣≤ sup

y∈[0,1]

∣∣∣∣∣ 1nn∑k=1

1]−∞,y](Uk)− y

∣∣∣∣∣ .Notons que la dernière inégalité est en réalité une égalité lorsque F est

continue. Ce résultat sera réutilisé plus tard.Ainsi on est ramené à étudier le cas où µ est la loi uniforme sur [0, 1],

puisque

Fn(y) =1

n

n∑k=1

1]−∞,y](Uk)

est la fonction de répartition empirique associée à l’échantillon U1, . . . , Un.Notons D = [0, 1]∩Q. Par la loi forte des grands nombres, P(Fn(q)→ q) = 1

pour q ∈ D. Par intersection dénombrable, l’événement Ω = ∩q∈D

Fn(q)→

q est encore de probabilité un. On reconnait ici les conditions d’applicationsdu théorème B.1 de Dini–Polyà dans sa version étendue : la convergence auxpoints rationnels d’une suite de fonctions croissantes de [0, 1] dans R versune fonction continue croissante sur [0, 1] entraîne la convergence uniforme,ce qui achève la preuve.

Remarque 7.4. Si on veut utiliser la convergence pour un seul x ou pourun ensemble dénombrable de valeurs de x, il n’est pas nécessaire d’invoquerGlivenko-Cantelli : la loi forte des grands nombres suffit.

Remarque 7.5. L’identité

X(k) ≤ t =

n∑i=1

1[0,t](Xi) ≥ k

,

établie au cours de la preuve, permet également de calculer la loi de la statis-tique d’ordre : comme les événements Xi ≤ t sont indépendants et de mêmeprobabilité F (t), on a

P(X(k) ≤ t) = B(n, F (t))([k,+∞[)

=n∑i=k

(n

i

)F (t)i(1− F (t))n−i.

99

Page 110: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 7 : Statistique

Dans le cas où les Xk suivent la loi uniforme sur [0, 1], il n’est pas trèsdifficile, en dérivant la fonction de répartition, de vérifier que X(k) suit la loiBêta de paramètres k et n+ 1− k (exercice laissé au lecteur).

7.1.3 Choix d’un estimateur

Le problème de l’estimation consiste à optimiser le choix de l’estimateur(qui est supposé être réel ici). Il faut ainsi introduire un critère de qualité.A priori, on a envie de dire que l’estimateur S est meilleur que T si l’erreurcommise par S est plus petite en valeur absolue que celle commise par T .Remarquons que l’erreur est T (ω)−f(θ) : elle dépend à la fois du paramètreinconnu θ et du résultat ω de l’expérience, connu mais aléatoire. Ainsi, deuxestimateurs S et T ne seront pratiquement jamais comparables, au sens oùpar exemple |S(ω)− f(θ)| ≤ |T (ω)− f(θ)| pour tous les ω et θ.

L’idée sous-jacente aux divers critères de qualité possibles consiste àchoisir ce qu’on appelle parfois une fonction de perte. Il s’agit d’une fonctionh : R+ → R+ croissante et nulle en 0. La perte de l’estimateur T est alorsh(|T (ω) − f(θ)|) et le risque associé est l’espérance de cette fonction parrapport à Pθ : RT (θ) = Eθh(|T (ω)− f(θ)|). Le risque est une fonction de θ,mais qui ne dépend plus de l’aléa ω. Un estimateur S est dit meilleur que Tsi leurs fonctions de risque respectives satisfont RS(θ) ≤ RT (θ) pour tout θ.

Remarque 7.6. Pour h fixé, dire que S est meilleur que T revient à dire qu’enmoyenne, si on répète souvent l’expérience statistique, la fonction de perte deS sera plus petite que celle de T . Ce n’est bien entendu pas le cas pour uneexpérience donnée. D’autre part, le choix de h est arbiraire. Si on prend parexemple une fonction puissance h(x) = xα, plus α est grand et plus on privilégieles “grandes” erreurs par rapport aux “petites”. On utilise en général la fonctionh(x) = x2.

Définition. 1. Le risque quadratique de l’estimateur T de f(θ) est

RT (θ) = Eθ[(T − f(θ))2]

où l’espérance Eθ dépend de la probabilité Pθ.2. Si S et T sont deux estimateurs de f(θ), on dit que S est meilleur que

T (au sens du risque quadratique) si RS(θ) ≤ RT (θ) pour tout θ ∈ Θ. Il eststrictement meilleur s’il est meilleur et si de plus RS(θ) < RT (θ) pour au moinsune valeur de θ.

Exemple:

1. Revenons à la fabrication de pièces. Dans la première modélisationoù Ω = 0, . . . , n et Pθ = B(n, θ), la variable aléatoire T (ω) = ω/nest le meilleur estimateur de θ. Le carré T 2 est un estimateur raison-nable de θ2, mais ce n’est pas le meilleur.

2. On observe un n-échantillon de la loi gaussienne N (θ, 1). On a vuqu’un estimateur raisonnable de θ est la moyenne empirique

X =1

n(X1 + · · ·+Xn).

Comme f(θ) = θ est la moyenne Eθ(X), le risque RX(θ) est la va-riance de X sous Pθ. On a donc RX(θ) = 1/n. On peut aussi consi-dérer X1 comme un estimateur de θ, de moyenne θ et de risque qua-dratique RX1(θ) = 1. Donc X est strictement meilleur que X1 dèsque n ≥ 2.

100

Page 111: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

7.1 Estimateurs

Remarque 7.7. La relation “S est meilleur que T ” est une relation d’ordrepartiel sur la famille de tous les estimateurs, qui est la famille de toutes lesvariables aléatoires. Deux estimateurs donnés ne sont en général pas compa-rables et il n’existe pas d’estimateur meilleur que tous les autres. En effet, dansl’exemple précédent de la gaussienne, si T (ω) = c constante arbitraire, alorsle risque quadratique pour estimer f(θ) est RT (θ) = (c − θ)2. On a doncRT (θ) < RX(θ) pour certaines valeurs de θ et RT (θ) > RX(θ) pour d’autresvaleurs de θ. Dans ce cas, T n’est pas un estimateur raisonnable de θ, car ilne dépend pas de l’observation, mais son risque est nul quand le paramètreinconnu θ vaut c.

La détermination d’un meilleur estimateur (c’est-à-dire tel qu’il n’en existepas de strictement meilleur) est un problème mathématique extrêmementdifficile, car la classe de tous les estimateurs est trop vaste. Dans la plupartdes cas, on se retreint à une classe particulière d’estimateurs.

Définition. 1. L’estimateur T de f(θ) est dit sans biais (ou non-biaisé) si on aEθ(T ) = f(θ) pour tout θ ∈ Θ. Dans ce cas, le risque quadratique RT (θ) est lavariance de T sous Pθ.

2. T est un meilleur estimateur sans biais de f(θ) s’il est sans biais et s’ilest meilleur que tout autre estimateur sans biais.

3. Soient S et T deux estimateurs, construits à partir d’un n−échantillon,sans biais du paramètre θ. On dit que S est un estimateur préférable à T siVar(S) < Var(T ).

Exemple: Soient X1, X2, . . . , Xn un n-échantillon d’une loi inconnue ad-mettant un moment d’ordre deux.

Notre but est d’estimer m et σ2 à partir de X1, X2, . . . , Xn.Une idée naturelle est d’approcher m par la moyenne empirique

Xn =1

n

n∑k=1

Xk =X1 +X2 + · · ·+Xn

n.

C’est une bonne idée ! En effet

EXn = E

[1

n

n∑k=1

Xk

]=

1

nE

[n∑k=1

Xk

]=

1

n

n∑k=1

EXk =1

n

n∑k=1

m =1

nnm = m.

Xn est donc un estimateur non biaisé de m.Maintenant, comment estimer σ2 ? Une autre idée naturelle est d’appro-

cher σ2 par la variance empirique

σ2n =

1

n

n∑k=1

(Xk − Xn)2 =1

n

n∑k=1

X2k −

(1

n

n∑k=1

Xk

)2

.

On a d’une part,

E

[1

n

n∑k=1

X2k

]= E[X2

1 ] = VarX1 + (EX1)2 = σ2 +m2,

et d’autre part,

E

( 1

n

n∑k=1

Xk

)2 =

1

n2E

( n∑k=1

Xk

)2 =

1

n2E

(n∑k=1

X2k + 2

∑1≤i<j≤n

XiXj

).

101

Page 112: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 7 : Statistique

Pour tout k, on a EX2k = σ2 + m2 et, comme Xi et Xj sont indépendantes

pour i 6= j, on a EXiXj = EXiEXj = m2. On en déduit

E

( n∑k=1

Xk

)2 =

n∑k=1

E[X2k

]+ 2

∑1≤i<j≤n

EXiXj = n(σ2 +m2) + n(n− 1)m2.

Ainsi E(σ2n) = σ2 +m2− 1

n2

(n(σ2 +m2) + n(n− 1)m2

)=n− 1

nσ2. Ce n’est

pas tout à fait ce que l’on voulait, car on avait espéré trouver σ2. Ce n’estpas grave : il suffit de considérer

s2n =

n

n− 1σ2n =

n

n− 1

(1

n

n∑k=1

(Xk − Xn)2

)=

(1

n− 1

n∑k=1

X2k

)− n

n− 1X2n.

s2n est un estimateur non biaisé de σ car Es2

n = nn−1Eσ

2n = σ2.

Remarque 7.8. Il n’existe pas de justification satisfaisante à l’usage d’esti-mateurs sans biais, si ce n’est la méthode des moments qui est assez efficace(et repose sur cette notion). Néanmoins, quand on observe un n-échantillon(X1, . . . , Xn) de loi µθ pour estimer f(θ), on suppose qu’il existe une fonc-tion g telle que Eθg(Xi) = f(θ) pour tout θ ∈ Θ. Alors, Tn = 1

n(g(X1) +· · · + g(Xn)) est un estimateur sans biais de f(θ). D’après la loi des grandsnombres, Tn converge Pθ-p.s. vers f(θ). Plus généralement, on peut montrerque sous des conditions assez faibles, les estimateurs sans biais construits surun n-échantillon convergent vers la valeur à estimer (mais dans la pratique, nest bien entendu fini).

Exemple:

1. Dans le cas des pièces défectueuses, T = Xn est un estimateur sans

biais de θ = p.

2. On observe une variable aléatoire de loi exponentielle de paramètreθ. On a alors Ω = R+, Θ =]0,∞[ et Pθ est la loi exponentielle deparamètre θ. On observe la variable aléatoire X(ω) = ω. Si T estun estimateur sans biais de θ, on a alors (par définition du biais)EθT (X) = θ. Par le théorème de transfert, cela revient à satisfaire∫ ∞

0e−θxT (x) dx = 1 ∀θ > 0,

ce qui n’est possible pour aucune fonction T ne dépendant pas de θ :en effet, d’après le théorème de convergence dominée, on a

limθ→+∞

∫ ∞0

e−θxT (x) dx = 0.

Ainsi, dans ce cas, il n’existe aucun estimateur sans biais.

Proposition 7.9. Soit (X1, . . . , Xn) un n-échantillon d’une loi admettant unevariance. Alors la moyenne empirique Xn est le meilleur (au sens du risquequadratique) estimateur de la moyenne parmi tous les estimateurs linéairessans biais.

Démonstration. On a un n-échantillon (X1, . . . , Xn) de loi µθ sur R. NotonsPθ l’unique probabilité sous laquelle les Xi sont indépendantes de loi µθ.

102

Page 113: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

7.2 Intervalle de confiance

Notons mθ la moyenne et σ2θ la variance de µθ. Un estimateur affine T est de

la forme T = b+∑aiXi, avec b et ai constantes. On veut estimer f(θ) = mθ.

Comme EθT = b +∑aif(θ), T est sans biais si et seulement si b = 0 et∑

ai = 1. Le risque quadratique est donc RT (θ) = σ2θ

∑a2i . Considérons la

mesure de probabilité µ = 1n

n∑i=1

δai . Appliquons maintenant l’inégalité de

Cauchy-Schwarz à la fonction identité. On obtient alors, carn∑i=1

ai = 1

1

n2=

(1

n

n∑i=1

ai

)2

=

(∫Rx dµ(x)

)2

≤∫Rx2 dµ(x) =

1

n

n∑i=1

a2i .

On a doncn∑i=1

a2i ≥ 1

n avec égalité si et seulement si ai = 1/n et dans ce

cas, T = Xn.

7.2 Intervalle de confiance

On se place ici en dimension 1. Comme nous l’avons déjà vu, l’erreurT (ω) − f(θ) commise en remplaçant f(θ) par T (ω) est à la fois aléatoire etdépendante du paramètre inconnu θ. Le risque quadratique est une mesure“déterministe” du carré de cette erreur, mais il dépend encore de la valeurinconnue θ. On utilise donc souvent une “fourchette d’estimation”.

Définition. Soient T un estimateur de f(θ) et 0 < α < 1 (ce nombre estfixé a priori, proche de 1). On appelle intervalle de confiance de niveau α unintervalle aléatoire I(ω) dont les extrémités ne dépendent pas de θ et danslequel “f(θ) se trouve avec une probabilité au moins égale à α” :

Pθ(θ ∈ I) ≥ α, ∀θ ∈ Θ.

On parle alors d’intervalle de confiance bilatéral.Dans le cas où l’intervalle de confiance est semi-infini, on parle alors d’in-

tervalle de confiance unilatéral.

Exemple:

1. Pièces défectueuses. Sous Pθ, la variable nT= nTn suit la loi B(n, θ),donc la variance de T est θ(1 − θ)/n. Par l’inégalité de Chebychev ,on a

Pθ(|T − θ| > a) ≤ θ(1− θ)na2

≤ 1

4na2∀θ ∈ Θ.

Donc un intervalle de confiance de niveau 0, 95 pour θ est donné par[T − 1√

0,2n;T + 1√

0,2n

]. Mais cette inégalité est en réalité une ap-

proximation grossière. En fait, si n est grand, alors le TCL nous ditque la variable (T − θ)

√n/θ(1− θ) suit approximativement la loi

N (0, 1) sous Pθ. Ainsi, pour tout a > 0 et tout θ ∈ [0, 1], on a

(∣∣∣∣∣ Sn − nθ√nθ(1− θ)

∣∣∣∣∣ ≥ a)

=Pθ(θ ∈ [Tn −a√θ(1− θ)√n

, Tn −a√θ(1− θ)√n

])

≥ Pθ(θ ∈ [Tn −a

2√n

√n, Tn −

a

2√n

])

103

Page 114: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 7 : Statistique

Pour n ≥ 30, le membre de droite se laisse approcher par P(|X| ≥ a)avec X ∼ N (0, 1). Les tables nous donnent P(X ≤ 1, 96) = 0, 975,soit P(|X| ≥ 1, 96) = 0, 05.Un intervalle de confiance de niveau 0, 95 est donné par

[T − 0, 98/√n, T + 0, 98/

√n], (7.1)

qui est plus petit donc meilleur que le précédent lorsque n est grand.Pour simplifier les calculs et la mémorisation, on lui préfère parfoisl’intervalle de confiance plus grand

[T − 1√n, T +

1√n

]. (7.2)

2. Soit un n-échantillon de loi N (θ, σ2) avec σ2 connu. La loi de Xn− θsous Pθ est la loi N (0, σ2/n), donc

√n(Xn − θ)/σ suit la loi N (0, 1).

Fixons un niveau α = 0, 95. On lit sur la table de la loi gaussienneque

Pθ(|√n(Xn − θ)/σ| > 1, 96) = 0, 05

et donc un intervalle de confiance de niveau 0, 95 pour la moyenneest[Xn − 1, 96 σ√

n, Xn + 1, 96 σ√

n

].

7.3 Tests d’hypothèses

Soit (Ω,F , (Pθ)θ∈Θ) un modèle statistique. L’ensemble Θ est ici divisé enune partie Θ0 et son complémentaire Θ1. L’objectif d’un test est (au vu del’observation ω) de “décider” si la vraie valeur de θ se trouve dans Θ0 oudans Θ1.

Si on reprend l’exemple des pièces défectueuses, notons θ0 la valeur li-mite de la proportion de pièces défectueuses qui est acceptable. On veut dé-cider, au vu du nombre X de pièces défectueuses observées dans un échan-tillon de n pièces, si θ > θ0 ou non. Comme dans la plupart des problèmespratiques de ce type, il est dissymétrique : on veut être “raisonnablementsûr” que θ ≤ θ0. On veut rejeter l’hypothèse θ > θ0 avec une “erreur” faiblesi elle est vraie (car si la machine est mal réglée, les clients vont refuser leslots de pièces qui contiendront en moyenne trop de pièces défectueuses). Enrevanche, si la vraie valeur est θ ≤ θ0 et si on décide à tort qu’elle est plusgrande, ce n’est pas très grave : on fera juste un réglage supplémentaire (etinutile) de la machine.

Définition. 1. Dans un problème de test, on veut tester l’hypothèse H0

selon laquelle θ ∈ Θ0 contre l’alternative H1 selon laquelle θ ∈ Θ1.

2. La région critique est la partie (ou l’événement) D de Ω sur laquelle onrejette l’hypothèse H0. Si ω ∈ D, on décide que H1 n’est pas rejetée,alors que si ω /∈ D, alors H0 n’est pas rejetée.

3. Si θ ∈ Θ0, la probabilité de rejeter H0 alors qu’elle est vraie Pθ(D) estl’erreur de première espèce.

4. Si θ ∈ Θ1, la probabilité de ne pas rejeter H0 alors qu’elle est fausse1− Pθ(D) = Pθ(Dc) est l’erreur de seconde espèce.

104

Page 115: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

7.4 Exercices de statistiques

5. Le nombre α = supθ∈Θ0

Pθ(D) est le niveau du test ou de la région cri-

tique et la fonction P·(D) : Θ → [0, 1], θ 7→ Pθ(D) est la fonctionpuissance du test.

Il faut donc construire un test. Cela consiste à trouver une région critiquequi minimise autant que possible les erreurs.Toutefois, on ne pourra jamais

rendre petits à la fois le risque de première espèce supθ∈Θ0

Pθ(D) et le risque

de deuxième espèce supθ∈Θ1

Pθ(Dc). En effet, il est fréquent que Θ soit une

partie de Rd et pour n’importe quelle région critiqueD, la fonction puissanceest continue. Or on cherche à la rendre aussi proche que possible de 1 surΘ1 et de 0 sur Θ0. Ceci est manifestement contradictoire, en général, auvoisinage de la frontière entre Θ0 et Θ1.

En fait, les tests sont construits de la manière suivante. On commencepar fixer une borne supérieure au niveau α, en général 0,1 ou 0,05 ou 0,01.Ensuite, parmi toutes les régions critiques de niveau α (ou ≤ α), on chercheà maximiser la fonction puissance sur Θ1 (donc à minimiser les erreurs deseconde espèce). Implicitement, cela signifie qu’on considère comme plusgrave une erreur de première espèce qu’une erreur de seconde espèce : lespremières sont majorées uniformément par α, tandis que les secondes sontsouvent proches de 1−α aux points de Θ1 qui sont “proches” de la frontièreavec Θ0.

En pratique, on cherche une statistique (une fonction des observations)dont on connaît la loi si H0 est vraie et qui ne se comporte pas de la mêmemanière selon que H0 ou H1 est vraie.

7.4 Exercices de statistiques

7.4.1 Exercices de la série 1

Exercice 105. On effectue une enquête, durant une épidémie de grippe,dans le but de connaître la proportion p de personnes présentant des com-plications graves. On observe un échantillon représentatif de 400 personneset pour un tel échantillon, 40 personnes ont présenté des complications.

1. Donner un intervalle de confiance pour p au risque 5%.2. On désire que la valeur estimée p diffère de la proportion inconnue

exacte p de moins de 0, 005 avec une probabilité égale à 95%. Quelsera l’effectif d’un tel échantillon?

3. Quel devrait être le risque pour obtenir le même intervalle qu’à laquestion précédente en conservant l’effectif n = 400. Quelles conclu-sions peut-on en tirer ?

Exercice 106. Concentration pour la méthode de Monte-Carlo.Soient g : [0, 1]d → R une fonction dans L∞([0, 1]d) et (Xi)i≥1 une suitede variables aléatoires indépendantes et identiquement distribuées de loiuniforme sur [0, 1]d. On se propose ici de montrer une inégalité de concen-tration pour la méthode de Monte-Carlo.Montrer que pour tout ε ∈]0,

‖g‖22‖g‖∞ [, on a

P

(∣∣∣∣∣ 1n n∑i=1

g(Xi)−∫

[0,1]dg(x) dx

∣∣∣∣∣ > ε

)≤ 2 exp

(− nε2

4‖g‖22

).

105

Page 116: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE 7 : Statistique

7.4.2 Exercices de la série 2

Exercice 107. Soient deux populations de chevaux : les bons sauteurs etles mauvais sauteurs. On étudie la hauteur du garrot que l’on suppose dis-tribuée normalement dans les deux populations avec 5 comme écart-type.Pour cela, on prélève un échantillon dans chacune des deux populations, cequi donne les résultats suivants :

Effectif MoyenneBons sauteurs n1 = 55 X1 = 164

Mauvais sauteurs n2 = 50 X2 = 161, 5

1. La différence des moyennes observées est-elle significative (au risquede 5%)?

2. Même question mais en supposant que les effectifs sont : n1 = 12 etn2 = 10.

Exercice 108. Sur un échantillon de 40 mollusques, 9 indiquent la présenced’un parasite associé à la bilharziose.

1. Estimer la proportion de mollusques porteurs du parasite sur la po-pulation entière.

2. Donner l’intervalle de confiance de cette proportion au risqueα = 5%.

3. Si le nombre de mollusques infectés avait été de 3, aurait-il encoreété possible de calculer un intervalle de confiance? (Justifier votreréponse.)

106

Page 117: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Annexe A

Rappels de dénombrement

A.1 Rappels de vocabulaire ensembliste

Un ensemble Ω est constitué de points, tous distincts. On dit qu’un en-semble A est inclus dans Ω, et l’on écritA ⊂ Ω, lorsque tous les éléments deA appartiennent à Ω.

On rappelle que l’ensemble vide (noté ∅) ne contient aucun élément etest inclus dans tous les ensembles. Pratiquement, si l’on veut montrer le ré-sultat A ⊂ Ω, la preuve ressemblera donc à « Soit x ∈ A . . . (raisonnement). . . donc x ∈ Ω. Comme on a choisi x quelconque dans A, on conclut queA ⊂ Ω. » Si A est inclus dans Ω, on dit que A est un sous-ensemble, ou unepartie de Ω.

Si A et B sont des parties de Ω, l’ensemble A ∪ B est constitué des élé-ments de Ω qui sont dans A ou dans B, éventuellement dans les deux. Plusgénéralement, si I est un ensemble quelconque et (Ai)i∈I une famille de

parties de Ω indexée par I, ∪i∈I

Ai est constitué des points de Ω qui sont

dans au moins un des Ai.

Pratiquement, si l’on veut montrer le résultat x ∈ ∪i∈I

Ai, la preuve ressem-

blera donc à « . . . (raisonnement) . . . Il existe donc i0 ∈ I tel que x ∈ Ai0 .

Donc x ∈ ∪i∈I

Ai. »

Si A et B sont des parties de Ω, l’ensemble A ∩ B est constitué deséléments de Ω qui sont dans A et dans B. Plus généralement, si I est unensemble quelconque et (Ai)i∈I une famille de parties de Ω indexée par I,

∩i∈I

Ai est constitué des points de Ω qui sont dans tous les Ai.

Pratiquement, si l’on veut montrer le résultat x ∈ ∩i∈I

Ai, la preuve ressem-

blera donc à « Soit i ∈ I . . . (raisonnement) . . . Donc x ∈ Ai. Comme i est

quelconque, on a donc x ∈ ∩i∈I

Ai. »

A.2 Applications et cardinaux : définitions et nota-tions

PourA,D deux ensembles non vides quelconques, on noteAD ouF(D,A)l’ensemble des fonctions de D (ensemble de départ) vers A (ensemble d’ar-rivée). Soit f une application de D dans A. On dit que f est

Page 118: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE A : Rappels de dénombrement

— injective si ∀x, y ∈ D, x 6= y =⇒ f(x) 6= f(y)— surjective si ∀z ∈ A, ∃x ∈ D : f(x) = z.— bijective si elle est à fois injective et surjective.

Une application injective (resp. surjective, bijective) est une injection (resp.surjection, bijection).

Une bijection d’un ensemble Ω dans lui-même est appelée permutationde Ω. On note S(Ω)l’ensemble des permutations de Ω, et simplement Sn

pour l’ensemble des permutations de 1, . . . , n.Un ensemble Ω est dit fini si— ou bien c’est l’ensemble vide ∅,— ou bien il existe un entier n tel qu’il existe une bijection entre Ω et1, . . . , n.

Cet entier n est unique : on l’appelle le cardinal de l’ensemble Ω. On le note|Ω|. De manière intuitive, c’est le nombre d’éléments de Ω.Le cardinal de l’ensemble vide est zéro.Pour Ω fini de cardinal n, et p ∈ 0, . . . , n, on note Bp(Ω)l’ensemble desparties de Ω de cardinal p. Par exemple B2(a, b, c) = a, b, b, c, a, c.On note de plus P(Ω)l’ensemble des parties de Ω, quel que soit leur cardinal.Par exemple P(a, b, c) = ∅, a, b, c, a, b, b, c, a, c, a, b, c.

Soient A et D deux ensembles finis. On admettra les résultats suivants :— Il existe (au moins) une bijection de D dans A si et seulement si|A| = |D|.

— Il existe (au moins) une injection de D dans A si et seulement si|A| ≥ |D|.

— Il existe (au moins) une surjection de D dans A si et seulement si|A| ≤ |D|.

Le premier des trois résultats énoncés est évidemment le plus utilisé lorsquel’on veut des dénombrements exacts, alors que les deux autres sont plutôtutilisés dans les cas trop complexes, où l’on peut juste espérer des encadre-ments.Soit f : A → D une fonction, où A et D sont deux ensembles finis. Si|A| = |D|, alors f est injective si et seulement si f est surjective si et seule-ment si f est bijective.

Un ensemble Ω est dit dénombrable s’il existe une bijection entre Ω et N.

A.3 Principes de base du dénombrement

A.3.1 Principe de bijection

Dans la pratique, lorsque l’on veut compter les éléments d’un ensemble,on montre que cet ensemble est en bijection avec un ensemble dont onconnaît (par cœur) le nombre d’éléments. La section suivante énoncera uncertain nombre de résultats qu’il faut connaître.

A.3.2 Principe d’indépendance

Il s’agit juste de la formule

|A×B| = |A| · |B| .

Considérée isolément, elle peut paraître sans intérêt mais elle est souventutilisée en association avec le principe de bijection.

108

Page 119: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

A.3 Principes de base du dénombrement

A.3.3 Principe de partition

On dit que les ensembles (Ai)i∈I forment une partition de A si l’on a

A = ∪i∈I

Ai et i 6= j =⇒ Ai ∩Aj = ∅. 1

On a alors|A| =

∑i∈I|Ai|.

Le résultat élémentaire suivant peut souvent être utile.

Théorème A.1. Soient Ω un ensemble quelconque, I un ensemble d’indices finiou dénombrable et (Ωi)i∈I une partition de Ω. Alors, les ensembles (A ∩ Ωi)i∈Iforment une partition de A.

Démonstration. Posons Ai = A ∩ Ωi. Comme Ω = ∪i∈I

Ωi, on a

A = A ∩ Ω = ∪i∈I

(A ∩ Ωi) = ∪i∈I

Ai.

D’autre part, pour i 6= j, on a Ai ∩Aj ⊂ Ωi ∩Ωj = ∅, d’où Ai ∩Aj = ∅.

Lemme A.2. Soit φ : D → A une application surjective. Alors les ensembles(φ−1(a))a∈A forment une partition de D.

La preuve de ce résultat est laissée en exercice au lecteur.

A.3.4 Lemme des bergers

Le lemme suivant peut également être utile

Lemme A.3 (des bergers). Soit φ une application surjective de D dans A. Onsuppose qu’il existe un entier a ≥ 1 tel que

∀y ∈ A |φ−1(y)| = |x ∈ D;φ(x) = y| = a

(autrement dit si tout élément de A admet exactement a antécédents), on a

|A| = |D|a.

Démonstration. On applique le principe de partition avec I = A. Si l’onpose, pour y ∈ A, Dy = x ∈ D;φ(x) = y, les Dy forment clairement unepartition de D, d’où

|D| =∑y∈A|Dy| =

∑y∈A

a = |A|a.

Le nom du lemme est dû à la procédure prétendument employée par lesbergers chaldéens pour compter le nombre de leurs moutons : il s’agit decompter le nombre de pattes et de diviser par 4. Dans cet exemple, A estl’ensemble des moutons, D l’ensemble des pattes de mouton, et φ l’applica-tion qui à une patte associe le mouton auquel elle appartient.

1. Certains auteurs imposent en plus que les Ai soient tous non-vides. Il nous semble quecette condition supplémentaire a plus d’inconvénients que d’avantages.

109

Page 120: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE A : Rappels de dénombrement

A.4 Quelques résultats incontournables

A.4.1 Nombre d’applications de D dans A

Il existe exactement |A||D| applications de D dans A, ce qui peut s’écrire

|AD| = |A||D|.

On pose |A| = n et |D| = p. Un cas particulier important est celui oùl’on a D = 1, . . . , p. Or, un p-uplet (x1, x2, . . . , xp) dont les composantessont des éléments de A peut être considéré comme la donnée d’une appli-cation de 1, . . . , p dans A. Le nombre de p-uplets (x1, x2, . . . , xp) dont lescomposantes sont des éléments de A est donc np.Exemple: Un professeur note chaque étudiant d’une classe de 30 étu-diants par une note entière de 0 à 20. Le nombre de résultats possiblesest le nombre de fonctions de l’ensemble D des étudiants dans l’ensembleA = 0, . . . , 20 des notes possibles. Comme |A| = 21 et |D| = 30, il y adonc 2130 résultats possibles.

Remarque A.4. Au lycée, vous avez vu ce résultat sous la dénomination “choixindépendant (avec remise) de p objets dans un ensemble de cardinal |A| = n.”

A.4.2 Nombre de permutations de Ω

On pose |Ω| = n. Le nombre de permutations de Ω est

n! = n× (n− 1)× · · · × 1.

Remarque A.5. n! se lit “factorielle n” ou “n factorielle”.

Exemple: Un professeur doit faire passer dans la journée cinq étudiants àl’oral de contrôle. Il a 5 !=120 manières de choisir l’ordre dans lequel il vales interroger.

A.4.3 Nombre d’injections de D dans A

Proposition A.6. On pose |A| = n et |D| = p. En vertu de la remarque faiteen A.2, il existe une injection de D dans A si et seulement si p ≤ n. Alors, lenombre d’injections de D dans A est

n(n− 1) . . . (n− p+ 1).

Démonstration. Soit n un entier. On pose A = 1, . . . , n et on note Ip l’en-semble des injections de 1, . . . , p dans A. On va montrer par récurrencesur p ∈ 1, . . . , n que |Ip| = n!

(n−p)! . Il est évident que |I1| = 1 = n!(n−1)! .

Considérons l’applicationRp : Ip+1 → Ip

qui à chaque injection de 1, . . . , p + 1 dans A associe sa restriction à1, . . . , p. Avec un peu de réflexion, on montre que

∀f ∈ Ip |g ∈ Ip+1;Rp(g) = f| = n− p.

D’après le lemme des bergers, on a donc

|Ip+1| = (n− p)|Ip|.

Cette identité permet d’achever la preuve par récurrence.

110

Page 121: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

A.4 Quelques résultats incontournables

Remarque A.7. — Comme on l’a vu dans la preuve, ce nombre peut s’écrireaussi n!

(n−p)! .— Lorsque n = p, on trouve n!. En fait, une injection entre deux ensembles

de même cardinal est une bijection.

Exemple: 3500 personnes se présentent au concours de l’Agrégation deMathématiques. 300 places sont mises au concours. Combien y a-t-il de pal-marès possibles, en supposant qu’il n’y ait pas d’ex-æquos?Réponse : 3500×3499×· · ·×3202×3201. IciD est l’ensemble des rangs, on adonc D = 1, . . . , 300 et A l’ensemble des candidats (donc |A| = 3500). Oncompte bien le nombre d’applications injectives puisqu’une même personnene peut avoir deux rangs différents.

A.4.4 Nombre de parties de Ω possédant p éléments

Proposition A.8. On pose |Ω| = n. Par définition, on note(np

)le nombre de

parties à p éléments d’un ensemble de n éléments. Il s’agit donc de calculer|Bp(Ω)|. On va montrer que(

n

p

)=n(n− 1) . . . (n− p+ 1)

p(p− 1) . . . 1=

n!

p!(n− p)!.

Démonstration. Il suffit d’appliquer le lemme des bergers à— D : ensemble des injections de 1, . . . , p dans Ω,— A = Bp(Ω),— φ définie par φ(f) = Image(f) = f(k); k ∈ 1, . . . , p.

On a vu précédemment que |A| = n(n−1) . . . (n−p+1). Il n’est pas difficilede voir que φ est surjective. Une partie e1, . . . , ep de Ω étant donnée, com-bien existe-t-il d’injections (en fait de bijections) de 1, . . . , p dans Ω tellesque f(1), . . . , f(p) = e1, . . . , ep? C’est évidemment le nombre d’injec-tions de 1, . . . , n dans e1, . . . , ep, c’est-à-dire p!. Le lemme des bergerss’applique donc avec a = p!, d’où le résultat.

Exemple: 3500 personnes se présentent au concours de l’Agrégation deMathématiques. 300 places sont mises au concours. Combien y a-t-il de listesalphabétiques des reçus possibles ? Réponse :

(3500300

). Ici, Ω est l’ensemble des

candidats et p = 300 le nombre de reçus.

A.4.5 Nombre total de parties de Ω

Proposition A.9. Le nombre total de parties de Ω est |P(Ω)| = 2|Ω|.

Démonstration. Il suffit de remarquer que l’application

P(Ω)→ 0; 1Ω, A 7→ 1A

est une bijection. On rappelle que pour A ⊂ Ω, l’application 1A (appeléeindicatrice de A) est définie sur Ω par

1A(x) =

1 si x ∈ A,0 si x /∈ A.

Exemple: 200 étudiants se présentent à un examen. Combien y a-t-il delistes alphabétiques des reçus possibles ? Réponse : 2200. Ici Ω est l’ensembledes candidats. La grande différence avec l’exemple précédent est qu’ici, lenombre de reçus n’est pas fixé à l’avance.

111

Page 122: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE A : Rappels de dénombrement

A.5 Équations et inéquations en entiers

Lemme A.10. Soient n et p des entiers. Si n ≥ p, alors il existe exactement(np

)applications strictement croissantes de 1, . . . , p dans 1, . . . , n. Sinon,

il n’en existe aucune.

Démonstration. Une application strictement croissante étant injective, il estnécessaire que n ≥ p. Mais se donner une suite strictement croissante dep éléments pris dans 1, . . . , n revient à choisir une partie de 1, . . . , npossédant p éléments, puis à les ordonner avec l’ordre naturel. Or

(np

)est,

par définition, le nombre de parties de 1, . . . , n possédant p éléments, d’oùle résultat.

Exemple: Un enseignant devrait faire un cours de 70 pages en 7 séances.Combien y a-t-il de progressions possibles, en admettant qu’à chaque séance,l’enseignant progresse d’un nombre entier strictement positif de pages, maissans être astreint à terminer le programme?Réponse : une progression correspond donc à une fonction strictement crois-sante de 1, . . . , 7 dans 1, . . . , 70 qui au numéro de chaque cours associele numéro de la dernière page étudiée à ce cours. Il y a donc

(707

)progres-

sions possibles.

Théorème A.11. Pour n et p des entiers vérifiant n ≥ p, il existe exactement(np

)p-uplets (x1, . . . , xp) ∈ (N\0)p solutions de l’inéquation :

x1 + x2 + · · ·+ xp ≤ n. (A.1)

Démonstration. Il suffit de remarquer que l’application

(x1, . . . , xp) 7→ (x1, x1 + x2, x1 + x2 + x3, . . . , x1 + x2 + · · ·+ xp)

réalise une bijection entre l’ensemble des solutions recherchées de l’inéqua-tion et l’ensemble des suites strictement croissantes de p éléments à valeursdans 1, . . . , n.

Théorème A.12. Pour n, p des entiers vérifiant n ≥ p, il existe exactement(n−1p−1

)p-uplets (x1, . . . , xp) ∈ (N\0)p solutions de l’équation

x1 + x2 + · · ·+ xp = n. (A.2)

Démonstration. Il suffit de remarquer que les solutions (x1, . . . , xp) ∈ (N\0)pde l’équation (A.2) sont exactement les solutions de l’inéquation (A.2) quine sont pas solutions de l’inéquation

x1 + x2 + · · ·+ xp ≤ n− 1. (A.3)

Il y en a donc(np

)−(n−1p

)=(n−1p−1

).

Théorème A.13. Pour n, p des entiers positifs tels que p ≥ 1, il existe exacte-ment

(n+p−1p−1

)p-uplets (x1, . . . , xp) ∈ Np solutions de l’équation

x1 + x2 + · · ·+ xp = n. (A.4)

Démonstration. Il suffit de remarquer que l’application

(x1, . . . , xp) 7→ (x1 + 1, . . . , xp + 1)

112

Page 123: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

A.6 Formule de Poincaré (aussi appelée formule du crible)

réalise une bijection entre les solutions (x1, . . . , xp) ∈ Np de l’équation (A.4)et les solutions (x1, . . . , xp) ∈ (N\0)p de l’équation

x1 + x2 + · · ·+ xp = n+ p. (A.5)

Exemple: Quatre listes se présentent aux élections étudiantes où 9 siègessont à pourvoir. Combien y a-t-il de répartitions des sièges possibles ?Réponse : il s’agit de compter les solutions en entiers positifs ou nuls del’équation

x1 + x2 + x3 + x4 = 9,

où xk représente le nombre d’élus de la liste k.Il y a donc

(9+4−1

4−1

)=(

123

)= 12×11×10

1×2×3 = 220 répartitions possibles.

Théorème A.14. Soient n, p des entiers positifs.Il existe exactement

(n+pp

)p-uplets (x1, . . . , xp) ∈ Np solutions de l’inéquation :

x1 + x2 + · · ·+ xp ≤ n. (A.6)

Démonstration. La preuve, analogue à celle du théorème précédent, est lais-sée en exercice.

A.6 Formule de Poincaré (aussi appelée formule ducrible)

Cette formule est très utile en combinatoire, son application la plus clas-sique étant le calcul du nombre de permutations sans point fixe (nombre dedérangements).

Pour tous les ensembles A1, A2, . . . , An, on a∣∣∣∣ n∪i=1

Ai

∣∣∣∣ =∑

B∈P(1,...,n)\∅

(−1)1+Card(B)

∣∣∣∣ ∩j∈B Aj

∣∣∣∣ (A.7)

=n∑i=1

|Ai| −∑

1≤i1<i2≤n|Ai1 ∩Ai2 |+ · · ·+

+ · · ·+ (−1)k+1∑

1≤i1<i2<...<ik≤n|Ai1 ∩ . . . ∩Aik |+ · · ·+

+ · · ·+ (−1)n+1|A1 ∩ . . . ∩An|.

Exemple: Pour n = 3, on a

|A1∪A2∪A3| = |A1|+|A2|+|A3|−|A1∩A2|−|A2∩A3|−|A1∩A3|+|A1∩A2∩A3|.

On pourrait prouver la formule par récurrence sur n, mais c’est plutôt lourd.On préférera une preuve probabiliste (voir par exemple Garet–Kurtzmann).

A.7 Développement d’un produit de sommes

A.7.1 Développement d’un produit dans un anneau

Dans un anneau quelconque, on a l’identité très utile

n∏i=1

(m∑j=1

Xi,j

)=

∑φ∈F(1,...,n,1,...,m)

n∏i=1

Xi,φ(i).

113

Page 124: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE A : Rappels de dénombrement

A.7.2 Formule du multinôme

En particulier si l’anneau est commutatif et si Xij ne dépend pas de i, ona (

m∑j=1

Xj

)n=

∑φ∈F(1,...,n,1,...,m)

n∏i=1

Xφ(i).

Ainsi, si l’on note Ψn(a1, . . . , am), l’ensemble des applications φ de 1, . . . , ndans 1, . . . ,m telles que pour tout i ∈ 1, . . . ,m, on a |φ−1(i)| = ai etsi l’on note

(n

a1,a2,...,am

)= |Ψn(a1, . . . , am)|, on obtient en regroupant les

termes la formule du multinôme :(m∑j=1

Xj

)n=

∑(a1,...,am)

(n

a1, a2, . . . , am

)m∏k=1

Xakk ,

où la sommation a lieu sur les m-uplets d’entiers naturels de somme n.Notons que d’après le théorème A.13, la somme comporte

(n+m−1m−1

)termes.

Si m est égal à 2, on retrouve simplement la formule du binôme, et on a(a1+a2a1,a2

)=(a1+a2a1

)=(a1+a2a2

).

Calcul des coefficients du multinôme

Pour calculer(

na1,a2,...,am

), considérons l’application de Ψn(a1, . . . , am)

dans Ψn(a1, . . . , am−2, am−1+am) qui à φ associe la fonction φ′ = φ∧(m−1) :on remplace chaque occurence de m par m− 1.L’image réciproque de φ′ ∈ Ψn(a1, . . . , am−2, am−1 + am) est formée desfonctions φ qui coïncident avec φ′ pour les x tels que φ′(x) < m − 1, et quivalent m − 1 ou m pour les points x tels que φ′(x) = m − 1, avec la condi-tion supplémentaire que parmi ces am−1 +am points, il doit y en avoir am−1

tels que φ(x) = m− 1 et am tels que φ(x) = m. Il est aisé de voir qu’il y a(am+am−1

am

)telles fonctions. Le lemme des bergers nous dit alors que(n

a1, a2, . . . , am

)=

(am + am−1

am

)(n

a1, a2, . . . , am−2, am−1 + am

).

On peut remarquer que(am+am−1

am

)=(am+am−1

am−1,am

)= (am+am−1)!

am−1!am! . On établitalors aisément par récurrence sur m que(

n

a1, a2, . . . , am

)=

n!

a1!a2! . . . am!.

A.8 Exercices

1. Combien existe-t-il de mots de n lettres construits avec l’alphabeta; b et ne comportant pas deux “a” consécutifs ?Indication : montrer que si un est le nombre de tels mots se terminantpar “a” et vn est le nombre de tels mots se terminant par “b”, on a larécurrence (

un+1

vn+1

)=

(0 11 1

)(unvn

).

2. On considère l’ensemble Ω des suites de n chiffres (les chiffres sontpris dans 0, 1, . . . , 9). Combien vaut |Ω|? Combien y-a-il de chiffrescomportant un nombre pair de zéros?

114

Page 125: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Annexe B

Rappels et complémentsd’analyse

B.1 Analyse réelle

B.1.1 Le théorème de Dini-Polyà

Théorème B.1. Soit (fn)n≥1, f des applications croissantes définies sur [a, b].On suppose de plus que f est continue et qu’il existe D dense dans [a, b] aveca, b ⊂ D ⊂ [a, b] tel que pour tout x ∈ D, fn(x) tend vers f(x). Alors fnconverge uniformément vers f sur [a, b].

Démonstration. Soit ε > 0. Par continuité de f et densité de D, pour tout xde [a, b], il existe un voisinage [cx, dx] de x dans [a, b] tel que cx et dx soientdans D et que f(dx) − f(cx) ≤ ε/3. Comme [a, b] est compact, on peutextraire de cette famille une famille finie de voisinages [c1, d1],. . .[cn, dn].Maintenant, il existe N tel que pour tout x ∈ c1, . . . , cn, d1, . . . , dn et toutk ≥ N , on a |fk(x)− f(x)| ≤ ε/3.

Prenons maintenant x ∈ [a, b] quelconques et k ≥ N : il existe p entre 1et n avec x ∈ [cp, dp]. Comme f et fk sont croissantes, f(x) ∈ [f(cp), f(dp)]et fk(x) ∈ [fk(cp), fk(dp)] ⊂ [f(cp) − ε

3 , f(dp) + ε3 ]. Ainsi f(x) et fk(x) sont

dans un intervalle de longueur ne dépassant pas ε, donc |fk(x)− f(x)| ≤ ε.

B.1.2 Théorème de Helly

Théorème B.2 (Théorème de Helly). De toute suite (Fn)n≥1 de fonctionsde répartition, on peut extraire une sous-suite (Fnk)k≥1 telle qu’il existe unefonction F croissante continue à droite avec

Fnk(x)→ F (x)

en chaque point de continuité de F .

Démonstration. À l’aide du procédé diagonal d’extraction, on commence parextraire une suite (nk)k≥1 telle que Fnk(x) converge en tout point x ration-nel. On note G(x) la limite obtenue. C’est une fonction définie sur Q, etcroissante. On définit alors

F (x) = infG(r); r ∈ Q∩]x,+∞[.

115

Page 126: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE B : Rappels et compléments d’analyse

Il est encore clair que F est croissante. Montrons que F est continue à droite.Soient x ∈ R et ε > 0. Par définition de F , il existe r > x, où r est unrationnel tel que G(r) < F (x) + ε. Maintenant, on a

∀y ∈ [x, r[ F (x) ≤ F (y) ≤ G(r) < F (x) + ε,

ce qui montre bien que F est continue à droite. Reste à montrer que Fnkconverge vers F en chaque point de continuité de F . Soit x un point decontinuité de F et soit ε > 0. On peut trouver η tel que |F (x) − F (y)| ≤ εen tout y de [x− η, x+ η]. Comme Q est dense dans R, on peut trouver desrationnels r et s tels que x− η ≤ r ≤ x ≤ s ≤ x+ η. On a pour tout k ≥ 1 :

Fnk(r) ≤ Fnk(x).

On en déduit que

F (r) = limk→+∞

Fnk(r) = limk→+∞

Fnk(r) ≤ limk→+∞

Fnk(x),

ce qui implique que pour tout ε > 0

F (x)− ε ≤ limk→+∞

Fnk(x).

On obtient finalement que F (x) ≤ limk→+∞

Fnk(x). De la même manière, on

montre que limk→+∞

Fnk(x) ≤ F (x). Finalement, on a

F (x) ≤ limk→+∞

Fnk(x) ≤ limk→+∞

Fnk(x) ≤ F (x),

ce qui prouve bien que limk→+∞

Fnk(x) = F (x).

B.2 Intégration

B.2.1 Holomorphie d’une intégrale dépendant d’un paramètre

Théorème B.3. Soient (Ω,F , µ) un espace mesuré et O un ouvert de C. Soitf(x, z) une fonction de deux variables définie sur Ω×O. On suppose que pourtout z ∈ O, la fonction x 7→ f(x, z) est mesurable par rapport à F . On supposeque pour tout compact K inclus dans O, il existe une fonction gK intégrablepar rapport à µ telle que pour tout z ∈ K.

|f(x, z)| ≤ gK(x) µ− p.p.

On suppose enfin que, pour µ-presque tout x, z 7→ f(x, z) est holomorphe.Alors F (z) =

∫Ω f(x, z) dµ(x) définit une fonction holomorphe sur O avec

∀n ≥ 1 F (n)(z) =

∫Ω

∂nf

∂zn(x, z) dµ(x).

Remarquons que le contrôle repose sur f(x, z), et non pas sur sa dé-rivée. Si l’on laisse de côté l’argument standard de localisation, la preuveressemble beaucoup à la preuve du théorème précédent, mais il y a un petitmiracle lié à l’holomorphie : grâce aux inégalités de Cauchy, majorer locale-ment f(x, z) permet de majorer localement ∂f

∂z (x, z).

116

Page 127: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

B.2 Intégration

Démonstration. Commençons par un argument d’analyse complexe. Mon-trons que pour tout n ≥ 1 et pour tout compact K inclus dans O, il existeune fonction gn,K intégrable par rapport à µ telle que

∀z ∈ K∣∣∣∣∂nf∂zn

(x, z)

∣∣∣∣ ≤ gn,K(x) µ− p.p.

Vu ce résultat, il suffira alors de montrer la formule pour n = 1, le résul-tat général venant aisément par récurrence.

Soit K un compact, n ≥ 1. Un raisonnement classique de compacitédonne l’existence d’un r > 0 tel que K+B(0, r) ⊂ O (où B(0, r) est la boulefermée centrée en l’origine de rayon r). Notons que K + B(0, r) ⊂ O estégalement un compact. Pour tout z dans K, on a, pour µ-presque tout x,l’identité

∂n

∂znf(x, z) =

n!

2iπ

∫C(z,r)

f(x, z′)

(z′ − z)n+1 dz′ =

n!

2πrn

∫ 2π

0f(x, z + reiθ)e−inθ dθ.

Ainsi | ∂n∂nzf(x, z)| ≤ n!rn gK+B(0,r)(x), ce qui donne le résultat voulu en pre-

nant comme fonction majorante gn,K = n!r−ngK+B(0,r).Passons maintenant à la preuve de l’identité et de la formule pour n = 1.

Soit z0 ∈ O. Prenons r tel que la boule fermée de centre z0 et de rayon r soitincluse dans O. On prend K = B(z0, r).Posons Fθ,x(r) = f(x, z0 + reiθ). On a, pour µ-presque tout x, l’égalité (vec-torielle)

Fθ,x(r)− Fθ,x(0) =

∫ r

0F ′θ,x(u) du,

soitf(x, z0 + reiθ)− f(x, z0)

reiθ=

1

r

∫ r

0

∂zf(x, z0 + ueiθ) du.

Ainsi pour tout z tel que |z − z0| ≤ r, on a∣∣∣∣f(x, z)− f(x, z0)

z − z0

∣∣∣∣ ≤ supz∈B(z0,r)

∣∣∣∣ ∂∂z f(x, z)

∣∣∣∣ ≤ g1,B(z0,r)(x) µ− p.p.

On conclut alors comme précédemment avec le théorème de convergencedominée et une suite (zn) quelconque de limite z0 (à partir d’un certain rang,elle prend ses valeurs dans K). On peut remarquer que la fin de la preuveest presque identique à la preuve du théorème de dérivation sous le signeintégrale, à la différence près qu’on a redémontré “à la main” l’inégalité desaccroissements dans le cadre du R-espace vectoriel C.

B.2.2 Intégration des fonctions radiales

Théorème B.4. Soit ‖.‖ une norme quelconque sur Rn. On note V le volumede la boule unité pour cette norme. Alors, pour toute fonction φ mesurable deR+ dans R, l’application x 7→ φ(‖x‖) est intégrable par rapport à λ⊗n si etseulement si

∫R+ntn−1|φ(t)| dλ(t) < +∞ et alors∫Rnφ(‖x‖) dλ⊗n(x) = V

∫R+

φ(t)ntn−1 dλ(t).

117

Page 128: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE B : Rappels et compléments d’analyse

Démonstration. D’après le théorème de transfert, φ ‖.‖ est intégrable si etseulement si φ est intégrable par rapport à la mesure image de λ⊗n par ‖.‖,et on aura alors ∫

Rnφ(‖x‖) dλ⊗n(x) =

∫R+

φ(t) dm(t).

Il suffit donc de caractériser m. Soit a ≥ 0. En utilisant successivement ladéfinition d’une mesure image, l’homogénéité d’une norme, et la propriétéd’échelle de la mesure de Lebesgue sur Rn, on a

m([0, a]) = λ⊗n(B(0, a)) = λ⊗n(aB(0, 1)) = anλ⊗n(B(0, 1)) = V an.

Comme les intervalles [0, a] forment un π-système qui engendre la tribu

borélienne de R+, avec R+ =+∞∪i=0

[0, i], le théorème 1.5 nous dit que la

connaissance de m sur les intervalles ([0, a])a∈R+ permet de l’identifier. Or ilest facile de voir que

V an =

∫[0,a]

V ntn−1 dλ(t),

donc m est la mesure dont la densité par rapport à la mesure de Lebesgueest t 7→ V ntn−11[0,+∞[(t). On en déduit que∫

R+

φ(t) dm(t) = V

∫R+

φ(t)ntn−1 dλ(t),

ce qui est le résultat voulu.

Corollaire B.5. Calcul de l’intégrale de Gauss

I =

∫ +∞

−∞exp(−x

2

2) =√

2π.

Démonstration. Le théorème de Tonelli donne

I2 =

∫R2

exp(−x21 + x2

2

2) d(λ⊗ λ)(x1, x2) =

∫R2

φ(‖x‖) dλ2(x),

avec φ(x) = exp(−x2

2 ). Si on note V2 le volume de la boule unité euclidiennede R2, avec la formule d’intégration d’une fonction radiale, on a donc

I2 = V2

∫ +∞

02rφ(r) dr = 2V2 lim

M→+∞[− exp(−r

2

2)]M0 = 2π,

car on sait que V2 = π.

On voit sur cet exemple que même en petite dimension, le théorème d’in-tégration d’une fonction radiale est d’usage plus simple que le changementde variable polaire.

Corollaire B.6. Le volume de la boule unité euclidienne de Rn est

Vn =2πn/2

nΓ(n/2).

118

Page 129: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

B.3 Régularité des mesures

Démonstration. On prend φ(x) = exp(−x2

2 ). Le théorème de Tonelli donne∫Rn

exp(−‖x‖22

2) dλ⊗n(x) =

(∫R

exp(−x2

2) dλ(x)

)n= (2π)n/2.

D’autre part le changement de variable u = t2/2 donne∫R+

exp(− t2

2)ntn−1 dλ(t) =

∫R+

exp(−u)n(2u)n/2−1 dλ(u) = 2n2−1nΓ(

n

2).

En faisant le quotient et en appliquant le théorème précédent, on obtient lerésultat voulu.

Remarque B.7. L’astuce est évidemment de trouver une fonction φ pour la-quelle on sait calculer les deux intégrales. Ce n’est tout de même pas si fréquent.La méthode permet également de calculer le volume de la boule unité de ‖.‖p,

définie par ‖x‖pp =n∑i=1|xi|p, en prenant φ(x) = exp(−xp) (exercice laissé au

lecteur ; on trouvera comme volume2nΓ( 1

p+1)n

Γ(np

+1) ).

B.3 Régularité des mesures

Soit X un espace métrique, muni de sa tribu borélienne et d’une me-sure m. On dit que la mesure m est régulière si, pour toute partie mesurableA, on a :

m(A) = infm(O);O ouvert , O ⊃ A = supm(F );F compact , F ⊂ A.

Théorème B.8. Une mesure sur Rd qui assigne une masse finie aux ensemblesbornés est régulière.

Démonstration. On commence par traiter le cas où m est une mesure finie.On pose

C =A ∈ B(Rd)| ∀η>0,∃O ouvert et F fermé

tels que F⊂A⊂O et m(O\F )<η

.

1) On montre que C est stable par passage au complémentaire.Soit A ∈ C. Montrons que Ac ∈ C. Soit η > 0. Par définition de C, il existe Oouvert et F fermé tels que F ⊂ A ⊂ O et m(O\F ) < η. On a Oc ⊂ Ac ⊂ F c,où Oc est fermé, F c est ouvert, et m(F c\Oc) = m(O\F ) < η. Comme ontrouve un tel couple quel que soit η > 0, on a bien Ac ∈ C.

2) On montre que C contient les fermés.Soient F un fermé et η > 0. Notons Oε = x ∈ R; d(x, F ) < ε. Commel’application x 7→ d(x, F ) est continue (elle est même lipschitzienne de

constante 1),Oε est un ouvert. Comme+∞∩n=1

O1/n = F , on a donc ∩n≥1

(O1/n\F

)=

∅. D’après le théorème de continuité séquentielle décroissante 1, on a

limn→+∞

m(O1/n\F ) = m(∅) = 0,

donc il existe n tel que m(O1/n\F ) < η. Comme η est quelconque, on a bienF ∈ O.

1. C’est ici que la finitude de la mesure sert.

119

Page 130: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE B : Rappels et compléments d’analyse

3) On montre que C est une tribu.

Soit (An)n≥1 une famille d’éléments de C. Posons A =+∞∪n=1

An. On va mon-

trer queA ∈ C. Soit η > 0. Pour tout n ≥ 1, il existe un fermé Fn et un ouvert

On tels que Fn ⊂ An ⊂ On et m(On\Fn) < η/2n+1. Posons O = ∪n≥1

On.

Par construction, O est ouvert et A ⊂ O. Posons

R = ∪n≥1

(On\Fn).

Notons que m(R) ≤+∞∑n=1

m(On\Fn) ≤ η/2.

Posons A′n =n∪i=1

Ai. (A′n) est une suite croissante d’ensembles dont la

réunion est A. D’après le théorème de continuité séquentielle croissante, on

a donc m(A) = limn→+∞

m(A′n). Il existe donc n0 tel que m(A′n0) > m(A)−

η/2. Posons F =n0∪i=1

Fi. Par construction, F est fermé. On a

O\F = (O\A) ∪ (A\F ) = (O\A) ∪ (A\A′n0) ∪ (A′n0

\F )

Or on a d’une part

O\A =+∞∪n=1

(On\A) ⊂+∞∪n=1

(On\An) ⊂+∞∪n=1

(On\Fn) = R

et d’autre part

A′n0\F =

n0∪i=1

Ai ∩ F c ⊂n0∪i=1

Ai ∩ F ci ⊂n0∪i=1

Oi ∩ F ci ⊂ R.

Ainsi O\F ⊂ (A\A′n0) ∪R et m(O\F ) ≤ m(A\A′n0

) +m(R) < η.

Par les trois points précédents, C est donc une sous-tribu de la tribuborélienne de Rd. Mais elle contient tous les fermés, qui engendrent la tribuborélienne de Rd, donc C est la tribu borélienne de Rd.

Pour tout fermé F inclus dans A, on a m(F ) ≤ m(A). Mais d’après cequi précède, pour tout η > 0 on peut trouver un fermé F et un ouvert O telsque F ⊂ A ⊂ O et m(O\F ) < η :

m(F ) = m(A)−m(A\F ) ≥ m(A)−m(O\F ) > m(A)− η.

Cela montre que m(A) = supm(F );F fermé ⊂ A.L’identité avec les ouverts se traite de la même manière. D’autre part,

pour tout F fermé, on a d’après le théorème de continuité séquentielle crois-

sante m(F ) = limn→+∞

m(F ∩ B(0, n)), ce qui entraîne qu’on a aussi pour

tout borélien A

m(A) = supm(K); K compact ,K ⊂ A.

La preuve est achevée dans le cas d’une mesure finie. Passons au cas général.Soit α < m(A). D’après le théorème de continuité séquentielle croissante, ilexiste N tel que m(A ∩B(0, N)) > α.La mesure m′ définie par m′(B) = m(B ∩ BF (0, N)) est une mesure finie,

120

Page 131: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

B.3 Régularité des mesures

car BF (0, N) est borné. Comme m′(A) > α, on déduit de la première partiede la preuve qu’il existe K compact avec K ⊂ A, et m′(K) > α. La mesuresous m de K∩BF (0, N) dépasse donc α. Comme K∩BF (0, N) est compact,cela donne la propriété voulue d’approximation par des compacts.

Passons à l’approximation par des ouverts. Si m(A) = +∞, il n’y a rienà démontrer. Sinon, fixons ε > 0 et, pour n dans Zd, posons Un = n+ [0, 1[d.L’adhérence de Un est compacte, donc comme précédemment, la mesurem′n définie par m′n(B) = m(B ∩ Un) est une mesure finie, et il existe unouvert On tel que On ⊃ A ∩ Un et m′n(On) ≤ m′n(A ∩ Un) + ε

3d2‖n‖1, soit

encore m(On) ≤ m(A∩Un) + ε3d2‖n‖1

. L’ensemble O = ∪n∈Zd

On est ouvert,

contient A et on a

m(O) ≤∑n∈Zd

m(On) ≤∑n∈Zd

m(A ∩ Un) +ε

3d2‖n‖1= m(A) + ε.

121

Page 132: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE B : Rappels et compléments d’analyse

122

Page 133: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Annexe C

Indications des exercices

C.1 Exercices sur les calculs de loi

Indication 1 On peut par exemple calculer la fonction de répartition.

Indication 2 Pour la première question, il suffit de considérer les probabili-tés des différentes issues. Pour la suite considérer le produit X1X2X3.

Indication 3 On pourra poser a = AB, b = BC et noter α l’angle formépar les droites (AB) et (BC). Alors X et Y suivent respectivement les loisuniformes sur [0, a] et [0, B]. Un dessin est nécessaire.

Indication 4 On peut par exemple montrer que pour toute fonction H me-surable bornée, on a E[H( 1

X )] = E[H(X)].

Indication 5 Dans les deux cas, on peut, au choix, d’abord déterminer laloi, ou utiliser le lien entre espérance et probabilité de queue.

Indication 6 1. Utiliser le théorème de calcul d’une mesure image parun C1-difféomorphisme, ainsi que le théorème de transfert.

2. Choisir une fonction φ très simple de manière à retrouver le volumede la boule unité dans le membre de gauche.

3. Prendre encore une fonction φ appropriée, avec p = 1, et utiliser lessymétries de la boule associée à la norme ‖ · ‖1.

Indication 7 1. Appliquer le théorème de C1-difféomorphisme, puis in-tégrer la densité trouvée par rapport à la variable à supprimer.

2. Se ramener au cas où T est le triangle de sommets a = (1, 0, 0),b = (0, 1, 0), c = (0, 0, 1). L’aire du triangle est proportionnelle auvolume du prisme de sommet (0, 0, 0) et de base le triangle (a, b, V ) ;ce volume s’exprime à l’aide d’un déterminant.

Indication 8 1. Il suffit de montrer que ces ensembles forment un π-système qui engendre la tribu.

2. Calculer PX∧X′(nN∗) et appliquer la question précédente.

Indication 9 Utiliser le théorème de C1-difféomorphisme.

Indication 10 Il y a au moins deux méthodes possibles :— montrer par récurrence que pour tout n, (Z1, . . . Zn) suit la loi (1

2δ1 +12δ−1)⊗n.

123

Page 134: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE C : Indications des exercices

— Remarquer que la loi de (Z1, . . . Zn) est la loi image d’une loi uni-forme par une bijection.

Indication 11 1. On notera que pour a et b dans [0, 1], P(X ≤ a, Z ≤b) = P(X ≤ a,X + Y ≤ b) + P(X ≤ a, 1 ≤≤ X + Y ≤ 1 + b). Pour ladernière question, on pourra calculer P(X ≤ 1/4, Y ≤ 1/4, Z ≤ 1/2).

2. On pourra montrer par récurrence que pour tout n, (W1, . . .Wn) suitla loi U [0, 1]⊗n. Pour la suite on peut noter (démontrer) que (i 6=j) =⇒Wi 6= Wj est de probabilité 1, puis utiliser les symétries.

3. Utiliser le lien entre espérances et probabilité de queue.

Indication 12 1. Penser à discuter suivant les positions relatives de net k.

2. Q est dense dans R.3. Utiliser le principe de partition.4. Écrire P(D) = 1, avec D bien choisi.

Indication 13 Calculer P(1 + νp1(X) > k1, . . . , 1 + νpn(X) > kn).

Indication 14 Poser x = AM et résoudre l’inéquation.

Indication 15 Dire que le maximum de n nombres ne dépasse pas x revientà dire que chaque nombre ne dépasse pas x.

Indication 16 Remarquer que 1−mn = max(1−X1, . . . , 1−Xn).

Indication 17 Si on pose α = 2 arcsin r1−r , on doit trouver par exemple

p =1− cosα

4+α+ sinα

2π.

Indication 18 1. On pourra remarquer que pour i 6= j, Xi−Xj est unevariable à densité.

2. Utiliser le théorème d’associativité des indépendances (ou lemme descoalitions), puis calculer la fonction de queue (ou la fonction de ré-partition).

3. Utiliser la première question.4. Appliquer le théorème de Fubini.5. On pourra par exemple calculer P(T,N) sur des ensembles de type

]a,+∞[×]b,+∞[.

Indication 19 Commencer par calculer la fonction de répartition.

124

Page 135: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

C.2 Exercices sur les espaces Lp

C.2 Exercices sur les espaces Lp

Indication 20 1. On prend des exposants α et β conjugués pour appli-quer l’inégalité de Hölder, puis on remarque que pα > p.

2. N(p) est minorée par 0. On utilise le théorème de transfert et unéquivalent du log en 0.

3. On applique le théorème de Tonelli car tout est positif.

4. (a) X est comprise en 0 et M p.s.

(b) On utilise la question précédente.

(c) Inégalité de Markov

(d) On remet tout ensemble.

5. Cas où logX est intégrable : on remarque que pour tout x, on a

|ex − 1| ≤ |x|max(1, ex)

et on utilise la convergence dominée. Sinon, on remarque que (logX)+

est intégrable (car Xp0 l’est) et on utilise la convergence monotone.

Indication 21 On veut montrer que pour tout N ∈ N, il existe n ≥ N avecx ∈ An. Cela signifie que pour N ∈ N, on veut montrer qu’il existe n ≥ Ntel que sn ≥ x ≥ sn+1. On trouve ensuite que la limite supérieure defn(x) est 1. On notera aussi que l’ensemble des valeurs d’adhérence d’unesuite donnée est un fermé.

Indication 22 1. Suivre l’indication...

2. Idem.

3. On applique la question précédente à |f |1|f |≤n (pourquoi est-elleintégrable?)

Indication 23 1. On pourra montrer la convexité de log Γ ou regarderla dérivée de Γ′

Γ .

2. Comparer Γ′(x+1)Γ(x+1) et Γ′(x)

Γ(x) .

3. On pourra commencer par observer le signe de Γ(x) et procéder parrécurrence.

Indication 24 On pourra raisonner par l’absurde.

Indication 25 1. Cherchez un peu plus. . .

2. Découper R en intervalles de longeur 2π.

3. Utiliser des équivalents.

Indication 26 Étudier d’abord la convergence ponctuelle.

Indication 27 On pourra utiliser des sous-suites.

Indication 28 Retrousser ses manches (ou équivalents).

Indication 29 Qu’est-ce que la mesure de comptage? Qu’intégrer par rap-port à la mesure de comptage?

Indication 30 Majorer√|f2 + g2| par une fonction intégrable.

125

Page 136: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE C : Indications des exercices

Indication 31 Passer à l’intégrale de Riemann.

Indication 32 1. Prendre X = [0, 1] et pour µ la mesure de Lebesguesur [0, 1], choisir ensuite (fn) telle que fn(x)→ 0 pour tout x ∈ [0, 1[et que l’on ait

∫fn = 1.

2. Pour p entier s’écrivant p = 2n + k, avec 0 ≤ k < 2n, poser up = k2n .

Ensuite, poser φn(x) = max(1− n4 |x|, 0) et fn(x) = φn(x− un).

3. Symétriser l’exemple trouvé à la première question.

Indication 33 Utiliser l’inégalité de Cauchy-Schwartz.

Indication 34 Utiliser l’inégalité de Hölder.

Indication 35 1. Utiliser l’inégalité de Holder.

2. (a) Considérer l’intégrale∫

]0,x[ fdλ comme une intégrale de Riemann.

(b) Remarquer que T (f)(x) est bornée et décroit suffisamment vite àl’infini.

(c) Remarquer que f(x) = T (f)(x) + xT (f)′(x) et faire une intégra-tion par parties.

(d) Cherchez un peu plus. . .

(e) f = f+ − f−.

3. (a) Pour le premier point, on pourra utiliser l’inégalité de Hölder.

(b) Utiliser la densité des fonctions continues à support compact dansl’ensemble Lp.

Indication 36 Considérer la suite (gn) définie par gn =|f |q

f1|f |≤n sur

|f | > 0 et gn = 0 sur f = 0.

C.3 Exercices sur la convolution et Fourier

Indication 37 1. On peut remarquer que f et g sont presque des den-sités de variables gaussiennes (il suffit de normaliser ces fonctions)et donc le produit de convolution correspond à la loi de la somme deces deux gaussiennes indépendantes.

2. On se retrousse les manches et on calcule...

Indication 38 1. On remarque que pour x ∈ [−1, 1], on a 0 ≤ 1−x2 ≤ 1et pour 0 ≤ x ≤ 1, on a 1− x2 ≥ 1− x.

2. On majore |f ∗kn−f | en remarquant que f(x) =(∫

R kn(t)dλ(t))f(x)

et on utilise les hypothèses sur f .

3. On développe (1 − (x − t)2)n par la formule de Leibnitz, puis idempour (x− t)2k.

4. Commencer par montrer le résultat pour a = −1/2 et b = 1/2.

Indication 39 1. Pour g ∈ L1 l’application x 7→ Txg est continue de Rdans L1.

2. Utiliser l’indication de l’énoncé.

126

Page 137: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

C.4 Exercices sur les fonctions caractéristiques

Indication 40 1. Pour éviter d’oublier des cas, se souvenir que le sup-port de la convolée est inclus dans la “somme” des supports ; la paritépeut également permettre de simplifier des choses

2. Remarquer que f (∗)n est positive.

3. Procéder par récurrence.

Indication 41 Si a = 0 ou b = 0, alors ab = 0.

Indication 42 1. Ah bah non ! Vous l’avez déjà eue, l’indication.

2. Réduire A dans une base orthonormale.

Indication 43 1. On pourra remarquer que la transformée de Fourierest injective dans L1(Rn).

2. Utiliser la transformation de Fourier et une fonction bien choisie.

Indication 44 On pourra utiliser la formule d’inversion.

Indication 45 On pourra à nouveau utiliser la formule d’inversion.

Indication 46 On pourra utiliser le théorème de Fubini.

C.4 Exercices sur les fonctions caractéristiques

Indication 47 1. Penser à faire apparaître des densités.

2. Revoir les propriétés de base de la transformée de Laplace (caracté-risation, lien avec l’indépendance).

3. Par récurrence.

4. Calculer la transformée de Laplace.

Indication 48 1. On peut noter que E[tS 1T=n] = GX1(t)nE[ 1T=n].

2. Penser au lien fonction génératrice/moments.

Indication 49 1. Appliquer la technique de la fonction test.

2. On peut remarquer que φεX(t) = 12 (φX(t) + φX(−t)).

Indication 50 1. Utiliser le théorème de Fubini et la valeur de la fonc-tion caractéristique d’une gaussienne.

2. On rappelle que la fonction caractéristique. . .caractérise !

Indication 51 1. C’est un problème d’interversion d’intégrales, ou delimite et d’intégrale, suivant que l’on choisit d’écrire l’espérance sousforme d’une série ou comme une intégrale par rapport à P.

2. (a) Penser au théorème de convergence monotone, ou au lemme deFatou.

(b) On pourra faire apparaître une intégrale de Wallis ou appliquerla méthode de Laplace.

Indication 52 1. Appliquer le théorème de Fubini.

2. Majorer le sinus.

3. Couper l’intégrale en deux.

127

Page 138: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE C : Indications des exercices

Indication 53 1. Remarquer que tZ = tX 1A + tY 1Ac .

2. Remarquer que le score est une variable aléatoire fabriquée suivantle principe de la première question.

Indication 54 Utiliser la première question de l’exercice précédent.

Indication 55 1. S’inspirer de l’exercice 48.

2. Commencer par déterminer la fonction génératrice deK1L1. On pourras’inspirer de l’exercice 53.

3. Relire le cours.

Indication 56 1. On trouvera fn f , où f(z) = (1 + z)/2.

2. Remarquer que fn f = (f f)n.

Indication 57 Penser à la fonction caractéristique.

Indication 58 Regarder la liste des fonctions caractéristiques connues, ou/etchercher l’équation fonctionnelle que doit vérifier φX .

Indication 59 Utiliser encore les liens entre fonction caractéristique et mo-ments.

Indication 60 1. Utiliser les hypothèses.

2. Utiliser les liens entre fonction caractéristique et moments.

3. Idem.

Indication 61 1. Remarquer que Re (1− exp(itX − iθ)) ≥ 0.

2. Prendre t et t′ rationnels différents.

Indication 62 On pourra donner un équivalent de la fonction caractéris-tique en l’origine.

Indication 63 1. On remarquera que tout demi-plan est réunion crois-sante de disques.

2. Si (a, b) 6= (0, 0), considérer le demi-plan ax+ by > t.

3. On pourra éventuellement regarder la fonction caractéristique.

Indication 64 1. Remarquer que eitZ1Y=n =∑n−1

k=0 eikt1Z=k,Y=n.

2. Il faut appliquer plusieurs fois le théorème de convergence dominée.

3. On pourra remarquer et prouver que

φZ(t)− 1 =i

eit − 1

∫ t

0(φY (x)− eix) dx.

4. Revoir les liens entre fonction caractéristique et indépendance.

5. La fonction caractéristique. . .caractérise !

128

Page 139: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

C.5 Exercices sur la convergence presque sûre

C.5 Exercices sur la convergence presque sûre

Indication 65 1. Penser à l’inégalité de Chebychev.

2. Elle est dans l’énoncé.

3. Idem.

Indication 66 1. La convergence presque sûre implique la convergenceen probabilité (vers la même limite).

2. Ne pas oublier que l’espérance est linéaire.

3. Que vaut |Yn −X|?

Indication 67 La série de terme général P(Xn 6= 0) converge-t-elle ?

Indication 68 1. On revient à la définition : Yk suit une loi de Bernoulliet est indépendante de Yk+i pour tout i ≥ 2.

2. Utiliser la question précédente.

3. On travaille d’un côté avec tous les indices impairs et de l’autre avectous les indices pairs. Ainsi, on a de l’indépendance au sein de chaquegroupe et on utilise donc la loi forte des grands nombres.

Indication 69 Utiliser le second lemme de Borel–Cantelli pour une sous-suite d’événements indépendants.

Indication 70 1. Montrer que P(|Xn|n ≥ a i.s.

)= 1.

2. Remarquer que

supn≥1

|Sn|n < +∞

supn≥1

|Xn|n < +∞

.

Indication 71 1. Elles sont données dans l’énoncé.

2. Utiliser la question précédente.

3. Idem.

Indication 72 1. On remarque que gXi = Ai +Xi+1.

2. Elle est donnée dans l’énoncé.

3. On utilise la question précédente et on fait une projection sur la co-ordonnée voulue.

4. Il suffit de montrer que pour tout n, les variables A0, . . . , An sontindépendantes.

5. Revenir à la définition de la g−normalité.

6. Tout le travail est déjà fait dans la question précédente.

Indication 73 1. Si i ∈ 0, . . . , 2n − 1 s’écrit i =n−1∑k=0

ak2n−k, on a

alors P(2nSn = i) = P(

n∩k=1Xk = ak

)2. Utiliser la question précédente.

3. On sait tout faire à i fixé.

4. Tout est dit dans l’énoncé.

129

Page 140: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE C : Indications des exercices

Indication 74 Penser à utiliser les deux lemmes de Borel-Cantelli pour cal-

culer P(

limn→+∞

Xnlogn ≥ a)

selon que a > 1 ou a ≤ 1.

Indication 75 On remarque d’abord que pour tout entier a, on a :

a est valeur d’adhérence de Xn = limn→+∞

Xn = a. Puis on pense à la

loi du 0− 1 de Borel.

Indication 76 1. Elle est déjà donnée !

2. Poser fn = 1−1Bn et penser à Fatou (en justifiant tout, évidemment !)

3. Montrer et utiliser que pour λ ∈]0, 1[, on a

limn→+∞

Bn ⊃ Nn ≥ λE[Nn] infiniment souvent.

4. Utiliser la question précédente pour conclure.

Indication 77 On raisonne par l’absurde.

Indication 78 1. On pourra se ramener à une étude de fonction.

2. Que dire si aucun Xn n’est nul et qu’une infinité de termes sont dif-férents de 1 ?

3. (a) On peut se donner N1 tel que λn ≤ log n pour n ≥ N1, et majoreralors les produits partiels.

(b) Ici, les produits partiels peuvent se calculer explicitement.

Indication 79 1. Il faut connaître (ou retrouver) les moments de la loide Poisson.

2. On peut noter que 1Xn≥k ≤Xn(Xn−1)...(Xn−k+1)

k! .

Indication 80 Considérer Sn = X1 + · · · + Xn où (Xn) est une suite devariables de Bernoulli de paramètre s, et observer la suite (xSn).

Indication 81 Appliquer la loi forte des grands nombres.

Indication 82 On pourra montrer que Nn/n tend presque sûrement vers1/2.

Indication 83 Pour le sens direct, appliquer le premier lemme de Borel-Cantelli. Pour la réciproque, appliquer le deuxième lemme de Borel-Cantellià une suite de variables aléatoires bien choisie.

Indication 84 On peut remplacer (log n)32 par (log n)un, où (un) est une

suite quelconque de limite infinie. Pour tout ε > 0, appliquer le lemme deBorel-Cantelli aux événements

Xn

(logn)un> ε

.

Indication 85 1. S’inspirer de l’exercice sur le calcul de limn→+∞

Xnlogn

pour des variables exponentielles, et utiliser un équivalent pour laqueue de la gaussienne.

130

Page 141: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

C.6 Exercices sur la convergence en loi

2. On pourra remarquer que la suite ( (Xn+Yn)√2

)n≥1 est une suite de va-riables aléatoires indépendantes suivant la loi N (0, 1).

Indication 86 On a Tn =n∑k=2

1Uk−1<p∆Uk<p. On pourra découper Tn

en deux sommes de variables aléatoires indépendantes et calculerP((Uk−1 − p)(Uk − p) < 0).

Indication 87 1. Passer au logarithme.

2. On peut écrire Mn sous la forme Mn = PDnP−1 et introduire la

norme ‖x‖∗ = ‖P−1x‖∞.

C.6 Exercices sur la convergence en loi

Indication 88 1. On peut noter que Xn =∑n

k=0 θkUn−k, où l’on a posé

U0 = X0.

2. Appliquer les théorèmes de Lévy.

Indication 89 Appliquer le théorème de Lévy.

Indication 90 1. On pourra commencer par étudier la convergence enprobabilité.

2. Évaluer E(φ(Xn)) pour φ bien choisie.

Indication 91 1. Calculer la fonction de répartition.

2. Penser au lemme de Borel–Cantelli.

3. Calculer la fonction de répartition.

Indication 92 1. Penser au théorème de Slutsky.

2. Utiliser le TCL et la question précédente.

3. Revoir les propriétés de convolutions des lois Gamma.

4. Utiliser le TCL.

5. Penser au théorème de convergence dominée.

6. Recoller les morceaux.

Indication 93 1. Un calcul un peu délicat qui mélange changementsd’indices et regroupement de paquets.

2. Utiliser divers développements du cosinus pour obtenir des majora-tions appropriées à respectivement ]0, 1] et [1,+∞[.

3. Appliquer un théorème de Lévy judicieusement choisi.

4. Comparer les fonctions caractéristiques.

Indication 94 1. On pourra penser au théorème de Portmanteau.

2. Noter que |eixs − eixt| ≤ min(|s− t||x|, 2).

Indication 95 Réécrire la condition Nt−t√t≤ a à l’aide de la suite (Sn) et

penser au lemme de Slutsky.

131

Page 142: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE C : Indications des exercices

Indication 96 1. On pourra considérer une suite (Xn)n∈N∗ de variablesaléatoires indépendantes de même loi de Poisson de paramètre 1,

poser Sn =n∑k=1

Xk et étudier la quantité P(Sn−ESn√

n≤ 0)

.

2. La suite (Yk)k≥1 des couleurs tirées se modélise par une suite de va-riables aléatoires indépendantes suivant la loi uniforme sur 1, . . . , n.L’espérance étudiée peut se calculer à l’aide de la fonction de queue.

Indication 97 On peut regarder de deux manières la suite (Z2n − Zn)n≥1

Indication 98 Écrire E( |Sn|√n

à l’aide de la fonction de queue de |Sn|√n

.

Indication 99 1. (a) On peut noter que

1Y 1=a1,...,Y N=aN =

N∏k=1

(1Y k≥ak − 1Y k≥ak+1)

=N∏k=1

1∑j=0

(−1)j1Y k≥ak+j

=∑

(b1,...,bN )∈0,1N

N∏k=1

(−1)b1+···+bN1∀k∈1,...,n,Y k≥ak+bk

(b) On rappelle que |P(C)− P(D)| ≤ P(C∆D).

(c) Utiliser l’inégalité triangulaire sur les probabilités.

2. Les quantités P(N |Zn) et P(N |Wn) s’exprimant simplement, il suffitd’appliquer le critère de la question précédente.

Indication 100 Utiliser le premier théorème de Lévy.

Indication 101 1. Commencer par déterminer la loi de Xxn .

2. Pour montrer la croissance, noter que f(x) = limn→+∞

E[uXxn ]. Pour

déterminer la limite, il est commode de se ramener au cas où (un)n≥0

est à valeurs positives et de remarquer qu’alors, pour tout n, il existeun polynôme Pn tel que

∀x > 0, f(x) ≥(

1− Pn(x)

ex

)un.

Indication 102 Notons Mx,y = 1 si la pièce en (x, y) est face, −1 sinon. Si

on note C ′n =∑k 6=X

Mk,X et L′n =∑k 6=X

MX,k, on a

Dn =∑

(k,l)∈1,...,n\X

Mk,l +MX,X + |C ′n − L′n|.

Indication 103 Utiliser le lemme de Fatou.

Indication 104 On pourra déterminer νn telle que µn = νn ∗ νn.

132

Page 143: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

C.7 Exercices sur les statistiques

C.7 Exercices sur les statistiques

Indication 105 1. On utilise la formule (7.2).

2. Utiliser la formule de l’intervalle de confiance une fois de plus.

3. Ne pas oublier que σ√

θ(1−θ)N ≤ σ

2

√1/N .

Indication 106 D’abord majorer P(

1n

n∑i=1

g(Xi)−∫

[0,1]d g(x) dx > ε

)en uti-

lisant l’inégalité de Markov et en remarquant que cette probabilité est in-changée si on remplace chaque membre de l’inégalité par la fonction x 7→eαx avec α > 0. On optimise ensuite en α pour obtenir le résultat recherché.

Indication 107 Utiliser l’hypothèse gaussienne.

Indication 108 Chercher encore un peu. . .

133

Page 144: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE C : Indications des exercices

134

Page 145: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Annexe D

Tables

Fonction de répartition de la loi normale centrée réduite

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090 0.5 0.504 0.508 0.512 0.516 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.591 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.648 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.67 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.695 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.719 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.758 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.791 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.834 0.8365 0.83891 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.877 0.879 0.881 0.8831.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.898 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.937 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.975 0.9756 0.9761 0.97672 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.983 0.9834 0.9838 0.9842 0.9846 0.985 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9892.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.992 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936

Page 146: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

CHAPITRE D : Tables

136

Page 147: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Bibliographie

[1] A. Bulinski and A. Shashkin. Limit theorems for associated random fieldsand related systems. Advanced Series on Statistical Science & AppliedProbability, 10. World Scientific Publishing Co. Pte. Ltd., Hackensack,NJ, 2007.

[2] N. Etemadi. An elementary proof of the strong law of large numbers. Z.Wahrsch. Verw. Gebiete, 55(1) :119–122, 1981.

[3] O. Garet and A. Kurtzmann. De l’intégration aux probabilités. Ellipses,Paris, 2nde edition, 2019.

[4] Olivier Garet. Les lois zêta pour l’arithmétique. Quadrature, (96) :10–18, 2015.

[5] Simon Kochen and Charles Stone. A note on the Borel-Cantelli lemma.Illinois J. Math., 8 :248–251, 1964.

[6] J.-P. Portmanteau. Un espoir pour l’ensemble vide. Annales de l’Univer-sité de Felletin, 1915.

137

Page 148: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

Index

Bernstein (théorème de), 52bijection, 108Bochner (théorème de), 45, 52Borel–Cantelli

deuxième lemme de, 62premier lemme de, 61

cardinal, 108changement de variable, 8

polaire, 8Chebychev (inégalité de), 103complet, 20, 22convergence en loi, 77convergence en moyenne quadratique,

60convergence en probabilité, 59convergence faible, 77convergence presque complète, 61,

66convergence presque sûre, 57, 60

dénombrable, 108distribution empirique, 97

Egoroff (théorème de), 25erreur de première espèce, 104erreur de seconde espèce, 104estimateur, 95, 96

consistant, 98fortement consistant, 98préférable, 101sans biais, 101

estimation, 95événement, 4existence de variables aléatoires in-

dépendantes, 73exposants conjugués, 17

factorielle, 110fini (ensemble), 108fonction Beta, 9fonction caractéristique, 42fonction de perte, 100fonction de répartition, 13, 83

fonction de répartition empirique, 97,98

fonction génératrice, 39fonction génératrice des moments, 52fonction puissance, 105fonction spéciale

Gamma, 18Zêta, 15

formule de Poincaré, 113formule de Stirling, 89formule du crible, 113formule du multinôme, 114Fourier (transformée de), 34, 42, 51fréquences asymptotiques, 66

Gauss (intégrale de), 8, 118Glivenko–Cantelli (théorème de), 98

Hardy (inégalité de), 27Helly (théorème de), 115Hölder (inégalité de), 17, 24

inégalité de Chebychev, 103inégalité de Hölder, 17, 24inégalité de Hardy, 27inégalité de Minkowski, 18inégalité de Paley–Zygmund, 74inégalité triangulaire, 18injection, 108intégrale de Gauss, 8, 118intervalle de confiance, 103

jacobien (déterminant), 8

Kochen–Stone (lemme de), 73

Laplace (transformée de), 51–53lemme de Borel–Cantelli, voir Borel–

Cantellilemme de Kochen–Stone, 73lemme de Parseval, 37lemme de Scheffé, 78lemme des bergers, 109Lévy

138

Page 149: Année universitaire 2019-2020 UNIVERSITÉ DE LORRAINEOlivier.Garet/cours/ps/cours_l3_s2.pdf · La modélisation, ce n’est pas des mathématiques Tout d’abord, enten-dons nous

INDEX

premier théorème de, 86théorème de continuité de, 86

loi 0–1de Borel, 63

loi Bêta, 100loi Beta, 9loi binomiale, 40, 79loi d’une variable aléatoire, 3loi de Bernoulli, 40loi de Cauchy, 50loi de Laplace, 53loi de Poisson, 40, 74, 79loi des grands nombres, 60, 64loi empirique, 97loi exponentielle, 48, 53, 89loi géométrique, 40loi Gamma, 9, 90loi hypergéométrique, 4, 79loi normale, 48loi uniforme, 12, 48loi Zêta, 15, 91lois stables, 90Lusin (théorème de), 25

marche aléatoire, 53, 55meilleur estimateur, 101mesure régulière, 119Minkowski (inégalité de), 18modèle statistique, 95moyenne empirique, 97

n-échantillon, 96niveau, 105

Paley–Zygmund (inégalité de), 74partie, 107permutation, 108Portmanteau (théorème de), 80preuve probabiliste, 89principe d’indépendance, 108principe de bijection, 108principe de partition, 109problème non-paramétrique, 96problème paramétrique, 96procédé diagonal d’extraction, 115produit de convolution, 30produit eulérien, 15

région critique, 104représentation g-adique, 72Riemann–Lebesgue (théorème de), 35risque, 100risque quadratique, 100

Scheffé (lemme de), 78simulation

par méthode d’inversion, 13singe dactylographe, 71Slutsky (théorème de), 85statistique, 95statistique d’ordre, 98surjection, 108

test statistique, 96théorème central limite, 87théorème d’Egoroff, 25théorème de Bernstein, 52théorème de Bochner, 45, 52théorème de Glivenko–Cantelli, 98théorème de Helly, 115théorème de Lévy, 86théorème de Lusin, 25théorème de Portmanteau, 80théorème de Riemann–Lebesgue, 35théorème de Slutsky, 85théorème de Weierstrass, 37théorie des nombres, 15transformée de Fourier, 34, 42, 51transformée de Laplace, 51–53

uniformément équicontinue, 91

variable aléatoire, 3Variables M -dépendantes, 71variance empirique, 97volume de la boule unité, 14, 118

Weierstrass (théorème de), 37

139