Thierry MEYRE, Université Paris-Diderot Préparation à … DAC 1 exo Exercices de Probabilités et...

111

Transcript of Thierry MEYRE, Université Paris-Diderot Préparation à … DAC 1 exo Exercices de Probabilités et...

Leçons de probabilités.

Thierry MEYRE, Université Paris-Diderot

Préparation à l'agrégation de Mathématiques. IPEST

Ce document est téléchargeable en ligne à l'adresse

http://www.proba.jussieu.fr/pageperso/meyre

2

BIBLIOGRAPHIE

BIL Probability and Measure. Billingsley. Wiley.BAR Probabilité. Barbe, Ledoux. Belin.BC Modélisation stochastique et simulation. Bercu, Chafaï. Dunod.BJ Probabilités. Brancovan, Jeulin. Ellipses.COT Exercices de Probabilités. Cottrell et al. Cassini.DAC1 cours Probabilités et Statistiques 1. Problèmes à temps xe.Dacunha-Castelle, Duo. 2e édition. Editions Masson.

DAC1 exo Exercices de Probabilités et Statistiques 1. Problèmes à tempsxe.Dacunha-Castelle, Duo. 3e tirage corrigé. Masson.

DUR Probability Theory and Examples. Durrett. Wadsworth.FOA Calcul des Probabilités. Foata, Fuchs. Dunod.FEL1 An Introduction to Probability Theory and its Applications. Feller.Wiley 3rd edition. Volume I

FEL2 An Introduction to Probability Theory and its Applications. Feller.Wiley 2nd edition. Volume II

JP L'essentiel en théorie des probabilités. Jacod et Protter.Cassini.

LEJ Statistique, la théorie et ses applications. Lejeune. Springer.MAZ Calcul de Probabilités. Exercices et problèmes corrigés.Mazliak. Éditions Hermann.

MET Notions fondamentales de la théorie des probabilités. Métivier. Du-nod.

NEV Bases mathématiques du calcul des probabilités. Neveu. Masson.OUV Probabilités (2 tomes). Ouvrard. CassiniREV Probabilités. Revuz. Éditions Hermann. Collection Méthodes.REV int Mesure et Intégration. Revuz. Éditions Hermann. CollectionMéthodes.

RS Statistique en action. Rivoirard et Stoltz. Vuibert.ROS Initiation aux Probabilités. Ross. Presses polytechniques et univer-sitaires romandes. Troisième édition.

3

4

RUD Analyse réelle et complexe. Rudin. Masson.SHI Probability. Shiryaev. Springer.TOU Thèmes de probabilité. Toulouse.

Avertissement

Ce document a pour objectif de vous aider à préparer les leçons de proba-bilité qui font partie de la liste générale des leçons posées à l'oral d'analyse.Il ne s'agit en aucun cas de plans tout prêts : vous constaterez que, surcertains titres, la liste des suggestions est beaucoup trop longue pour consti-tuer un exposé d'un quart d'heure !Il s'agit plutôt d'un recueil d'idées, organisées par thématiques, que vouspouvez utiliser pour rééchir à votre propre plan et à votre choix de déve-loppement.

5

6

Chapitre 1

Loi binomiale, loi de Poisson.Applications.

1.1 Lois binomiales

1.1.1 Généralités

Loi de Bernoulli B(p).La loi B(n, p) est la loi de

∑ni=1Xi, où les variables Xi, 1 ≤ i ≤ n sont

indépendantes et de même loi B(p). Exemple du pile ou face.Si X ∼ B(n, p), E[X] = np, σ2(X) = np(1− p) et la fonction génératrice deX vaut E[uX ] = (1− p+ pu)n.

1.1.2 Application au théorème de Weierstrass

En utilisant l'inégalité de Bienaymé-Tchebychev, on démontre :

Théorème 1.1.1 Si f ∈ C0([0, 1],R), alors elle est limite uniforme sur [0, 1]de la suite polynomiale (fn)n∈N∗ (polynômes de Bernstein) dénie par :

fn(x) =n∑k=0

Cknx

k(1− x)n−kf

(k

n

)= E

[f

(X1 + · · ·+Xn

n

)],

avec Xi ∼ B(x) indépendantes.

7

8CHAPITRE 1. LOI BINOMIALE, LOI DE POISSON. APPLICATIONS.

1.1.3 Inégalité de grandes déviations et application sta-tistique

Considérons des variables Xi, 1 ≤ i ≤ n indépendantes et de même loiB(p) et posons Sn =

∑ni=1 Xi. [SHI I paragraphe 6] établit le résultat suivant :

Proposition 1.1.2

∀ε > 0 P

[∣∣∣∣Snn − p∣∣∣∣ ≥ ε

]≤ 2 exp(−2nε2) (1.1)

Cette proposition admet une généralisation dans le cas de variables presquesûrement bornées : c'est l'inégalité de Hoeding (voir chapitre 6.2.2), qui estune inégalité de type grandes déviations. Dans les deux cas, la démonstra-tion utilise la transformation de Laplace.D'un point de vue statistique, l'inégalité (1.1) permet de construire des in-tervalles de conance, même en dehors du cas n grand. Il est intéressantde comparer cette inégalité à celle obtenue par Bienaymé-Tchebychev :

∀ε > 0 P

[∣∣∣∣Snn − p∣∣∣∣ ≥ ε

]≤ p(1− p)

nε2

Bien sûr, pour n susamment grand, c'est l'inégalité (1.1) qui est la plusprécise.

1.1.4 Loi binomiale négative

Voir section 2.2.2 page 13.

1.2 Loi de Poisson

1.2.1 Généralités

Dénition. Si X ∼ P(λ), alors E[X] = λ, σ2(X) = λ.La fonction génératrice vaut E[uX ] = exp(λ(u−1)) et P(λ)?P(µ) = P(λ+µ).

1.2.2 Théorème de Raïkov

Théorème 1.2.1 Si M et N sont deux v.a.r. indépendantes telles que M +N ∼ P(λ), alors il existe τ ∈ R tel que M + τ et N − τ suivent des lois dePoisson

1.2. LOI DE POISSON 9

La démonstration se trouve dans [BJ 173] et utilise les fonctions génératricesainsi que le résultat d'analyse complexe suivant (une version du théorème deLiouville) : Soit n0 ∈ N et F une fonction entière telle que :

supz∈C

ReF (z)

1 + |z|n0< +∞.

Alors F est un polynôme de degré n0 au plus.

1.2.3 Lois inniment divisibles sur NDénition 1.2.2 Une loi de probabilité µ est dite inniment divisible si pourtout entier n ∈ N∗, il existe une loi νn telle que µ = (νn)?n.

Dénition 1.2.3 On appelle loi de Poisson composée sur N toute loi deprobabilité d'une variable aléatoire de la forme

S =N∑i=0

Xi,

où (Xi)i∈N est une suite de v.a. à valeurs dans N indépendantes identiquementdistribuées et N est une variable de Poisson indépendante de la suite (Xi)i∈N.

Remarque: La notation précédente signie que, pour tout ω ∈ Ω,

S(ω) =

N(ω)∑i=0

Xi(ω).

On vérie que S est bien une variable aléatoire en l'écrivant sous la forme :

S =+∞∑n=0

1N=n

n∑i=0

Xi.

Théorème 1.2.4 Les lois inniment divisibles sur N sont exactement leslois de Poisson composées.

Démonstration: Le lecteur trouvera la preuve, qui utilise les fonctionsgénératrices, dans [FEL1 288-290]

10CHAPITRE 1. LOI BINOMIALE, LOI DE POISSON. APPLICATIONS.

1.2.4 Processus de Poisson

Même si les processus aléatoires ne gurent pas au programme du tronccommun, il est possible d'aborder dans cette leçon la notion de processusde Poisson car la construction en est élémentaire : voir par exemple [OUV2

171-177].

Une application des processus de Poisson qui peut faire l'objet d'un dévelop-pement est le paradoxe de l'autobus [COT 98-101], appelé plus classique-ment paradoxe de l'inspection dans d'autres ouvrages.

1.3 Approximation de la loi binomiale par laloi de Poisson

1.3.1 Deux théorèmes-limites

Le résultat fondamental faisant le lien entre loi binomiale et loi de Poissonest le théorème de Poisson :

Théorème 1.3.1

npn −−−−→n→+∞

λ =⇒ B(n, pn)(e)−−−−→

n→+∞P(λ)

La convergence dont il est ici question est la convergence étroite qui s'exprimesimplement dans le cas de lois sur N sous la forme :

∀k ∈ N B(n, pn)(k) −−−−→n→+∞

P(λ)(k)

Le théorème de Poisson admet la généralisation suivante, appelée théorèmedes événements rares [OUV2 321-322] :

Théorème 1.3.2 Pour tout n ∈ N∗, on considère une famille d'événementsindépendants (An,j)1≤j≤mn et la variable aléatoire Sn :=

∑mnj=1 1An,j .

En notant pn,j := P (An,j), on fait les trois hypothèses suivantes :

mn −−−−→n→+∞

+∞ ; max1≤j≤mn

pn,j −−−−→n→+∞

0 ;mn∑j=1

pn,j −−−−→n→+∞

λ > 0.

Alors la suite (Sn) converge en loi vers la loi de Poisson de paramètre λ, i.e.

PSn(e)−−−−→

n→+∞P(λ)

1.3. APPROXIMATION DE LA LOI BINOMIALE PAR LA LOI DE POISSON11

On démontre ce théorème en utilisant les fonctions génératrices.Le théorème des évènements rares explique pourquoi la loi de Poisson appa-raît dans de nombreux phénomènes naturels : [FEL1 159-164] donne beaucoupd'exemples. [FOA 73] donne un exemple et en tire une application statistiqueà la médecine.

1.3.2 Vitesse de convergence dans le thm de Poisson

Considérons une suite de variables aléatoires (Xn)n∈N∗ telle que, pour toutn ∈ N∗, Xn ∼ B(n, λ/n). D'après le théorème de Poisson, (Xn) converge enloi vers P(λ), ce qui s'écrit :

∀k ∈ N P (Xn = k) −−−−→n→+∞

λk

k!exp(−λ)

Le résultat suivant [SHI] précise dans un sens très fort la vitesse à laquelle alieu cette convergence.

Proposition 1.3.3∑k≥0

∣∣∣∣P(Xn = k)− λk

k!exp(−λ)

∣∣∣∣ ≤ 2λ2

n

Il est remarquable que l'on soit capable d'estimer la somme des valeurs ab-solues des erreurs commises en approchant chacun des poids. En particulier,il est facile de déduire de la Proposition que pour toute fonction bornée f deR dans lui-même :∣∣∣∣∣E[f(Xn)

]−∑k≥0

f(k)λk

k!exp(−λ)

∣∣∣∣∣ ≤ 2λ2

n× ‖f‖∞

Règle empirique : On peut approcher de façon satisfaisante la loiB(n, p) par la loi P(np) dès que n ≥ 50 et p ≤ 0, 1.Notons que l'on peut aussi utiliser cette approximation dans le cas n ≥ 50 etp ≥ 0, 9 en intervertissant pile et face (ou de façon plus générale, en comptantles échecs à la place des succès).Si ces conditions ne sont pas satisfaites, on envisagera l'approximation de laloi B(n, p) par la loi gaussienne N (np, np(1−p)) : voir section 2.3.1 page 14.

12CHAPITRE 1. LOI BINOMIALE, LOI DE POISSON. APPLICATIONS.

Chapitre 2

Le jeu de pile ou face (suites dev.a. de Bernoulli indépendantes)

2.1 Suite nie

Construction d'un jeu de pile ou face à n jets [OUV1 66].Loi binomiale B(n, p) : voir sections 1.1.1 à 1.1.3.

2.2 Suite innie

2.2.1 Construction

Elle est nettement plus subtile que celle d'une suite nie.Dans le cas d'un pile ou face équitable (p = 1/2), il existe une constructionastucieuse sur l'espace (Ω = [0, 1[ ,B([0, 1[ )) muni de la mesure de Lebesgue :elle fait appel au développement en base 2 d'un nombre réel, cf. [REV 47] ou[OUV2 55].Dans le cas p 6= 1/2, on utilise la construction générale d'une suite de va-riables aléatoires indépendantes de lois données : voir section 3.1 page 17.

2.2.2 Loi binomiale négative

Dans un jeu de pile ou face (pile avec proba p, face avec proba q = 1−p),soit Tr le nombre de résultats face obtenus lorsque pile apparaît pour lar-ième fois (r ∈ N∗). Alors, on a [FOA 74-75] :

∀k ∈ N P (Tr = k) =

(r + k − 1

r − 1

)pr qk =

(−rk

)pr (−q)k

13

14 CHAPITRE 2. LE JEU DE PILE OU FACE

Ceci dénit la loi binomiale négative 1 de paramètres r ∈ N∗ et p ∈ ]0, 1[ ,que nous noterons B−(r, p). Son espérance vaut [JP 33] : E[Tr] = r(1− p)/p.

2.2.3 Ruine du joueur

Un joueur gagne (resp. perd) 1 dinar quand la pièce tombe sur pile (resp.face). Il décide de continuer à jouer jusqu'à ce qu'il ait gagné a dinars ouperdu b dinars (a ∈ N∗, b ∈ N∗). Autrement dit, si nous notons Sn son gainalgébrique au bout du n-ième coup, le jeu s'arrête à l'instant (aléatoire) :

Ta,b = minn ∈ N∗, Sn = a ou Sn = −b

C'est un cas particulier de marche aléatoire avec double barrière.On montre que Ta,b < +∞ presque sûrement et même que Ta,b admet desmoments de tous les ordres [DAC 1 cours 53-54].

2.3 Résultats asymptotiques

2.3.1 Théorème de De Moivre-Laplace

Théorème 2.3.1 Soit p ∈ ]0, 1[ xé et (Sn)n∈N∗ une suite de variables aléa-toires telle que Sn ∼ B(n, p) pour tout n ∈ N∗.Alors, nous avons la convergence en loi suivante :

Sn − np√np (1− p)

−→ N (0, 1)

Le résultat suivant, qui est un cas particulier du théorème de Berry-Esseen, précise la vitesse à laquelle cette convergence en loi a lieu.

Théorème 2.3.2 Si Fn est la fonction de répartition de Sn−np√np (1−p)

et si F

est celle de la loi N (0, 1), on a :

supx∈R|Fn(x)− F (x)| ≤ C[p2 + (1− p)2]√

np (1− p),

où C ' 0, 7975.

1. encore appelée loi de Pascal

2.3. RÉSULTATS ASYMPTOTIQUES 15

Un simple changement de variable ane nous donne le même majorant uni-forme si l'on compare la fonction de répartition de Sn, donc de la loi B(n, p),et la fonction de répartition de la loi N (np, np(1− p)). Ceci nous fournit uneapproximation gaussienne de la loi B(n, p).Néanmoins, si np(1− p) est trop petit, le théorème de Berry-Esseen ne nousdonne que peu de garantie sur la qualité de cette approximation. Eective-ment, la loi B(n, p) est dans ce cas trop asymétrique pour que l'approximationgaussienne soit valable. C'est pour éviter cet écueil que l'on utilise la règleempirique suivante.

Règle empirique : On peut approcher la loi B(n, p) par la loi gaussienneN (np, np(1− p)) dès que np(1− p) ≥ 10.

Lorsqu'on applique cette règle empirique, on introduit une correction decontinuité pour tenir compte du fait que l'on approche une loi discrète parune loi continue. Plus précisément, si X ∼ B(n, p) et Y ∼ N (np, np (1− p)),nous écrirons :

∀k ∈ N P (X = k) ≈ P

(k − 1

2≤ Y ≤ k +

1

2

)

2.3.2 Application statistique : intervalle de conance

Le théorème de De Moivre-Laplace nous donne la construction d'un inter-valle de conance de niveau asymptotique 95% (par exemple) pour estimerle paramètre θ ∈ ]0, 1[ lorsqu'on dispose d'un n-échantillon de loi B(θ), avecn grand :

∀θ ∈]0, 1[ Pθ

(θ ∈ [Xn −

1, 96

2√n, Xn +

1, 96

2√n

])−−−−→n→+∞

0, 95

où Xn = Sn/n est la moyenne empirique de notre échantillon.La valeur 1,96 qui apparaît vient de la valeur approchée bien connue desstatisticiens :

1√2π

∫ 1,96

−1,96

e−x2/2 dx ' 0, 95

Cet intervalle de conance est bien plus précis que celui obtenu par l'inégalitéde Bienaymé-Tchebychev (cf. [OUV1 237]) mais il n'est valide que si n estsusamment grand (règle empirique : n ≥ 30).Si n est petit, on peut utiliser Bienaymé-Tchebychev ou l'inégalité de grandesdéviations énoncée dans la section 1.1.3 page 8.

16 CHAPITRE 2. LE JEU DE PILE OU FACE

Dans le cas n grand, on peut encore améliorer un peu notre intervallede conance asymptotique en faisant une estimation de la variance inconnueθ(1− θ) par Xn(1− Xn) [BAR 146] : lorsque n→ +∞,

(θ ∈ [Xn−

a√n

√Xn(1− Xn), Xn +

b√n

√Xn(1− Xn)]

)→∫ b

−a

e−x2

2

√2π

dx

2.3.3 Loi du logarithme itéré

Ce résultat [FOA 251-256], qui admet des généralisations aux marchesaléatoires, a d'abord été démontré par Khintchine en 1924 dans le cas du pileou face. Nous considérons ici une suite indépendante de variables (Xi)i∈N∗

suivant toutes la loi de Bernoulli symétrique, c'est-à-dire :

P (Xi = −1) = P (Xi = 1) =1

2

Pour tout n ∈ N∗, nous posons Sn =∑n

i=1 Xi. Notons que Sn représentele gain algébrique du joueur décrit dans la section 2.2.3 au bout du n-ièmecoup, en supposant qu'il joue avec une pièce équilibrée (p = 1/2).On déduit facilement du théorème de De Moivre-Laplace la convergence enloi suivante : Sn/

√n → N (0, 1). Nous pouvons donc dire grosso modo que

les uctuations du gain Sn sont d'ordre de grandeur√n.

La loi du logarithme itéré va nettement préciser cette idée :

Théorème 2.3.3 Presque sûrement,

lim supSn√

2n log log n= 1 ; lim inf

Sn√2n log log n

= −1

Chapitre 3

Indépendance d'évènements et devariables aléatoires. Exemples.

3.1 Constructions

La construction d'un nombre ni de variables discrètes indépendantes estrelativement facile [OUV1 66] : nous avons vu le cas particulier d'un jeu depile ou face dans le chapitre précédent.En revanche, nous avons constaté que la construction d'un jeu de pile ou faceéquilibré inni était nettement plus subtile.Une fois cette diculté surmontée, nous pouvons de façon générale construireune suite de variables aléatoires réelles (Yj) indépendantes et de lois respec-tives (µj) données [OUV2 58].

3.2 Quelques exemples

Indicatrice d'Euler [COT 8-9].Statistiques d'ordre [REV 50] ou [COT 53-55].

3.3 Vecteurs aléatoires à densités, fonctions ca-ractéristiques

Simulation d'une variable gaussienne par la méthode de Box-Muller [BC 57].Soient X, Y i.i.d. de densité f > 0 sur R+ et nulle sur R∗− ; on dénit lesvariables U := X ∧ Y , V :=| X − Y |. Alors U, V indépendants ssi f densitéexponentielle [OUV2 75-79].

17

18CHAPITRE 3. INDÉPENDANCE D'ÉVÈNEMENTS ET DE V.A. EXS.

Indépendance et lois marginales de (X + Y, XX+Y

) lorsque X et Y sontindépendantes de lois respectives γ(λ, a) et γ(λ, b) et application au calculde la densité du χ2(d) [OUV2 74-75].

Produit de convolution, f.c. : N (m1, σ21) ?N (m2, σ

22) = N (m1 +m2, σ

21 +σ2

2),C(a) ? C(b) = C(a+ b)

3.4 Variance, covariance, cas gaussien

Des variables indépendantes sont décorrélées (i.e. de covariance nulle). Laréciproque est fausse.

La variance d'une somme de v.a. indépendantes est égale à la somme desvariances.

La caractérisation de l'indépendance dans le cas gaussien par la nullité descovariances croisées et son application à un cas particulier du théorème deCochran ([REV 90] ou [COT 211]) sont traitées dans la section 4.4.2 page27.

3.5 Sommes de v.a. indépendantes, thm s asymp-totiques

Produit de convolution. Fonction caractéristique φX+Y (u) = φX(u)φY (u).

Le lemme de Borel-Cantelli et sa réciproque. Trois applications : Le singe dactylographe de Borel [FOA 232] Le théorème de Cantelli, i.e. la loi forte des grands nombres dans le casL4 [BAR 133] qui sut pour prouver l'application suivante.

Maths pures : Presque tous les réels de [0,1] sont normaux, i.e. tels queleur développement décimal fait apparaître tous les entiers de 0 à 9 avecla même fréquence asymptotique 1/10 ([REV 129] ou [QUEFFéLEC-ZUILY 550-551])

Le TLC et plusieurs applications seront traités dans le chapitre suivant.

La ruine du joueur a été abordée dans la section 2.2.3.

Chapitre 4

Lois gaussiennes et applications

4.1 La loi normale centrée réduite

Proposition 4.1.1 (Intégrale de Gauss)∫ +∞

−∞e−x

2

dx =√π

[GOURDON 163,335] démontre cette égalité par 3 méthodes diérentes : dérivation d'une intégrale dépendant d'un paramètre inégalité de convexité, changement de variables et formule de Wallis passage en coordonnées polaires

Nous suivons maintenant la présentation de Foata et Fuchs dans leur ouvrageCalcul des probabilités chez Dunod, 2ème édition, pages 178 à 181.

Proposition et dénition 4.1.2 L'application g : R→ R+ dénie par :

∀x ∈ R g(x) =1√2π

e−x2

2

est une densité de probabilité. La loi de densité g est appelée loi de Gauss ouloi normale (centrée réduite) et notée N (0, 1).

Gauss a introduit cette loi en 1809 à propos d'un problème statistiqued'estimation de paramètre.

Le graphe de la densité de Gauss g est une courbe en cloche aplatie.On le trace facilement en notant que f est paire, qu'elle admet un maximumglobal en x = 0 égal à 1√

2π' 0, 399 et que la courbe admet deux points

19

20 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

d'inexion en x = −1 et x = 1.

Si X ∼ N (0, 1), on calcule immédiatement E[X] = 0 par le théorème detransfert en utilisant la parité de g et

VarX = E[X2] =

∫ +∞

−∞x2 1√

2πe−

x2

2 dx = 1

par intégration par parties. C'est pourquoi on parle de loi normale centréeréduite.

La fonction de répartition de la loi de Gauss est donnée par

∀x ∈ R Φ(x) =

∫ x

−∞

1√2π

e−t2

2 dt

On vérie facilement que Φ est de classe C∞, strictement croissante et doncbijective de R sur son image ]0, 1[, telle que Φ(−x) = 1 − Φ(x) pour toutx ∈ R.Son graphe est une courbe en S assez étalée, symétrique par rapport à(0, 1/2), où elle admet un point d'inexion et où la pente de sa tangente vaut

1√2π' 0, 399.

On n'a pas de formule plus explicite pour Φ mais cette fonction et sa bijectionréciproque Φ−1 sont tabulées, notamment pour des applications statistiques.Une valeur que nous utiliserons dans la suite est Φ(1, 96) ≈ 0, 975.Si X ∼ N (0, 1), alors P (|X| ≤ x) = 2Φ(x)− 1 pour tout x ≥ 0, de sorte queP (|X| ≤ 1, 96) ≈ 0, 95.

On peut démontrer l'équivalence suivante lorsque x→ +∞ :

1− Φ(x) ∼ 1

x

e−x2

2

√2π

4.2. LA LOI NORMALE GÉNÉRALE 21

Comme cela tend vite vers 0, on dit que la loi de Gauss a une queue dedistribution peu épaisse.

Proposition 4.1.3 La loi de Gauss admet des moments de tous les ordres.Si X ∼ N (0, 1), nous avons, pour tout n ∈ N :

E[X2n+1] = 0 ; E[X2n] =(2n)!

2nn!

Démonstration: Pour tout k ∈ N∗, nous avons |x|kg(x) = o(1/x2) quandx→ ±∞ donc X admet un moment d'ordre k donné par :

E[Xk] =

∫ +∞

−∞xk

1√2π

e−x2

2 dt

Lorsque k = 2n+ 1, cette intégrale est nulle pour des raisons de parité.On démontre par intégration par parties que E[X2n] = (2n − 1)E[X2n−2]pour tout n ∈ N∗, ce qui nous donne par récurrence la formule annoncéepuisque E[X0] = 1 par convention.

Pour simuler numériquement la loi de Gauss, on utilise la proposition sui-

vante, qui se démontre grâce à un changement de variable dans une intégraledouble [OUVRARD tome 2, 67-68]

Proposition 4.1.4 (Méthode de Box-Muller) Soient U1 et U2 deux v.a.r.indépendantes, de même loi uniforme sur [0,1]. Nous posons :

X :=√−2 logU1 cos(2πU2) , Y :=

√−2 logU1 sin(2πU2).

Alors les variables aléatoires X et Y sont indépendantes et de même loiN (0, 1).

4.2 La loi normale générale

Proposition et dénition 4.2.1 Soient µ ∈ R et σ > 0 deux paramètresxés. L'application gµ,σ2 : R→ R+ dénie par :

∀x ∈ R gµ,σ2(x) =1√

2πσ2e−

(x−µ)2

2σ2

est une densité de probabilité. La loi de densité gµ,σ2 est appelée loi normalede paramètres (µ, σ2) et notée N (µ, σ2).

22 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

On vérie que gµ,σ2 est bien une densité en eectuant un changementde variable ane dans une intégrale simple, puis en utilisant la proposition4.1.2. Notons que pour µ = 0 et σ2 = 1, on retrouve bien la densité de laloi N (0, 1) telle qu'elle a été dénie dans la sous-section précédente. Nousallons maintenant préciser les rapports entre la loi normale générale et la loinormale centrée réduite.

Proposition 4.2.2 Soient µ ∈ R et σ > 0 deux paramètres xés. On consi-dère deux variables aléatoires réelles X et Y telles que Y = µ + σX. Alorson a l'équivalence suivante :

X ∼ N (0, 1)⇐⇒ Y ∼ N (µ, σ2)

Démonstration: On vérie facilement que cette équivalence résulte de laproposition ??.

Pour simuler numériquement la loi N (µ, σ2), on applique d'abord la mé-

thode de Box-Muller pour simuler X ∼ N (0, 1) puis l'on calcule Y = µ+σX.

Corollaire 4.2.3 Soit Y ∼ N (µ, σ2). Alors E[Y ] = µ et VarY = σ2

Ce résultat justie que le premier paramètre d'une loi normale soit tra-ditionnellement noté µ ou m (comme moyenne probabiliste, c'est-à-direespérance) et le second σ2 puisqu'il est égal à la variance de la loi.

Corollaire 4.2.4 La fonction de répartition Φµ,σ2 de la loi N (µ, σ2) est don-née par :

∀x ∈ R Φµ,σ2(x) = Φ

(x− µσ

)

Démonstration: En reprenant les notations de la proposition 4.2.2, nousavons, pour tout x ∈ R :

Φµ,σ2(x) = P (Y ≤ x) = P (µ+ σX ≤ x) = P

(X ≤ x− µ

σ

)= Φ

(x− µσ

)

Avant d'établir une importante propriété de stabilité de la loi normale gé-nérale, nous introduisons la notion de produit de convolution de deux densitésde probabilité.

4.2. LA LOI NORMALE GÉNÉRALE 23

Proposition 4.2.5 Soient X et Y deux v.a.r. indépendantes admettant desdensités respectives f et g. Alors la v.a.r. X+Y admet pour densité le produitde convolution de f et g, noté f ? g et déni par :

∀x ∈ R f ? g(x) =

∫ +∞

−∞f(x− y)g(y) dy.

Démonstration: cf. [OUVRARD tome 1, 203-204].

La proposition suivante énonce la stabilité de la loi normale par produitde convolution.

Proposition 4.2.6 Soient X et Y deux v.a.r. indépendantes de lois respec-tives N (m1, σ

21) et N (m2, σ

22), avec (m1,m2) ∈ R2 et (σ1, σ2) ∈ (R∗+)2.

Alors la v.a.r. X + Y suit la loi N (m1 +m2, σ21 + σ2

2).

Le résultat essentiel établi par cette proposition est que la somme de deuxvariables gaussiennes indépendantes est encore gaussienne. Il est alors facilede déterminer ses paramètres en en calculant l'espérance et la variance.

Démonstration: Commençons par réduire le problème au cas où X estcentrée réduite et Y centrée en supposant démontrée la proposition suivante :si X ′ ∼ N (0, 1) et Y ′ ∼ N (0, s2), avec s > 0, sont indépendantes, alorsX ′ + Y ′ ∼ N (0, 1 + s2). Nous pouvons alors en déduire la proposition dansle cas général en dénissant les variables aléatoires réelles :

X ′ =X −m1

σ1

, Y ′ =Y −m2

σ1

,

si bien que les hypothèses précédentes sont satisfaites avec s = σ2/σ1 et :

X + Y = m1 + σ1X′ +m2 + σ1Y

′ = m1 +m2 + σ1(X ′ + Y ′).

Par transformation ane de la variable X ′ + Y ′ ∼ N (0, 1 + (σ22/σ

21)), nous

obtenons alors la conclusion dans le cas général.Nous supposons donc désormais m1 = m2 = 0, σ1 = 1 et σ2 = s > 0. D'aprèsla proposition 4.2.5 , la variable aléatoire réelle X + Y admet une densitéproportionnelle à :∫ +∞

−∞e−

(x−y)22 e−

y2

2s2 dy =

∫ +∞

−∞exp

(−s

2x2 − 2s2xy + (1 + s2)y2

2s2

)dy.

24 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

Cette dernière expression s'écrit encore :∫ +∞

−∞exp

−(1 + s2)(y − s2

1+s2x)2

2s2

exp

((s2

1 + s2− 1

)x2

2

)dy ,

ou encore, puisque l'intégration porte sur la variable y,

exp

(− x2

2(1 + s2)

)∫ +∞

−∞exp

−(1 + s2)(y − s2

1+s2x)2

2s2

dy.

Nous constatons que cette dernière intégrale est une constante en eectuant,à x xé, le simple changement de variable u = y − s2

1+s2x.

Nous avons donc prouvé que la variable aléatoire réelle X + Y admet unedensité proportionnelle à exp(−x2/(2(1 + s2))). Nous en déduisons que laseule constante de proportionnalité possible pour que ce soit eectivementune densité de probabilité vaut 1/

√2π(1 + s2) et que X +Y ∼ N (0, 1 + s2).

Pour une présentation de la loi normale dans Rd, encore appelée loi de

Laplace-Gauss en dimension d, le lecteur pourra lire [ESC 147ss] qui en faitune présentation cadrant bien avec le programme ociel.

4.3 Approximation normale de la loi binomiale

Historiquement, Abraham de Moivre, mathématicien anglais d'originefrançaise, avait mis en évidence dès 1733 une approximation normale de laloi binomiale en étudiant un modèle de pile ou face avec une pièce équilibrée.Sa preuve reposait sur des calculs laborieux d'estimation des coecients bi-nomiaux.Pierre-Simon de Laplace avait généralisé ce résultat en 1820 au cas d'unepièce éventuellement biaisée. Il avait également mis en évidence le lien entrela loi normale et la théorie des erreurs d'observation, dont nous reparleronsdans le chapitre suivant.

Nous suivons ici la présentation d'[OUVRARD tome 1, 228-229].

Théorème 4.3.1 (de Moivre, Laplace) Considérons p ∈]0, 1[ et, pour toutn ∈ N∗, une variable aléatoire réelle Sn qui suit la loi binomiale B(n, p). Nousnoterons Sn la variable centrée réduite associée à Sn, i.e.

Sn =Sn − E[Sn]

σ(Sn)=

Sn − np√np(1− p)

.

4.3. APPROXIMATION NORMALE DE LA LOI BINOMIALE 25

Alors nous avons la convergence suivante, uniforme sur tous les intervallesréels I :

supI

∣∣∣∣P (Sn ∈ I)−∫I

1√2π

exp

(−t

2

2

)dt

∣∣∣∣ −−−−→n→+∞0.

Autrement dit, quand n est grand, Sn suit une loi approximativement égaleà la loi normale centrée réduite, ce que nous notons Sn ≈ N (0, 1).En utilisant un changement de variable ane dans une intégrale simple, nouspouvons dire de façon équivalente que Sn ≈ N (np, np(1− p)), toujours pourn grand. Plus précisément, nous avons le résultat suivant :

Corollaire 4.3.2 Considérons p ∈]0, 1[ et, pour tout n ∈ N∗, une variablealéatoire réelle Sn qui suit la loi binomiale B(n, p). Alors nous avons laconvergence suivante, uniforme sur tous les intervalles réels I :

supI

∣∣∣∣∣P (Sn ∈ I)−∫I

1√2πnp(1− p)

exp

(− (t− np)2

2np(1− p)

)dt

∣∣∣∣∣ −−−−→n→+∞0.

Pour pouvoir utiliser cette approximation gaussienne de la loi binomiale, ilnous reste à préciser ce que signie n grand ! Le théorème de Berry 1-Esseen 2, dont nous donnerons l'énoncé général dans le chapitre suivant, meten évidence le rôle joué par la quantité np(1−p) dans la qualité de l'approxi-mation.

Proposition 4.3.3 (Berry-Esseen, cas binomial) Nous reprenons les hy-pothèses et les notations du théorème 4.3.1 et nous notons en outre FSn la

fonction de répartition de la variable Sn et Φ la fonction de répartition de laloi N (0, 1). Nous avons alors, pour tout n ∈ N∗ :

supx∈R

∣∣FSn(x)− Φ(x)∣∣ ≤ p2 + (1− p)2√

np(1− p).

Si np(1− p) est susamment grand, le théorème de Berry-Esseen garan-tit que l'approximation de la loi binomiale par la loi normale sera bonne.Dans la pratique, certaines règles empiriques existent, variables d'ailleursd'un ouvrage à l'autre ! Une d'entre elles dit que l'approximation de la loiB(n, p) par la loi N (np, np(1− p)) est considérée comme satisfaisante quandnp(1− p) > 18 (référence : Dacunha-Castelle, Duo, tome 1).

1. Andrew C. Berry2. Carl-Gustav Esseen (1918-2001), mathématicien suédois

26 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

Si np(1 − p) est trop petit pour que l'on puisse utiliser l'approximationnormale, on pourra alors utiliser avantageusement l'approximation de la loibinomiale par la loi de Poisson. OUVRARD écrit que cette dernière est jus-tiée lorsque n ≥ 30 et p ≤ 0, 1. Notons que si p ≥ 0, 9, l'approximationpoissonnienne est aussi utilisable en comptant les échecs à la place des succès( ou les faces au lieu des piles !).

Le lecteur pourra trouver des applications pratiques de l'approximationgaussienne d'une loi binomiale dans l'exercice 7.4 du livre d'Ouvrard déjacité ou encore dans [REV 164-165] (exercice sur un serveur informatique).

4.4 Le cas de la dimension d : loi normale mul-tivariée

4.4.1 Dénition. Loi gaussienne dans Rd

Un vecteur aléatoire (X1, · · · , Xd) est dit gaussien si toute combinaisonlinéaire

∑aiXi est une v.a.r. gaussienne.

En particulier, les composantes Xi sont gaussiennes mais la réciproqueest fausse : voir l'exercice 4.5.1.Néanmoins, il y a une réciproque partielle : si les Xi sont mutuellementindépendantes et gaussiennes alors le vecteur aléatoire (X1, · · · , Xd) estgaussien.

Si X est un vecteur gaussien de dimension d et A une matrice de tailled′ × d alors Y = AX est un vecteur gaussien de dimension d′.

Pour X = (X1, . . . , Xd) vecteur aléatoire quelconque, on dénit sonvecteur moyenne :

E[X] =(E[X1], ..., E[Xd]

)∗et sa matrice de covariances :

KX =[Cov(Xi, Xj)

]1≤i,j≤d

.

Avec les dénitions précédentes, la fonction caractéristique d'un vecteuraléatoire gaussien de dimension d vaut :

∀u ∈ Rd, ϕX(u) = exp(iu∗E[X]− 1

2u∗KXu

).

En particulier, une loi gaussienne vectorielle est déterminée par samoyenne m et sa matrice de covariances K.

4.4. LE CAS DE LA DIMENSION D : LOI NORMALE MULTIVARIÉE27

Réciproquement, pour tout m ∈ Rd et pour toute matrice K de tailled× d symétrique semi-dénie positive, il existe un vecteur gaussien demoyenne m et de matrice de covariances K.On peut donc parler de la loi Nd(m,K).

Si K est inversible, alors la loi Nd(m,K) a pour densité :

f(x) = (2π)−d/2|K|−1/2 exp(−(x−m)∗K−1(x−m)/2

).

Sinon, la loi est portée par un sous-espace ane propre de Rd et nesaurait donc avoir de densité : on parle alors de loi gaussienne dégénérée.

4.4.2 Critère d'indépendance

Théorème 4.4.1 (Indépendance dans le cas gaussien) Nous supposonsque (X1, · · · , Xm, Y1, · · · , Yn) est un vecteur gaussien. Alors il y a équivalenceentre les trois propriétés suivantes :

1. les vecteurs X = (X1, · · · , Xm) et Y = (Y1, · · · , Yn) sont indépendants

2. Pour tous 1 ≤ i ≤ m, 1 ≤ j ≤ n, on a : Cov(Xi, Yj) = 0

3. La matrice de covariances de (X, Y ) est diagonale par blocs :

K(X,Y ) =

(KX 00 KY

).

††† C'est le grand vecteur(X, Y ) qui doit être gaussien et non pas seule-ment chacun des sous-vecteurs X et Y : voir l'exercice 4.5.1 pour un contre-exemple.

Tout ce qui vient d'être dit se généralise de 2 blocs à k blocs. En particulier, si X = (X1, · · · , Xd) est un vecteur gaussien, alors on al'équivalence suivante :Les v.a.r. X1, · · · , Xd sont indépendantes ssi la matrice de covariancesKX est diagonale.

Insistons sur un cas encore plus particulier :Les v.a.r. X1, · · · , Xd sont i.i.d. de loi commune N (0, 1) ssi X =(X1, · · · , Xd) est un vecteur gaussien centré et de matrice de cova-riances Id.

à titre d'application de ce théorème, nous présentons un résultat qui estun cas particulier du théorème de Cochran [BC 242-243] :

Proposition 4.4.2 Soit (X1, · · · , Xn) un vecteur aléatoire de loi N (0, Idn).On appelle moyenne empirique, resp. variance empirique corrigée associée à

28 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

(X1, · · · , Xn) la variable aléatoire réelle :

Xn =1

n

n∑i=1

Xi, resp. S2n =

1

n− 1

n∑i=1

(Xi − Xn)2

Alors, Xn ∼ N (0, 1n) , Rn := (n− 1)S2

n ∼ χ2(n− 1) et ces deux variablessont indépendantes .

Démonstration: Nous utiliserons le résultat suivant : La transformée deLaplace de la loi χ2(n) est dénie pour t > −1

2et vaut ( 1

1+2t)n/2.

Le vecteur aléatoire (Xn, X1 − Xn, · · · , Xn − Xn) est gaussien en tant quetransformé linéaire d'un vecteur gaussien . Or, pour tout 1 ≤ k ≤ n, on a :

Cov(Xn, Xk − Xn) = Cov(Xn, Xk)− VarXn =1

n− 1

n= 0,

d'où l'indépendance entre Xn et (X1 − Xn, · · · , Xn − Xn). On en déduitimmédiatement l'indépendance demandée.Notant maintenant que Rn + nX2

n =∑n

i=1 X2i , nous obtenons la relation

suivante entre transformées de Laplace :

LRn(t)× LnX2n(t) = L∑n

i=1X2i(t), t > −1

2

d'où

LRn(t) =( 1

1+2t)n2

( 11+2t

)12

= (1

1 + 2t)n−12

et donc Rn ∼ χ2(n− 1).

Remarques :

1. On dénit la loi de Student à k ∈ N∗ degrés de liberté et l'on note T (k)la loi de la v.a.r. X√

Yk

, avec X ∼ N (0, 1) et Y ∼ χ2(k) indépendantes.

D'après ce qui précède, la loi de√nXnSn

vaut T (n− 1).Si l'on remplace notre n-échantillon de loi N (0, 1) par un n-échantillonde loi N (m,σ2), on constate facilement que la variable

√n(Xn−m)Sn

suitencore la loi T (n − 1). En statistique, cela permet en particulier deconstruire un intervalle de conance pour m lorsque σ est inconnue[DAC1 cours 122] ou [LEJ 144-145].

2. Réciproquement, si un n-échantillon (X1, · · · , Xn) est tel que sa moyenneempirique Xn et sa variance empirique corrigée S2

n sont indépendantes,alors la loi commune aux Xi est une loi gaussienne N (µ, σ2) [COT211-214]

4.5. EXERCICES CORRIGÉS. 29

4.5 Exercices corrigés.

4.5.1 Un contre-exemple.

Soit X une v.a.r.de loi N (0, 1) et soit a > 0. On pose :

Y a = X1|X|<a −X1|X|≥a.

1. La v.a.r. Y a est-elle gaussienne ? Le couple (X, Y a) est-il gaussien ?

2. Montrer qu'il existe b > 0 tel que 1√2π

∫ b0t2e−

t2

2 dt = 14.

Calculer Cov(X, Y b). Les variables X et Y b sont-elles indépendantes ?

Corrigé :

1. Pour toute fonction f borélienne bornée, on a :

E[f(Y a)] = E[f(X)1|X|<a + f(−X)1|X|≥a]

=

∫|x|<a

f(x)1√2π

exp(−x

2

2

)dx+

∫|x|≥a

f(−x)1√2π

exp(−x

2

2

)dx

Le changement de variable x′ = −x dans la seconde intégrale nous per-met alors d'obtenir :

E[f(Y a)] =

∫Rf(x)

1√2π

exp(−x

2

2

)dx,

ce qui prouve que Y a ∼ N (0, 1).Puisque X + Y a = 2X1|X|<a et X 6= 0 p.s., on a :

P (X + Y a = 0) = P (|X| ≥ a) ∈]0, 1[.

On en conclut que X + Y a ne peut être une v.a.r. gaussienne et doncque (X, Y a) n'est pas un couple gaussien.

2. L'application dénie sur [0,+∞[ par G(u) = 1√2π

∫ u0t2e−

t2

2 dt est conti-

nue et strictement croissante, donc bijective sur son image [0, 12[

(en eet, la limite à l'inni vaut 12E[X2] = 1

2) ; on prend b = G−1(1

4).

Notons qu'on a alors :

1√2π

∫ b

0

t2e−t2

2 dt =1√2π

∫ +∞

b

t2e−t2

2 dt.

On calcule d'autre part :

Cov(X, Y b) = E[XY b] = E[X21|X|<b −X21|X|≥b]

30 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

=2√2π

∫ b

0

t2e−t2

2 dt− 2√2π

∫ +∞

b

t2e−t2

2 dt.

D'après la remarque précédente, cette covariance est donc nulle ; néan-moins X et Y b ne sont pas indépendantes puisque |X| = |Y b| p.s.

4.5.2 Indépendance gaussienne : un exemple très simple.

Soit (X, Y ) un vecteur gaussien de matrice de covariance :

K =

(1 ρρ 1

), ρ ∈ [0, 1].

Montrer que X + Y et X − Y sont deux v.a. gaussiennes indépendantes.

Corrigé succinct : Le couple (X + Y,X − Y ) est gaussien en tant quetransformé linéaire du couple gaussien (X, Y ).Or, on a : Cov(X + Y,X − Y ) = VarX − VarY = 0, ce qui entraîne l'indé-pendance.

4.5.3 Limite en loi d'une suite gaussienne.

1. Montrer que toute limite en loi d'une suite de variables aléatoires gaus-siennes est une variable aléatoire gaussienne de moyenne (resp. va-riance) la limite des moyennes (resp. variances).

2. En déduire que si (Xn) est un processus gaussien indexé par N∗ et telque Xn

(P )→ X, alors on a : Xn(L2)→ X.

Corrigé :

1. Considérons une suite (Xn)n∈N∗ qui converge en loi vers une v.a.r. Xet supposons que pour tout n ∈ N∗, Xn ∼ N (mn, σ

2n).

On a alors, pour tout t ∈ R :

ϕXn(t) = exp(itmn −t2σ2

n

2) −→ ϕX(t). (4.1)

En particulier, on a | ϕX(t)| = lim exp(− t2σ2n

2). Or ϕX est continue

et telle que ϕX(0) = 1, ce qui nous permet de choisir t0 6= 0 tel queϕX(t0) 6= 0 ; passant au logarithme dans l'égalité précédente prise ent = t0, nous en déduisons que la suite (σ2

n) est convergente. Notons σ2

sa limite.

4.5. EXERCICES CORRIGÉS. 31

D'après ce que l'on vient de montrer, la suite exp( t2σ2n

2)ϕXn(t) = exp(itmn)

est convergente pour tout t ∈ R ; nous allons en déduire que la suite(mn) est convergente.Pour cela, posons m = limmn et m = limmn ; dans un premier temps,nous allons montrer par l'absurde que m <∞. Si ce n'était pas le cas,on pourrait extraire une sous-suite (mnk) qui diverge vers +∞.En tout point a ∈ R tel que P (X = a) = 0, on aurait alors :

P (Xnk ≤ a) −→ P (X ≤ a).

Le membre de gauche étant égal à P (mnk + σnkY ≤ a), avecY ∼ N (0, 1), on en déduit que P (X ≤ a) = 0.Comme a peut être choisi arbitrairement grand, cela contredit le faitque la fonction de répartition de X a pour limite 1 en +∞.On a donc m <∞ et , par un raisonnement symétrique, m > −∞.La convergence de la suite (exp(itmn)) implique alors l'égalité :exp(itm) = exp(itm).On en déduit que, pour tout t ∈ R,

t(m−m) ≡ 0 (mod 2π),

ce qui n'est bien sûr possible que si m = m.Ainsi, la suite (mn) est convergente et nous noterons sa limite m.La convergence (4.1) nous donne alors immédiatement, pour tout t ∈ R,ϕX(t) = exp(itm− t2σ2

2), ce qui prouve que X ∼ N (m,σ2).

2. On a les implications :

Xn(P)−−−−→

n→+∞X =⇒ Xn −X

(P)−−−−→n→+∞

0 =⇒ Xn −XL−−−−→

n→+∞0.

Pour n ∈ N∗ xé, la v.a.r. Xn−X est limite en probabilité (et donc enloi) de la suite (Xn−Xk)k∈N∗ ; or cette suite est gaussienne puisque (Xn)est un processus gaussien indexé par N. D'après la question précédente,on en déduit que la v.a.r. Xn −X est gaussienne.Comme n ∈ N∗ était arbitraire, on peut de nouveau utiliser la questionprécédente pour dire que (Xn − X)n∈N∗ est une suite de gaussiennestendant vers 0, donc que :

E[Xn −X] −→ 0 et Var(Xn −X) −→ 0.

Il sut alors décrire l'égalité :

E[(Xn −X)2] =(E[Xn −X]

)2+ Var(Xn −X)

pour en déduire que Xn(L2)→ X.

32 CHAPITRE 4. LOIS GAUSSIENNES ET APPLICATIONS

Chapitre 5

Notions de convergence d'unesuite de variables aléatoires réelles

5.1 Diverses notions de convergence

Dénitions, tableau des implications, contre-exemples.

5.2 Lois des grands nombres

5.2.1 Loi faible

L'inégalité de Bienaymé-Tchebychev permet de prouver la loi faible dansL2, ainsi que le théorème de Weierstrass par les polynômes de Bernstein (cf.section 1.1.2 page 7).

5.2.2 Loi forte

Elle se démontre élémentairement dans le cas L4 : c'est le théorème deCantelli [BAR 133].

Quelques applications de la loi forte :

(Xn), resp.(Sn2) sont des estimateurs fortement convergents de la moyenne,

resp. de la variance [RS 8-9] Maths pures : Presque tous les réels de [0,1] sont normaux, i.e. tels queleur développement décimal fait apparaître tous les entiers de 0 à 9 avecla même fréquence asymptotique 1/10 [REV 129] ou [QUEFFéLEC-ZUILY 550-551]

33

34 CHAPITRE 5. CONVERGENCE D'UNE SUITE DE V.A.R.

Processus de renouvellement [DAC2 cours 180] : lorsque t→∞,

Nt

t

p.s.−−→ 1

m

5.3 Théorème-limite central et ranements

5.3.1 En dimension 1

On peut lever l'hypothèse d'équidistribution si l'on considère une suiteindépendante et bornée dans L2+ε. En supposant les variables centrées(ce qui ne fait pas perdre de généralité), le TLC s'écrit alors [JP 189] :

Snσ(Sn)

L−−−−→n→+∞

N (0, 1)

Autrement dit, dès que les uctuations d'un phénomène aléatoire ré-sultent de la superposition de nombreuses micro-uctuations indépen-dantes, on peut modéliser (au moins approximativement) ce phénomènepar une variable aléatoire réelle gaussienne

La condition (plus technique) de Lindeberg :

∀ε > 01

σ2(Sn)

n∑1

∫|Xk|>εσ(Sn)

X2kdP −−−−→

n→+∞0

permet aussi de lever l'hypothèse d'équidistribution, les variables étantsimplement supposées centrées, indépendantes et dans L2. [REV 163]ou [FOA 244-245]

Le théorème de Berry-Esseen précise à quelle vitesse a lieu la conver-gence énoncée par le TLC [JP 191] :Soit (Xn) une suite de v.a.r. i.i.d. admettant un moment d'ordre 3. Onsuppose ces variables centrées, de variance E[X2

1 ] = σ2 > 0. Notonsρ = E[| X1 |3], Fn f.r. de X1+···+Xn

σ√n

, et F f.r. de la loi N (0, 1). Alors,

∀n ∈ N∗ supx∈R| Fn(x)− F (x) |≤ Cρ

σ3√n

,

où la constante C a pour valeur approximative 0,7975.

5.3.2 TLC multidimensionnel

énoncé dans [JP 190]. Il se déduit facilement du TLC unidimensionnel enutilisant les f.c. et le théorème de convergence de Lévy.

5.4. APPLICATIONS DU TLC 35

Le théorème de la limite locale : Soit (Xn) une suite de vecteurs aléatoiresindépendants et de même loi admettant un moment d'ordre 2 et une den-sité, ainsi qu'une fonction caractéristique ϕX1 intégrable. Alors les vecteursaléatoires

Sn − E[Sn]√n

admettent des densités qui convergent uniformément vers la densité de la loiN (0, KX1). [REV 165]

5.4 Applications du TLC

Approximation gaussienne d'une loi binomiale : voir section 2.3.1 page14 et section 4.3 page 24. à propos de l'approximation poissonienne,noter que P(λ) ≈ N (λ, λ) dès que λ ≥ 20. [LEJ 85]

Le TLC pour une suite i.i.d. de variables exponentielles est équivalentà la formule de Stirling n! ∼

√2πnnne−n [FOA 243].

la formule de Bernstein[FOA 242] :

e−nn∑k=0

nk

k!−−−−→n→+∞

1

2

et son application à la première réapparition d'une boule lors d'untirage dans une urne contenant n boules numérotées [FOA 273-274]

Une application du TLCmultidimensionnel en statistique est la construc-tion du test du χ2 : voir chapitre 12.

Fonction de répartition empirique, théorème de Glivenko-Cantelli ettest de Kolmogorov-Smirnov [OUV2 116-120]

Processus de renouvellement : lorsque t→∞, on a

√t

(Nt

t− 1

m

)L−→ N

(0,σ2

m3

)

[DAC1 exo 4.4.11] Construction d'un intervalle de conance (voir section 2.3.2 page 15 etsection suivante) :[RS 25-26] ou [LEJ 144-145].

Méthodes de Monte-Carlo [REV 128 et 179] [RS 105-107] : voir dernièresection de ce chapitre.

36 CHAPITRE 5. CONVERGENCE D'UNE SUITE DE V.A.R.

5.5 Intervalles de conance

5.5.1 Quelques notions de statistique

Pour montrer la diérence entre l'objet du calcul des probabilités et celuide la statistique, prenons l'exemple d'un jeu de pile ou face dans lequel onjette la pièce (pas nécessairement équilibrée) un grand nombre de fois. Nousintroduisons donc le modèle canonique :

Ω = 0, 1N ; A = P(Ω) ; P = B(p)⊗N , p ∈]0, 1[

Le probabiliste connaît p et cherche à en déduire des propriétés sur lerésultat de l'expérience. Par exemple, si nous appelons Xi la ie projectioncanonique (dénie par : ∀ω = (ω1, · · · , ωN) ∈ Ω, Xi(ω) = ωi), la loi fortedes grands nombres nous donne :

P (dω)-p.s. ,X1(ω) + · · ·XN(ω)

N≈ p

Notons que ceci est une propriété du résultat ω de l'expérience puisqu'elles'écrit encore :

ω1 + · · ·+ ωNN

≈ p

La théorie des probabilités nous permet de dire que si l'expérience nous donneun résultat ω, il a de fortes chances de vérier cette propriété.

Pour le probabiliste, la probabilité P est donc connue et il s'agit d'endéduire des propriétés du résultat ω de l'expérience. Le statisticien fait ladémarche en sens inverse : il connaît le résultat ω de l'expérience et il endéduit des propriétés de la probabilité P qui est inconnue.

Ainsi, dans l'exemple précédent, supposons que le paramètre p qui in-tervient dans la dénition de la probabilité P est inconnu mais que nousdisposions du résultat de N jets de pièce successifs, c'est-à-dire que nousayons observé un ω pour l'expérience considérée. Se basant sur la loi fortedes grands nombres, le statisticien pourra proposer l'estimation suivante duparamètre p :

p(ω) =X1(ω) + · · ·XN(ω)

N

De façon plus générale, le statisticien part d'une famille de probabilités(Pθ)θ∈Θ parmi laquelle il cherche à déterminer celle qui modélisera le mieux lephénomène observé. En statistique paramétrique, on suppose que l'ensembleΘ est inclus dans Rd pour un certain d ∈ N∗. Au vu du résultat ω de l'ex-périence, le statisticien propose une valeur θ(ω) pour estimer le paramètre θ

5.5. INTERVALLES DE CONFIANCE 37

(ou encore pour estimer une fonction f(θ) de ce paramètre). Dans l'exempleprécédent, nous avions Θ =]0, 1[ et Pθ = B(θ)⊗N .

Nous demanderons à cette fonction θ : Ω → Θ d'être mesurable et nousl'appellerons un estimateur de θ. Dans notre exemple, nous avions donc θ =Xn.

Notons que faire de la statistique nous demande de travailler avec touteune famille de probabilités à la fois et que nous serons donc amenés à écriredes expressions telle que :

∀θ ∈ Θ Pθ(|θ − θ| ≥ ε) < α

Par exemple, l'estimateur θ est dit sans biais s'il vérie Eθ[θ] = θ pour toutθ ∈ Θ, où Eθ désigne l'espérance calculée sous la probabilité Pθ.

5.5.2 L'estimateur moyenne empirique

Dans ce paragraphe, nous allons nous intéresser plus particulièrement àl'estimateur XN , appelé moyenne empirique. Nous allons constater en eetqu'il possède des propriétés intéressantes lorsque nous souhaitons estimer lamoyenne d'une loi.

Supposons donc maintenant que Pθ = µ⊗Nθ , avec µθ loi sur R admettantune espérance m(θ). Nous souhaitons estimer la valeur de m(θ).Dans l'exemple précédent, nous avions µθ = B(θ) donc m(θ) = θ.Citons un autre exemple : Ω = RN , A = B(Rn), Pθ = Exp(θ)⊗N , Θ = R∗+ ;dans ce cas, m(θ) = 1/θ.

Une propriété intéressante de l'estimateur XN de m(θ) est qu'il est sansbiais, c'est-à-dire qu'il donne la bonne valeur en moyenne en ce sens que :

∀θ ∈ Θ Eθ[XN ] =1

N

N∑i=1

Eθ[Xi] = m(θ)

Supposons maintenant que nous pouvons répéter indéniment la mêmeprocédure dans des conditions identiques (par exemple jouer à pile ou faceindéniment). Nous prenons alors plutôt pour modèle statistique :

Ω = EN , A = σ(Xn, n ∈ N) , Pθ = µ⊗Nθ

où E = 0, 1 ou R ou Rd · · · , Xn est la ne injection canonique dénie parXn(ω) = ωn et la probabilité µ⊗Nθ est l'unique probabilité sous laquelle lasuite (Xn)n∈N est indépendante identiquement distribuée de loi commune µθ(nous admettons l'existence et l'unicité de cette probabilité, qui résultent du

38 CHAPITRE 5. CONVERGENCE D'UNE SUITE DE V.A.R.

théorème des classes monotones ainsi que d'un théorème d'extension énoncépar Kolmogorov).

Dans un tel modèle statistique, nous disposons d'une suite d'estimateursde m(θ) : la suite des moyennes empiriques (Xn)n∈N∗ .Une propriété intéressante de cette suite d'estimateurs est qu'elle est consis-tante (ou convergente, ce qui est synonyme) c'est-à-dire qu'elle donne la bon-ne valeur asymptotiquement en ce sens que, d'après la loi forte des grandsnombres :

∀θ ∈ Θ Pθ(dω)-p.s. , Xn(ω) −→ m(θ)

C'est à ce stade qu'intervient le théorème-limite central car dans la pra-tique, il est totalement insusant d'avoir une suite d'estimateur convergentesi nous n'avons n'avons aucune idée de la vitesse à laquelle elle converge.C'est toute la question du degré de précision de notre estimateur qui est enjeu et le théorème-limite central va nous permettre d'y apporter une réponsegrâce à la notion d'intervalle de conance.

5.5.3 Intervalles de conance

An de pouvoir appliquer le théorème-limite central, nous supposons dé-sormais que pour tout θ ∈ Θ, la loi µθ admet un moment d'ordre 2 et nousnotons alors σ2(θ) sa variance. Nous avons alors :

Sous Pθ,

√n

σ(θ)

(Xn −m(θ)

) L−−−−→n→+∞

N (0, 1)

La loi N (0, 1) n'ayant pas de masse ponctuelle, nous en déduisons que pourtous réels a ≤ b, nous avons la convergence suivante lorsque n tend versl'inni :

[a ≤

√n

σ(θ)

(Xn −m(θ)

)≤ b

]−→ 1√

∫ b

a

e−x2

2 dx

Il est facile de vérier que pour tout 0 < α ≤ 1, il existe un unique φα ∈ R+

tel que :2√2π

∫ +∞

φα

e−x2

2 dx = α

Nous en déduisons que , pour tout θ ∈ Θ, la convergence suivante a lieulorsque n tend vers l'inni :

[−φα ≤

√n

σ(θ)

(Xn −m(θ)

)≤ φα

]−→ 1− α

5.5. INTERVALLES DE CONFIANCE 39

Cette convergence s'écrit encore :

∀θ ∈ Θ, Pθ

[m(θ) ∈ [Xn −

σ(θ)φα√n

, Xn +σ(θ)φα√

n]

]−→ 1− α

L'intervalle (aléatoire) [Xn − σ(θ)φα√n, Xn + σ(θ)φα√

n] est appelé intervalle de

conance pour m(θ) de niveau de conance asymptotique 1 − α (ou encorede niveau d'erreur asymptotique α). Cela signie que, si nous armons quem(θ) est dans cet intervalle, la probabilité que nous fassions erreur est prochede α lorsque n est grand.Par exemple, si α = 0, 05, les tables de la loi normale (classiques en statis-tique, voir par exemple les dernières pages de [DAC1 exo]) nous fournissentla valeur φα ∼ 1, 96 ; pour α = 0, 002, nous obtenons φα ∼ 3, 09.Il est intéressant de faire la comparaison entre l'information qui nous estdonnée par le théorème-limite central et celle que nous fournit l'inégalité deBienaymé-Tchebichev, à savoir :

[−φα ≤

√n

σ(θ)

(Xn −m(θ)

)≤ φα

]≥ 1− 1

φ2α

Nous constatons que le théorème-limite central nous donne un renseigne-ment beaucoup plus précis. Notons cependant que l'inégalité de Bienaymé-Tchebichev est vraie même si n est petit.

Un problème subsiste concernant [Xn − σ(θ)φα√n, Xn + σ(θ)φα√

n], intervalle de

conance que nous venons de déterminer : le paramètre θ y intervient autravers du facteur σ(θ), or précisément θ est un paramètre inconnu que noussouhaitons évaluer (en estimantm(θ)) donc nous risquons de tourner en rond !

Dans certaines situations, il est possible de majorer σ(θ) indépendammentde θ, ce qui nous permet de construire un intervalle de conance dans lequelle paramètre θ n'intervient plus.Par exemple, si µθ = B(θ), nous avons σ2(θ) = θ(1 − θ) ≤ 1/4 pour toutθ ∈ Θ = [0, 1]. Nous en déduisons que [Xn − 1√

n, Xn + 1√

n] est un intervalle

de conance pour m(θ) = θ de niveau de conance asymptotique 95%.Dans le cas général, nous introduisons la variance empirique dénie par :

Σ2n =

1

n− 1

n∑i=1

(Xi − Xn)2

Une certaine propriété de stabilité de la convergence en loi, dite lemme deSlutsky, permet de démontrer que l'intervalle aléatoire suivant (dans lequelnous avons remplacé l'écart-type théorique σ(θ) par l'écart-type empirique

40 CHAPITRE 5. CONVERGENCE D'UNE SUITE DE V.A.R.

Σn, ce qui supprime toute dépendance en le paramètre θ) :

[Xn −Σnφα√n, Xn +

Σnφα√n

]

est encore un intervalle de conance pourm(θ) de niveau de conance asymp-totique 1− α.

5.6 Méthodes de Monte-Carlo

On appelle méthode de Monte-Carlo 1 toute méthode visant à calculerune valeur numérique en utilisant des techniques probabilistes.Le problème de départ peut être a priori de nature complétement détermi-niste, comme par exemple le calcul approché de l'intégrale :

I =

∫[0,1]d

f(x) dx , où f est une application borélienne de [0, 1]d dans R,

mais nous allons y introduire articiellement un aspect aléatoire en remar-quant que cette intégrale s'écrit encore, d'après le théorème de transfert,

I = E[f(X)] , où X est un vecteur aléatoire uniforme sur [0, 1]d.

La loi forte des grands nombres implique alors que, si nous disposons d'unesuite (Xn)n∈N∗ indépendante et de même loi uniforme sur [0, 1]d :

f(X1) + · · ·+ f(Xn)

n

p.s.−−−−→n→+∞

I

Notre méthode de Monte-Carlo consistera donc à simuler un nombre su-samment grand N de vecteurs aléatoires uniformes sur [0, 1]d indépendants(ce qui revient à simuler Nd variables aléatoires uniformes sur [0, 1] indépen-dantes) et à prendre pour approximation :

I ≈ f(X1) + · · ·+ f(XN)

N

Dans la pratique, toute la question est de savoir ce que l'on entend par Nsusamment grand !Si les variables aléatoires f(Xi) sont dans L2(Ω,A, P ), ou de façon équiva-lente si f ∈ L2([0, 1]d,B([0, 1]d), λd), le théorème-limite central nous donne laconvergence suivante lorsque N tend vers l'inni :

√N

σ

(f(X1) + · · ·+ f(XN)

N− I)L−→ N (0, 1) ,

1. quartier de la principauté de Monaco connu pour ses jeux de hasard

5.6. MÉTHODES DE MONTE-CARLO 41

où nous avons noté :

σ2 = Var(f(Xi)) =

∫[0,1]d

f 2(x) dx−(∫

[0,1]df(x) dx

)2

=

∫[0,1]d

f 2dλd − I2

Nous constatons donc que l'erreur d'approximation commise est d'ordre degrandeur σ/

√N .

En dimension d = 1, faisons la comparaison avec une méthode numé-rique classique d'approximation des intégrales, par exemple la méthode destrapèzes, qui nous donne l'approximation :∫

[0,1]

f(x) dx ≈ TN(f) :=f(0) + f(1)

N+

∑N−1i=1 f

(iN

)N

Sous l'hypothèse f ∈ C2([0, 1],R), nous avons la majoration suivante del'erreur d'approximation :∣∣∣∣∫

[0,1]

f(x) dx− TN(f)

∣∣∣∣ ≤ 1

12N2max[0,1]|f ′′|.

Nous constatons donc que cette méthode numérique simple est beaucoup plusecace que celle de Monte-Carlo lorsque f est régulière, plus précisément declasse C2.En revanche, si f est peu régulière, la méthode des trapèzes risque de fournirune approximation de mauvaise qualité (faire un petit dessin pour voir surquelle idée intuitive repose cette méthode). Il en va diéremment pour laméthode de Monte-Carlo puisque le théorème-limite central n'impose qu'unehypothèse de régularité très faible sur f , qui est supposée borélienne.Ainsi, dans le cas d'une fonction f très irrégulière, la méthode de Monte-Carlo peut donner une meilleure approximation de l'intégrale qu'une méthodenumérique classique.

Plaçons-nous maintenant en dimension d ≥ 2. Quelle est l'inuence dela dimension sur l'ecacité des méthodes numériques et de la méthode deMonte-Carlo ?On peut dire grosso modo qu'une méthode numérique classique d'ordreN cal-culera les valeurs de la fonction f en Nd points bien choisis dans [0, 1]d puisen déduira une approximation de l'intégrale. Une méthode de Monte-Carlod'ordre N reposera sur la simulation de Nd variables aléatoires uniformes sur[0, 1] indépendantes, pour obtenir N vecteurs aléatoires uniformes sur [0, 1]d

indépendants. En les valeurs prises par ces vecteurs aléatoires, c'est-à-dire enN points de [0, 1]d, l'algorithme calculera alors les valeurs prises par f puisen fera la moyenne arithmétique.

42 CHAPITRE 5. CONVERGENCE D'UNE SUITE DE V.A.R.

Nous constatons donc la sensibilité d'une méthode de Monte-Carlo à la di-mension d est beaucoup moindre que celle d'une méthode numérique clas-sique. Dans la pratique, dès la dimension 3 ou 4, une méthode de Monte-Carlopeut s'avérer plus ecace qu'une méthode numérique classique.

Terminons cette introduction aux méthodes de Monte-Carlo en notantque l'erreur d'approximation, d'ordre de grandeur σ/

√N , sera d'autant plus

satisfaisante que la variance σ2 sera petite.Il existe donc des techniques, dites de réduction de variance, qui consistentà modier un peu la méthode de Monte-Carlo présentée dans ce paragraphepour faire chuter la variance des variables aléatoires intervenant dans l'ap-proximation de l'intégrale et donc accélérer la convergence.

Chapitre 6

Utilisation des transformées deLaplace et de Fourier en calculdes probabilités

Le produit de convolution apparaît naturellement en probabilités lors-qu'on additionne des variables aléatoires indépendantes. Il va intervenir danschacune des sections suivantes.

6.1 Cas discret : fonctions génératrices

La fonction génératrice d'une variable aléatoire X à valeurs dans N estun cas simple de transformation de Laplace, à un changement de variableprès, puisque :

∀u ∈]0, 1[ gX(u) = E[uX ] = E[e(log u)X ]

Voici cinq applications des fonctions génératrices (de la plus élémentaire à laplus élaborée) :

Si X ∼ P(λ), sa f.g. vaut E[uX ] = exp(λ(u − 1)). Ceci permet deretrouver P(λ) ? P(µ) = P(λ+ µ)

Le théorème des évènements rares (cf. théorème 1.3.2 page 10). Les lois inniment divisibles sur N sont exactement les lois de Poissoncomposées [the compound Poisson distribution dans FELLER1 288-290]

Théorème de Raïkov : voir section 1.2.2 page 8. Processus de Galton-Watson : étude de la probabilité d'extinction enfonction du nombre moyen m d'enfants d'un individu donné. Voir cha-pitre 16.

43

44 CHAPITRE 6. TRANSFORMÉES DE LAPLACE ET FOURIER

6.2 Transformation de Laplace

6.2.1 Injectivité, lien avec la convolution

En utilisant l'injectivité de la transformation de Laplace sur les lois deprobabilités portées par R+, on retrouve facilement le résultat suivant :

γ(λ, a) ? γ(λ, b) = γ(λ, a+ b)

6.2.2 Inégalité de Hoeding

Cette inégalité [OUV2 132-135] n'est pas asymptotique mais vraie pourtoute valeur de n.

Proposition 6.2.1 Soit (Xi)i∈N∗ une suite i.i.d. telle qu'il existe une constanteK > 0 avec P (|X1| ≤ K) = 1. On note m = E[X1] et Xn = (X1+· · ·+Xn)/npour tout n ∈ N∗. Alors, pour tout ε > 0 et tout n ∈ N∗, on a l'inégalité :

P (|Xn −m| ≥ ε) ≤ 2 exp

(− nε2

2K2

)Démonstration: On peut supposer les variables Xi centrées sans pertede généralité. Pour tout λ ≥ 0, on dénit la fonction des cumulants deXi par Λi(λ) = logE[exp(λXi)] ; notons qu'elle ne dépend pas de l'indice ipuisque les variable sont identiquement distribuées et donc nous la noteronssimplement Λ(λ) . L'inégalité de Jensen nous donne immédiatement que Λest à valeurs dans R+.

En utilisant |Xi| ≤ Kp.s., on justie facilement les dérivations sous lesigne espérance qui nous donnent, pour tout λ ≥ 0 :

Λ′(λ) =E[Xi exp(λXi)]

E[exp(λXi)];

Λ”(λ) =E[X2

i exp(λXi)]E[exp(λXi)]− E[Xi exp(λXi)]2

E[exp(λXi)]2.

En particulier, on a Λ(0) = 0, Λ′(0) = 0 (car les variables sont centrées)et pour tout λ ≥ 0,

Λ”(λ) ≤ E[X2i exp(λXi)]

E[exp(λXi)]≤ K2.

La formule de Taylor nous permet d'en déduire que , pour tout λ ≥ 0,

0 ≤ Λ(λ) ≤ K2λ2/2.

6.3. TRANSFORMATION DE FOURIER 45

Or l'inégalité de Markov nous donne :

P (Snn≥ ε) = P (eλSn ≥ eελn) ≤ e−ελn

(E[eλX1 ]

)n.

On a donc : P (Xn ≥ ε) ≤ exp(−ελn+ nK2λ2/2).On optimise cette inégalité en choisissant λ = ε

K2 d'où le majorantexp(− ε2n

2K2 ).En écrivant la même inégalité pour les variables (−Xi), on aboutit à la

conclusion.

Ce résultat permet de construire des intervalles de conance en statistique.[RS 23-24]

6.2.3 Grandes déviations

Une application nettement plus élaborée de la transformation de Laplacese rencontre dans les théorèmes de grandes déviations, qui sont au programmede l'option.

[REV 172-178][TOU chap 3][BC 88-91] compare TLC et principe des grandes déviations dans le cas

d'une suite de Bernoulli de paramètre p.

6.3 Transformation de Fourier

L'injectivité de la transformation de Fourier sur les lois permet de dé-montrer facilement :

N (m1, σ21) ?N (m2, σ

22) = N (m1 +m2, σ

21 + σ2

2)

Il faut bien sûr parler du théorème-limite central qui est une applicationessentielle de la caractérisation de la convergence en loi par la convergencesimple des fonctions caractéristiques.Le même genre de raisonnement nous permet de caractériser la loi gaussiennecentrée comme suit : Si X et Y sont indépendantes de même loi µ centrée,admettant un moment d'ordre deux σ2 et telle que (X + Y )/

√2 a pour loi

µ, alors µ = N (0, σ2) [OUVRARD tome 2, p.278-280].

Une autre caractérisation de la loi gaussienne, qui se démontre à l'aide desfonctions caractéristiques, est le théorème de Bernstein [OUVRARD tome 2

46 CHAPITRE 6. TRANSFORMÉES DE LAPLACE ET FOURIER

p.280-283] : Si X et Y sont des v.a.r. indépendantes telles que les v.a.r. X+Yet X − Y soient indépendantes, alors X et Y sont des variables gaussiennes.

Citons encore le théorème de Cramer-Lévy (à comparer au théorème deRaïkov) : Si X et Y sont des v.a.r. indépendantes telles que X +Y est gaus-sienne, alors X et Y sont des variables gaussiennes. [BJ 200]

C'est en calculant la fonction caractéristique d'un vecteur gaussien quel-conque que l'on démontre l'importante propriété suivante :Soient X et Y des vecteurs aléatoires de dimension respectives d et d′ telsque (X, Y ) est un vecteur gaussien. Alors X et Y sont indépendants si etseulement si toutes les covariances croisées sont nulles, i.e.

∀i = 1, · · · , d ∀j = 1, · · · , d′ Cov(Xi, Yj) = 0

Une application de la formule d'inversion de Fourier est le calcul de lafonction caractéristique d'une variable de Cauchy à partir de la transforméede Fourier de la densité de Laplace de paramètre a > 0 : a

2exp(−a|x|).

On en déduit alors facilement : C(a) ? C(b) = C(a+ b).

6.4 Exercices sur les transformées de Laplaceet Cramer

6.4.1 Domaine de dénition de LX

1. Vérier la valeur du domaine de dénition IX de la transformée deLaplace LX dans les cas suivants :

(a) Si X ∼ N (m,σ2) , IX = R.(b) Si X ∼ Exp(λ) , IX =]−∞, λ[.

(c) Si X ∼ Laplace(λ) (densité λ2

exp(−λ|x|) , IX =]− λ, λ[.

(d) Si X ∼ Pareto(a) (densité axa+11x≥1) , IX =]−∞, 0].

(e) Si X ∼ C(a) , IX = 0.2. Trouver un exemple de densité pour la variable X telle que IX soit un

intervalle semi-ouvert.

6.4.2 Calculs explicites de transformées de Laplace etCramer

Vérier les armations suivantes :

6.4. EXERCICES SUR LES TRANSFORMÉES DE LAPLACE ET CRAMER47

1. Si X ∼ B(p) avec p ∈]0, 1[, alors IX = R, LX(u) = peu + 1− p ,Λ∗X(u) = u log(u

p) + (1− u) log(1−u

1−p ) si u ∈ [0, 1], Λ∗X(u) = +∞ sinon.

Enn , on a ]αX , βX [=]0, 1[.

2. Si X ∼ P (λ), alors IX = R, LX(u) = exp(−λ(1− eu)),Λ∗X(u) = u log(u

λ) + λ(1− u

λ) si u ≥ 0, Λ∗X(u) = +∞ si u < 0

et ]αX , βX [=]0,+∞[.

3. Si X ∼ N (m,σ2), alors LX(u) = exp(mu+ σ2u2

2),

Λ∗X(u) = (u−m)2

2σ2 et ]αX , βX [=]−∞,+∞[.

4. Si X ∼ Exp(λ), alors LX(u) = λλ−u ,

Λ∗X(u) = λu− 1− log(λu) si u > 0, Λ∗X(u) = +∞ si u ≤ 0

et ]αX , βX [=]0,+∞[.

5. Si X ∼ C(a), alors Λ∗X(u) = +∞ si u 6= 0 et Λ∗X(0) = 0.Noter que dans ce cas, la notation ]αX , βX [ n'a pas de sens.

6.4.3 Comportement asymptotique de la transforméede Cramer

1. On suppose que IX est un voisinage de 0. Montrer que dans ce cas,

lim|a|→∞

Λ∗X(a) = +∞

Indication : Choisir u > 0 tel que ΛX(u) < ∞ et ΛX(−u) < ∞ puisutiliser la minoration :

∀a ∈ R Λ∗X(a) ≥(au− ΛX(u)

)∨(−au− ΛX(−u)

)2. Montrer que si IX = R, on a même :

lim|a|→∞

Λ∗X(a)

|a|= +∞

6.4.4 Transformée de Cramer identiquement nulle

Montrer qu'on a l'équivalence suivante :

Λ∗X ≡ 0⇔ IX = 0

Indication : Dans le sens direct, montrer que l'hypothèse implique :∀a ∈ R, ∀u ∈ R, ΛX(u) ≥ au et conclure.

48 CHAPITRE 6. TRANSFORMÉES DE LAPLACE ET FOURIER

Chapitre 7

Exemples de lois et de leurutilisation en probabilités

49

50CHAPITRE 7. EXS DE LOIS ET DE LEUR UTILISATION EN PROBABILITÉS

Chapitre 8

Les lois usuelles, leursapplications pratiques et lestechniques de simulation devariables aléatoires

Notons d'emblée que dans toutes les leçons, nous faisons comme si l'ins-truction rand de Matlab nous fournissait un générateur aléatoire parfait devariables uniformes sur [0, 1] ; faire preuve d'esprit critique à ce sujet nousmènerait en eet dans un thème très vaste...

Nous souhaitons ici simuler des variables gaussiennes centrées réduites àpartir de ces variables uniformes sur [0, 1]. Une première méthode qui découleimmédiatement du TLC consiste à poser :

X =

√12

p

( p∑i=1

Ui −p

2

),

qui nous donne approximativement une gaussienne pour p susammentgrand.

Une autre méthode, dite de Box-Muller, nous dit que, par changement devariables en coordonnées polaires, les v.a.r.

Y1 =√−2 logU1 cos(2πU2) , Y2 =

√−2 logU1 sin(2πU2)

sont exactement des variables gaussiennes centrées réduites indépendantes.Pour valider nos simulations, nous allons faire appel au test de Kolmogorov-

Smirnov dont nous allons présenter maintenant le principe.

51

52 CHAPITRE 8. LOIS USUELLES

8.1 Introduction au test de Kolmogorov-Smirnov.

Si les (Xi)1≤i≤n sont des v.a.r. i.i.d. de loi µ, on dénit leur fonction derépartition empirique par :

∀t ∈ R, Fn(t) =1

n

n∑i=1

1Xi≤t

Si F est la fonction de répartition de la loi µ et si l'on dispose maintenantd'une suite (Xi)i∈N∗ i.i.d. de loi µ, la LGN nous donne immédiatement :

∀t ∈ R, p.s., Fn(t)→ F (t)

(on peut en fait inverser le ∀t et le p.s.).Le théorème de Kolmogorov-Smirnov nous permet de contrôler la vitesse

de convergence d'une façon précise sous la seule hypothèse que µ soit diuse(i.e. F continue). On a alors :

∀u ∈ R, limn→∞

P(supt∈R

√n|Fn(t)− F (t)| ≤ u

)= 1 + 2

∞∑k=1

(−1)ke−2k2u2 .

La somme S(u) de la série de droite est tabulée : on a par exempleS(1, 22) ∼ 90%,

S(1, 358) ∼ 95%, S(1, 628) ∼ 99%. Nous admettrons qu'il est raison-nable d'estimer la limite du membre de gauche par la valeur obtenue pourn = 100.

Si l'on dispose d'un échantillon de taille 100 d'une loi ν inconnue et quel'on souhaite tester l'hypothèse H0 : ν = µ avec un niveau d'erreur asymp-totique 10% par exemple, le théorème précédent nous permet de procédercomme suit :

On calcule la f.r. empirique G100 associée à notre échantillon et on la com-pare à la f.r. F de notre loi théorique µ en estimant : supt∈R

√100|G100(t)−

F (t)|. Si la quantité obtenue est supérieure à 1,22, on rejette l'hypothèse ;sinon, on l'accepte.

8.2 Application sur machine.

1. Simuler 100 variables i.i.d. N (0, 1) par la méthode des p uniformes.

2. Tracer un graphe rendant compte de la f.r. empirique correspondante :on utilisera le fait que cette fonction croît uniquement par sauts de1/100 aux points dont les abscisses sont données par l'échantillon réor-donné ( se servir de l'instruction sort).

8.2. APPLICATION SUR MACHINE. 53

3. Représenter sur le même graphe la f.r. de la loi N (0, 1).

4. Estimer la statistique de Kolmogorov-Smirnov ; acher sa valeur et laconclusion du test pour un niveau d'erreur asymptotique de 10% (fairehelp if, help disp). On pourra faire des essais pour p = 12 puispour des valeurs plus petites.

5. Reprendre ces opérations pour la méthode de Box-Muller. On pourrareprésenter sur une même gure les graphes correspondant aux deuxméthodes diérentes (voir l'instruction subplot).

Autre activité proposée : simuler une loi de Poisson et faire un test du χ2

pour valider ou non la simulation.

54 CHAPITRE 8. LOIS USUELLES

Chapitre 9

Lois des grands nombres ; loi fortedes grands nombres, application àl'estimation

55

56 CHAPITRE 9. LGN, APPLICATION À L'ESTIMATION

Chapitre 10

Convergence en loi des variablesaléatoires réelles, le TLC et sesapplications

Le jury suggère aussi des théorèmes où apparaissent d'autres lois limitesque les gaussiennes. Par exemple, l'approximation de la loi binomiale par laloi de Poisson.

Ou encore les lois limites des extrêmes : si les (Xi) sont i.i.d. de f.r. F ,Mn = sup(X1, · · · , Xn)

p.s.−−→ ess-sup avec ess-sup= infx, F (x) = 1 ≤ ∞.

Si une suite de la forme Mn−bnan

converge vers une loi qui n'est pas uneDirac, cette loi limite ne peut prendre que trois formes (déterminées par leurf.r.) [COT 140-143] qui renvoie à Billingsley, Probability and measure, p.195

57

58 CHAPITRE 10. CVG EN LOI, TLC ET APPLICATIONS

Chapitre 11

Exemples d'utilisation de lafonction de répartition empiriquedans les problèmes demodélisation

11.1 Éléments de comparaison entre le test duχ2 et le test de Kolmogorov-Smirnov

Le test de K-S est toujours consistant (ce qui signie que la fonction puis-sance tend vers 1 lorsque n → ∞ en tout point θ ∈ Θ1) ; le test du χ2 nel'est que dans le cas d'un espace d'états ni : dès qu'il y a choix de classes(E inni), on perd cette propriété.

Le test de K-S ne peut s'appliquer qu'à une loi sur R puisqu'il fait appelà la f.r. ; par contre, le test du χ2 peut s'appliquer à des situations beaucoupplus générales (Rd ou autres) : il sut en eet partitionner l'espace en unnombre ni de classes.

[à revoir suite à discussion avec François] Dans le cas où lavraie" loi estdiérente de la loi théorique, la statistique de K-S diverge vers l'inni pluslentement que celle du χ2 : la première à vitesse proportionnelle à

√n, la se-

conde à n. En général, il faudra donc tester des échantillons plus grands parK-S que par le χ2 pour obtenir raisonnablement souvent" la bonne réponse,à savoir que l'on rejette l'hypothèse H0.

Supposons par exemple que nous soyons dans la situation suivante : nous

59

60 CHAPITRE 11. FONCTION DE RÉPARTITION EMPIRIQUE

disposons d'un n-échantillon de loi U([−√

3,√

3]) (extrémités choisies pourobtenir une loi centrée réduite) et nous voulons tester l'hypothèse H0 : Laloi µ (dont on observe un n-échantillon) vaut N (0, 1)

Notons F , resp. G la f.r. de la loi U([−√

3,√

3]), resp.N (0, 1) et désignonspar Fn la f.r. empirique de notre échantillon.

Rappelons ce qui a déjà été vu en introduction au test de Kolmogorov-Smirnov dans le TP Simulation de v.a. ; applications." :

∀u ∈ R, limn→∞

P(supt∈R

√n|Fn(t)− F (t)| ≤ u

)= 1 + 2

∞∑k=1

(−1)ke−2k2u2 .

La somme S(u) de la série de droite est tabulée ; on a par exemple :S(0, 83) ∼ 50%, S(1, 22) ∼ 90%, S(1, 36) ∼ 95%, S(1, 63) ∼ 99%.

Nous admettrons qu'il est raisonnable d'estimer la limite du membre degauche par une valeur obtenue pour n ≥ 100.

Dans notre cas particulier, pour n ≥ 100, on a :

P(supt∈R

√n|Fn(t)− F (t)| ≤ 1, 63

)∼ 0, 99.

Pour tester notre hypothèse H0 avec un niveau de conance asymptotiquede 99%, nous allons calculer supt∈R

√n|Fn(t)−G(t)| et nous rejetterons l'hy-

pothèse si cette quantité est supérieure à 1,63.Nous remarquons maintenant que nous avons l'inégalité suivante :

supt∈R

√n|Fn(t)−G(t)| ≤ sup

t∈R

√n|Fn(t)− F (t)|+ sup

t∈R

√n|F (t)−G(t)|

D'après ce qui précède, le premier terme du membre de droite sera majorépar 0,83 avec une chance sur deux ; si l'on est dans un tel cas, il est indis-pensable pour rejeter l'hypothèse que le second terme dépasse 1,63-0,83= 0,8.

Notons bien que e = supt∈R |F (t)−G(t)| est parfaitement déterminé. Onpeut facilement en calculer une valeur approchée en Matlab et l'on obtiente ∼ 0, 057.

Ainsi, si l'on veut rejeter (à raison !) avec plus d'une chance sur deux, ilest indispensable que 0, 057

√n ≥ 0, 8, ce qui nous donne n ≥ 196. On peut

dire de façon équivalente que la condition n ≥ 196 est nécessaire pour que lapuissance du test dépasse 50%.

Conclusion : les f.r. des lois U([−√

3,√

3]) et N (0, 1) n'étant pas si dié-rentes que cela, il faut un échantillon de taille relativement grande pour quele test de Kolmogorov-Smirnov puisse les distinguer.

11.1. ÉLÉMENTS DE COMPARAISON ENTRE LE TEST DU χ2 ET LE TEST DE KOLMOGOROV-SMIRNOV61

Pour terminer, notons que l'on peut construire un test de Kolmogorov-Smirnov non asymptotique. Il est basé sur l'idée suivante :

La loi de la v.a.r. Dn = supt∈R |Fn(t)− F (t)| ne dépend en réalité pas dela loi théorique sous-jacente.

Ceci est démontré par exemple dans [OUV2 119-120]. La loi de Dn esttabulée pour diérentes valeurs de n, ce qui permet de construire un test deniveau de conance donné pour un n-échantillon, même si n est petit".

On pourra trouver une table de la loi de Dn en dernière page de [DAC1

exo]. Un exemple d'application est donné en bas de la page 80 du mêmeouvrage.

62 CHAPITRE 11. FONCTION DE RÉPARTITION EMPIRIQUE

Chapitre 12

Application du test d'adéquationχ2 pour un vecteur multinomialen modélisation

12.1 Test d'adéquation à une loi donnée sur unespace d'états ni

Nous considérons n répétitions d'une même expérience aléatoire qui pro-duit un résultat dans un ensemble ni, par exemple 1, · · · , k.Nous avons des raisons de supposer que la loi sur 1, · · · , k qui gouvernecette expérience est donnée par p = (p1, · · · , pk), avec pi ≥ 0 pour tout1 ≤ i ≤ k et p1+· · ·+pk = 1, mais nous voudrions conrmer ou inrmer cettehypothèse au regard des valeurs (x1, · · · , xn) = (X1(ω), · · · , Xn(ω)) obser-vées au cours des n répétitions de l'expérience, c'est-à-dire tester l'ajustementde la réalité expérimentale à la loi dont nous avons fait l'hypothèse a priori.

Pour ce faire, une première étape consiste à introduire une sorte de dis-tance entre les lois de probabilité sur l'ensemble 1, · · · , k, l'idée étant deregarder ensuite si la loi empirique (dénie ci-dessous et calculable à partirdu résultat de l'expérience) est proche ou éloignée de la loi théorique p dontnous avons fait l'hypothèse.

Dénition 12.1.1 Soient p et q deux lois de probabilité sur 1, · · · , k. Onappelle pseudo-distance du χ2 entre p et q la quantité :

dχ2(p, q) =k∑i=1

(pi − qi)2

pi

63

64 CHAPITRE 12. TEST DU χ2

On parle de pseudo-distance du χ2 car ce n'est pas du tout une distanceau sens des espaces métriques : elle n'est visiblement pas symétrique et il estfacile de constater qu'elle ne vérie pas non plus l'inégalité triangulaire. Enréalité, son seul rapport avec une distance est la propriété suivante :

dχ2(p, q) = 0⇔ p = q

Remarquons que cette pseudo-distance a tendance a surévaluer les diérencesentre p et q sur les entiers i où pi est petit : nous chercherons à limiter cephénomène dans la suite en imposant des conditions telles que npi ≥ 5 pourtout i ∈ 1, · · · , k.

La deuxième étape de construction du test qui va nous permettre deconrmer ou inrmer notre hypothèse consiste à comparer la loi théorique pavec la loi empirique pn que nous dénissons comme suit :

Dénition 12.1.2 Si (X1, · · · , Xn) est la variable aléatoire modélisant lesn répétitions de notre expérience, nous posons :

∀i ∈ 1, · · · , k, N in =

n∑j=1

1Xj=i

Nous appelons alors loi empirique et nous notons pn la loi sur 1, · · · , kdénie par :

∀i ∈ 1, · · · , k, pin =N in

n

Notons que la valeur de pn dépend du résultat ω de l'expérience, d'où lequalicatif empirique. En toute rigueur, c'est d'ailleurs pn(ω) (et non pas pn)qui est une loi de probabilité sur 1, · · · , k.

Dénition 12.1.3 On appelle χ2 d'ajustement la variable aléatoire suivante :

ndχ2(p, pn) = n

k∑i=1

(pi − pin)2

pi=

k∑i=1

(npi −N in)2

npi

Rappelons maintenant la dénition de la loi du χ2 à d degrés de liberté.Nous noterons ‖ · ‖ la norme euclidienne dans Rd.

Dénition 12.1.4 Considérons Z = (Z1, · · · , Zd) un vecteur aléatoire dontles composantes sont i.i.d. de loi commune N (0, 1).Alors la loi de la v.a.r. ‖Z‖2 est appelée loi du χ2 à d degrés de liberté etnotée χ2(d). Elle est égale à la loi γ(1

2, d

2) et admet donc pour densité :

g 12, d2(x) =

1

2d2 Γ(d

2)e−

x2x

d2−11R∗

+(x)

12.1. UNE LOI DONNÉE SUR UN ESPACE D'ÉTATS FINI 65

Le résultat essentiel qui va nous permettre de construire le test dit du χ2

est le suivant :

Proposition 12.1.5 (Pearson) Si pour tout n ∈ N∗, le vecteur aléatoire(X1, · · · , Xn) suit la loi p⊗n, alors la convergence suivante a lieu :

ndχ2(p, pn)L−−−−→

n→+∞χ2(k − 1)

Démonstration: La démonstration de ce résultat, que le lecteur pourraconsulter dans [BC 254], fait appel à la version vectorielle (ou multivariée)du théorème-limite central.Remarquons simplement que si (X1, · · · , Xn) suit la loi p⊗n, c'est-à-dire si lesvariables Xi sont i.i.d. et de loi commune p, alors le théorème-limite central(en dimension 1) implique la convergence suivante :

N in − npi√npi

L−−−−→n→+∞

N (0, 1− pi)

Il est alors assez intuitif que la loi limite du χ2 d'ajustement, c'est-à-dire dela variable suivante :

ndχ2(p, pn) =k∑i=1

(N in − npi√npi

)2

soit une loi du χ2 mais on pourrait penser que celle-ci a k degrés de liberté,alors que la vraie loi limite est χ2(k − 1). En fait, la perte d'un degréde liberté peut se comprendre en constatant que nos variables ne sont pastotalement libres puisqu'il existe entre elles la relation linéaire suivante :

k∑i=1

(N in − npi) = 0

La proposition de Pearson nous dit donc que, si l'expérience est bien

gouvernée par la loi p supposée, alors le χ2 d'ajustement suit une loi prochede χ2(k−1) lorsque le nombre n de répétitions de l'expérience devient grand.

En revanche, si l'expérience est en réalité régie par une loi q 6= p, alorsil existe 1 ≤ i ≤ k tel que qi 6= pi et la loi des grands nombres implique laconvergence suivante lorsque n tend vers l'inni :

dχ2(p, pn) =k∑i=1

(pi − pin)2

pip.s.−−→ dχ2(p, q) > 0

66 CHAPITRE 12. TEST DU χ2

d'où nous déduisons le comportement asymptotique du χ2 d'ajustement :

ndχ2(p, pn)p.s.−−→ +∞ (12.1)

C'est la diérence entre ces deux comportements asymptotiques qui vanous permettre de tester l'hypothèse H0 :L'expérience est gouvernée par laloi p contre l'hypothèse alternative H1 :L'expérience est gouvernée parune loi q 6= p . Passons à la construction eective du test :

Si nous notons Fk−1 la fonction de répartition de la loi χ2(k − 1), nousprouvons facilement que Fk−1 est une bijection de R+ sur [0, 1[ en constatantque la densité de la loi χ2(k− 1) est strictement positive sur R∗+ et nulle surR−.Par conséquent, pour tout α ∈]0, 1], il existe un unique cα ∈ R+ tel queχ2(k − 1) (]cα,+∞[) = α et l'on a cα = F−1

k−1(1− α).Si l'hypothèse H0 est réalisée, donc si l'expérience est régie par la loi p, laproposition de Pearson implique (la loi χ2(k − 1) n'admettant pas de masseponctuelle) que la convergence suivante a lieu lorsque n tend vers l'inni :

Pp (ndχ2(p, pn) > cα) −→ α (12.2)

En revanche, si c'est l'hypothèse H1 qui est réalisée, donc si l'expérience estgouvernée par une loi q 6= p, alors le comportement asymptotique (12.1)entraîne la convergence suivante lorsque n tend vers l'inni :

Pq (ndχ2(p, pn) > cα) −→ 1 (12.3)

Nous pratiquons donc notre test comme suit :Nous choisissons une valeur α ∈]0, 1] (typiquement α est petit car, commenous allons le voir, il représente le niveau d'erreur du test) et nous en dédui-sons la valeur cα. Pour le résultat ω de l'expérience que nous observons, nouscalculons la valeur du χ2 d'ajustement :

ndχ2(p, pn(ω)) =k∑i=1

(npi −N in(ω))2

npi

Nous comparons alors cette valeur à cα pour conclure : Si ndχ2(p, pn(ω)) > cα, alors nous rejetons l'hypothèse H0. Si ndχ2(p, pn(ω)) ≤ cα, alors nous acceptons l'hypothèse H0.

De façon générale, lorsque nous pratiquons un test statistique, notreconclusion peut être erronée de deux façons diérentes :

12.1. UNE LOI DONNÉE SUR UN ESPACE D'ÉTATS FINI 67

Erreur de 1ère espèce : Je rejette l'hypothèse H0 alors qu'elle est satisfaiteen réalité. Sa probabilité est appelée risque de première espèce ou risque α.Erreur de 2nde espèce : J'accepte l'hypothèse H0 alors qu'elle n'est passatisfaite en réalité. Sa probabilité est appelée risque de seconde espèce ourisque β.

Dans de nombreuses situations pratiques, ces deux types d'erreurs nesont pas symétriques et l'on choisit alors systématiquement l'hypothèse H0

de sorte que l'erreur de première espèce soit plus grave que l'erreur de se-conde espèce. Par exemple, si je teste le câble d'un ascenseur supposé pouvoiraccueillir 10 personnes (750kg) et si je note M la masse critique à partir delaquelle le câble casse, je choisirai H0 =M≤750 et H1 =M> 750 et nonl'inverse. L'erreur de 1ère espèce conduirait des usagers de l'ascenseur augrand plongeon : c'est ce risque que je veux absolument maîtriser. L'erreurde 2nde espèce conduirait à des réparations inutiles sur l'ascenseur : je veuxl'éviter mais elle est moins grave que la première.

Dans le test du χ2 que nous venons de construire, la convergence (12.2) setraduit comme suit : la probabilité de commettre une erreur de 1ère espèceest asymptotiquement égale à α. On dit qu'on a construit un test de niveaud'erreur asymptotique α (ou de niveau de conance asymptotique 1− α).Quant à la convergence (12.3), sa traduction est plus vague : lorsque n de-vient grand, la probabilité de commettre une erreur de 2nde espèce devientpetite mais nous ne maîtrisons pas la vitesse à laquelle cette convergence seproduit. On dit que la puissance du test, c'est-à-dire la probabilité de rejeterl'hypothèse H0 quand elle n'est eectivement pas satisfaite dans la réalité,tend vers 1 lorsque n tend vers l'inni, ou encore que le test est convergent.

La proposition 12.1.5 énonçant un résultat asymptotique, quand pouvons-nous considérer qu'elle donne une bonne approximation dans la pratique ? Laréponse, basée sur des considérations empiriques, consiste à exiger que n ≥ 30et que tous les eectifs théoriques soient supérieurs ou égaux à 5. Voici l'idéede la justication théorique de cette deuxième exigence (le choix du nombre5 comme seuil étant empirique) :

Quand on approche une binomiale B(n, p) par une gaussienne via le TLC,le théorème de Berry-Esseen nous donne pour borne de la diérence entrela vraie fonction de répartition et la fonction de répartition gaussienne unequantité de la forme : C(p2 + (1− p)2)/

√np(1− p).

Ceci suggère que l'approximation pourrait ne pas être bonne lorsque npest petit. On vérie numériquement que cette diculté existe bel et bien etque dans ce cas, on a plutôt intérêt à faire une approximation par la loi dePoisson de paramètre λ = np.

68 CHAPITRE 12. TEST DU χ2

Le même phénomène se reproduit dans le contexte du χ2 qui est lui aussibasé sur une convergence vers une loi gaussienne donnée par le TLC vecto-riel : si l'un des eectifs théoriques npi est trop petit (< 5 empiriquement),l'attraction poissonnienne vient supplanter l'attraction gaussienne et la loidu χ2 n'est pas une bonne approximation de la loi réelle du χ2 d'ajustement.

Notons que la condition npi ≥ 5 pour tout i = 1, · · · , k entraîne n ≥ 30 dèsque le cardinal k de l'espace d'états est supérieur ou égal à 6 ; il faudra doncêtre vigilant simplement dans le cas d'un espace d'états petit.Retenons que nous pouvons utiliser le test du χ2 lorsque la règle empiriquesuivante est satisfaite :

n ≥ 30 et ∀i = 1, · · · , k, npi ≥ 5 (12.4)

Exemple : Un exemple classique d'application du test du χ2 consiste àvérier la validité du raisonnement mené par Mendel [REV 168].

Exercice : Pile ou face biaisé ou non ? On eectue 200 jets d'unepièce de monnaie et l'on obtient 110 piles. Tester l'hypothèse H0 :La pièceest équilibrée par un χ2 d'ajustement de niveau asymptotique 5% .Reprendre l'exercice avec 2000 jets donnant lieu à 1100 piles.

12.2 Test d'adéquation à une loi donnée sur unespace d'états inni

Nous souhaitons maintenant généraliser le test du χ2 au cas où l'ensembleE des résultats possibles pour l'expérience est inni. Nous pouvons alorsadapter notre méthode comme suit :Nous choisissons une partition nie (E1, · · · , Ek) de l'ensemble E. Si ν est laloi sur E supposée gouverner l'expérience, nous posons pi = ν(Ei) et nouscomptons maintenant le nombre de fois où l'on tombe dans la classe Ei aucours des n répétitions de l'expérience :

N in(ω) =

n∑j=1

1Xj(ω)∈Ei

Le reste du test se déroule comme précédemment.Notons qu'avec cette méthode, nous ne testons pas réellement l'adéquationdes données empiriques à la loi ν mais uniquement leur adéquation aux va-leurs de ν sur les diérentes classes Ei. Ce test ne peut distinguer deux lois

12.3. FAMILLE DE LOIS SUR UN ESPACE D'ÉTATS FINI 69

qui chargent les classes Ei de la même façon.

Le choix des classes Ei n'est pas du tout innocent puisque la règle em-pirique (12.4) doit être respectée. Ainsi, les eectifs théoriques npi des dif-férentes classes Ei doivent être tous supérieurs ou égaux à 5 (noter que npiest appelé eectif théorique car c'est l'espérance de N i dans le cas où l'ex-périence est vraiment gouvernée par la loi ν). L'hypothèse n ≥ 30 n'est àvérier que si l'on a moins de cinq classes.

Le livre Goodness-of-t technique de D'Agostino et Stephens , éditionsDekker, fournit d'autres renseignements intéressants sur le choix des classes ;il est néanmoins compliqué de les justier théoriquement. En particulier, unesituation avantageuse est celle où les classes sont choisies équiprobables sousl'hypothèse nulle, i.e. telles que tous les eectifs théoriques npi soient égaux(page 69) : le test est en eet alors sans biais et des études empiriques ontmontré que l'approximation de la vraie loi de notre statistique sous H0 parla loi du χ2 (qui est la loi limite) était particulièrement bonne dans de cadre.Nous n'insisterons pas plus sur ce sujet qui concerne plus les statisticiensorfèvres du test du χ2 que les agrégatifs.

Exercice : Avec une loi non discrète. Après 1000 répétitions d'uneexpérience, on obtient la répartition suivante dans diérentes classes :Classe : [0 ; 0,5] ]0,5 ;1] ]1 ; 1,5] ]1,5 ;2] ]2 ; 2,5] ]2,5 ;3] ]3 ; 3,5] ]3,5 ;4]Eectif : 197 220 112 115 71 94 61 45

Classe : ]4 ; 4,5] ]4,5 ;5] ]5 ; 5,5] ]5,5 ;6]Eectif : 36 24 9 16

Appliquer un test d'ajustement de niveau voisin de 1% pour la loi ν dénieainsi : soit X une v.a. uniforme sur 0, · · · , 6 et Y une v.a. indépendantede X et uniforme sur [0,1] ; alors ν est la loi de XY .

12.3 Test d'adéquation à une famille de lois surun espace d'états ni

12.3.1 Principe général

L'idée est de faire d'abord une estimation du paramètre θ par un certainestimateur θn puis de tester l'ajustement à la loi obtenue pour cette valeurdu paramètre en appliquant la méthode habituelle de la première section.

70 CHAPITRE 12. TEST DU χ2

On dispose d'un théorème général nous disant que si θn est un estima-teur du maximum de vraisemblance (EMV) , sous certaines hypothèses derégularité, on garde la convergence mais vers une loi du χ2(r − 1 − k), oùr est le cardinal de l'espace d'états et k le nombre de paramètres préala-blement estimés (on perd donc autant de degrés de liberté que l'on estimede paramètres). La démonstration de ce théorème fait appel à des notionsstatistiques qui ne sont pas au programme [DAC2 cours 112-114]

On peut néanmoins faire une démonstration ad hoc dans deux cas parti-culiers : le test de symétrie [TOU 134-137] et le test d'indépendance [TOU138-141].

12.3.2 Cas particulier : Test du χ2 d'indépendance

Exercice : Un examen est ouvert à des candidats qui ont suivi des lièresdiérentes : économie, informatique, mathématiques. On désire savoir si lechoix d'une lière par un étudiant inue sur sa réussite à cet examen. Pourcela, on dispose des résultats obtenus l'année précédente par 286 étudiantsd'origines diverses ; on les a regroupés dans le tableau suivant :

Eco Info MathsSuccès 41 59 54Echec 21 36 75

Avec un niveau de conance voisin de 5%, quelle est votre conclusion ?

Pour des compléments sur le test du χ2, par exemple dans le cas del'ajustement à une famille de lois, le lecteur peut consulter le tome 1 du livrede cours Probabilités et statistiques par Dacunha-Castelle et Duo, éditionsMasson, chapitre 5 intitulé `Échantillons gaussiens, régression et analyse dela variance', paragraphe intitulé `Le test du χ2' (pages 135 à 137 dans la2ème édition).

12.4 Test d'adéquation à une famille de lois surun espace d'états inni

Ce cas est dicile, même si l'espace d'états est simplement dénombrable :par exemple, l'ajustement à une famille de lois de Poisson P (θ) avec estima-tion de θ par la moyenne empirique des données nous donne une convergencedu χ2 d'ajustement vers une loi limite qui n'est plus une loi du χ2 !

Comme dans la section 12.2, on commence par se ramener au cas espaced'états ni en partitionnant l'espace d'états en un nombre ni de classes...et

12.4. FAMILLE DE LOIS SUR UN ESPACE D'ÉTATS INFINI 71

l'on a toujours la diculté du choix. Mais à cette étape du traitement du pro-blème apparaît une diculté supplémentaire quand il s'agit d'estimer θ. Eneet, nous étant ramenés au cas ni, nous pouvons appliquer le théorème dela section 12.3, à condition de prendre pour θn un EMV correspondant à nosNOUVELLES données, i.e. celles qui nous précisent uniquement les numérosdes classes auxquelles appartiennent nos données de départ. Formellement, sinotre échantillon de départ s'écrivait (X1, · · · , Xn), nous devons maintenantremplacer les données Xi par les

Yi =r∑j=1

j 1Xi∈Cj,

où C1, · · · , Cr sont les classes formant notre partition nie.Or calculer un EMV pour ces données-là devient très dicile voire impos-

sible ! Dans la pratique, on remplace donc θn par un EMV θn sur les donnéesinitiales (par exemple la moyenne empirique dans le cas d'une famille de loisde Poisson) mais ce n'est pas du tout anodin !

On peut montrer que dans ce cas, le χ2 d'ajustement converge toujoursen loi mais vers une autre loi qui est celle d'une v.a.r. de la forme :

r−k−1∑i=1

Y 2i +

r−1∑i=r−k

λiY2i ,

où les Yi sont i.i.d. N (0, 1) et les λi sont des coecients compris entre 0 et 1.Si l'on calcule notre région de rejet ]cα,+∞[ pour un niveau de conance

1 − α sur la base d'une loi limite χ2(r − k − 1), on va donc commettre uneerreur ; un instant de réexion nous permet de constater que le niveau deconance réel 1− α∗ du test ainsi construit va être inférieur au niveau 1− αdésiré.

Néanmoins, dans certains cas, l'erreur sera peu importante. Par exemple,dans le cas d'une famille de lois de Poisson P(θ), une simulation avec lesclasses C1 = 0, C2 = 1, C3 = 2, 3, 4, · · · et le niveau d'erreur souhaitéα = 0.05 va donner lieu lorque les données suivent en fait une loi P(1) à unniveau d'erreur réel α∗ = 0.054.

Par contre, dans le cas d'une famille gaussienne N (µ, σ2) avec θ = (µ, σ2),une simulation avec les classes ]−∞,−1], ]− 1, 0], ]0, 1], ]1,+∞[ et α = 0.05donne pour un échantillon de loi N (0; 6.25) un niveau réel d'erreur α∗ ≥ 0.12.

On s'est donc éloigné du but d'une façon plus ennuyeuse dans ce cas. Onpeut estimer numériquement les coecients qui déterminent la vrai loi limiteet l'on trouve λ1 ∼ 0.8 et λ2 ∼ 0.2. Grossièrement, le premier coecient

72 CHAPITRE 12. TEST DU χ2

étant proche de 1 et le second assez petit, on peut dire que la vraie loi limiteressemble plus à une χ2(2) qu'à la loi χ2(1) utilisée pour calculer la régionde rejet ; l'erreur commise devient donc non négligeable.

Le lecteur souhaitant des détails sur cette question peut consulter l'article(daté de 1954) de Cherno et Lehmann intitulé "The use of maximum like-lihood estimates in χ2 tests for goodness of t" dans la revue "The Annalsof Mathematical Statistics" volume 25 pages 579-586.

Une référence rigoureuse sur le test du χ2 : "Asymptotic Statistics" parVan der Vaart, Cambridge University Press

12.5 Illustrations numériques

Appliquer le test de base du χ2 à l'expérience de Mendel [REV 168].

Simuler la loi multinomialeM(n; p1, · · · , pk) [BC 301].

Illustrer la convergence énoncée par Pearson dans le cas favorable (npi ≥ 5)puis dans le cas défavorable (∃i, npi < 5) en faisant une comparaison entrehistogramme et densité du χ2.

Tester le générateur aléatoire (d'une loi U([0, 1])) de Matlab.

Appliquer le test d'indépendance du χ2 sur un exemple donné.

Chapitre 13

Modélisation d'une durée de vieet application à la abilité

73

74 CHAPITRE 13. DURÉE DE VIE, FIABILITÉ

Chapitre 14

Applications de la théorie deschaînes de Markov à espaced'états ni

75

76 CHAPITRE 14. CHAÎNES DE MARKOV SUR ESPACE FINI

Chapitre 15

À partir d'un problème issu de lamodélisation, présenter etillustrer la méthode de MonteCarlo pour le calcul d'intégralesmultiples

77

78 CHAPITRE 15. MÉTHODE DE MONTE CARLO

Chapitre 16

Évolution de la taille d'unepopulation lorsque la loi dereproduction est homogène

[REV 63-65][extinction probabilities in branching processes dans FELLER][COT 72-74 et 305-307]

79

80CHAPITRE 16. ÉVOLUTION DE LA TAILLE D'UNE POPULATION

Chapitre 17

Modèle linéaire gaussien ;utilisation en situation demodélisation

81

82 CHAPITRE 17. MODÈLE LINÉAIRE GAUSSIEN

Chapitre 18

Simulations en Matlab

18.1 Introduction à Matlab

18.1.1 Création d'une fonction.

Pour créer une fonction MATLAB, on pourra suivre la procédure sui-vante :

1. Ouvrir un chier M-le (barre de commande supérieure : File→ New→ M-le).

2. Écrire dans ce chier les diérentes instructions qui vont dénir la fonc-tion désirée Nom-Fonction.La 1ère ligne est nécessairement de la forme : function y = Nom-Fonction(x),puis, après un retour à la ligne, une succession de commandes appelantà un moment ou à un autre l'argument x. Le résultat de Nom-Fonctionsera y.Il n'est pas nécessaire qu'une fonction appelle un argument. Dans cedernier cas, la syntaxe est simplement : function y = Nom-Fonction.Dans le cas du tracé d'une gure, il n'est pas non plus nécessairede donner un nom au résultat : la 1ère ligne se réduit à : functionNom-Fonction(x) ou function Nom-Fonction.

3. Sauvegarder le chier (barre de commande supérieure : File→ Save as...→ taper Nom-Fonction.m). Il est essentiel de donner le même nom auchier qu'à la fonction.

4. Revenir à la fenêtre de commande -c'est-à-dire la feuille de calcul- (cher-cher dans la barre de commande supérieure : Windows → MATLABCommand Window).

83

84 CHAPITRE 18. SIMULATIONS EN MATLAB

5. Exécuter le programme Nom-Fonction en appelant directement la fonc-tion Nom-Fonction dans la feuille de calcul au même titre désormaisque les autres fonctions classiques.

Ne pas hésiter à travailler simultanément sur un M-le et sur la feuillede calcul. Vous pouvez également utiliser les raccourcis clavier ( touches"Ctrl-quelque chose") au lieu de cliquer avec la souris.

Au cours de l'écriture d'une fonction, on gagne souvent à procéder parétapes en faisant un test à chaque fois. Si le signe % est placé devant uneligne, Matlab la passera sans l'exécuter (pratique pour faire des tests).

Pour connaître la dénition ou la syntaxe d'une fonction prédénie Matlab-Fonction,taper help Matlab-Fonction dans la feuille de calcul (très utile !). Pour serenseigner sur un thème, par exemple l'intégration, taper lookfor integration.

Lorsque Matlab exécute un programme, il ache toutes les variables in-termédiaires (ce qui peut prendre du temps !) ; pour éviter cela, taper unpoint-virgule à la n d'une ligne d'instruction permet de masquer toutes lesvariables intermédiaires qu'elle contient.

18.1.2 Commandes de base.

1. Le calcul matriciel. Matlab utilise comme objet élémentaire les ma-trices.

De façon caricaturale, un nombre réel est une matrice 1× 1. De même,un vecteur est une matrice n× 1 (ou 1× p).Si a = (aij) est une matrice n × p, alors a(i,j) désigne l'élémentaij. Les opérations usuelles sur les matrices se font avec les opérateurshabituels +,−, ∗, / (multiplication par l'inverse à droite ) lorsque celaa un sens.

Noter que si a est une matrice et λ est un scalaire, l'opération a +

lambda a un sens et désigne la matrice (aij + λ). Idem pour a-lambda,a*lambda ou a/lambda.

Les valeurs des matrices sont saisies entre crochets, ligne par ligne, leslignes sont séparées par des points-virgules. Ainsi, taper a=[1,2;3,4]crée la matrice

a =

(1 23 4

).

Pour dénir une sous-matrice, on utilise un double point : si a est lamatrice a = (1, 7, 3, 6, 5, 2, 4), alors b = a(3:6) crée la matrice b =(3, 6, 5, 2) (i.e. on ne prend que les éléments de la 3e à la 6e colonne).

18.1. INTRODUCTION À MATLAB 85

Inversement, on peut concaténer deux matrices a et b en créant c=[ab].

Voici d'autres fonctions matricielles utiles (chercher la syntaxe grâceà l'instruction help) : sum, prod(somme, produit des éléments d'unvecteur), '(transposition), norm(diérentes normes matricielles suivantla syntaxe) ...

Certains types de matrices sont prédénis : eyes(n) (matrice identitén × n), ones(m,n) (matrice m × n dont tous les éléments sont des1) , zeros(m,n) (matrice nulle m× n). Pour déclarer à Matlab qu'unematrice A est de taille m×n, on peut par exemple taper A=zeros(m,n)puis modier les coecients de la matrice dans la suite du programme.Réciproquement, la fonction length() renvoie le nombre d'élémentsd'un vecteur et la fonction size() la taille d'une matrice.

2. Fonctions statistiques. L'instruction help stats fournit l'ensembledes fonctions statistiques disponibles dans Matlab.A connaître absolument : rand(m,n)(respectivement randn(m,n)) quisimule une matrice m × n dont les éléments sont (censées être...) desréalisations de variables indépendantes, uniformes sur [0, 1] (resp. gaus-siennes centrées réduites).

La fonction cumsum() calcule la somme cumulée des éléments d'unvecteur.

Voir aussi mean() pour le moyenne arithmétique d'un vecteur ligne.

3. Boucles, incrémentation. La syntaxe pour une boucle de i = 1 à nest la suivante :

for i=1:n

instruction

. . .

instruction

end .

La commande z=(a:pas:b) crée le vecteur z dont les éléments sont lesa+ ipas,

0 ≤ i ≤ [(b− a)/pas].

4. Graphisme. Voici la commande fondamentale : si X et Y sont deuxvecteurs, plot(X,Y,'g') reliera par un trait de couleur verte (g=green)les points (X(i), Y (i)).

Le vecteurX est souvent de la forme z=(a:pas:b) ou encore linspace(a,b,n),

86 CHAPITRE 18. SIMULATIONS EN MATLAB

vecteur de taille n constitué de points régulièrement espacés entre a etb.

Voir aussi line, qui permet de tracer une ligne (utile pour le repré-sentation de niveaux xes pour des simulations ; faire help line pourconnaître la syntaxe...pas forcément naturelle).

Si l'on veut représenter plusieurs graphes sur une même gure, il faututiliser la fonction hold, faute de quoi Matlab créra une nouvelle gurepour chaque graphe.

Il est prudent, lorsque l'on crée une fonction qui produira une gure,de placer au début du programme l'instruction clf qui réinitialiseral'écran graphique.

Pour insérer du texte en mode graphique, utiliser title, xlabel ouylabel(consulter help pour connaître leurs usages).

5. Saisie de variables. L'instruction x=input('question') va entraînerl'achage de question sur la feuille de calcul lors de l'exécution duprogramme ; la réponse entrée par l'utilisateur sera alors enregistréecomme valeur de x.

6. Fonctions numériques. L'usage des fonctions est standard, ainsi quele syntaxe . Voir par exemple sqrt(), log10(), abs(). La fonction"partie entière" s'écrit floor().

18.2 Illustrations numériques de la LGN

On propose trois applications. (Les programmes sont très similaires ; iln'y a qu'un seul programme à réaliser eectivement.)

18.2.1 Première illustration

On simule n variables aléatoires X1, . . . , Xn I.I.D. de loi commune µ telleque m =

∫R xµ(dx) < ∞. (Penser à des exemples simples : loi uniforme,

exponentielle, . . .). On veut montrer que la suite de variables aléatoires Xn =1n

∑ni=1Xi converge vers m, i.e. on veut mettre en évidence une stabilisation

numérique.

1. Simuler X1, . . . , Xn.

2. Calculer Xi, pour i = 1, . . . , n.

3. Représenter graphiquement la suite Xi, ainsi qu'une droite horizontalede hauteur m. On conseille une échelle logarithmique en abscisses.

18.2. ILLUSTRATIONS NUMÉRIQUES DE LA LGN 87

4. Étude des uctuations de Xn autour de la moyenne : représenter deuxbandes en qui correspondent aux bornes de conance asymptotiquesfournies par le Théorème central limite, et ceci, à un niveau de conanceα donné (par exemple, α = 0, 05 ou α = 0, 01)

5. Pour une suite de variables bornées, on peut utiliser l'inégalité de Che-byshev exponentielle pour obtenir des déviations exponentielles : dansle cas où les Xi vérient Xi ≤ C p.s., pour λ > 0, proposer une majo-ration grossière de exp−λnt (E exp(λX1))n, et, en minimisant enλ, déduire des bornes de conance non-asymptotiques pour la quantité|Xn −m|. Comparer avec le point précédent.

18.2.2 Seconde illustration

Dans le même cadre, on s'intéresse au calcul numérique de l'intégraleI(ϕ) =

∫R ϕ(x)µ(dx) (penser simple ici pour µ, par exemple la loi uniforme

µ(dx) = 1[0,1](x)dx).Cependant, la fonction ϕ peut être une fonction présentant une (des)

singularité(s), ce qui rend compliqué un calcul approché par une méthodenumérique standard (par exemple la méthode des rectangles ou un calculexplicite de la primitive de ϕ si µ admet une densité par rapport à la mesurede Lebesgue).

On veut montrer que la quantité Xn nous fournit une bonne approxima-tion de I(ϕ). Un choix typique de ϕ peut être une fonction présentant unesingularité (e.g. x 7→ 1√

1−x2 ce qui permet un calcul approché de π), des dis-continuités ou tout simplement une fonction régulière au sens de l'analyse,mais oscillante, ce qui rend le calcul numérique plus compliqué : par exemplex 7→ sin(1000πx).

1. Simuler X1, . . . , Xn ∼I.I.D. uniformes.

2. Calculer I(1)n (ϕ) = 1

n

∑ni=1 ϕ(Xi).

3. Calculer I(2)n (ϕ) = 1

n

∑ni=1 ϕ(i/n). Comparer I(1)

n (ϕ) et I(2)n (ϕ).

Exemple : Le volume de la boule unité dans Rd vaut : Si d = 2p+ 1, avec p ∈ N, V2p+1 = 22p+1p!πp/(2p+ 1)! Si d = 2p, avec p ∈ N∗, V2p = πp/p!

Le maximum est obtenu pour d = 5, ce qui n'est pas intuitif.

Ne pas hésiter à étudier aussi des exemples où la méthode stochastiqueest plus mauvaise qu'une méthode déterministe (cas de fonctions régulièresdont les dérivées ne sont pas trop grandes). D'un point de vue théorique,

88 CHAPITRE 18. SIMULATIONS EN MATLAB

comparer les intervalles de conance non-asymptotiques (inégalité de typeMarkov exponentielle) ou asymptotiques (TLC) avec les erreurs des méthodesdéterministes.

18.2.3 Troisième illustration

On simule maintenant Yi = |Xi|1−α, 1 ≤ i ≤ n avec X1, · · · , Xn i.i.d.suivant la loi de Cauchy de paramètre 1 et 0 < α < 1. Constater que laconvergence de Yn est d'autant plus lente que α est proche de 0 en représen-tant sur un même graphique la suite (Yi) pour diérentes valeurs de α.

Remarque: On peut aussi illustrer la non-convergence de Xn lorsque µn'est pas intégrable (loi de Cauchy par exemple), mais étudier la non-convergenced'une méthode numérique est plus délicat.

18.3 Théorème central limite

On propose deux illustrations numériques. Cette fois-ci encore, il n'y aqu'un seul programme à réaliser eectivement ; le programme de la secondeillustration est très proche de celui de la leçon Loi des grands nombres.Noter qu'on ne propose pas ici l'utilisation du test du χ2 (on attendra laleçon proprement dite), mais que c'est un bon endroit pour le caser. (On yreviendra.)

18.3.1 Les commandes Matlab utilisées

On n'introduira que quelques fonctions statistiques supplémentaires :

La fonction hist() permet de tracer l'histogramme des eectifs dans dif-férentes classes des points d'un vecteur X mais elle présente un inconvénient :c'est Matlab qui choisit les extrémités de ces classes et les impute en vecteurdes abscisses, ce qui ne nous simplie pas la tâche lorsqu'on veut superposerun graphe à cet histogramme.

Plus maniable est la fonction histc() qui nous permet de choisir cevecteur des abscisses (extrémités des classes rangées par ordre croissant),noté EDGES dans l'aide Matlab, à ceci près qu'elle ne nous renvoie pas legraphe de l'histogramme mais simplement un vecteur N=histc(X,EDGES)

qui nous donne les eectifs dans chacune des classes des points de X.Si l'on veut tracer l'histogramme correspondant, il faut exécuter en plus

l'instruction :

18.3. THÉORÈME CENTRAL LIMITE 89

bar(EDGES,N,'histc') (attention, il y a une coquille dans help histc

au sujet de cette instruction !).Il n'y a alors aucun problème pour superposer un graphe (par exemple

celui d'une densité) à condition de faire hold puis plot(EDGES,...).

La fonction erf() dénie par

erf(x) =2√π

∫ x

0

e−u2

du

fournit la fonction de répartition d'une gaussienne à transformation aneprès ; voir aussi inverf() qui inverse la fonction erf() et permet de calculerdes intervalles de conances ; pour mémoire et pour la suite, aller voir la fonc-tion chi2cdf(x,ν) qui calcule la probabilité pour qu'une variable aléatoiredistribuée suivant une loi du χ2 à ν degrés de liberté soit inférieure à x etson inverse chi2inv().

Pour le graphisme, se souvenir que x=a:pas:b crée un vecteur de tailleb(b − a)/pasc dont les éléments sont précisément les a + ipas ; utiliser lafonction hold() pour conserver une gure.

Pour améliorer la présentation d'un programme, on peut utiliser la fonc-tion input(), qui permet de demander à l'utilisateur d'entrer un paramètrede la fonction.

18.3.2 Première illustration

On simule n variables aléatoires approximativement gaussiennes par laméthode des N uniformes (célèbre pour N = 12) : X1, . . . , Xn. On estime ladensité de la somme par un histogramme ainsi que le fonction de répartitionempirique qu'on compare avec le résultat théorique de la gaussienne.

1. Simuler X1, . . . , Xn par la méthode des N uniformes pour N = 12.

2. Représenter graphiquement l'histogramme des fréquences pour dié-rents choix de fenêtres -on reviendra sur ce point- et la densité gaus-sienne sur le même graphique.

3. Représenter graphiquement la fonction de répartition empirique Fn(x) =1n

∑ni=1 1Xi≤x calculée à l'aide des données et la fonction de répartition

gaussienne sur le même graphique.

4. Faire varier N .

18.3.3 Seconde illustration

Dans le même cadre, on s'intéresse à la précision des estimateurs fourniepar le TLC dans un problème d'estimation statistique simple.

90 CHAPITRE 18. SIMULATIONS EN MATLAB

1. SimulerX1, . . . , Xn ∼I.I.D. de loi pθ(x)dx = eθ−x1[θ,+∞[(x)dx. On simuledonc l'expérience suivante : on observe un n-échantillon de la loi dedensité pθ (modèle exponentiel de translation) et on cherche à estimerle paramètre inconnu θ ∈ R.

2. calculer E(X1) et en déduire un estimateur θn de θ basé sur l'observa-tion du vecteur (X1, . . . , Xn) qui converge vers θ. Dans quel sens ?

3. On veut raner les propriétés de θn. Calculer la loi limite de√n(θn−θ)

via le TLC.

4. Calculer θn et représenter graphiquement θn en fonction de n.

5. Indiquer sur le même graphique les bornes de conance asymptotiquesdonnées par le TCL pour diérents niveaux de conance.

6. (Éventuellement) comparer ces résultats à des bornes non-asymptotiquesvia des inégalités exponentielles.

18.3.4 Méthode de rejet, le cas général

On reprend les notations du cas simple. Le principe consiste à simulerl'abscisse Vn à une échelle adaptée à f . On suppose qu'on sait facilementsimuler la loi g(x)dx, où g est une densité qui vérie

f(x) ≤ ag(x), ∀x ∈ R

pour une constante a ≥ 1. Alors, si

T = infn ≥ 1, ; aUng(Vn) ≤ f(Vn),

(la v.a. T est p.s. nie et suit une loi géométrique, même calcul que précé-demment), la v.a. VT = VT (ω)(ω) suit la loi f(x)dx. En eet

PaUng(Un) ≤ f(Vn) = P

(Un ≤

f

ag(Vn)

)=

1

a

∫Rf(v)dv =

1

a,

d'après les calculs -analogues- du cas simple. Puis, pour ϕ borélienne bornée :

Eϕ(VT ) =∑n≥1

Eϕ(Vn) ; aUng(Vn) ≤ f(Vn)(1− 1/a)n

=∑n≥1

∫R

1[0,1](u)g(u)ϕ(u)1aug(v)≤f(v)dudv (11/a)n

=∑n≥1

1

a(1− 1

a)n∫Rϕ(v)f(v)dv =

∫Rϕ(v)f(v)dv.

18.4. INTERVALLES DE CONFIANCE 91

18.4 Intervalles de conance

On propose 3 applications. Les deux premières concernent l'estimation duparamètre θ pour la loi uniforme U([0, θ]) dans le cas de l'observation d'unn-échantillon, dans un cadre exact et asymptotique. La troisième applicationest très classique : on étudie l'estimation de la moyenne et de la varianced'un n-échantillon gaussien.

A noter que comme d'habitude, il n'y a qu'un seul programme à réaliser.

18.4.1 Première illustration

On cherche à estimer θ inconnu, θ ∈ (0,M ], à partir de l'observationde X1, . . . , Xn I.I.D. de loi uniforme sur [0, θ]. Etant donné un niveau deconance 1 − α (par exemple α = 0.05 ou 0.01), on se propose de calculerpar deux méthodes des intervalles de conance non-asymptotiques.

1. Simuler X1, . . . , Xn ∼I.I.D. de loi uniforme sur [0, θ].

2. Montrer que θn = 2n

∑ni=1 Xi converge (dans quel sens ?) vers θ et ma-

jorer la quantité supθ∈[0,M ] E(θn−θ)2. En utilisant l'inégalité de Mar-kov, en déduire un intervalle de conance bilatère de θ au niveau α.

3. Le représenter graphiquement en fonction de n pour diérentes valeursde α.

4. Reprendre la même majoration à l'aide d'une inégalité exponentielle.En déduire un second intervalle de conance pour θ. Le comparer gra-phiquement avec celui de la question précédente pour une même valeurde α.

18.4.2 Seconde illustration

On reprend le même problème que précédemment d'un point de vueasymptotique. On introduit un second estimateur plus n que celui basésur la moyenne empirique.

1. Monter que√n(θn − θ)→L N

(0, θ

2

12

). Monter qu'on a aussi

√nθn − θ

θn√12

→L N (0, 1)

En déduire un interv. de conance asymptotique pour θ au niveau α.

2. Le représenter graphiquement en fonction de n pour diérentes valeursde α.

92 CHAPITRE 18. SIMULATIONS EN MATLAB

3. On introduit l'estimateur θ?n = maxi=1,...,nXi. Montrer que :

n(θ?n − θ)→L ξ(θ) ,

où ξ(θ) a pour densité pθ(x) = ex/θ1x≤0. En déduire comme précédem-ment un intervalle de conance pour θ au niveau α.

4. Comparaison graphique des deux estimateurs et commentaires.

18.4.3 Troisième illustration

On observe un n-échantillon de la loi N (m,σ2). Les deux paramètres met σ sont inconnus.

1. Simuler X1, . . . , Xn ∼I.I.D. de loi N (m,σ).

2. Calculer des intervalles de conance à un niveau de conance α donnéen suivant la méthode du cours.

3. Représenter les résultats graphiquement.

18.5 Test d'ajustement du χ2.

Pour l'illustration numérique de cette leçon, on se restreindra au test d'ajustement du χ2 pour une hypothèse simple, et pour une distribution ne pre-nant qu'un nombre ni de valeurs dans 1, . . . , K. Ceci nous permet d'éviterle choix délicat des classes pour l'approximation de la distribution théorique.Nous pouvons ainsi écarter des problèmes numériques diciles à évaluer. No-ter qu'on devra tout de même tenir compte de la `règle' infk=1,...,K npk > 5,où n est le nombre d'observations et pk = P (X = k) si X suit la loi qu'oncherche à ajuster, pour pouvoir `estimer' que les résultats asymptotiques dutest du χ2 s'appliquent.

Dans une seconde application, on rane la procédure précédente en l'ap-pliquant à une loi discrète quelconque (mais nie).

18.5.1 Quelques compléments de Matlab

1. Calcul matriciel. pour extraire la ligne l de la matrice a = (aij), fairea(l,:). De même, faire a(:,k) extrait de la matrice a sa k-ième co-lonne. Une fonction très utile est length() qui renvoie le nombre d'élé-ments d'un vecteur (parfois plus commode que size()). Une autrecommande essentielle (par exemple pour le calcul d'une fonction de

18.5. TEST D'AJUSTEMENT DU χ2. 93

répartition empirique) est find(), qui permet de rechercher des pro-priétés d'un vecteur. Par exemple, find(u==2) renvoie les coordonnéesdu vecteur u dont les éléments sont égaux à 2.

2. Graphisme. La fonction bar() permet de tracer un graphique enbâtonnets (utile par exemple pour les lois discrètes empiriques). Nepas oublier le fonction hold ou hold on pour conserver plusieurs gra-phiques. De même, penser à réinitialiser systématiquement l'écran gra-phique via la fonction clf. Pour insérer du texte en mode graphique,utiliser text, xlabel ou ylabel.

3. Fonctions statistiques La fonction chi2cdf(x,n) renvoie la valeuren x de la fonction de répartition d'une variable aléatoire distribuéeselon une loi du χ2 à n degrés. La fonction utile pour construire des testsest l'inverse chi2inv(.,.) (utiliser help pour plus d'information). Voiraussi la fonction cumsum() qui renvoie la somme cumulée d'un vecteur.

4. Saisie de variables, commentaires. La commande x=input('commentaire')appelle lors de l'exécution d'une fonction la variable x. On peut insérerdes commentaires lors de l'exécution d'une fonction via disp()

18.5.2 Première illustration

On teste l'ajustement à une loi uniforme sur 1, . . . , K. Les paramètressont : le niveau de conance α, le nombre de données n et K. On simuleune loi uniforme sur 1, . . . , Ksim. Le programme illustre quantitativementl'acceptation ou le rejet de l'hypothèse La loi est uniforme sur 1, . . . , K(selon le nombre de données, le niveau de conance, et le choix de Ksim).Noter que dans cette première illustration (simple), l'alternative consiste enl'ensemble des lois uniformes sur 1, . . . , K ′ avec K ′ 6= K. (On peut trèsbien ignorer cet aspect des choses.) Le programme se réalise de la manièresuivante :

1. Entrer la valeur théorique K et la valeur réelle Ksim de la loi simulée.

2. Simuler n variables (Ui, i = 1, . . . , n), indépendantes, de loi uniformesur 1, . . . , Ksim.

3. Représenter graphiquement l'histogramme des fréquences (par exempleà l'aide de bar()) des données Ui, et tracer sur le même graphique leniveau théorique des fréquences correspondant à K.

4. Calculer la statistique du χ2 et accepter ou rejeter l'hypothèse pour unseuil de conance α donné (utiliser la fonction chi2inv()).

94 CHAPITRE 18. SIMULATIONS EN MATLAB

18.5.3 Seconde illustration

La seconde illustration n'est en fait qu'une amélioration du programmeprécédent. On teste l'ajustement à une loi discrète nie quelconque, qui, sansperdre de généralité, est à valeurs dans 1, . . . , K. On la note (pk)1≤k≤Kcomme dans l'introduction. On simule une loi (p′k)1≤K . Le programme illustrealors quantitativement l'acceptation ou le rejet de l'hypothèse

“(pk = p′k, k = 1, . . . , K)

(selon le nombre de données, le niveau de conance, et le choix des p′k) contrel'alternative :il existe k0 tel que p′k0 6= pk0 . Noter ici que pour simplier, onse limite à des lois sur 1, . . . , K pour K xé, mais là encore, ce n'est pasune restriction. Le programme se réalise de la manière suivante :

1. Entrer les valeurs théoriques pk et les valeurs réelles p′k. (Prendre despetites valeurs pour K, par exemple K = 3, 4 ou 5.)

2. Simuler n variables (Ui, i = 1, . . . , n), indépendantes, de loi (p′k)1≤k≤K(On pourra utiliser la méthode vue lors de la première séance).

3. Représenter graphiquement l'histogramme des fréquences (par exempleà l'aide de bar()) des données Ui, et tracer sur le même graphique leniveau théorique des fréquences npK .

4. Calculer la statistique du χ2 et accepter ou rejeter l'hypothèse pour unseuil de conance α donné.

18.6 Méthodes de Monte-Carlo

18.6.1 Le cas multidimensionnel

On s'intéresse au calcul numérique de l'intégrale

I(ϕ) =

∫Rdϕ(x1, . . . , xd)µ(dx1 . . . , dxd)

(penser simple ici pour µ, par exemple la loi uniforme µ(dx1, . . . , dxd) =1[0,1]d(x1, . . . , xd)dx et d petit, par exemple d = 3). Choisir une (des) fonc-tions ϕ dont on sait calculer I(ϕ) par une méthode directe (pour pouvoircomparer les méthodes !). Un choix standard est une fonction produit du typeϕ(x1, . . . , xd) = ϕ1(x1) . . . ϕd(xd) (Fubini !) ou une indicatrice (par exemple1x2+y2≤1 pour calculer une valeur approchée de π). On peut alors faire lacomparaison suivante

1. Simuler X1, . . . , Xn ∼I.I.D. uniformes sur [0, 1]d.

18.6. MÉTHODES DE MONTE-CARLO 95

2. Calculer I(1)n (ϕ) = 1

n

∑ni=1 ϕ(Xi).

3. Si n = Nd, calculer I(2)n (ϕ) = 1

n

∑(i1,...,id) ϕ(i1/N, . . . , id/N). Comparer

I(1)n (ϕ) et I(2)

n (ϕ).

4. Écrire un intervalle de conance au niveau α pour la méthode stochas-tique (à l'aide de l'inégalité de Chebyshev ou -mieux- du TLC si lescalculs sont praticables).

Exemple : Le volume de la boule unité dans Rd vaut : Si d = 2p+ 1, avec p ∈ N, V2p+1 = 22p+1p!πp/(2p+ 1)! Si d = 2p, avec p ∈ N∗, V2p = πp/p!

Le maximum est obtenu pour d = 5, ce qui n'est pas intuitif.

18.6.2 La fonction ϕ présente une (des) singularité(s)

On considère le cas uni-dimensionnel pour simplier. La singularité deϕ rend compliqué un calcul approché par une méthode numérique standard(par exemple la méthode des rectangles à pas xe où l'on perd a priori uncontrôle de l 'erreur.

On veut montrer que par contre la quantité Xn nous fournit une bonneapproximation de I(ϕ). Un choix de ϕ peut être x 7→ 1√

1−x2 ce qui permetun calcul approché de π), ou tout simplement une fonction régulière au sensde l'analyse, mais oscillante, ce qui rend le calcul numérique plus compliqué :par exemple x 7→ sin(1000πx).

1. Simuler X1, . . . , Xn ∼I.I.D. uniformes sur [0, 1].

2. Calculer I(1)n (ϕ) = 1

n

∑ni=1 ϕ(Xi).

3. Calculer I(2)n (ϕ) = 1

n

∑ni=1 ϕ(i/n). Comparer I(1)

n (ϕ) et I(2)n (ϕ).

4. Écrire un intervalle de conance pour la méthode déterministe.

Il faut relativiser la portée de ces résultats dans le cas où l'on peut isolerles singularités de ϕ (cas où ϕ est régulière sauf en un point.)

18.6.3 Méthode de réduction de la variance

A suivre ; se souvenir que le principe de base (en dimension 1 pour unefonction f dénie sur [01] disons) consiste à écrire∫

[0,1]

f(x)dx =

∫[0,1]

f(x)

µ(x)µ(x)dx

96 CHAPITRE 18. SIMULATIONS EN MATLAB

où µ(x) > 0 est une densité sur [0, 1] telle que

Varuniforme[Z(f/µ)] < Varµ[Z(f)],

avec Z(f) = f(X) − E[f(X)] et X suit la loi uniforme sur [0, 1] sousPuniforme et la loi µ(x)dx sous Pµ. On peut alors simuler les Xi suivantla loi µ(x)dx par la méthode de rejet et reprendre les calculs précédents.Tout le problème est ramené au choix de µ (A suivre).

18.7 Martingales : théorème d'arrêt.

On présente une illustration numérique du théorème d' arrêt : le calculdu temps d' atteinte moyen d'un niveau a donné par une marche symétrique.

18.7.1 Compléments de Matlab

Il n'y a pas de fonction nouvelle nécessaire pour cette application. Toutau moins on peut améliorer la présentation des graphiques via des com-mandes comme title ou subplot. Se souvenir du connecteur logique & :while (condition 1) & (condition 2) ... exécute la boucle while tantque les conditions 1 et 2 sont réunies.

18.7.2 Temps d'atteinte moyen d'un niveau par une marchealéatoire

Soit (Zi)i≥1 une suite de variables aléatoires indépendantes et uniformessur −1, 1. On pose M0 = 0 et Mn =

∑ni=1 Zi. Soit a ≥ 1 un entier. On pose

τ = infn ≥ 1 ; |Mn| = a.

1. A l'aide du théorème d'arrêt, montrer que τ ∈ L1 et que E(τ) = a2.(Indication : le processus M2

n − nE(Z21) est une martingale.)

2. Simuler une trajectoire (Mn)0≤n≤τ . Faire une représentation graphique(en particulier, on pourra tracer les axes y = ±a).

3. Simuler N telles trajectoires indépendantes et calculer les (τ j)j=1,...,N .Montrer que 1

N

∑Nj=1 τ

j est une bonne approximation de E(τ).

4. (Compléments) Calculer le nombre minimal N de trajectoires néces-saires pour garantir avec probabilité supérieure ou égale à 1 − α quel'approximation a une précision ε > 0 donnée.

18.8. MARTINGALES : CONVERGENCE. 97

18.7.3 Ruine du joueur

Cette illustration est un ranement du cas précédent ; elle ne nécessitequ'une simple modication du programme précédent. Pour plus d'informa-tion, voir Dacunha-Castelle, tome 1 Exercices, p.21.

On considère un jeu de pile ou face avec une probabilité p > 0 d'obtenirpile. Le joueur 1 joue pile et le joueur 2 face. On note M0 = a la fortuneinitiale du joueur 1 etMn sa fortune au temps n ; on note b la fortune initialedu joueur 2. Le jeu s'arrête lorsque l'un des deux joueurs est ruiné.

Si ν désigne le temps d'arrêt du jeu et ρ la probabilité de ruine du joueur1, on montre que, si p = 1/2 :

ρ =b

a+ bet E(ν) = ab.

On dispose de formules explicites (plus compliquées) pour le cas p 6= 1.

1. Simuler une trajectoire (Mn)0≤n≤ν . Faire une représentation graphique.

2. Simuler N telles trajectoires indépendantes et reprendre l'approche del'illustration précédente pour estimer ρ et E(ν).

3. (Compléments) Construire un intervalle de conance pour E(ν) et ρen fonction de N et au niveau de conance α donné.

Remarque On pourra traiter (si on a le courage) le cas p 6= 1 en utilisantles formules explicites (cf. Dacunha-Castelle par exemple)

ρ =1− (1/p− 1)b

(p/(1− p))a − (1/p− 1)b

et

E(ν) =(a+ b)ρ− b

1− 2p.

18.8 Martingales : Convergence.

Aucune nouvelle commande Matlab n'est vraiment nécessaire pour cetteleçon.

18.8.1 Critère de Kakutani

On se propose de vérier un critère simple de convergence pour les mar-tingales de la forme

Mn =n∏i=1

Vi

98 CHAPITRE 18. SIMULATIONS EN MATLAB

où les Vi sont positives, indépendantes, de moyenne 1. Alors Mn est unemartingale positive, donc p.s. convergente. Si

∏∞i=1 E(

√Vi) = 0, on vérie

facilement que la limite M∞ = 0 p.s. On peut montrer (excellent exercice)que si

∏∞i=1E(

√Vi) > 0, alors E(H∞) = 1 (indication : on montrera que√

Mn est une suite de Cauchy dans L2 pour montrer la convergence L1 deMn ). L'illustration numérique peut alors être la suivante :

1. Simuler Mn où les Vi sont des variables simples à simuler, dépendantd' un paramètre tel que l'on ait facilement

∞∏i=1

E(√Vi) = 0 ou

∞∏i=1

E(√Vi) > 0

en fonction de ce paramètre. Penser simple ici, par exemple les Vi I.I.D.,P (Vi = 1

2) = a et P (Vi = 3

2) = 1− a où 0 < a < 1. On vériera que le

cas critique est atteint pour a =√

3−√

2√3−1

.

2. Représenter graphiquement Mn en fonction de n. Dans le cas où Mn

converge p.s. vers 0, tracer sur le même graphique la droite y = 0.

3. Dans le cas où Mn ne converge pas p.s. vers 0, simuler N réalisa-tions indépendantes (M j

n)j=1,...,N de la martingale Mn et vérier que1N

∑Nj=1M

jn est proche de 1 pour n et N grands.

18.8.2 Loi du logarithme itéré

Le but est d'illustrer numériquement la loi du logarithme itéré suivante :Si Y1, . . . Yn sont n variables aléatoires gaussiennes indépendantes, centréeset réduites, on a :

lim sup

∑ni=1 Yi√

2n log log n= 1 p.s.

1. Simuler le processus Sn =∑n

i=1 Yi.

2. représenter graphiquement les suites Sn et√

2n log log n et comparer.

18.9 Modèle linéaire gaussien.

On présente deux applications : le calcul de l'estimateur des moindrescarrés dans un cas simple et un test d'appartenance à un sous-espace linéaire.

18.9. MODÈLE LINÉAIRE GAUSSIEN. 99

18.9.1 Quelques commandes Matlab supplémentaires

La commande help stats fournit la liste des fonctions statistiques es-sentielles (et exhaustive pour le programme de l'agreg). On regardera enparticulier regress() qui permet de calculer une régression linéaire simple.

Pour les quantiles des lois usuelles, regarder Critical values of DistributionFunctions dans le menu help stats. En particulier, fcdf et finv pour la loide Fisher.

18.9.2 Droite des moindres carrés en régression linéaire

On observe les variables aléatoires Y1, . . . , Yn, avec

Yi = f(a,b)(i) + σεi, i = 1, . . . , n

et où les εi sont I.I.D. normales centrées réduites. La fonction f(a,b) est connueau paramètre (a, b) près, et admet la représentation linéaire f(a,b)(x) = ax+b.On estime le paramètre (a, b) par la méthode de maximum de vraisemblance,ou (et de manière équivalente dans le modèle linéaire gaussien) par l'estima-teur des moindres carrés (a, b) qui minimise la fonctionnelle

(a, b) 7→n∑i=1

[Yi − f(a,b)(i)]2.

1. Simuler Y1, . . . , Yn comme décrites ci-dessus pour un choix arbitrairede (a, b).

2. Calculer l'estimateur des moindres carrés (a, b).

3. Représenter sur un même graphique les droites y = ax+b et y = ax+ b.

4. En supposant σ connu, construire un intervalle de conance pour a etb au niveau 1− α, avec α > 0 donné. Représentation graphique.

5. (Facultatif). On suppose σ inconnu. Construire un estimateur de σ etun intervalle de conance pour σ au niveau 1−α. On pourra représentergraphiquement le vecteur des résidus.

18.9.3 Test d'appartenance à un sous-espace linéaire.

On traitera ce problème sur un exemple. On considère le modèle linéaire

Yi = β0 + β1X1i + σεi, i = 1, . . . , n

100 CHAPITRE 18. SIMULATIONS EN MATLAB

avec les notations habituelles. Le paramètre inconnu est β = (β0, β1). Vecto-riellement, le modèle s' écrit Y = Xβ + σε, avec des notations évidentes. Onveut tester l'hypothèse β1 = 0, ce qui s'écrit

β ∈ V1 = Xβ, Cβ = 0

où C = (0 1) . Alors, si V = vectXt, t ∈ R2, en dénissant W1 par larelation

V = V1 ⊕W1,

sous l'hypothèse, la statistique

Tn =

‖PW1Y ‖2

l‖PQY ‖2n−p

est distribuée selon une loi de Fisher à (l, n−p) degrés de liberté ; Q := I−PVet PZ désigne la projection orthogonale sur Z lorsque cela a un sens. Ici,l'indice p− l désigne la dimension de V1 qui est aussi la dimension du noyaude C et l le rang de la matrice C.

1. Simuler Y .

2. Calculer β par la méthode des moindres carrés. En utilisant le fait quePW1 = (PV − PV1)Y = Xβ − PV1Y , calculer la statistique Tn.

3. Construire un test de l'hypothèse β1 = 0 dont l'erreur de premièreespèce soit contrôlée (par un niveau α arbitraire).

18.10 Fonction de répartition empirique

On pourra tester l'adéquation de lois via le test de Kolmogorov- Smirnov,vu comme une version limite fonctionnelle en loi de Glivenko-Cantelli.

18.10.1 Préliminaires Matlab

Pas de commande nouvelle vraiment nécessaire. Se souvenir de sort, etdes comparaisons (find et double égalité). La fonction de répartition empi-rique de supt∈[0,1]

√n|Fn(t) − F (t)| où Fn désigne la fonction de répartition

empirique obtenue à partir d'un n-échantillon de la loi F est donnée analy-tiquement par

φ(u) = 1 + 2∞∑k=1

(−1)ke−2k2u2 .

18.11. GRANDES DÉVIATIONS - INÉGALITÉ DE CRAMER-CHERNOV101

D'un point de vue numérique, cette série converge très vite pour u éloignéde l'origine (exercice : majorer le reste de la série !) et une approximation deφ(u) par φN(u) = 1 + 2

∑Nk=1(−1)ke−2k2u2 , facile à calculer en Matlab pour

des petites valeurs de N , sera satisfaisante.

18.10.2 Test de Kolmogorov-Smirnov

1. Simuler un n-échantillon de sa loi favorite de répartition F (par ex. uni-forme, exponentielle, Cauchy, normale, et il y en a d'autres...). CalculerFn(t), la fonction de répartition empirique associée.

2. Tracer sur un même graphique les fonctions F et Fn.

3. Tracer (toujours sur le même graphe) un intervalle de conance (ap-proché, cf. remarque préliminaire) uniforme à un niveau de conanceα donné de la fonction (supposée inconnue ici) F que l'on estime parFn.

4. Construire le test d'adéquation de Kolmogorov-Smirnov, dont l 'erreurde première espèce est contrôlée (par un niveau de conance α arbitrairedonné). Étudier des cas où l'hypothèse est vraie (Fn obtenue à partirde la loi F ) mais aussi des cas où l'hypothèse n'est pas vraie. Parexemple, simuler des variables uniformes et tester l'hypothèse F (t) =t+ petite perturbation. Étudier empiriquement le comportement dutest en fonction de la perturbation.

5. Question subsidiaire : quelle sont les avantages respectifs des testsd'adéquation du χ2 et de Kolmogorov-Smirnov lorsqu'on les met encompétition ?

18.11 Grandes déviations - Inégalité de Cramer-Chernov

TESTER θ = θ0 contre θ = θ1 6= θ1 dans un modèle exponentiel. Chernovpermet de contrôler l'erreur de seconde espèce. Test base sur le max de

vraisemblance.

18.12 Chaines de Markov à espace d'état ni

On considère une chaine (Xn)n≥0 à valeurs dans E ni, issue de x0 etde matrice de transition P . Sans perdre de généralités, E = 1, . . . , N. Onpropose dans une première application de simuler le comportement de Xn et

102 CHAPITRE 18. SIMULATIONS EN MATLAB

de vérier la convergence de P n vers sa loi stationnaire. Dans une secondeapplication, on étudie les uctuations du théorème ergodique (TCL) dans lecas particulier de la chaine d'Ehrenfest.

18.12.1 Première application

Se xer une entier N pas trop grand (N = 3 ou 4 sera déjà susant).

1. Se donner x0 ∈ E = 1, . . . , N et simuler (Xi)0≤i≤n de loi initiale x0,pour n choisi . (On pourra utiliser l'algorithme -élémentaire- d'inver-sion d'une fonction de répartition dans le cas discret donné lors de lapremière leçon).

2. Représenter graphiquement le processus (Xi, i = 0 . . . , n).

3. Choisir convenablement P pour pouvoir évaluer µ. Calculer P n et com-menter. En particulier, faire apparaitre diérents comportement clas-siques de chaines (en pratique, il sera peut-être dicile de choisir judi-cieusement P et dépasser le cas où N = 5).

4. On considère un choix de n grand. Représenter sur un même graphiquela loi stationnaire µ (si elle est unique) et µn, où

µn(x) =1

n+ 1

n∑i=0

1Xi=x.

(Noter que dans les cas où l'on ne sait pas -ou l'on ne veut pas- calculerµ, l'approximation par Pm1x0(·) de la loi stationnaire devrait sure,en vue de la convergence exponentielle, et ceci, même si m n'est pastrop grand.)

18.12.2 Seconde application : chaine d'Ehrenfest

Le modèle est le suivant : d billes sont réparties dans deux urnes A et B.On tire un nombre i uniforme entre 1 et d, et la bille i est changée d'urne.On note Xn le nombre de billes dans l'urne A après n telles opérations. Seconvaincre que (Xn)n≥0 est une chaine de Markov homogène.

1. Montrer que la transition de la chaine (Xn)n≥0 vaut p(x, y) = 0 siy 6= x±1, et p(x, x+1) = d−x

d, p(x, x−1) = x

d. Simuler une telle chaine

pour n assez grand (devant d).

2. Montrer que la loi stationnaire de la chaine est une binomiale de para-mètres (d, 1/2).

3. Calculer limn→∞ Pn.

18.13. CHAINES DEMARKOVÀ ESPACE D'ÉTATS DÉNOMBRABLE103

4. Vérier numériquement le résultat de la question précédente par simu-lation, pour des petites valeurs de d (d = 5 par exemple), selon quel'état est pair ou impair.

5. (Question plus dicile.) On peut étudier les uctuations du théorèmeergodique lorsque l'on étudie la convergence de 1

n

∑ni=1 f(Xi) à l'aide du

théorème central-limite. Pour d = 4, la mesure stationnaire est donnéepar

µ = (1

16,1

4,3

8,1

4,

1

16).

La partie pénible est le calcul de la variance asymptotique σ2(f) dansle théorème central limite . On a σ2(f) =

∫g(f)2 − P [g(f)]2dµ, où

g(x) = (P − I)−1[f(x)−∫f(t)µ(dt)].

(L'application numérique Matlab n'est cependant pas trop dicile). Onpeut alors (par exemple) construire des intervalles de conance pour∫xµ(dx) à l'aide de 1

n

∑ni=1Xi et les représenter graphiquement.

18.13 Chaines de Markov à espace d'états dé-nombrable

On étudie la récurrence (positive ou nulle) et la transience traite dechaînes de Markov à espace d'états au plus dénombrable. On aborde le cas desmarche aléatoires qu'on avait déjà rencontré lors de l'étude des martingales,mais qui s'applique ici, et le cas des processus de vie et de mort.

18.13.1 Première application : marche aléatoire

On simule une marche aléatoire (éventuellement décentrée) sur Zd, d ≥ 1.Dans le cas d = 1, on peut vérier la transience ou la récurrence selon quela chaine n'est pas symétrique ou est symétrique. Dans le cas d ≥ 3, on peutvérier numériquement la transience de la chaine (pour n assez grand).

1. Le cas d = 1. Pour n ≥ 1 et 0 < q < 1, simuler une marche (Xi)0≤i≤nsur Z issue de x0 et de transition p(x, x+ 1) = q et p(x, x− 1) = 1− q.

2. Faire une représentation graphique et étudier le comportement de ‖Xn−x0‖ pour n grand.

3. Faire la même étude dans Zd pour d ≥ 2 et dans le cas d'une marchesymétrique. En particulier représenter graphiquement (‖Xi−x0‖)0≤i≤net vérier la transience de la chaine dès que d ≥ 3.

104 CHAPITRE 18. SIMULATIONS EN MATLAB

18.13.2 Seconde illustration : processus de vie et demort

Soit (pn)n≥0 une suite de nombres dans ]0, 1[. On dénit une chaine deMarkov (Xn)n≥0 sur N de la manière suivante : sa transition est donnée parp(0, 0) = p0, p(0, 1) = 1 − p0 et pour x ≥ 1 : p(x, x − 1) = px, p(x, x + 1) =1− px.

1. Vérier que la chaine ainsi dénie est irréductible et apériodique.

2. On peut montrer que (Xn)n≥0 est récurrent positif ssi

C = 1 +∑n≥1

(1− p0)(1− p1) . . . (1− pn−1)

p1p2 . . . pn<∞.

La probabilité stationnaire est alors donnée par

µ(n) = C−1 (1− p0)(1− p1) . . . (1− pn−1)

p1p2 . . . pn.

Montrer que (Xn)n≥0 est transient ssi∑n≥1

p1p2 . . . pn(1− p1)(1− p2) . . . (1− pn)

<∞.

Illustration numérique : promenade sur N avec réexion. On prend pn = p ∈]0, 1[ si n ≥ 1.

1. Simuler (Xi)0≤i≤n pour n susamment grand et faire une représenta-tion graphique.

2. Vérier que la chaine est récurrente positive si p > 1/2, récurrente nullesi p = 1/2 et transiente sinon. Calculer la probabilité stationnaire dansle ca où p < 1/2

3. Vérier la convergence de Xn en loi vers µ de la même manière que 4.du paragraphe 11.1.

18.13.3 Troisième illustration : chaîne de Galton-Watson

(D'après Baldi, Mazliak, Priouret). On se donne une probabilité ν =(pk)k≥0 sur N telle que p0 + p1 < 1. On modélise le processus suivant : autemps 0 une particule donne lieu à k naissances avec probabilité pk (éven-tuellement 0 particule avec probabilité p0). Au temps 1, chaque descendantse reproduit et crée un nombre aléatoire de descendants suivant la loi dereproduction (pk)k≥0. On note Xn le nombre d'individus engendrés par cette

18.14. PROCESSUS DE RENOUVELLEMENT 105

dynamique à la n-ième génération. Le but est d'étudier la probabilité d'ex-tinction du système, c'est -à-dire P (τ0 < ∞), où τ0 est le temps d'entrée en0.

On note G(s) =∑

k≥0 pksk la fonction génératrice de la loi (pk)k≥0 et

m =∑

k≥0 kpk ≤ ∞.

1. Montrer que la transition de la chaine est donnée par p(i, j) = ν∗i(j)pour i ≥ 1 et p(0, 0) = 1. Pour un choix de ν et n susamment grand,simuler (Xi)0≤i≤n. Faire une représentation graphique.

2. Montrer que pour 0 ≤ s ≤ 1 et i ≥ 0 :∞∑j=0

p(i, j)sj = G(s)i.

Classier les états de la chaine.

3. Montrer que∞∑j=0

p(n)(i, j)sj = Gn(s)i,

où G1 = G et Gn+1 = G Gn.

4. Montrer que p.s. Zn = 0 = τ0 ≤ n et en déduire que

P (τ0 <∞) = limn→∞

P (Zn = 0) = limn→∞

Gn(0).

5. Montrer que G est croissante et strictement convexe dans [0, 1] ; si m ≤1, G(t) > t sur [0, 1[ et si m > 1, l'équation G(t) = t, 0 ≤ t < 1 admetune racine unique q.

6. Soit q la plus petite racine de G(t) = t dans [0, 1]. On a donc q = 1 sim ≤ 1 et q < 1 et si m > 1. Montrer que pour 0 ≤ t < q, Gn(t) → qlorsque n → ∞ en croissant alors que si q < t < 1, Gn(t) → q endécroissant. En déduire P (τ0 <∞).

18.14 Processus de renouvellement

18.14.1 Une forme faible du théorème de renouvelle-ment

Rappelons que si (Tn)n≥0 est un processus de renouvellement (avec T0 =0) de loi µ (i.e. les variables Ti − Ti−1 sont indépendantes (et de même loi µpour i ≥ 1). On note Nt =

∑n≥1 1Tn≤t. Alors, si m =

∫xµ(dx), on a

1

tNt →

1

mlorsque t→∞

106 CHAPITRE 18. SIMULATIONS EN MATLAB

presque-surement et dans L1.

1. Simuler Nt pour t ∈ [0, T ], où µ est une loi d'inter arrivées que l'onchoisira (par exemple exponentielles, mais on peut simuler diérenteslois d'inter arrivées).

2. Représenter graphiquementNt/t et observer une stabilisation vers 1/m.

3. A l'aide d'une méthode de Monte-Carlo, vérier que le résultat restevrai en moyenne sur un grand nombre de réalisations.

18.14.2 Processus de renouvellement stationnnaires

On peut tester la stationnarité du processus en faisant varier T1.

1. Simuler deux processus de renouvellement (T(1)n )n≥0 et(T (2

n )n≥0 indé-pendant de loi µ (par exemple exponentielle), avec T (1)

1 ayant pourdensité 1

mµ([·,∞[) et T (2)

1 suivant une loi uniforme.

2. Faire une représentation numérique simultanée de deux telles trajec-toires N (i)

t correspondantes pour t ≤ T et T grand.

3. Répéter le point 1 un grand nombre de fois pour estimer (Monte-Carlo) les fonctions t→ E(N

(i)t ) pour i = 1, 2. Faire une représentation

graphique (ici, t n'a pas besoin d' être grand).

4. Conclure (on pourra en particulier représenter la droite théorique E(Nt) =t/m).

Table des matières

1 Loi binomiale, loi de Poisson. Applications. 71.1 Lois binomiales . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Application au théorème de Weierstrass . . . . . . . . . 71.1.3 Inégalité de grandes déviations et application statistique 81.1.4 Loi binomiale négative . . . . . . . . . . . . . . . . . . 8

1.2 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . 81.2.2 Théorème de Raïkov . . . . . . . . . . . . . . . . . . . 81.2.3 Lois inniment divisibles sur N . . . . . . . . . . . . . 91.2.4 Processus de Poisson . . . . . . . . . . . . . . . . . . . 10

1.3 Approximation de la loi binomiale par la loi de Poisson . . . . 101.3.1 Deux théorèmes-limites . . . . . . . . . . . . . . . . . . 101.3.2 Vitesse de convergence dans le thm de Poisson . . . . . 11

2 Le jeu de pile ou face 132.1 Suite nie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Suite innie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.1 Construction . . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Loi binomiale négative . . . . . . . . . . . . . . . . . . 132.2.3 Ruine du joueur . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Résultats asymptotiques . . . . . . . . . . . . . . . . . . . . . 142.3.1 Théorème de De Moivre-Laplace . . . . . . . . . . . . . 142.3.2 Application statistique : intervalle de conance . . . . . 152.3.3 Loi du logarithme itéré . . . . . . . . . . . . . . . . . . 16

3 Indépendance d'évènements et de v.a. Exs. 173.1 Constructions . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . 173.3 Vecteurs aléatoires à densités, fonctions caractéristiques . . . . 173.4 Variance, covariance, cas gaussien . . . . . . . . . . . . . . . . 18

107

108 TABLE DES MATIÈRES

3.5 Sommes de v.a. indépendantes, thm s asymptotiques . . . . . 18

4 Lois gaussiennes et applications 194.1 La loi normale centrée réduite . . . . . . . . . . . . . . . . . . 194.2 La loi normale générale . . . . . . . . . . . . . . . . . . . . . . 214.3 Approximation normale de la loi binomiale . . . . . . . . . . . 244.4 Le cas de la dimension d : loi normale multivariée . . . . . . . 26

4.4.1 Dénition. Loi gaussienne dans Rd . . . . . . . . . . . 264.4.2 Critère d'indépendance . . . . . . . . . . . . . . . . . . 27

4.5 Exercices corrigés. . . . . . . . . . . . . . . . . . . . . . . . . . 294.5.1 Un contre-exemple. . . . . . . . . . . . . . . . . . . . . 294.5.2 Indépendance gaussienne : un exemple très simple. . . 304.5.3 Limite en loi d'une suite gaussienne. . . . . . . . . . . 30

5 Convergence d'une suite de v.a.r. 335.1 Diverses notions de convergence . . . . . . . . . . . . . . . . . 335.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . 33

5.2.1 Loi faible . . . . . . . . . . . . . . . . . . . . . . . . . 335.2.2 Loi forte . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.3 Théorème-limite central et ranements . . . . . . . . . . . . . 345.3.1 En dimension 1 . . . . . . . . . . . . . . . . . . . . . . 345.3.2 TLC multidimensionnel . . . . . . . . . . . . . . . . . 34

5.4 Applications du TLC . . . . . . . . . . . . . . . . . . . . . . . 355.5 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . 36

5.5.1 Quelques notions de statistique . . . . . . . . . . . . . 365.5.2 L'estimateur moyenne empirique . . . . . . . . . . . . 375.5.3 Intervalles de conance . . . . . . . . . . . . . . . . . . 38

5.6 Méthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . 40

6 Transformées de Laplace et Fourier 436.1 Cas discret : fonctions génératrices . . . . . . . . . . . . . . . 436.2 Transformation de Laplace . . . . . . . . . . . . . . . . . . . . 44

6.2.1 Injectivité, lien avec la convolution . . . . . . . . . . . 446.2.2 Inégalité de Hoeding . . . . . . . . . . . . . . . . . . 446.2.3 Grandes déviations . . . . . . . . . . . . . . . . . . . . 45

6.3 Transformation de Fourier . . . . . . . . . . . . . . . . . . . . 456.4 Exercices sur les transformées de Laplace et Cramer . . . . . . 46

6.4.1 Domaine de dénition de LX . . . . . . . . . . . . . . 466.4.2 Calculs explicites de transformées de Laplace et Cramer 466.4.3 Comportement asymptotique de la transformée de Cra-

mer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

TABLE DES MATIÈRES 109

6.4.4 Transformée de Cramer identiquement nulle . . . . . . 47

7 Exs de lois et de leur utilisation en probabilités 49

8 Lois usuelles 518.1 Introduction au test de Kolmogorov-Smirnov. . . . . . . . . . 528.2 Application sur machine. . . . . . . . . . . . . . . . . . . . . . 52

9 LGN, application à l'estimation 55

10 Cvg en loi, TLC et applications 57

11 Fonction de répartition empirique 5911.1 Éléments de comparaison entre le test du χ2 et le test de

Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . 59

12 Test du χ2 6312.1 Une loi donnée sur un espace d'états ni . . . . . . . . . . . . 6312.2 Une loi donnée sur un espace d'états inni . . . . . . . . . . . 6812.3 Famille de lois sur un espace d'états ni . . . . . . . . . . . . 69

12.3.1 Principe général . . . . . . . . . . . . . . . . . . . . . . 6912.3.2 Cas particulier : Test du χ2 d'indépendance . . . . . . 70

12.4 Famille de lois sur un espace d'états inni . . . . . . . . . . . 7012.5 Illustrations numériques . . . . . . . . . . . . . . . . . . . . . 72

13 Durée de vie, abilité 73

14 Chaînes de Markov sur espace ni 75

15 Méthode de Monte Carlo 77

16 Évolution de la taille d'une population 79

17 Modèle linéaire gaussien 81

18 Simulations en Matlab 8318.1 Introduction à Matlab . . . . . . . . . . . . . . . . . . . . . . 83

18.1.1 Création d'une fonction. . . . . . . . . . . . . . . . . . 8318.1.2 Commandes de base. . . . . . . . . . . . . . . . . . . . 84

18.2 Illustrations numériques de la LGN . . . . . . . . . . . . . . . 8618.2.1 Première illustration . . . . . . . . . . . . . . . . . . . 8618.2.2 Seconde illustration . . . . . . . . . . . . . . . . . . . . 8718.2.3 Troisième illustration . . . . . . . . . . . . . . . . . . . 88

110 TABLE DES MATIÈRES

18.3 Théorème central limite . . . . . . . . . . . . . . . . . . . . . 8818.3.1 Les commandes Matlab utilisées . . . . . . . . . . . . . 8818.3.2 Première illustration . . . . . . . . . . . . . . . . . . . 8918.3.3 Seconde illustration . . . . . . . . . . . . . . . . . . . 8918.3.4 Méthode de rejet, le cas général . . . . . . . . . . . . . 90

18.4 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . 9118.4.1 Première illustration . . . . . . . . . . . . . . . . . . . 9118.4.2 Seconde illustration . . . . . . . . . . . . . . . . . . . . 9118.4.3 Troisième illustration . . . . . . . . . . . . . . . . . . . 92

18.5 Test d'ajustement du χ2. . . . . . . . . . . . . . . . . . . . . . 9218.5.1 Quelques compléments de Matlab . . . . . . . . . . . . 9218.5.2 Première illustration . . . . . . . . . . . . . . . . . . . 9318.5.3 Seconde illustration . . . . . . . . . . . . . . . . . . . . 94

18.6 Méthodes de Monte-Carlo . . . . . . . . . . . . . . . . . . . . 9418.6.1 Le cas multidimensionnel . . . . . . . . . . . . . . . . . 9418.6.2 La fonction ϕ présente une (des) singularité(s) . . . . . 9518.6.3 Méthode de réduction de la variance . . . . . . . . . . 95

18.7 Martingales : théorème d'arrêt. . . . . . . . . . . . . . . . . . 9618.7.1 Compléments de Matlab . . . . . . . . . . . . . . . . . 9618.7.2 Temps d'atteinte moyen d'un niveau par une marche

aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . 9618.7.3 Ruine du joueur . . . . . . . . . . . . . . . . . . . . . . 97

18.8 Martingales : Convergence. . . . . . . . . . . . . . . . . . . . . 9718.8.1 Critère de Kakutani . . . . . . . . . . . . . . . . . . . 9718.8.2 Loi du logarithme itéré . . . . . . . . . . . . . . . . . . 98

18.9 Modèle linéaire gaussien. . . . . . . . . . . . . . . . . . . . . . 9818.9.1 Quelques commandes Matlab supplémentaires . . . . . 9918.9.2 Droite des moindres carrés en régression linéaire . . . . 9918.9.3 Test d'appartenance à un sous-espace linéaire. . . . . . 99

18.10Fonction de répartition empirique . . . . . . . . . . . . . . . . 10018.10.1Préliminaires Matlab . . . . . . . . . . . . . . . . . . . 10018.10.2Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . 101

18.11Grandes déviations - Inégalité de Cramer-Chernov . . . . . . . 10118.12Chaines de Markov à espace d'état ni . . . . . . . . . . . . . 101

18.12.1Première application . . . . . . . . . . . . . . . . . . . 10218.12.2Seconde application : chaine d'Ehrenfest . . . . . . . . 102

18.13Chaines de Markov à espace d'états dénombrable . . . . . . . 10318.13.1Première application : marche aléatoire . . . . . . . . . 10318.13.2Seconde illustration : processus de vie et de mort . . . 10418.13.3Troisième illustration : chaîne de Galton-Watson . . . . 104

18.14Processus de renouvellement . . . . . . . . . . . . . . . . . . . 105

TABLE DES MATIÈRES 111

18.14.1Une forme faible du théorème de renouvellement . . . . 10518.14.2Processus de renouvellement stationnnaires . . . . . . . 106