Exercices de statistiques...

64
Exercices de statistiques mathématiques Guillaume Lecué 27 août 2018 Table des matières 1 Rappels de probabilités 1 2 Vraisemblance, EMV, IC, Information de Fisher 11 3 Tests 25 4 Modèle de régression 30 5 Examen du lundi 26 octobre 2015 37 6 Rattrapage 2015-2016 42 7 Examen du lundi 14 novembre 2016 46 8 Rattrapage 2016-2017 52 9 Examen de novembre 2017 57 1 Rappels de probabilités ********************** Exercice 1.1 (Théorème de la limite centrale) Soit (X n ) n une suite de variables aléatoires i.i.d. centrées de variance σ 2 > 1. Soit Z n = 1 σ n n X j =1 X j . Par le théorème de la limite centrale, cette variable converge en loi vers la loi normale centrée réduite, c’est-à-dire, pour tout t R, on a lim n+E[e itZn ]= e - t 2 2 . L’objet de cet exercice est de montrer que la suite Z n ne peut pas converger en probabilité. 1. Calculer la fonction caractéristique de Z 2n - Z n et montrer que cette différence converge en loi. 2. En étudiant P(|Z 2n - Z n |≥ ), montrer que Z n ne converge pas en probabilité. 1

Transcript of Exercices de statistiques...

Exercices de statistiques mathématiques

Guillaume Lecué

27 août 2018

Table des matières

1 Rappels de probabilités 1

2 Vraisemblance, EMV, IC, Information de Fisher 11

3 Tests 25

4 Modèle de régression 30

5 Examen du lundi 26 octobre 2015 37

6 Rattrapage 2015-2016 42

7 Examen du lundi 14 novembre 2016 46

8 Rattrapage 2016-2017 52

9 Examen de novembre 2017 57

1 Rappels de probabilités

**********************Exercice 1.1 (Théorème de la limite centrale)Soit (Xn)n une suite de variables aléatoires i.i.d. centrées de variance σ2 > 1. Soit

Zn =1

σ√n

n∑j=1

Xj .

Par le théorème de la limite centrale, cette variable converge en loi vers la loi normalecentrée réduite, c’est-à-dire, pour tout t ∈ R, on a limn→+∞ E[eitZn ] = e−

t2

2 . L’objet de cetexercice est de montrer que la suite Zn ne peut pas converger en probabilité.

1. Calculer la fonction caractéristique de Z2n − Zn et montrer que cette différenceconverge en loi.

2. En étudiant P(|Z2n − Zn| ≥ ε), montrer que Zn ne converge pas en probabilité.

1

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 1.1 L’objectif de cet exercice est de manipuler les différents types deconvergence. On commence donc par rappeler les différentes convergences en probabilités. Soit (Xn)

une suite de variables aléatoires et X une autre variable aléatoire. On dit que :

— (Xn) converge presque surement vers X quand ω ∈ Ω : limXn(ω) = X(ω) est de mesure 1 (onvérifiera que cet ensemble est bien mesurable).

— (Xn) converge en probabilité vers X quand pour tout ε > 0, P[|Xn −X| ≥ ε

]→ 0 quand n tend

vers +∞.

— (Xn) converge en loi vers X quand pour toute fonction continue bornée f on a Ef(Xn)→ Ef(X).

— si p ≥ 1, on dit que (Xn) converge dans Lp vers X quand E|Xn − X|p → 0 quand n tend vers+∞.

On a les implications suivantes :

[cv presque sure] (1)=⇒

[cv en proba] (2)=⇒

[cv en loi]

(3) ⇑[cv dans Lp]

Démo et contre-exemple de “(1)=⇒

” : Soit ε > 0. On a Xn → X ⊂ liminfn|Xn−X| ≤ ε. En

passant, au complémentaire, on a :

0 ≤ limsupn P[|Xn −X| > ε

]≤ P[limsupn|Xn −X| > ε]

= P[(

liminfn|Xn −X| ≤ ε)c] ≤ 0.

Il n’y a pas équivalence dans “(1) ⇒”. Voici une exemple d’une suite qui converge en probabilitémais pas presque surement : (Xn) des v.a. indépendantes telles que

P[Xn = 1] =1

net P[Xn = 0] = 1− 1

n.

La suite (Xn) converge en probabilité vers 0 car pour tout n, on P[|Xn| > ε] = P[Xn = 1] = 1/n. Maiselle ne converge pas presque surement vers car on a

∑n P(Xn = 1) = ∞ donc d’après le “second

lemme de Borel-Cantelli” (les événements (Xn = 1) sont indépendants), on a P[limsupnXn = 1] =

1. Notamment, (Xn) ne converge pas presque surement vers 0.Démo et contre-exemple de “(2)

=⇒” : Soit f une fonction continue bornée. Soit ε > 0 et Nε ∈ N

tel que P[|f(Xn) − f(X)| ≥ ε

]≤ ε (on rappel que si f est continue et (Xn) converge en probabilité

vers X alors (f(Xn)) converge en probabilité vers f(X)). On a donc∣∣Ef(Xn)− Ef(X)∣∣ ≤ ∣∣E(f(Xn)− f(X))I(|f(Xn)− f(X)| ≥ ε)

∣∣+∣∣E(f(Xn)− f(X))I(|f(Xn)− f(X)| < ε)

∣∣≤ 2 ‖f‖∞ P

[|f(Xn)− f(X)| ≥ ε

]+ ε ≤

(2 ‖f‖∞ + 1

)ε.

La réciproque est trivialement fausse. Il suffit de prendre la suite stationnaire (Xn) où pour tout n,Xn = g où g est une gaussienne. Comme g est symmétrique, −g est aussi distribuée comme g. Donc

1 RAPPELS DE PROBABILITÉS 2

ENSAE Statistiques mathématiques

(Xn) converge en loi vers g et donc aussi vers −g. Par contre |Xn − (−g)| = 2|g| ne converge pas enprobabilité vers 0. Donc (Xn) ne converge par vers −g en probabilité.

Démo et contre-exemple de “(3) ⇑” : D’après l’inégalité de Markov, P[|Xn − X ≥ ε|

]≤

ε−pE|Xn − X|p. Pour le contre-exemple, on prend Xn de loi (n−1δn2 + (1 − n−1)δ0). On a P[|Xn| ≥ε] ≤ n−1 donc (Xn) converge en probabilité mais E|Xn| = n donc (Xn) ne converge pas dans L1 vers0.

Correction de l’exercice

1. Pour tout t ∈ R, on a par indépendance

E exp(it(Z2n − Zn)) = E exp( it

σ√n

( 1√2− 1) n∑j=1

Zj

)E exp

( it

σ√

2n

2n∑j=n+1

Zj

).

En appliquant le TCL sur chacun des membres du produit, quand n tend vers l’infini, on obtientque (Z2n−Zn)n tend vers une loi dont la fonction caractéristique est t 7→ exp

(− t2(2−

√2)/2

),

c’est donc une Gaussienne centrée de variance√

2−√

2.

2. Supposons que (Zn) converge en probabilité. Alors il existe une variable aléatoire Z telle quepour tout ε > 0, on a P[|Zn − Z| > ε]→ 0. Soit ε > 0, on a

|Z2n − Zn| ≥ 2ε ⊂ |Zn − Z| ≥ ε ∪ |Z2n − Z| ≥ ε.

Alors, par une borne de l’union :

P[|Z2n − Zn| ≥ 2ε

]≤ P

[|Zn − Z| ≥ ε

]+ P

[|Z2n − Z| ≥ ε

]et donc en passant à la limite, on obtient P

[|Z2n−Zn| ≥ 2ε

]→ 0. Donc (Z2n−Zn)n converge en

probabilité vers 0. En particulier, cette suite converge en loi vers 0. Ce qui est en contradictionavec 1..

**********************

Exercice 1.2 (Lemme de Slutsky)

1. Donner un exemple de suites (Xn) et (Yn) telles que Xnloi→ X et Yn

loi→ Y , mais Xn + Yn

ne converge pas en loi vers X + Y .

2. Soient (Xn), (Yn) deux suites de variables aléatoires réelles, X et Y des variablesaléatoires réelles, telles que

(i) Xnloi→ X et Yn

P→ Y ,

(ii) Y est indépendante de (Xn) et X.

Montrer que le couple (Xn, Yn) converge en loi vers (X,Y ).

3. En déduire que si (Xn) et (Yn) sont deux suites de variables aléatoires réelles tellesque (Xn) converge en loi vers une limite X et (Yn) converge en probabilité vers uneconstante c, alors (Xn + Yn) converge en loi vers X + c et (Xn Yn) converge en loi verscX.

1 RAPPELS DE PROBABILITÉS 3

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 1.2

1. Soit (δn) une suite de v.a. i.i.d. de Bernoulli de moyenne 1/2 (càd P[δn = 0] = P[δn = 1] =

1/2,∀n). D’après le TCL, on sait que

Xn :=2√n

n∑i=1

(δi − 1/2

) N (0, 1).

On le démontre facilement, en utilisant le Théorème de Levy et en voyant que quand n tend versl’infini, pour tout t ∈ R,

E exp( 2it√

n

( n∑i=1

(δi − 1/2

)))=((1

2

)(exp

(−it√n

)+ exp

( it√n

)))n=(

1− t2

2n+O

( t3

n3/2

))n−→ exp

(−t22

).

Soit g une variable Gaussienne standard. Comme g est symmétrique, −g est aussi une GaussienneStandard. On a donc, (Xn) converge en loi vers g et aussi (Xn) converge en loi vers −g. Mais(Xn+Xn) converge en loi vers 2g 6= g+(−g) = 0. Cet exercice souligne le fait que la convergenceen loi est une convergence des lois de distribution et non des variables aléatoires elles mêmes.

2. On note par Cb(R) l’ensemble des fonctions continues bornées sur R. Pour montrer que (Xn, Yn)

converge en loi vers (X,Y ), il suffit de prouver que pour tout f, g ∈ Cb(R), on a Ef(Xn)g(Yn)→Ef(X)g(Y ) quand n tend vers l’infini. Par ailleurs, on sait que si (Yn) converge en probablitévers Y et si g est continue alors (g(Yn)) converge en probabilité vers g(Y ).

Soit f, g ∈ Cb(R) et ε > 0. Soit Nε ∈ N tel que pour tout n ≥ Nε,

P[|g(Yn)− g(Y )| ≥ ε

]≤ ε and

∣∣Ef(Xn)− Ef(X)∣∣ ≤ ε.

On a pour tout n ≥ Nε, par indépendance de g(Y ) avec f(Xn) et f(X),∣∣Ef(Xn)g(Yn)− Ef(X)g(Y )∣∣ ≤ ∣∣Ef(Xn)(g(Yn)− g(Y ))I(|g(Yn)− g(Y )| ≥ ε)

∣∣+∣∣Ef(Xn)(g(Yn)− g(Y ))I(|g(Yn)− g(Y )| < ε)

∣∣+∣∣Eg(Y )(f(Xn)− f(X))

∣∣≤ 2 ‖f‖∞ ‖g‖∞ P

[|g(Yn)− g(Y )| ≥ ε

]+ ‖f‖∞ ε+

∣∣Eg(Y )Ef(Xn)− Ef(X)∣∣

≤(2 ‖f‖∞ ‖g‖∞ + ‖f‖∞ + ‖g‖∞

)ε.

3. Comme (Yn) converge en probabilité vers Y = c p.p. qui est indépendante de toutes variablesaléatoires, on peut appliquer la question 2. :

((Xn, Yn)

)converge en probabilité vers (X, c).

Notamment, comme les applications somme et produit sont des fonctions continues de R2 dansR, on voit que (Xn + Yn) converge en loi vers X + c ainsi que (XnYn) converge en loi vers cX.

**********************

Exercice 1.3 (Convergence dans Lp)Soit (Xn) une suite de variables aléatoires réelles bornées par une même constante.

Montrer que si (Xn) converge en probabilité, alors Xn converge dans Lp pour tout p ≥ 1.

1 RAPPELS DE PROBABILITÉS 4

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 1.3 Pour cet exercice, on va démontrer un résultat plus fort. On rappelqu’une suite (Xn) est équi-intégrable quand

lima→+∞

supn∈N

E[|Xn|I(|Xn| > a)

]= 0.

Soit p ≥ 1 et (Xn) une suite d’éléments de Lp. On montre que les deux assertions suivantes sontéquivalentes :

1. la suite (Xn) converge dans Lp.

2. la suite (Xn) converge en probabilité et la suite (|Xn|p) est équi-intégrable.

b) implique a) : On montre d’abord que si (Yn) est équi-intégrable alors elle est équi-continue :càd pour tout ε > 0, il existe η > 0 tel que si P(A) ≤ η alors supn∈N E

[|Yn|1A

]≤ ε. Soit ε > 0 et

a0 > 0 tel que pour tout a ≥ a0 et tout n ∈ N, E[|Xn|I(|Xn| > a)

]≤ ε. On a pour tout ensemble

mesurable A, tout n ∈ N et tout a ≥ a0,

E[|Xn|1A

]= E

[|Xn|I(A ∩ |Xn| ≤ a)

]+ E

[|Xn|I(A ∩ |Xn| > a)

]≤ aP(A) + E

[|Xn|I(|Xn| > a)

]≤ aP(A) + ε.

On en déduit que (Yn) est bien équi-continue.Soit ε > 0. Pour tout q, r ∈ N, on a

E|Xr −Xq|p ≤ E[|Xr −Xq|pI(|Xr −Xq|p ≤ ε)

]+ 2p−1E

[(|Xr|p + |Xq|p

)I(|Xr −Xq|p > ε)

]≤ ε+ 2p−1E

[(|Xr|p + |Xq|p

)I(|Xr −Xq|p > ε)

].

Comme (|Xn|p) est équi-continue, il existe η > 0 tel que pour tout A tel que P[A] ≤ η, on a

supr∈N

E[|Xr|p1A

]+ sup

q∈NE[|Xq|p1A

]≤ ε/2p−1.

Comme (Xn) converge en probabilité, il existe un Nε tel que pour tout r, q ≥ Nε, P[|Xr − Xq| ≥

ε1/p]≤ η. On en déduit, que limsupr,q E|Xr −Xq|p ≤ 2ε pour tout r, q ≥ Nε. Alors (Xn) est une suite

de Cauchy dans Lp, qui est complet, donc elle est convergente dans Lp.a) implique b) : Par Markov, on a pour tout ε > 0,

P[|Xn −X| ≥ ε

]≤ ε−pE|Xn −X|p.

Soit Nε ∈ N tel que pour tout n ≥ Nε, E|Xn −X|p ≤ ε/2p−1. L’inégalité de Markov donne

P[|Xn|p > a

]≤ a−1E|Xn|p ≤ Ba−1 ≤ ε.

où B majore uniformément la suite (E|Xn|p) (qui est bien bornée vue que c’est une suite convergente).Soit a0 > 0 tel que supn∈N P[|Xn|p > a0] ≤ η où η est tel que E

[|X|p1A

]≤ ε/2p−1 pour tout A tel que

P(A) ≤ η (par définition X ∈ Lp). On a donc pour n ≥ Nε et tout a ≥ a0,

E[|Xn|pI(|Xn|p > a)

]≤ 2p−1E

[|Xn −X|pI(|Xn|p > a)

]+ 2p−1E

[|X|pI(|Xn|p > a)

]≤ ε.

De plus, il est facile de voir que toute famille finie de variables aléatoires est équi-intégrable. C’est lecas pour (Xn : 1 ≤ n ≤ Nε).

1 RAPPELS DE PROBABILITÉS 5

ENSAE Statistiques mathématiques

**********************

Exercice 1.4 (Lemme de Fatou)si (fn) est une suite de fonctions measurables alors∫

liminfn fn ≤ liminfn

∫fn.

En déduire que si (An) est une suite d’événements alors

limsupn P(An) ≤ P(limsupnAn),

où on rappelle que limsupnAn = ∩N ∪n≥N An.

**********************

Correction de l’exercice 1.4

1. Pour tout n ∈ N, on note gn = infp≥n fp. La suite (gn) est monotone et converge presque surementvers liminfn fn. Le théorème de convergence monotone donne :

limn

∫gn =

∫limngn =

∫liminfn fn.

Par ailleurs, on a pour tout n ∈ N,∫gn =

∫infp≥n

fp ≤ infp≥n

∫infp≥n

fp.

Par convergence des deux membres, on peut passer à la limite et obtenir le résultat.

2. On utilise le lemme de Fatou pour fn = 1 − 1An = 1Acn . On a liminfn fn = 1liminfn Acn et(liminfnA

cn

)c= limsupnAn donc

1− P[limsupnAn] = P[liminfnAcn] ≤ liminfn P[Acn].

**********************

Exercice 1.5 (lemmes de Borel-Cantelli)

1. Le premier lemme de Borel-Cantelli dit que si (An) est une suite d’événements telleque

∑n P[An] <∞ alors P[limsupnAn] = 0.

2. Le deuxième lemme de Borel-Cantelli dit que si (An) est une suite d’événementsindépendants tels que

∑n P[An] =∞ alors P[limsupnAn] = 1.

**********************

Correction de l’exercice 1.5

1. On note Bn = ∪p≥nAp. On a P[Bn] ≤∑

p≥n P[Ap]. Alors par hypothèse,(P[Bn]

)tend vers 0 en

décroissant. Par convergence monotone, limn P[Bn] = P[limnBn] = P[infnBn] = P[liminfnAn].Donc P[liminf An] = 0.

1 RAPPELS DE PROBABILITÉS 6

ENSAE Statistiques mathématiques

2. Comme limsupnAn =(

liminfnAcn

)c, il suffit de montrer que P[liminfnAcn] = 0. On note Bn =

∩p≥nAp. La suite (Bn) est croissante et converge presque surement vers liminfnAcn. Alors, par

convergence monotone,(P[Bn]

)converge vers P[liminfnA

cn]. Par ailleurs, comme log(1−x) ≤ −x

pour x ∈ [0, 1),

P[Bn] = P[∩p≥nAcp] = Πp≥nP[Acp] = Πp≥n(1− P[Ap]

)= exp

(∑p≥n

log(1− P[Ap]

))≤ exp

(−∑p≥n

P[Ap])

= 0.

On en déduit le résultat.

**********************

Exercice 1.6 (la loi du 0− 1 de Kolmogorov)Soit (σn) une suite de tribus indépendantes. La tribu asymptotique est σ∞ = ∩nσ

(∪p≥nσp

).

La loi du 0− 1 de Kolmogorov dit que pour tout A ∈ σ∞, P[A] ∈ 0, 1.

**********************

Correction de l’exercice 1.6 On note αn = σ(∪p≥nσp

)et βn = σ

(∪p<nσp

). Les deux tribus αn et

βn sont indépendantes. Comme σ∞ ⊂ αn alors σ∞ est indépendantes de βn pour tout n. Notamment,σ∞ est indépendante de ∪n∈Nβn et donc de σ

(∪n βn

)= σ

(∪n σn

)= α0. Or σ∞ ⊂ α0 donc σ∞ est

indépendante d’elle même. En particulier, si A ∈ σ∞ alors P[A] = P[A]P[A] donc P[A] ∈ 0, 1.

**********************

Exercice 1.7 (convergence en loi vers une constante)La convergence en loi vers une constante implique la convergence en proba : On supposeXn c alors (Xn) converge en probabilité vers c.

**********************

Correction de l’exercice 1.7 On peut démontrer que (Yn) converge en loi vers Y si et seulement sipour tout Borélien A PY -continue (càd P[∂A] = 0), on a PYn [A]→ PY [A].

Soit ε > 0. On a δc(B(c, ε)

)= 1. Alors PXn

[B(c, ε)

]→ δc(B(c, ε)) = 1. Donc P[|Xn − c| ≤ ε]→ 1.

C’est donc une convergence en probabilité vers c.

**********************

Exercice 1.8 (convergence en probabilité et convergence p.s.)Soit (Xn)n une suite de variables aléatoires réelles et X une variable aléatoire réelle.L’objectif de cet exercice est de montrer le lien suivant entre convergence en probabilitéet convergence presque sure : il y a équivalence entre :

a) (Xn)n converge en probabilité vers X,

b) toute sous-suite de (Xn)n admet une sous-suite qui converge p.s. vers X.

Pour démontrer ce résultat, on va d’abord montrer l’équivalence suivante

1 RAPPELS DE PROBABILITÉS 7

ENSAE Statistiques mathématiques

c) (Xn)n converge en probabilité,

d) (Xn)n est une suite de Cauchy en probabilité ; càd (Xn−Xm)n,m converge en probabilitévers 0 quand n et m tendent vers +∞.

Pour démontrer que c) et d) sont équivalents, on procéde par étapes :

1) Montrer que c) implique d)

2) On suppose d).

2.1) En utilisant de lemme de Borel-Cantelli montrer qu’il existe une sous-suite de(Xn)n qui converge p.s.. On note par X sa limite.

2.2) En déduire que (Xn)n converge en probabilité vers X.

On montre maintenant l’équivalence entre c) et d).

3) On suppose a). En utilisant 2.1) montrer b).

4) On suppose b) et on raisonne par contraposé : on suppose que a) n’est pas vrai.

4.1) Ecrire la contraposé.

4.2) Obtenir une contradiction.

**********************

Correction de l’exercice 1.8

1) On suppose que c) est vrai. Pour tout ε > 0 et n,m, on a

P[|Xn −Xm| ≥ ε] ≤ P[|Xn −X| ≥ ε/2] + P[|Xm −X| ≥ ε/2].

Comme le membre de droite tend vers 0 quand n et m tendent vers +∞, on en déduit que lemembre de droite tend aussi vers 0 dans ce cas là, càd, d) est vrai.

2.1) Comme (Xn)n est une suite de Cauchy en probability, on peut construire par récurrence encommençant à n1 = 1, une suite strictement croissante d’entiers (nj)j telle que

P[|Xnj −Xnj+1 | > 2−j ] < 2−j .

Comme∑

j P[|Xnj −Xnj+1 | > 2−j ] <∞, le lemmes de Borel-Cantelli dit que P[Ω0] = 0 où

Ω0 = lim supj→∞

|Xnj −Xnj+1 | > 2−j = ∩j ∪k≥j|Xnk −Xnk+1

| > 2−j.

Soit ω ∈ Ωc0. La suite (Xnj (ω))j est une suite (de nombres réels) de Cauchy car pour tout j

suffisament grand et tout k > j, on a

|Xnk(ω)−Xnj (ω)| ≤∑p≥j|Xnp(ω)−Xnp+1(ω)| ≤

∑p≥j

1

2p= 2j−1.

Ainsi, par complétude de R, on en déduit qu’il existe X(ω) tel que (Xnj (ω))j converge versX(ω). Ceci étant vrai pour tout ω ∈ Ωc

0 et P[Ωc0] = 1, on en déduit que (Xnj )j converge presque

surement.

1 RAPPELS DE PROBABILITÉS 8

ENSAE Statistiques mathématiques

2.2) On note par X la limite p.s. de (Xnj )j . Soit ε > 0. On a

P[|Xn −X| ≥ ε] ≤ P[|Xn −Xnj | ≥ ε/2] + P[|Xnj −X| ≥ ε/2].

Comme (Xnj )j converge presque surement versX, elle converge aussi en probabilité donc P[|Xnj−X| ≥ ε/2] tends vers 0 quand j tends vers +∞. Par ailleurs, (Xn)n est de Cauchy en probabilitydonc quand n et j tendent vers +∞, P[|Xn − Xnj | ≥ ε/2] tends vers 0. En en déduit queP[|Xn−X| ≥ ε] tends vers 0 quand n tends vers +∞, càd (Xn)n converge vers X en probabilité.

3) On suppose que (Xn)n converge en probabilité vers X. Soit (Xnj )j une sous suite. Elle convergedonc aussi en probabilité vers X. D’après 2.1), c’est aussi une suite de Cauchy en probabilité etdonc elle admet une sous-suite qui converge presque surement vers X. Donc b) est vrai.

4.1) Dire que a) n’est pas vrai, c’est dire qu’il existe un ε > 0 et un δ > 0 et une sous-suite (nk)k

d’entiers tels que pour tout k,P[|Xnk −X| ≥ ε] ≥ δ. (1)

4.2) D’un autre côté, b) est vrai donc (Xnk)k admet une sous-suite qui converge presque surementvers X. Ceci contredit (1).

**********************

Exercice 1.9 (L’asymptotique normalité implique la converge en probabilité)Soit (rn) une suite de réels positifs tendant vers +∞. Soit (ζn) une suite de v.a.r. telleque rn(ζn − µ) ζ. Alors (ζn) converge en probabilité vers µ.

**********************

Correction de l’exercice 1.9 On dit qu’une suite de v.a.r. (ζn) est tendue quand pour tout ε > 0,il existe Mε > 0 tel que pour tout n,P[|ζn| ≥ Mε] ≤ ε. Si une suite converge en probabilité alors elleest tendue. (Car on peut approcher la fonction I(· ∈ [−Mε,Mε]) par une suite croissante de fonctionscontinues bornées). Alors (rn(ζn − µ)) est tendue. Soit ε > 0 et Mε > 0 tels que supn∈N P[|ζn − µ| ≥Mε/rn] ≤ ε. Ce qui implique la convergence en probabilité car (rn) tend vers +∞.

**********************

Exercice 1.10 (Loi conditionnelle)Soit X une variable aléatoire qui suit une loi Gamma (2, λ) de densité

f (x) = λ2xe−λx1[0,+∞)(x)

et soit Y une variable aléatoire dont la loi conditionnelle à X = x est uniforme sur [0, x] .

1. Donner la loi jointe de (X,Y ).

2. Donner la loi marginale de Y et montrer que Y est indépendant de X − Y .

**********************

Correction de l’exercice 1.10

1 RAPPELS DE PROBABILITÉS 9

ENSAE Statistiques mathématiques

1. Soit f une fonction continue bornée sur R2. On a

Ef(X,Y ) =

∫R

(∫Rf(x, y)dPY |X=x(y)

)dPX(x)

=

∫ ∞0

(∫ x

0f(x, y)

dy

x

)λ2xe−λxdx =

∫R2

f(x, y)1[0,x](y)1R+(x)λ2e−λxdxdy.

Donc la loi jointe du couple (X,Y ) a une densité donnée pour tout x, y ∈ R par

f (X,Y )(x, y) = 1[0,x](y)1R+(x)λ2e−λx

2. La loi marginale de Y a pour densité : pour tout y ∈ R,

fY (y) =

∫Rf (X,Y )(x, y)dx = 1y≥0

∫ ∞y

λ2e−λxdx = λe−λy1y≥0.

Soit f et g deux fonctions continues bornée. Un changement de variable x− y → t donne

Ef(Y )g(X − Y ) =

∫R2

f(y)g(x− y)1[0,x](y)1R+(x)λ2e−λxdxdy

=

∫Rf(y)1y≥0

(∫ ∞y

g(x− y)λ2e−λxdx)dy =

∫Rf(y)1y≥0

(∫ ∞0

g(t)λ2e−λ(t+y)dt)dy

=(∫

Rf(y)1y≥0λe

−λydy)(∫

Rg(t)1t≥0λe

−λtdt)

= Ef(Y )Eg(X − Y )

(pour avoir la loi de X−Y , il suffit de prendre f ≡ 1 dans le calcul précédent). Donc Y et X−Ysont bien indépendants.

**********************

Exercice 1.11 (quartile)Soit la loi de probabilité de densité f(x) = 2xI0 ≤ x ≤ 1.

1. Trouver les quartiles (y compris la médiane) de cette loi.

2. Considérons un échantillon i.i.d. (X1, . . . , Xn) de cette loi. Soit Fn la fonction derépartition empirique associée. Donner la loi limite de

√n(Fn(1/2)−1/4)/Fn(3/4) quand

n→∞., où Fn est la fonction de répartition empirique.

**********************

Correction de l’exercice 1.11

1. q1/4 = 1/2, q1/2 = 1/√

2 et q3/4 =√

3/2

2. Le tCL donne :√n(Fn(1/2)− F (1/2)

) N (0, F (1/2)(1− F (1/2)))

et la LFGN : Fn(3/4)p.s.−→ F (3/4). Comme F (1/2) = 1/4 et F (3/4) = 9/16, on obtient

√n(Fn(1/2)− F (1/2)

)Fn(3/4)

N(0,

16

27

)

1 RAPPELS DE PROBABILITÉS 10

ENSAE Statistiques mathématiques

2 Vraisemblance, EMV, IC, Information de Fisher

**********************Exercice 2.1 (Les statistiques d’ordre)Soient X1, . . . , Xn des variables aléatoires i.i.d. de fonction de répartition F . On suppose

que F admet une densité f par rapport à la mesure de Lebesgue. On note X(1) ≤ X(2) ≤. . . ≤ X(n) les variables aléatoires X1, . . . , Xn réordonnées par ordre croissant.

1. Donner l’expression de la loi de la statistique d’ordre (X(1), . . . , X(n)) en fonction def .

2. Déterminer la fonction de répartition Fk(x) puis la densité fk(x) de X(k).

3. Sans utiliser les résultats des questions précédentes, calculer les fonctions de répar-tition de X(1), X(n), du couple (X(1), X(n)) et la loi de la statistique W = X(n)−X(1) (onappelle W étendue). Les variables X(1) et X(n) sont–elles indépendantes ?

**********************

Correction de l’exercice 2.1

1. Comme les Xi ont des densités par rapport à Lebesgues, on a Xi 6= Xj λ−p.p.. Alors p.p.

f(X(1), . . . , X(n)) =∑

σ∈P(n)

f(Xσ(1), . . . , Xσ(n))I(Xσ(1) < · · · < Xσ(n)).

Soit σ ∈ P(n). Comme les Xi sont i.i.d., on voit que (Xσ(1), . . . , Xσ(n))> ∼ (X1, . . . , Xn)>. Alors,

pour tout f ∈ Cb(Rn),

Ef(Xσ(1), . . . , Xσ(n))I(Xσ(1) < · · · < Xσ(n)) = Ef(X1, . . . , Xn)I(X1 < · · · < Xn)

=

∫Rn

f(x1, . . . , xn)(

Πni=1f(xi)

)I(x1 < · · · < xn)dx1 · · · dxn.

On en déduit que la loi de (X(1), . . . , X(n)) admet une densité par rapport à Lebesgue donnéepar

f(x1, . . . , xn) = n!(

Πni=1f(xi)

)I(x1 < · · · < xn).

2. On calcul la fonction de répartition de X(k). Soit t ∈ R,

P[X(k) ≤ t] = P[∃I ⊂ 1, . . . , n : |I| ≥ k, ∀i ∈ I,Xi ≤ t

]= P[M ≥ k]

où M =∑n

i=1 I(Xi ≤ t) est une multinomiale de paramétre n et P[X1 ≤ t] = F (t). On a donc

P[X(k) ≤ t] =n∑j=k

(n

j

)F (t)j(1− F (t))n−j .

Comme F est absoluement continue la cdf de X(k) l’est aussi. Donc X(k) admet une densité parrapport à Lebesgues donnée par :

f(t) =

n∑j=k

(n

j

)(jf(t)F (t)j−1(1− F (t))n−j + (n− j)F (t)j(−f(t))(1− F (t))n−j−1

)=

n!

(k − 1)!(n− k)!F (t)k−1(1− F (t))n−k.

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 11

ENSAE Statistiques mathématiques

3. La fonction de répartition de X(1) vérifie :

1− FX(1)(t) = P[X(1) > t] = P[X1 > t, . . . ,Xn > t] =

(P[X1 > t]

)n=(1− F (t)

)n.

La fonction de répartition de X(n) est donnée par :

FX(n)(t) = P[X(n) ≤ t] = P[X1 ≤ t, . . . ,Xn ≤ t] =

(P[X1 ≤ t]

)n=(F (t)

)n.

Pour la fonction de répartition du couple (X(1), X(n)), on calcul la répartition du couple (X(1), X(n))

dans le quadrant inférieur droit. On a pour tout x, y réels :

P[X(1) > x,X(n) ≤ y] = P[x < X1 ≤ y, . . . , x < Xn ≤ y]

=(P[x < X1 ≤ y]

)n= I(x ≤ y)

(F (y)− F (x)

)n.

On a :P[X(1) > x,X(n) ≤ y] + P[X(1) ≤ x,X(n) ≤ y] = P[X(n) ≤ y] = F (y)n.

Alors,F (x, y) = P[X(1) ≤ x,X(n) ≤ y] = F (y)n − I(x ≤ y)

(F (y)− F (x)

)n.

La densité de (X(1), X(n)) est donnée par

f(x, y) =∂2F

∂x∂y(x, y) = n(n− 1)I(x ≤ y)f(x)f(y)

(F (y)− F (x)

)n−2.

La loi de la statistique W = X(n) −X(1) est donnée par ce qui suit. Soit f ∈ Cb(R), on a

Ef(W ) =

∫R2

f(y − x)dP(X(1),X(n))(x, y)

= n(n− 1)

∫R2

f(y − x)I(x ≤ y)(F (y)− F (x)

)n−2dxdy

=

∫ ∞0

f(u)(n(n− 1)

∫R

(F (u+ x)− F (x)

)n−2dx)du.

Alors W a pour densité

u 7→ I(u ≥ 0)n(n− 1)

∫R

(F (u+ x)− F (x)

)n−2dx.

Les variables X(1) et X(n) sont indépendantes si et seulement si pour tout x et y, on a

F (y)n − I(x ≤ y)(F (y)− F (x)

)n= P[X(1) ≤ x,X(n) ≤ y]

= P[X(1) ≤ x]P[X(n) ≤ y] =(

1− (1− F (x))n)F (y)n.

Il faut donc I(x ≤ y)(F (y)−F (x)

)n=(F (y)−F (y)F (x)

)n pour tout x, y. Ce qui n’est pas vraien générale.

**********************

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 12

ENSAE Statistiques mathématiques

Exercice 2.2 (Estimateur de la variance)Soient X1, . . . , Xn des variables aléatoires i.i.d., Xi ∼ f(· − θ), où f est une densité de

probabilité sur R symétrique dont on note µk =∫R x

kf(x) dx les moments d’ordre k = 2 etk = 4. On note Xn = 1

n

∑ni=1Xi. Montrer que l’estimateur 1

n

∑ni=1(Xi − Xn)2 de la variance

des Xi vérifie un théorème central limite.

Indication : on montrera d’abord que l’on peut se ramener au cas où θ = 0, puis onexprimera l’estimateur comme une transformation de Sn = 1

n

∑ni=1X

2i et de Xn.

**********************

Correction de l’exercice 2.2 On commence par quelques remarques préliminaires :

a) Comme n−1∑n

i=1(Xi−Xn)2 est invariant par translation desXi et que siX ∼ f(·−θ) et Y ∼ f(·)alors X ∼ Y + θ, on peut donc supposer que θ = 0. Notamment comme f est symmétrique, ona EXi = 0, ∀i.

b) On note σ2n := n−1∑n

i=1(Xi − Xn)2. On a :

σ2n =1

n

n∑i=1

X2i −

( 1

n

n∑i=1

Xi

)2= X2

n −Xn.

(On écrit σ2n = EI(XI − EIXI

)2.)c) On remarque d’abord que σ2n n’est pas un estimateur sans biais de la variance :

Eσ2n = EX2 − E( 1

n

n∑i=1

Xi

)2= EX2 − 1

n2

∑i,j

EXiXj

=(

1− 1

n

)(EX2 −

(EX)2)

=n− 1

nvar(X).

Par la LFGN, la suite (σ2n) converge presque surement vers σ2.

On considère la décomposition suivante :

√n(σ2n − σ2

)=√n(X2

n − EX2)−√n(Xn

)2.

Par le TCL, on a :

√n(X2

n − EX2) N

(0,E

(X2 − EX2

)2) et E(X2 − EX2)2

= µ4 − µ22.

Par ailleurs,(√nXn

)converge en loi vers une Gaussienne et (Xn) converge en probabilité vers 0. Alors

d’après Slutsky,(√n(Xn

)2) converge en loi vers 0, elle converge donc aussi en probabilité vers 0. Onapplique une seconde fois Slutsky :

(√n(X2

n − EX2))

converge en loi vers N(0,E

(X2 − EX2

)2) et(√n(Xn

)2) converge en probabilité vers 0. On en déduit que

√n(σ2n − σ2

) N

(0,E

(X2 − EX2

)2).

**********************

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 13

ENSAE Statistiques mathématiques

Exercice 2.3 (Stabilisation de la variance)On dispose d’un échantillon X1, . . . , Xn i.i.d. de loi de Bernoulli de paramètre 0 < θ < 1.

1. On note Xn la moyenne empirique des Xi. Appliquer la loi forte des grands nombreset le TCL dans ce modèle.

2. Cherchez une fonction g telle que√n(g(Xn)−g(θ)) converge en loi vers Z de loi N (0, 1).

3. On note zα le quantile d’ordre 1 − α/2 de la loi normale standard. En déduire unintervalle de confiance In,α fonction de zα, n, Xn tel que limn→∞ P(θ ∈ In,α) = 1− α.

**********************

Correction de l’exercice 2.3

1. La LFGN dit que(Xn

)converge presque surement vers EX1 = θ. Le TCL dit que

((√n/σ)

(Xn−

EX))

converge en loi vers une Gaussienne centrée réduite où σ =√θ(1− θ).

2. D’après le TCL :√n(Xn − θ

) σg.

On dit que Xn est asymptotiquement normale de moyenne θ et de variance asymptotique σ2.On peut alors appliquer la Proposition 1.10 (Méthode delta) du cours (en fait, on applique uneversion plus faible de ce résultat qu’on peut trouver page 26 au théorème 3.1 de [van der Vaart,asymptotic Statistics]) : si (ζn) est asymptotiquement normale de moyenne asymptotique θ et devariance asymptotique σ2 et si g : D ⊂ R 7→ R est une fonction différentiable en θ, alors (g(ζn))

est aussi asymptotiquement normale et on a :√n(g(ζn)− g(θ)

) N (0, σ2

(g′(θ)

)2). (2)

Dans notre cas, on cherche à trouver g tel que (g(Xn)) est asymptotiquement normal de moyenneasymptotique 0 et de variance asymptotique θ(1−θ)

(g′(θ)

)2= 1. On est donc amener à résoudre

l’équation :

∀θ ∈ (0, 1), g′(θ) =1√

θ(1− θ).

L’ensemble des solutions de cette équation est donnée, à une constante absolue additive près,par g : θ ∈ [0, 1] 7→ 2arcsin(

√x) (on rappel que (arcsinx)′ = (1 − x2)−1/2,∀x ∈ [−1, 1]). Cette

fonction est continûment différentiable en tout θ ∈ (0, 1), alors d’après Proposition 1.10 (voir(2)), on a

√n(g(Xn)− g(θ)

) N (0, 1).

(On rappelle que g a été choisit tel que θ(1− θ)(g′(θ)

)2= 1 pour tout θ ∈ (0, 1)).

3. Pour tout α[0, 2], le quantile d’ordre 1 − α/2 de la gaussienne est l’unique réel tel que P[g ∈(−∞, qα] = 1− α/2. On a

P[θ ∈ In,α

]= P

[∣∣∣√n(g(Xn)− g(θ))∣∣∣ ≤ zα] −→ P[g ∈ [−zα, zα]] = 1− α

pourIn,α =

[sin2

(g(Xn)− zα√

n

), sin2

(g(Xn) +

zα√n

)]

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 14

ENSAE Statistiques mathématiques

**********************

Exercice 2.4 (Modèle probit)Nous disposons d’une information relative au comportement de remboursement ou de

non-remboursement d’emprunteurs :

Yi =

1 si l’emprunteur i rembourse,0 si l’emprunteur i est défaillant.

Afin de modéliser ce phénomène, on suppose l’existence d’une variable aléatoire Y ∗i nor-male, d’espérance m et de variance σ2, que l’on appellera « capacité de remboursementde l’individu i », telle que :

Yi =

1 si Y ∗i > 0,

0 si Y ∗i ≤ 0.

On note Φ la fonction de répartition de la loi normale N (0, 1).

1. Exprimer la loi de Yi en fonction de Φ.

2. Les paramètres m et σ2 sont-ils identifiables ?

**********************

Correction de l’exercice 2.4

1. On calcul la loi de Y tel que Y = 1 quand Y ∗ ≥ 0 et Y = 0 quand Y ∗ < 0 où Y ∗ ∼ N (m,σ2).La loi de Y est donnée par P[Y ∗ ≥ 0]δ1 +P[Y ∗ < 0]δ0. On note par ϕ la densité d’une gaussienneN (0, 1), en particulier, on a Φ(x) =

∫ x−∞ ϕ(t)dt. Le changement de variable (x−m)/σ → t donne

P[Y ∗ < 0] =

∫ 0

−∞ϕ(x−m

σ

)dxσ

=

∫ −m/σ−∞

ϕ(t)dt = Φ(−mσ

).

La loi de Y est donc (1− Φ(−m/σ2))δ1 + Φ(−m/σ2)δ0.

2. Les paramétres m et σ2 ne sont pas identifiable vu que n’importe quels couples (m1, σ21) et

(m2, σ22) tels que m1/σ

21 = m2/σ

22 donne la même loi pour Y .

**********************

Exercice 2.5 (Répartition de génotypes dans une population)Quand les fréquences de gènes sont en équilibre, les génotypes AA, Aa et aa se mani-

festent dans une population avec probabilités (1− θ)2, 2θ(1− θ) et θ2 respectivement, où θ

est un paramètre inconnu. Plato et al. (1964) ont publié les données suivantes sur le typede haptoglobine dans un échantillon de 190 personnes :

Type de haptoglobine Hp-AA Hp-Aa Hp-aaeffectifs 10 68 112

1. Comment interpréter le paramètre θ ? Proposez un modèle statistique pour ce pro-blème.

2. Calculez l’estimateur du maximum de vraisemblance θn de θ.

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 15

ENSAE Statistiques mathématiques

3. Donnez la loi asymptotique de√n(θn − θ).

4. Proposez un intervalle de confiance de niveau asymptotique 95% pour θ.

**********************

Correction de l’exercice 2.5

1. On propose deux modèlisations pour ces données. Seule la deuxième sera utilisée pour le traite-ment mathématique du problème.

Modèle 1 : On modèlise ce problème par une famille de n couples (δ(1)1 , δ

(2)1 ), . . . , (δ

(1)n , δ

(2)n ) où

les δ(j)i , i = 1, . . . , n, j = 1, 2 sont i.i.d. Bernoulli sur A, a de paramétre θ. On dit que δ(j)i = a

quand l’alléle a est présent chez l’individu i au gène numéro 2. On a donc bien le probabilitésdu génotype AA qui est (1 − θ)2, Aa qui est de probabilité 2θ(1 − θ) et aa qui est θ2. Dans cemodèle θ est la probabilité d’avoir l’alléle a pour chacun des deux gènes.

Modèle 2 : On peut modèliser ce problème par une famille de n variables aléatoires X1, . . . , Xn

i.i.d. à valeurs dans AA,Aa, aa telles que P[X = AA] = (1 − θ)2, P[X = Aa] = 2θ(1 − θ) etP[X = aa] = θ2. On choisit ce modèle pour la suite. On peut voir que X = δ(1), δ(2). Donc θs’interprète comme étant la probabilité d’avoir l’alléle a pour chacun des deux gènes.

2. Dans le modèle 2, la loi de X est Pθ = (1 − θ)2δAA + 2θ(1 − θ)δAa + θ2δaa, elle admet unedensité fθ par rapport à la mesure δAA + δAa + δaa qui est définie sur AA,Aa, aa donnée parfθ(AA) = (1− θ)2, fθ(Aa) = 2θ(1− θ) et fθ(aa) = θ2. La Log-vraisemblance est donnée par

L :θ ∈ (0, 1) 7−→n∑i=1

log fθ(Xi)

= Nn(AA) log[(1− θ)2] +Nn(Aa) log[2θ(1− θ)] +Nn(aa) log[θ2]

oùNn() est le nombre de génotypes dans l’échantillon X1, . . . , Xn. On a pour tout θ ∈ (0, 1),

L′(θ) =2n

θ− 1

θ(1− θ)[2Nn(AA) +Nn(Aa)

].

Alors l’estimateur du maximum de vraisemblance est donné par

θn = 1− 1

2n

[2Nn(AA) +Nn(Aa)

].

Ici, on a θn = 1− 22/95 ≈ 0.77.

3. On peut appliquere le TCL ou la méthode générale du cours sur la normalité asymptpotique desEMV. Pour le TCL, on a directement que

√n(θ − θn

)=√n( 1

n

n∑i=1

(I(Xi = AA) + (1/2)I(Xi = Aa)

)− (1− θ)

) N

(0,θ − θ2

2

)car

E(I(X = AA) + (1/2)I(Z = Aa)

)= (1− θ)2 + θ(1− θ) = 1− θ

et

E(I(X = AA) + (1/2)I(Z = Aa)

)2= 1− 3θ

2+θ2

2

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 16

ENSAE Statistiques mathématiques

alors

var(I(X = AA) + (1/2)I(Z = Aa)) =θ − θ2

2.

4. On applique la méthode Delta. On chercher une fonction g telle que pour tout θ ∈ (0, 1), on a :

g′(θ)2θ − θ2

2= 1

alors g(θ) = 2√

2arcsin(√θ). On applique la méthode Delta : (

√n(g(θn)− g(θ))) converge en loi

vers N (0, 1). Alors si P[|G| ≤ zα] = 1−α, où G est Gaussienne Standard, on aura, quand n tendvers ∞,

P[θn ∈ g−1

([g(θ)− zα/

√n, g(θ) + zα/

√n])]→ 1− α.

**********************

Exercice 2.6 (Modèle d’autorégression)On considère les observations X1, . . . , Xn, où les Xi sont issus du modèle d’autorégression

d’ordred 1 :Xi = θXi−1 + ξi, i = 1, . . . , n, X0 = 0, (3)

où ξi i.i.d. de loi normale N (0, σ2) et θ ∈ R.

1. Explicitez l’expérience statistique associèe à la donnée (X1, . . . , Xn).

2. Calculez l’estimateur du maximum de vraisemblance θn de θ pour ce modèle.

**********************

Correction de l’exercice 2.6

1. Une expérience statistiques est un triplet de la forme :

E =(Z,Z, Pθ : θ ∈ Θ

)où Z est l’espace des observations, Z est la tribu sur l’espace des observations et Pθ : θ ∈ Θ estle modèle : c’est l’ensemble des mesures de probabilités dont on suppose a priori que les donnéessont issues.

Ici, on a Z = Rn qui est muni de sa tribu des Boréliens Z. Le modèle est donné par l’équationd’autorégression : Xi = θXi−1+ζi où ζi sont i.i.d. N (0, σ2). Pour le modèle, on suppose connu σ2.Ainsi le modèle est seulement paramétré par θ (sinon, il serait paramétré par (θ, σ2)). La loi Pθ estdonc la loi de (X1, X2, . . . , Xn) sous l’hypothèse "AR(1)" de l’équation 3. On a PXi|Xi−1,...,X1

θ =

PXi|Xi−1

θ ∼ N (θXi, σ2). On montre par récurrence que

Pθ = P(X1,...,Xn)θ = fθ.λ

où λ est la mesure de Lebesgues sur Rn et fθ est une fonction de densité définie sur Rn pour tout(x1, . . . , xn) ∈ Rn par :

fθ(x1, . . . , xn) = f(x1)f(x2 − θx1)f(x3 − θx2) · · · f(xn − θxn−1)

où f est la densité d’une Gaussienne de moyenne nulle et de variance σ2. Pour la recurrence, onutilise l’identité P(X,Y ) = PX ⊗ PY |X .

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 17

ENSAE Statistiques mathématiques

2. La fonction de Log-vraisemblance est donnée par :

L :

R → Rθ 7→ log fθ(X1, . . . , Xn) = log f(X1) +

∑n−1i=1 log f(Xi+1 − θXi).

où f(x) = (σ√

2π)−1/2 exp(− x2/(2σ2)

). Alors pour tout θ,

L(θ) =−n log

(σ√

2π)

2− X2

1

2σ2+n−1∑i=1

(Xi+1 − θXi)2

2σ2

et aussi

L′(θ) =

n−1∑i=1

−Xi(Xi+1 − θXi)

σ2= σ−2

n−1∑i=1

X2i −

n−1∑i=1

XiXi−1

).

Alors l’EMV est donné par :

θn =( n−1∑i=1

XiXi−1

)/( n−1∑i=1

X2i

).

**********************

Exercice 2.7 (Durées de connection)On peut modéliser la durée d’une connection sur le site www.Cpascher.com par une loi

gamma(2, 1/θ) de densitéθ−2xe−x/θ1[0,+∞[(x).

Pour fixer vos tarifs publicitaires, vous voulez estimer le paramètre θ à partir d’un échan-tillon X1, . . . , Xn de n durées de connexion. On vous donne Eθ(Xi) = 2θ et varθ(Xi) = 2θ2.

1. Calculez l’estimateur du maximum de vraisemblance θn de θ.

2. Que vaut E(θn) ? Quelle est la variance de θn ?

**********************

Correction de l’exercice 2.7

1. On note par fθ la densité donnée pour tout x ∈ R, par fθ(x) = θ−2xe−x/θI(x ≥ 0). La log-vraisemblance du modèle est la fonction L : θ ∈ R∗+ 7−→

∑ni=1 log fθ(Xi). On a pour tout θ > 0,

L(θ) = −2n log θ +n∑i=1

logXi −n

θXn,

où Xn = n−1∑

iXi. Alors L′(θ) = −2nθ−1+nθ−2Xn et donc θn ∈ argmaxθ>0L(θ) = (1/2)Xn.

2. Eθn = θ. Pour la variance, on a

var(θn) =1

4nvar(X1) =

EX2 − (EX)2

4n=

2θ2

4n.

**********************

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 18

ENSAE Statistiques mathématiques

Exercice 2.8 (Durée de vie)Un système fonctionne en utilisant deux machines de types différents. Les durées de vie

X1 et X2 des deux machines suivent des lois exponentielles de paramètres λ1 et λ2. Lesvariables aléatoires X1 et X2 sont supposées indépendantes.

1. Montrer queX

Loi= E(λ)⇔ ∀x > 0,P(X > x) = exp(−λx).

2. Calculer la probabilité pour que le système ne tombe pas en panne avant la date t.En déduire la loi de la durée de vie Z du système. Calculer la probabilité pour quela panne du système soit due à une défaillance de la machine 1.

3. Soit I = 1 si la panne du système est due à une défaillance de la machine 1, I = 0

sinon. Calculer P(Z > t; I = δ), pour tout t ≥ 0 et δ ∈ 0, 1. En déduire que Z et Isont indépendantes.

4. On dispose de n systèmes identiques et fonctionnant indépendamment les uns desautres dont on observe les durées de vie Z1, . . . , Zn.(a) Écrire le modèle statistique correspondant. A-t-on suffisamment d’informationpour estimer λ1 et λ2 ?(b) Si on observe à la fois les durées de vie des systèmes et la cause de la défaillance(machine 1 ou 2), a-t-on alors suffisamment d’information pour estimer λ1 et λ2 ?

5. On considère maintenant un seul système utilisant une machine de type 1 et unemachine de type 2, mais on suppose que l’on dispose d’un stock de n1 machinesde type 1, de durées de vie X1

1 , . . . , Xn11 et d’un stock de n2 machines de type 2, de

durées de vie X12 , . . . , X

n22 . Quand une machine tombe en panne, on la remplace par

une machine du même type, tant que le stock de machines de ce type n’est pasépuisé. Quand cela arrive, on dit que le système lui-même est en panne. On notetoujours Z la durée de vie du système. Le cas n1 = n2 = 1 correspond donc aux troispremières questions.(a) Montrer que la densité de la somme U de k variables indépendantes qui suiventune loi exponentielle de même paramètre λ s’écrit, pour x ≥ 0 :

fU (x) =λk

(k − 1)!xk−1exp(−λx).

(b) Écrire Z en fonction des Xji et en déduire P(Z ≥ t) en fonction n1, n2, λ1, λ2 et t.

**********************

Correction de l’exercice 2.8

1. Par définition, une v.a.r. suit une loi exponentielle E(λ) quand elle admet une densité de la formfλ : x ∈ R 7→ λ exp(−λx)I(x > 0). Si X ∼ E(λ) alors, pour tout x > 0,

P[X > x] =

∫ ∞x

λ exp(−λx)dx = exp(−λx).

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 19

ENSAE Statistiques mathématiques

Réciproquement, siX est une v.a.r. telle que pour tout x > 0 ,1−FX(x) = P[X > x] = exp(−λx).Alors X est portée sur R+ et comme FX est dérivable, X admet une densité donnée par F ′X càdx 7→ λ exp(−λx)I(x > 0). C’est donc une variable exponentielle.

2. On note par Z la durée de vie du systéme. On a donc Z > t ssi X1 > t et X2 > t et donc parindépendance

P[Z > t] = P[X1 > t ∩ X2 > t] = P[X1 > t]P[X2 > t] = exp(− (λ1 + λ2)t

).

Donc Z ∼ E(λ1 + λ2). Par ailleurs, la machine sera en panne due à l’élément 1 quand X1 < X2.On calcul P[X1 < X2] :

P[X1 < X2] = EI(X1 < X2) =

∫R2+

I(x1 < x2)fλ1(x1)fλ2(x2)dx1dx2

=

∫ ∞0

fλ1(x1)(∫ ∞

x1

fλ2(x2)dx2

)dx1 =

∫ ∞0

fλ1(x1) exp(−λ2x1)dx1

=

∫ ∞0

λ1 exp(− (λ1 + λ2)x1

)dx1 =

λ1λ1 + λ2

.

3. [I = 1 ssi X1 < X2] et [I = 0 ssi X1 > X2]. On a

P[Z > t ∩ I = 1] = P[X1 ∧X2 > t ∩ X1 < X2] = P[t < X1 < X2]

=

∫ ∞t

λ1 exp(− (λ1 + λ2)x1

)dx1 =

λ1λ1 + λ2

exp(−(λ1 + λ2)t) = P[Z > t]P[I = 1]

Par symmétrie,

P[Z > t|I = 0] = P[X1 ∧X2 > t|X1 > X2] = P[X1 > X2 > t]

=λ2

λ2 + λ1exp

(− (λ1 + λ2)t

)= P[I = 0]P[Z > t].

On en déduit que Z et I sont indépendantes.

4. a) Le modéle statistique est E(λ1 + λ2)⊗n : λ1, λ2 > 0. Ce modèle n’est pas identifiable en le

paramétre (λ1, λ2).

4. b) On observe (X1i ∧X2i, Ii) ou Ii = 1 si X1i < X2i et Ii = 0 sinon. On peut estimer la moyenne deZ par n−1

∑ni=1 Zi et on peut estimer la moyenne de I par n−1

∑ni=1 Ii. On peut donc estimer

λ1 + λ2 et λ1/(λ1 + λ2). On peut donc estimer λ1 et λ2.

**********************

Exercice 2.9 (Taux de défaillance)Une chaîne de production doit garantir une qualité minimale de ses produits. En parti-

culier, elle doit garantir que la proportion θ des produits défaillants reste inférieure à untaux fixé par le client. Un échantillon de n produits est prélevé et analysé. On note θn laproportion de produits défectueux dans l’échantillon.

1. Proposer un modèle statistique pour ce problème. Quelle est la loi de nθn ?

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 20

ENSAE Statistiques mathématiques

2. Quelle information donne la loi des grand nombres et le théorème centrale limite surle comportement asymptotique de θn ?

3. On donne P(N > 1.64) = 5% pour N ∼ N (0, 1). En déduire εn (dépendant de n et θ)tel que P(θ ≥ θn + εn)

n→∞→ 5%.

4. La valeur εn précédente dépend de θ. A l’aide du lemme de Slutsky, donner ε′n nedépendant que de n et θn tel que P(θ ≥ θn + ε′n)

n→∞→ 5%.

**********************

Correction de l’exercice 2.9

1. On modélise ce problème par une famille de n variables de Bernoulli δ1, . . . , δn i.i.d. telle queP[δi = 1] = θ = 1 − P[δi = 0]. Où δi = 1 signifie que le i-iéme produit prélevé est défaillant etδi = 0 signifie qu’il n’est pas défaillant. On a donc θn = 1

n

∑ni=1 δi. En particulier, nθ =

∑ni=1 δi

donc pour tout 0 ≤ k ≤ n,

P[nθn = k

]=

(n

k

)θk(1− θ)n−k.

On reconnaît la loi d’une multinomiale de paramétre n, θ.

2. La loi des grands nombres assure que (θn) converge presque surement vers Eδ = θ. Commevar(δ) = Eδ2 − (Eδ)2 = θ − θ2, le TCL dit que

√n(θn − θ) N (0, (θ − θ2)).

3. Le TCL dit que, quand n tend vers l’infini,

P[θ ≥ θn + ε

√θ − θ2n

]= P

[√ n

θ − θ2(θ − θn) ≥ ε

]−→ P[g ≥ ε].

Si on choisit ε > 0 tel que P[g ≥ ε] = 5%, on obtient le résultat pour εn =√

(θ − θ2)/nε.

4. La fonction x 7→√

1/(x− x2) est continue sur (0, 1) alors si θ ∈ (0, 1), comme θn converge presquesurement vers θ, il existe un N ∈ N tel que pour tout n ≥ N , θn ∈ (0, 1) p.s. et donc (f(θn))n≥N

est p.s. définie et elle converge vers f(θ) presque surement. Comme√n(θ − θn) converge en loi

vers N (0, θ− θ2) et (f(θn))n≥N converge presque surement vers f(θ), on en déduit par le lemmede Slutsky que

(f(θn)

√n(θ− θn)

)n≥N converge en loi vers f(θ)N (0, θ−θ2) = N (0, 1). On définit

la suite de v.a. (ε′n) par

ε′n =

√θn − θ2nn

ε.

On a alors :P[θ ≥ θn + ε′n

]= P

[f(θn)

√n(θ − θn) ≥ ε

]−→ P[g ≥ ε] = 5%.

**********************

Exercice 2.10 (Cas des défaillances rares)La chaîne produit des composants électroniques utilisés dans le secteur aéronautique. Le

taux de défaillance doit donc être très bas. En particulier, comme la taille de l’échantillonne peut être très grosse (question de coût), il est attendu que θ soir du même ordre

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 21

ENSAE Statistiques mathématiques

de grandeur que 1/n. On supposera donc par la suite que la proportion de composantsdéfectueux est θn = λ/n pour un certain λ > 0 et on cherche à estimer λ par λn = nθn. Lavaleur λ est supposée indépendante de n (le cas intéressant est quand λ est petit).

1. Quelle est la limite de P(λn = k) lorsque n→ +∞ ? En déduire que λn converge en loivers une variable de Poisson de paramètre λ.

2. On suppose qu’il y a une proportion θn = 3/n de composants défectueux. Sachantque P(Z = 0) ≈ 5% pour Z de loi de Poisson de paramètre 3, montrer que P(θn >

θn + 2/n) ≈ 5% pour n grand.

**********************

Correction de l’exercice 2.10

1. On rappel qu’une variable de Poisson Z de paramétre λ est portée par N telle que pour toutk ∈ N, P[Z = k] = (λk/k!)e−λ. On note par δ1, . . . , δn des Bernoulli de paramétre θ = λ/n. Pourtout 0 ≤ k ≤ n, on a

P[λn = k] = P[ n∑i=1

δi = k]

=

(n

k

)θk(1− θ)n−k =

(n

k

)(λn

)k(1− λ

n

)n−k=

n!

k!(n− k)!

(1− λ

n

)n(nλ− 1)−k

=λk

k!

(1− λ

n

)n n!

(n− k)!(n− λ)−k.

Comme (1 − λ/n)n tend vers e−λ, il suffit de prouver que n!(n−k)!(n − λ)−k tend vers 1 quand n

tend vers +∞. La formule de Stirling est : quand n tend vers +∞, n! ∼√

2πn(ne

)n. Alors, on a

n!

(n− k)!(n− λ)−k ∼

(1 +

k

n− k

)ne−k(n− λn− k

)kqui converge bien vers 1. Donc λn converge en loi vers une variable de Poisson de paramétre λ.

2. Comme λn converge en loi vers une Poisson de paramétre 3. On a en particulier, quand n tendvers l’infini,

P[θn > θn + 2/n] = P[1 > λn] −→ P[Z = 0] ≈ 5%.

**********************

Exercice 2.11 (Information de Fisher : entraînement)Dans les modèles suivants, calculer l’information de Fisher associée aux n observations (sielle est bien définie), l’estimateur du maximum de vraisemblance et sa loi asymptotique :

1. X1, . . . , Xni.i.d∼ B(θ).

2. X1, . . . , Xni.i.d∼ N (m, v).

3. X1, . . . , Xni.i.d∼ U [0, θ].

**********************

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 22

ENSAE Statistiques mathématiques

Correction de l’exercice 2.11 On rappelle les formules du cours pour le calcul de l’information deFisher :

In(θ) = nI1(θ) = nEθ∇θ log f(θ,X)∇ log f(θ,X)> = −nEθ∇2θ log f(θ,X) = −n∇2

aD(a, θ)|a=θ

où D(a, θ) = Eθ[log f(a,X)]. En utilisant une des trois formules précédentes, on obtient dans lesdifférents modèles :

1. modèle de Bernoulli :In(θ) =

n

θ(1− θ).

L’EMV est ici la moyenne empirique et on vérifie bien qu’il est asymptotiquement normal devariance asymptotique l’inverse de l’information de Fisher (grâce au TCL).

2. modèle Gaussien (moyenne et variance inconnues) :

In(m, v) =

(nv 0

0 n2v2

).

L’EMV est ici (Xn, σ2n) oùXn = 1

n

∑iXi et σ2n = 1

n

∑i(Xi−Xn)2. L’EMV est asymptotiquement

normal (soit parce que le modèle est régulier, soit en appliquant le TCL, méthode Delta et Slutskyen dimension 2) de variance asymptotique l’inverse de l’info de Fisher.

3. modèle uniforme : ce modèle n’est pas régulier – en particulier l’info de Fisher n’est pas défi-nie (de manière classique). On peut néanmoins calculer, l’EMV qui est θ mv

n = maxiXi et soncomportement asymptotique en étudiant sa fonction de répartition :

Pθ[n(θ − θ mv

n )

θ> x

]= Pθ

[∀i = 1, . . . , n :

n(θ −Xi)

θ> x

]=

1 si x < 0(

1− xn

)nquand 0 < x < n

0 sinon

car pour tout i, sous Pθ, (θ −Xi)/θ ∼ U([0, 1]). Alors quand n→∞, on obtient :

limn→+∞

Pθ[n(θ − θ mv

n )

θ> x

]=

1 si x < 0

exp(−x) quand x > 0

doncn(θ − θ mv

n )

θ E(1)

où E(1) est une loi exponentielle de paramètre 1.

**********************

Exercice 2.12 (Borne minimax de Le Cam à deux points)Soit (X ,A) un espace mesurable et soient P0 et P1 deux mesures de probabilité sur

(X ,A). On suppose qu’il existe une mesure sigma-finie ν telle que P0 << ν et P1 << ν.On note p0 = dP0/dν et p1 = dP1/dν. (Une telle mesure existe toujours, il suffit de prendreν = P0 + P1). La distance en variation totale entre P0 et P1 est définie par

TV (P0, P1) = supA∈A|P0(A)− P1(A)|. (4)

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 23

ENSAE Statistiques mathématiques

L’objectif de cet exercice est de faire un lien entre “difficulté statistique” et distanceentre les mesures du modèle P0, P1, càd entre P0 et P1 au sens de la variation totale.Plus précisément, si on souhaite estimer un paramètre θ0 associé à P0 et θ1 associé à P1

à partir d’une donnée de l’expérience (X ,A, P0, P1) et que TV (P0, P1) ≤ α alors on aurapour tout estimateur θ :

supx∈0,1

Ex(θ − θx)2 ≥ (θ0 − θ1)2

4

(1− α

2

)(5)

où E0 (resp. E1) désigne l’espérance sous P0 (resp. sous P1).Ce résultat, dû à Le Cam, est à la base de la théorie minimax. Il en existe de multiples

extensions : 1) ici, on a seulement un modèle à 2 mesures, on parle du “Le Cam’s two-points argument”, on peut l’étendre à des cas de modèles plus riches 2) On mesure icila distance par la TV, on peut trouver des versions où les distances entre mesures deprobabilité du modèle sont prises par rapport à d’autres distances comme la chi2 ou laKullback-Leibler.

On peut traduire le résultat (5) comme une limite fondamentale de l’estimation d’unparamètre. Plus les mesures P0 et P1 sont proches plus il sera difficile d’estimer θ0 ou θ1.La preuve passe par un argument de test. En fait, on montre que plus les mesures dumodèle sont proches, plus il est difficile de dire si la données provient de P0 ou de P1.

1) (Théorème de Scheffé) Montrer que

TV (P0, P1) =1

2

∫|p− q|dν = 1−

∫min(p, q)dν (6)

2) Soit θ un estimateur. On considère φ ∈ argmink=0,1(θ − θk)2. Montrer que

supx∈0,1

Ex(θ − θx)2 ≥ (θ0 − θ1)2

4sup

x∈0,1Px(φ 6= x) (7)

3) Montrer que

supx∈0,1

Px(φ 6= x) ≥ 1− TV (P0, P1)

2. (8)

4) Prouver le “Le Cam’s two-points argument ”.

**********************

Correction de l’exercice 2.12 1) On note A0 = x ∈ X : p0(x) ≥ p1(x). On a

1

2

∫|p0 − p1|dν =

∫A0

(p0 − p1)dν = P0(A0)− P1(A0) ≤ TV (P0, P1).

Par ailleurs, pour tout A ∈ A, on a

|P0(A)− P1(A)| =∣∣∣∣∫A

(p0 − p1)dν∣∣∣∣ =

∣∣∣∣∣∫A∩A0

(p0 − p1)dν +

∫A∩Ac0

(p0 − p1)dν

∣∣∣∣∣≤ max

(∫A0

(p0 − p1)dν,∫Ac0

(p1 − p0)dν

)=

1

2

∫|p0 − p1|dν

2 VRAISEMBLANCE, EMV, IC, INFORMATION DE FISHER 24

ENSAE Statistiques mathématiques

et donc TV (P0, P1) ≤ (1/2)∫|p0− p1|dν. On a donc bien TV (P0, P1) = (1/2)

∫|p0− p1|dν. On a aussi

immédiatement que (1/2)∫|p0 − p1|dν = 1−

∫min(p0, p1)dν.

2) Pour tout x ∈ 0, 1, on a

Ex(θ − θx)2 ≥ Ex(θ − θx)2I(φ 6= x) ≥ (θ0 − θ1)2

4Px(φ 6= x)

car si φ 6= x alors θ est éloigné de θx d’au moins (θ1 − θ0)/2.3) On a

supx∈0,1

Px(φ 6= x) ≥ 1

2

(P0(φ 6= 0) + P1(φ 6= 1)

).

Or d’après le Lemme de Neyman-Pearson c’est le test du maximum de vraisemblance qui minimise ladernière quantité sur tous les tests : si φ∗ = 0 quand p0 ≥ p1 et φ∗ = 1 quand p1 ≥ p0 alors

supx∈0,1

Px(φ 6= x) ≥ 1

2(P0(φ

∗ 6= 0) + P1(φ∗ 6= 1)) .

On a par définition de φ∗ que, pour A0 = x ∈ X : p0(x) ≥ p1(x),

1

2(P0(φ

∗ 6= 0) + P1(φ∗ 6= 1)) =

1

2

∫min(p0, p1)dν = (1− TV (P0, P1))/2.

4) Si TV (P0, P1) ≤ α alors on en déduit que

supx∈0,1

Ex(θ − θx)2 ≥ (θ0 − θ1)2

4

(1− TV (P0, P1)

2

)≥ (θ0 − θ1)2

4

(1− α

2

)

3 Tests

**********************Exercice 3.1 (Test de Neyman-Pearson)Chercher la région de rejet du test de Neyman-Pearson dans les cas suivants.

1. Loi exponentielle E(θ). Test de θ = θ0 contre θ = θ1 avec θ1 > θ0.

2. Loi de Bernoulli B(θ). Test de θ = θ0 contre θ = θ1 pour θ1 > θ0. Quel problèmerencontre-t-on dans ce cas ?

**********************

Correction de l’exercice 3.1

1. La vraisemblance en θ du modèle est

L(θ, (Xi)i) =

n∏i=1

θ exp(−θXi) = θn exp(− θ

∑i

Xi

).

Le rapport de vraisemblance est

L(θ0, (Xi)i)

L(θ1, (Xi)i)= exp

(− (θ0 − θ1)

∑i

Xi

).

3 TESTS 25

ENSAE Statistiques mathématiques

Le rapport de vraisemblance est donc une fonction croissante de Xn (on a ici θ1 > θ0). Alors, letest de Neyman-Pearson de niveau α est de la forme :

ϕα((Xi)i) =

H0 quand Xn ≥ tαH1 sinon

où tα est un seuil à choisir tel quePθ0 [Xn < tα] = α.

On sait qu’une telle solution existe car Xn est une v.a.r. admettant une densité par rapport à lamesure de Lebesgue. Néanmoins, cette quantité reste difficile à calculer, on préféra alors fixer leseuil de manière asymptotique vue que Xn est asymptotiquement Gaussien (par le TCL).

2. Comme précédemment, il suffit de calculer la vraisemblance et le rapport de vraisemblance dansce modèle. On a pour la vraisemblance :

L(θ, (Xi)i) =n∏i=1

θXi(1− θ)1−Xi .

Le rapport de vraisemblance est

L(θ0, (Xi)i)

L(θ1, (Xi)i)=(θ0θ1

)∑iXi(1− θ0

1− θ1

)∑i(1−Xi)

.

Le rapport de vraisemblance est donc une fonction décroissante de Xn (on a ici θ1 > θ0). Alors,le test de Neyman-Pearson de niveau α est de la forme :

ϕα((Xi)i) =

H0 quand Xn ≤ tαH1 sinon

où tα est un seuil à choisir tel quePθ0 [Xn > tα] = α.

Ici, cette équation n’admet pas nécessairement de solution car Xn est une variable discrète. Dansce cas, on peut avoir recours à des tests “randomizés” (hors programme), mais on préférera fixerle seuil tα de manière asymptotique vue que Xn est asymptotiquement Gaussien.

**********************

Exercice 3.2 (Test de Wald)Lors des essais d’un type d’appareils ménagers, une association de consommateurs envi-

sage les 3 issues suivantes : fonctionnement normal, mauvais fonctionnement et défaillance.Les probabilités de fonctionnement normal et de défaillance sont égales à p2 et à (1− p)2

respectivement, où p ∈]0, 1[ est un paramètre inconnu. Pour un échantillon de n = 200

appareils, on a observé que 112 appareils fonctionnent normalement, 12 sont défaillantset 76 fonctionnent mal. A partir de ces données, on cherche à inférer le paramètre p.

1. Proposer un modèle statistique pour ce problème.

2. Chercher l’estimateur du maximum de vraisemblance pn de p. Montrer qu’il estconsistant et donner la loi limite de

√n(pn − p) quand n→∞.

3 TESTS 26

ENSAE Statistiques mathématiques

3. À l’aide du test de Wald, tester l’hypothèse que p = 1/2 contre l’alternative p 6= 1/2

(on donnera la forme de la région critique et la p-value du test). On suppose connuesles valeurs de la fonction de répartition de la loi normale standard.

**********************

Correction de l’exercice 3.2

1. C’est le modèle d’échantillonnage P⊗np : 0 < p < 1 où

Pp = p2δN + 2p(1− p)δMF + (1− p)2δD

où N signifie normal, MF signifie mauvais fonctionnement et D signifie défaillant.

2. On note par #N, #MF, #D le nombre d’appareils dans chacune des trois catégories. On a #MF =

n−#N −#D.

La vraisemblance en p du modèle est

L(p, (Xi)i) =n∏i=1

[p2I(Xi = N) + 2p(1− p)I(Xi = MF ) + (1− p)2I(Xi = D)

]= (p2)#N [2p(1− p)]#MF [(1− p)2]#D.

et la log-vraisemblance est

`n(p, (Xi)i) = log( p

1− p

)[#N −#D] + (#D −#N) log 2 + n log[2p(1− p)].

En étudiant la fonction de log-vraisemblance, on voit que la vraisemblance est maximale en

pn =1

2

(#N −#D

n+ 1),

qui est donc l’estimateur du maximum de vraisemblance. Par la loi forte des grands nombres, ona :

#N

n−→

n→+∞p2, et

#D

n−→

n→+∞(1− p)2

et donc pn −→n→+∞

p, càd pn est consistant. L’étude du comportement asymptotique de pn sedéduit du TCL :

#N −#D

n=

1

n

n∑i=1

I(Xi = N)− I(Xi = D) :=1

n

n∑i=1

Zi

et√n(Zn − EZ1

) N (0,VarZ1). On obtient alors :

√n(pn − p

)=

√n

2

(Zn − EZ1

) N

(0,p(1− p)

2

)3. On considère le problème de test

H0 : p =1

2contre H1 : p 6= 1

2.

3 TESTS 27

ENSAE Statistiques mathématiques

La forme du test de Wald pour ce problème de test est

ϕα((Xi)i) =

H0 quand Tn ≤ tαH1 sinon

où tα est un seuil à choisir tel que le niveau asymptotique du test est α et la statistique du testTn est donnée ici par :

Tn =√

8n|pn − 1/2|.

Sous H0, on a Tn N (0, 1). On prend alors tα = qN (0,1)1−α/2 .

Sous H1, on a Tn −→n→+∞

+∞ donc le test est consistant.

(rem. : le test de Wald utilise T 2n pour statistique du test (ce qui fait intervenir une χ2(1) en loi

limite). Mais, en dimension d = 1, on peut utiliser directement Tn, les deux tests sont identiques :dans le premier cas la zone de rejet est T 2

n > qχ2(1)1−α et dans le deuxième cas elle vaut Tn > q

N (0,1)1−α/2 .

Ces deux zones sont identiques.

Numériquement, on obtient pn = 0.5∗ ((112−12)/200+1) = 0.75 et Tn =√

200 ∗ 8|0.75−1/2| =10. La p-value est P[|g| > 10] qui est très petite ; on va donc rejeter avec confiance.

**********************

Exercice 3.3 (Test de support)

Soient X1, . . . , Xn de loi U [0, θ] et M = max(Xi), 1 ≤ i ≤ n. On cherche à tester H0 : θ = 1

contre H1 : θ > 1.

1. Pourquoi ne peut-on pas utiliser ici le test de Neyman-Pearson ?

2. On propose le test suivant : on rejette H0 lorsque M > c (c constante donnée).Calculer la fonction de puissance.

3. Quelle valeur prendre pour c pour obtenir un niveau de 5% ?

4. Si n = 20 et que la valeur observée de M est 0.96, que vaut la p-value ? quelle conclu-sion tirer sur H0 ? Même question pour Mobs = 1.04.

**********************

Correction de l’exercice 3.3

1. Les densités n’ont pas même support. Le rapport de vraisemblance n’est donc pas défini.

2. La puissance d’un test est l’application qui mesure "le rejet à raison" : θ ∈ Θ1 → Pθ[rejet]. Etantdonné la zone de rejet considérée ici, la fonction puissance est donnée pour tout θ > 1 par

Pθ[maxXi > c] =

0 si c ≥ θ1 si c ≤ 0

1−(cθ )n sinon.

3. Pour avoir un niveau α ∈ (0, 1), il suffit de choisir c tel que Pθ=1[maxiXi > c] = α càd c =

(1− α)1/n. Pour α = 0.05, on prend c = (0.95)1/n.

3 TESTS 28

ENSAE Statistiques mathématiques

4. Pour n = 20 et M = 0.96 la p-value vaut P1[maxiXi > 0.96] ≈ 0.56 : on va accepter H0. PourM = 1.04, la p-value vaut P1[maxiXi > 1.04] = 0 on rejete donc avec un très haut niveau deconfiance (c’est normal de rejeter vu qu’au moins un des Xi est plus grand que 1).

**********************

Exercice 3.4 (Peut-on retarder sa mort ?)On prétend couramment que les mourants peuvent retarder leur décès jusqu’à certains

événements importants. Pour tester cette théorie, Philips et King (1988, article parudans The Lancet, prestigieux journal médical) ont collecté des données de décès auxenvirons d’une fête religieuse juive. Sur 1919 décès, 922 (resp. 997) ont eu lieu la semaineprécédente (resp. suivante). Comment utiliser de telles données pour tester cette théoriegrâce à un test asymptotique ?

**********************

Correction de l’exercice 3.4

1. On modèlise ce problème par le modèle d’échantillonnage X1, . . . , Xni.i.d.∼ B(p) où

Xi =

1 si décés avant la fête0 sinon

p est donc la probabilité de décéder avant la fête.

2. Pour la construction du test, le choix des hypothèses est très important. L’idèe est de choisir leshypothèses telles que quand on rejette alors on obtient une information qui a de l’intérêt. Ici,on choisit les hypothèses telles que si on rejette alors on pourra dire que “les mourants peuventretarder leur décés jusqu’à un certain événement important”. On choisit alors le problème detest :

H0 : p =1

2contre H1 : p <

1

2

3. La famille de Bernoulli est une famille à rapport de vraisemblance monotone : le rapport devraisemblance dépend de manière monotone de la moyenne empirique Xn. On va donc utiliser lamoyenne empirique pour construire la statistique de test. On considère le test

ϕα((Xi)i) =

H0 quand Tn ≥ tαH1 sinon

où Tn =√n(Xn−1/2).

— Sous H1 : pour tout p < 1/2, sous Pp, Tn tend p.s. vers −∞ (c’est pour ça qu’on a choisitcette forme de test).

— Pour le calcul du seuil tα, on veut :

limsupn→+∞

P1/2[Tn < tα] = α.

Sous p = 1/2 : Tn N (0, 1/4), on prend alors tα = qN (0,1)α /2.

3 TESTS 29

ENSAE Statistiques mathématiques

4. numériquement, on obtient 2Tn = 2√

1919(922/1919 − 1/2

)≈ −1.712. La p-value du test est

P[g < −1.712] = 0.04 où g ∼ N (0, 1). On rejette donc l’hypothèse avec confiance. On en déduitque les gens “peuvent retarder leur mort”.

4 Modèle de régression

**********************Exercice 4.1 (Modèle de régression multiple)On considère le modèle de regression multiple

y = θ0e+Xθ + ξ, où E[ξ] = 0, E[ξξT ] = σ2In, e = (1, 1, . . . , 1)T

avec X une matrice n × k de rang k et y, ξ des vecteurs de Rn. Les paramètres θ0 ∈ R etθ ∈ Rk sont inconnus. On note θ0 et θ les estimateurs des moindres carrés de θ0 et θ.

1. On note y = θ0e+Xθ. Montrer que ¯y = y, où y (resp. ¯y) est la moyenne des yi (resp.des yi). En déduire que y = θ0 + Xθ où X = 1

neTX =

(X1, . . . , Xk

).

2. Montrer l’équation d’analyse de la variance :

‖y − ye‖2 = ‖y − y‖2 + ‖y − ye‖2.

En déduire que le coefficient de détermination

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

est toujours inférieur à 1.

3. Supposons que Z = [e,X] est de rang k + 1. Calculez en fonction de Z la matrice decovariance de (θ0, θ). Comment accède-t-on à Var(θj), pour j = 0, . . . , p ?

4. On suppose dorénavant que θ0 = 0 et donc

y = Xθ + ξ, E[ξ] = 0, E[ξξT ] = σ2In.

L’estimateur des moindres carrés θ dans ce modèle est-il égal à θ ?

5. A-t-on la relation ¯y = y ? Que dire du R2 dans ce modèle ?

**********************

Correction de l’exercice 4.1

1. Par définition, l’estimateur des moindres carrés est donné par :

(θ0, θ)> ∈ argmin(θ′0,θ′)>∈R×Rk

∥∥y − θ′0e−Xθ′∥∥2 .Alors y = θ0e+Xθ est la projection orthogonale de y sur vect(e,X(1), · · · , X(k)) oùX(1), · · · , X(k)

sont les vecteurs colonnes de X. En particulier, pour tout θ′0 ∈ R, θ′ ∈ Rk, on a⟨y − y, θ′0e+Xθ′

⟩= 0.

4 MODÈLE DE RÉGRESSION 30

ENSAE Statistiques mathématiques

En particulier, pour θ′0 = 1, θ′ = 0, on a⟨y − y, e

⟩= 0 et comme y = n−1

⟨y, e⟩(de même

¯y = n−1⟨y, e⟩), on a bien y = ¯y. De plus,

¯y = n−1⟨y, e⟩

= n−1⟨θ0e+Xθ, e

⟩= θ0 + Xθ

où X =(X(1), · · · , X(k)

).

2. ye est un élément de vect(e,X(1), · · · , X(k)). Comme y est le projeté orthogonal de y sur cetespace, on voit que y − y est orthogonal à ye− y. par Pythagore, on a

‖y − ye‖22 = ‖y − y‖22 + ‖y − ye‖22 .

On a donc

R2 =‖y − ye‖22‖y − ye‖22

≤ 1.

1. R2 = 1 signifie que y est dans vect(e,X(1), · · · , X(k)) (modèle sans bruit).

2. R2 = 0 signifie que y = ye. Donc y est orthogonal à vect(X(1), · · · , X(k)). AlorsX(1), · · · , X(k)

sont des mauvaises variables pour expliquer ou prédire y.

3. Soit Proj l’opérateur de projection sur vect(e,X(1), · · · , X(k)). On a Z(θ0, θ

)>= Proj(y). On a

pour tout θ′0 ∈ R, θ′ ∈ Rk,⟨y − Z

(θ0, θ

)>, Z(θ′0, θ

′)>⟩ = 0. Par ailleurs,⟨y − Z

(θ0, θ

)>, Z(θ′0, θ

′)>⟩ =⟨Z>y − Z>Z

(θ0, θ

)>,(θ′0, θ

′)>⟩.Donc Z>y = Z>Z

(θ0, θ

)>. Comme la matrice carrée Z>Z de taille k + 1 est de rang k + 1, elleest de rang plein donc inversible. Alors

(Z>Z

)−1Z>y =

(θ0, θ

)>.On peux aussi voir que

(θ0, θ)> ∈ argminθ′0∈R,θ′Rk

∥∥y − θ′0e−Xθ′∥∥2 .Alors, (θ0, θ)

> minimise la fonction convexe F (u) = ‖y − Zu‖22 sur Rk+1. Alors (θ0, θ)> est

solution de F ′(u) = 0 càd Z>(y − Zu) = 0. Donc(Z>Z

)−1Z>y =

(θ0, θ

)>.La matrice de covariance de Θ := (θ0, θ)

> est donnée par

Σ = E[(

Θ− EΘ)(

Θ− EΘ)>]

.

L’espérance de Θ est donnée par

EΘ = E(Z>Z

)−1Z>y =

(Z>Z

)−1Z>Z

(θ0, θ

)>=(θ0, θ

)>.

On en déduit que (étant donné que Eζζ> = σ2In)

Σ = E(Z>Z

)−1Zζζ>Z

(Z>Z

)−1= σ2

(Z>Z

)−1.

Pour tout j = 0, . . . , k,

var(θj) = var(⟨ej ,(θ0, θ

)>⟩)= σ2e>j

(Z>Z

)−1ej = σ2

(Z>Z

)−1jj.

4 MODÈLE DE RÉGRESSION 31

ENSAE Statistiques mathématiques

4. On a θ =(X>X

)−1X>y càd, θ est le projeté de y sur vect(X(1), . . . , X(k)). En général θ 6= θ

sauf quand e est orthogonal à vect(X(1), . . . , X(k)).

5. Si e /∈ vect(X(1), . . . , X(k)) alors on n’a pas⟨e, y − y

⟩= 0 donc y 6= ¯y. Dans ce modèle R2 n’a

pas de sens.

**********************

Exercice 4.2 (Régression Ridge)On considère le modèle de regression

Y(n,1)

= X(n,k)

θ(k,1)

+ ξ(n,1)

.

On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξT ] = σ2In,

1. On suppose que k > n. Que dire de l’estimation par moindres carrés ?

2. On appelle estimateur Ridge regression de paramètre de régularisation λ > 0 l’esti-mateur

θλ = arg minθ∈Rk

‖Y −Xθ‖2 + λ‖θ‖2

.

Exprimez θλ en fonction de X, Y et λ. Cet estimateur est-il défini pour k > n ?

3. Calculez la moyenne et la matrice de covariance de l’estimateur Ridge. Est-il sansbiais ?

4. On suppose maintenant que k = 1, ce qui correspond au modèle de régression simple.Montrer qu’il existe une valeur de λ telle que le risque de l’estimateur Ridge deparamètre λ est inférieur au risque de l’estimateur des MC.

**********************

Correction de l’exercice 4.2 On peut voir la régression Ridge, comme une relaxation de la mé-thode MC dans le cas où les variables explicatives sont colinéaires (càd quand il y a de la redondanced’information dans les variables explicatives). Pour définir l’EMC de manière unique, on a besoin queX>X soit inversible. Dans ce cas θMC =

(X>X

)−1X>Y . Comme ker(X>X) = kerX, on a voit que

X>X est inversible si et seulement si les colonnes de X ne sont pas colinéaires. D’un point de vue sta-tistiques, des colonnes de X linéairement dépendantes signifie qu’il y a de la redondance d’informationparmi les variables explicatives. Par ailleurs, quand X>X est inversible mais que son conditionement(ratio plus grande valeur singulière sur plus petite valeur singulière) est grand alors un calcul effectifde l’EMC est difficile. On va donc considérer, un estimateur qui “régularise” l’EMC ou “conditionne”la matrice de Gram X>X. Pour cela, on va inverser X>X + λIk et ainsi considérer l’estimateur Ridge

θλ =(X>X + λIk

)−1X>Y.

Cet estimateur n’est plus sans biais mais il peut améliorer le risque quadratique de l’EMC. On peutvoir ça comme un compromis biais variance : on perd un peu sur l’espérance mais on gagne sur lavariance dans l’égalité

E(θλ)2

=(Eθλ − Eθ

)2+ var(θλ).

4 MODÈLE DE RÉGRESSION 32

ENSAE Statistiques mathématiques

On doit aussi faire en sorte de bien choisir λ > 0. Ceci introduit le problème de la sélection deparamétre en statistique (et notamment la méthode de validation croisée).

1. Quand k > n, la matrice X : Rk 7→ Rn a un noyau et comme ker(X>X) = kerX, la matrice X>Xn’est plus inversible. On sait que l’EMC est défini comme solution de l’équation X>Xθ = X>Y

qui admet une infinité de solution (un espace affine dirigé par ker(X>X)). L’EMC n’est doncpas uniquement défini. On peut alors choisir parmi cet ensemble infini de solutions, une ayantcertaines propriétés supplémentaires. On va chercher celle ayant une petite norme 2.

2. On introduit la fonction

F (θ) = ‖Y −Xθ‖22 + λ ‖θ‖22 , ∀θ ∈ Rk.

Cette fonction est strictement convexe et tend vers l’infini quand ‖θ‖2 tend vers l’infini donc elleadmet un unique minimum θλ qui est solution de l’équation ∆F (θλ) = 0 càd −2X>(Y −Xθλ) +

2λθ = 0. On a doncθλ =

(X>X + λIk

)−1X>Y.

3. Le biais de l’ER est donné par :

Eθλ =(X>X + λIk

)−1X>θ

qui est différent de θ en général. Alors l’ER est en général un estimateur biaisé. La matrice decovariance est donnée par :

var(θλ) = (X>X + λk)−1

X>Eζζ>X(X>X + λk)−1

= σ2(X>X + λk)−1

X>X(X>X + λk)−1

.

4. Pour k = 1, on écrit Y = Xθ + ζ où X est un vecteur de Rn. Dans ce cas X>X = ‖X‖22 alorsl’EMC et l’ER sont donnés par :

θ = θMC =

⟨X,Y

⟩‖X‖22

et θλ = θER =

⟨X,Y

⟩‖X‖22 + λ

.

Le risque quadratique de l’EMC est

E(θ − θ)2 = var(θ) = Eθ2 − (Eθ)2 =E⟨X,Y

⟩2‖X‖42

− θ2

=E⟨X,Xθ + ζ

⟩‖X‖22

− θ2 =σ2

‖X‖22.

La décomposition biais-variance du risque quadratique de l’ER donne :

E(θλ − θ

)2=(Eθλ − Eθ

)2+ var(θλ) =

( ‖X‖22 θ‖X‖22 + λ

− θ)2

+σ2 ‖X‖22(‖X‖22 + λ

)2 .En posant µ = λ/ ‖X‖22, on est amené à chercher µ > 0 tel que( 1

1 + µ− 1)2θ2 +

(σ2/ ‖X‖22

)(1 + µ

)2 <(σ2/ ‖X‖22

)(9)

4 MODÈLE DE RÉGRESSION 33

ENSAE Statistiques mathématiques

càd µ(θ2 −

(σ2/ ‖X‖22

))< 2(σ2/ ‖X‖22

). Si θ2 ‖X‖22 > σ2 alors pour tout λ tel que

λ <2σ2 ‖X‖22

θ2 ‖X‖22 − σ2,

le risque quadratique de l’ER est moindre que celui de l’EMC. Quand θ2 ‖X‖22 < σ2 alors pourtout λ > 0, le risque quadratique de l’ER est moindre que celui de l’EMC.

Le ratio θ2/σ2 (et en général pour tout k, ‖θ‖22 /σ2) est appelé le “signal sur bruit”. Quand ilest grand (θ2/σ2 > ‖X‖−22 ), il faut choisir λ assez petit et quand il est petit, l’ER est toujoursmeilleur (en terme de risque quadratique) que l’EMC pour n’importe quel λ.

**********************

Exercice 4.3 (Théorème de Gauss-Markov)On considère le modèle de regression

Y(n,1)

= X(n,k)

θ(k,1)

+ ξ(n,1)

.

On suppose que X est une matrice déterministe, E[ξ] = 0, E[ξξT ] = σ2In, Rang(X) = k. Onnote θ l’estimateur des MC de θ.

1. Montrer que θ est sans biais et expliciter sa matrice de covariance.

2. Soit θ un estimateur de θ linÈaire en Y , i.e., θ = LY pour une matrice L ∈ Rk×n

déterministe. Donner une condition nÈcessaire et suffisante sur L pour que θ soitsans biais. On supposera maintenant cette hypothËse vÈrifiÈe.

3. Calculer la matrice de covariance de θ. En posant ∆ = L− (XTX)−1XT montrer que∆X = 0 et cov(θ) = cov(θ) + σ2∆∆T . En déduire que

E[(θ − θ)(θ − θ)T ] ≥ E[(θ − θ)(θ − θ)T ] (inégalité au sens matriciel).

4. En passant au risques quadratiques E[‖θ − θ‖2

]et E

[‖θ − θ‖2

], en déduire que l’es-

timateur des MC est optimal dans la classe de tous les estimateurs linéaires sansbiais.

**********************

Correction de l’exercice 4.3

1. Par définition, θ minimise F (u) = ‖y −Xu‖22 donc θ =(X>X

)>X>y. On remarque que

rang(X) = k donc n ≥ k et X est injective (donc X>X esy inversible : en effet, X>X est symmé-trique donc diagonalisable et si λ est une valeur propre de vecteur propre u alors ‖Xu‖22 = λ ‖u‖22,donc λ 6= 0 donc X>X est inversible).

On a donc Eθ =(X>X

)−1X>Ey =

(X>X

)−1X>Xθ = θ. Donc θ est bien un estimateur sans

biais. La matrice de covariance de θ est donnée par

Σ := E(θ − Eθ

)(θ − Eθ

)>=(X>X

)−1X>Eζζ>X

(X>X

)>= σ2

(X>X

)−14 MODÈLE DE RÉGRESSION 34

ENSAE Statistiques mathématiques

2. On a ELY = LXθ. Pour que θ = LY soit sans biais, il faut et il suffit que LXθ = θ. Ceci étantvrai pour tout θ, on doit avoir LX = Ik.

3. Σ = E((θ − θ)(θ − θ)>

)= Lvar(Y )L> = σ2LL>. Comme LX = Ik, on a :

∆X = LX −(X>X

)−1X>X = Ik − Ik = 0

et la covariance de θ est donnée par :

var(θ) = var(∆Y + θ) = var(∆Y ) + var(θ) + cov(θ,∆Y ) + cov(∆Y, θ)

σ2∆∆> + var(θ) + cov(θ,∆Y ) + cov(∆Y, θ).

Par ailleurs, comme ∆X = 0, on a E∆Y = 0 et

cov(∆Y, θ) = E[∆Y θ>

]= ∆E

[(Xθ + ζ)ζ>X(X>X)−1

]= 0

car Eζζ> = σ2In. De même cov(θ,∆Y ) = 0. On en déduit que

var(θ) = var(θ) + σ2∆∆> var(θ).

4. On a ∥∥∥θ − θ∥∥∥22

=k∑j=1

(θj − θj)2 =k∑j=1

e>j (θ − θ)(θ − θ)>ej

alors

E∥∥∥θ − θ∥∥∥2

2=

k∑j=1

ejvar(θ)ej

de même E∥∥∥θ − θ∥∥∥2

2=∑k

j=1 ejvar(θ)ej . Mais d’après 3., on a var(θ) var(θ). Notamment, pour

tout j, e>j var(θ)ej e>j var(θ)ej . On a donc

E∥∥∥θ − θ∥∥∥2

2≥ E

∥∥∥θ − θ∥∥∥22.

**********************

Exercice 4.4 (La formule de Woodbury)Etant donné une matrice carré A ∈ Rn×n inversible, U ∈ Rn×k, V ∈ Rk×n deux matrices

rectangulaires et C ∈ Rk×k une matrice carré inversible. On suppose que A + UCV etC−1 + V A−1U sont inversibles. La formule de Woodbury dit que

(A+ UCV )−1 = A−1 −A−1U(C−1 + V A−1U

)−1V A−1. (10)

En d’autres termes, l’inverse d’une perturbation de rang k de A peut être obtenue enfaisant une perturbation de rang k de A−1. Elle permet de calculer l’inverse de A+ UCV

seulement à partir des inverses de A et de C.Quand k = 1, c’est-à-dire quand C est un scalaire alors la formule de Woodbury est

connue sous le nom de Sherman-Morrison-Woodbury :

(A+ uv>)−1 = A−1 − A−1uv>A−1

1 + v>A−1u. (11)

4 MODÈLE DE RÉGRESSION 35

ENSAE Statistiques mathématiques

La formule de Woodbury trouve des applications en statistiques. Par exemple, l’esti-mateur Ridge pour une matrice de design A ∈ Rn×d, un vecteur de sorties y ∈ Rn et unparamètre de régularisation λ > 0 est défini par

t ∈ argmint∈Rd(1/2) ‖At− y‖22 + λ ‖t‖22 . (12)

On montre que

t =(A>A+ λId

)−1A>y (13)

et grâce à la formule de Woodbury

t =(A>A+ λId

)−1A>y = A>

(AA> + λIn

)−1y. (14)

L’intérêt de la dernière formule est que si n < d alors il est plus facile d’inverser la matriceAA> + λIn de taille n× n que la matrice A>A+ λId de taille d× d.

1. Montrer que pour toute matrice P telle que I + P est inversible, on a (I + P )−1 =

I − (I + P )−1P .

2. Montrer que pour toutes matrices P et Q telles que I+PQ et I+QP sont inversibles,on a (I + PQ)−1P = P (I +QP )−1.

3. En utilisant la première question, montrer que

(A+ UCV )−1 = (I +A−1UCV )−1A−1 = A−1 − (I +A−1UCV )−1A−1UCV A−1.

4. Ensuite, en utilisant la deuxième question, montrer la formule de Woodbury.

5. Déduire la formule de Sherman-Morrison-Woodbury à partir de la formule de Wood-bury.

6. Prouver (13).

7. Prouver (14).

**********************

Correction de l’exercice 4.4

1. On a(I + P )−1 = (I + P )−1(I + P − P ) = I − (I + P )−1P.

2. On a P (I + QP ) = P + PQP = (I + PQ)P et en multipliant à gauche par (I + PQ)−1 et àdroite par (I +QP )−1, on obtient le résultat.

3. On applique la première question à P = A−1UCV . Comme A et A+UCV sont inversible on voitque I+A−1UCV est inversible en tant que produit de deux matrices inversibles : I+A−1UCV =

A−1(A+ UCV ). On a alors d’après 1)

(A+ UCV )−1 = [A(I +A−1UCV )]−1 = (I +A−1UCV )−1A−1

= [I − (I +A−1UCV )−1A−1UCV ]A−1 = A−1 − (I +A−1UCV )−1A−1UCV A−1.

4 MODÈLE DE RÉGRESSION 36

ENSAE Statistiques mathématiques

4. On sait déjà que I + A−1UCV est inversible. On a I + CV A−1U = C(C−1 + V A−1U) et doncI + CV A−1U est le produit de deux matrices inversibles, elle est donc elle-même inversible. Onapplique la relation de la deuxième question à P = A−1U et Q = CV :

(I +A−1UCV )−1A−1U = A−1U(I + CV A−1U)−1.

On utilise la dernière relation dans la question 3) :

(A+ UCV )−1 = A−1 − (I +A−1UCV )−1A−1UCV A−1 = A−1 −A−1U(I + CV A−1U)−1CV A−1

= A−1 −A−1U(C−1 + V A−1U)−1V A−1.

5. On applique la formule de Woodbury quand k = 1 et C = 1 :

(A+ uv>)−1 = A−1 −A−1u(1 + v>A−1u)v>A−1 = A−1 − A−1uv>A−1

1 + v>A−1u.

6. La fonction F : t ∈ Rd → ‖At− y‖22 + λ ‖t‖22 est convexe différentiable. On a donc t minimise Fsi et seulement ∇F (t) = 0 qui est équivalent à A>(At− y) + λt = 0. Par ailleurs, A>A+ λI estinversible (car c’est une matrice symmétrique dont les valeurs singulières sont plus grandes queλ > 0), on obtient donc bien que le seul minimiseur de F est t = (A>A+ λId)

−1A>y.

7. La formule de Woodbury appliquée à A = λId, U = A>, C = In et V = A donne :

(λId +A>A)−1 = λ−1Id − λ−1A>(In + λ−1AA>)−1Aλ−1 = λ−1(Id −A>(λIn +AA>)−1A

).

On multiplie ensuite à droite par A> pour obtenir

(λId +A>A)−1A> = λ−1(A> −A>(λIn +AA>)−1(AA> + λIn − λIn

)= A>(AA> + λIn)−1.

5 Examen du lundi 26 octobre 2015

**********************Exercice 5.1 (Estimation de la variance et borne de Cramer-Rao)On considère le modèle d’échantillonnage X1, . . . , Xn

i.i.d.∼ N (0, θ) où θ > 0 (la variance)est le paramètre inconnu à estimer.

1. Calculer l’information de Fisher en θ > 0 contenue dans ce n-échantillon.

2. Déterminer l’estimateur du maximum de vraisemblance θ mvn de θ.

3. Calculer le biais b(θ) = Eθ θ mvn −θ et le risque quadratique Rθ(θ mv

n ) = Eθ(θ mvn −θ)2 de θ mv

n .

4. Rappeler la borne de Cramer-Rao pour ce problème. En déduire, que θ mvn atteint la

borne de Cramer-Rao parmi tous les estimateurs sans biais.

Rappel : si g ∼ N (0, 1) alors Eg4 = 3.

**********************

Correction de l’exercice 5.1

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 37

ENSAE Statistiques mathématiques

1. Soit θ > 0. L’information de Fisher contenue dans un n-échantillon vaut n fois celle contenuedans une seule donnée : In(θ) = nI1(θ). L’information de Fisher dans une donnée est :

I1(θ) = Eθ[(∂θ log f(θ,X)

)2]= Eθ

[(−1

2θ+X2

2θ2

)2]=

VarX2

4θ4=

1

2θ2.

2. La fonction de vraisemblance en θ > 0 est

L(θ, (Xi)i

)=( 1

2πθ

)n/2exp

(− −1

n∑i=1

X2i

)et donc la log-vraisemblance est

`n(θ, (Xi)i

)= −n

2log(2πθ)− 1

n∑i=1

X2i .

En étudiant la fonction `n, on voit que l’EMV est θ mvn = 1

n

∑ni=1X

2i .

3. la biais de θ mvn est b(θ) = Eθ θ mv

n −θ = EθX21 − θ = 0 (car EX1 = 0 donc VarX1 = EX2

1 ). Sonrisque quadratique est

Rθ(θmvn ) = Eθ(θ mv

n −θ)2 = Eθ( 1

n

n∑i=1

X2i − θ

)2=

VarX21

n=

2θ2

n.

4. La borne de Cramer-Rao dit que si θ est un estimateur de θ et si b(θ) = Eθθ − θ est le biais decet estimateur alors :

Eθ(θ − θ

)2 ≥ (1 + b′(θ))2

In(θ)+ b(θ)2.

En particulier, si θ est sans biais alors b(θ) = 0 et Rθ(θ) ≥ In(θ)−1 = 2θ2/n. Or le risquequadratique de θ mv

n est égal à 2θ2/n donc θ mvn atteint la borne de Cramer-Rao parmi tous les

estimateurs sans biais.

**********************

Exercice 5.2 (Estimateur on-line de la moyenne)Dans le modèle d’échantillonnage X1, . . . , Xn où E|X1| <∞, on note EX1 = θ ; construire :

1. un estimatuer batch de la moyenne θ

2. un estimateur on-line de la moyenne θ

**********************

Correction de l’exercice 5.2

1. Un estimateur batch est donné par la moyenne empirique Xn

2. Un estimateur on-line est donné par l’algorithme de Robbins-Monro pour les fonctions

f(x,X) = x−X et F (x) = Ef(x,X) = x− EX.

Comme x = EX est l’unique zéro de F , on est naturellement amené à considérer une méthodede Newton stochastique :

xk+1 = xk − ηn(xk −Xk+1).

xn est donc un estimateur on-line de la moyenne.

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 38

ENSAE Statistiques mathématiques

**********************

Exercice 5.3 (Deux échantillons gaussiens)On observe X1, . . . , Xm

i.i.d.∼ N (µ1, v) et Y1, . . . , Yni.i.d.∼ N (µ2, v) deux échantillons Gaus-

siens ayant même variance v mais des moyennes différentes. On suppose que les deuxéchantillons sont indépendants entre eux.

1. Calculer la vraisemblance en (µ1, µ2, v) de l’observation (X1, . . . , Xm, Y1, . . . , Yn).

2. En déduire l’estimateur du maximum de vraisemblance de (µ1, µ2, v).

3. On suppose dorénavant dans toutes les questions qui suivent que m = n. Calculer l’in-formation de Fisher en (µ1, µ2, v) contenue dans le n-échantillon (X1, Y1), . . . , (Xn, Yn).

4. On suppose que le modèle est régulier ; donner le comportement asymptotique del’estimateur du maximum de vraisemblance.

5. Donner un test de niveau α consistant pour le problème de test

H0 : µ1 = 0 contre H1 : µ1 6= 0

**********************

Correction de l’exercice 5.3

1. La vraisemblance est

L((µ1, µ2, v), (Xi)i, (Yj)j

)= (2πv)−m/2 exp

(− 1

2v

m∑i=1

(Xi−µ1)2)×(2πv)−n/2 exp

(− 1

2v

n∑j=1

(Yj−µ2)2)

2. On voit que le gradient de la log-vraisemblance admet un seul et unique zéro donné par Xm Xm

Y n

v

où Xm =1

m

m∑i=1

Xi, Y n =1

n

n∑j=1

Yj et v =1

n+m

[ m∑i=1

(Xi −Xm)2 +n∑j=1

(Yj − Y n)2].

De plus la Hessienne de la log-vraisemblance en ce point est telle que

∇2`n(Xm, Y n, v) =

−mv 0 0

0 −nv 0

0 0 −(m+n)v2

≺ 0

Donc le point (Xm, Y n, v) est un maximum local. Par ailleurs, il n’y a qu’un seul maximum local,c’est donc un maximum global. C’est donc l’EMV.

3. La densité (par rapport à la mesure de Lebesgue sur R2) du couple (X,Y ) est

f((µ1, µ2, v), (x, y)

)=

1√2πv

exp(−(x− µ1)2

2v

) 1√2πv

exp(−(y − µ2)2

2v

)=

1

2πvexp

(−1

2v

((x− µ1)2 + (y − µ2)2

)).

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 39

ENSAE Statistiques mathématiques

La matrice d’information de Fisher en (µ1, µ2, v) pour une observation (X1, Y1) est donnée par

I1(µ1, µ2, v) = E(µ1,µ2,v)

[∇ log f

((µ1, µ2, v), (X,Y )

)∇ log f

((µ1, µ2, v), (X,Y )

)>]= −E(µ1,µ2,v)

[∇2 log f

((µ1, µ2, v), (X,Y )

)]=

1v 0 0

0 1v 0

0 0 1v2

4. Le modèle étant régulier, l’EMV est asymptotiquement normal de matrice de covariance asymp-

totique égale à l’inverse de la matrice d’information de Fisher :

√n

Xm

Y n

v

− µ1

µ2

v

N3

(0, I1(µ1, µ2, v)−1

)= N3

0,

v 0 0

0 v 0

0 0 v2

5. On a√n(Xm−µ1

) N (0, v) et v p.s.−→ v alors par le lemme de Slutsky,

√n(Xm−µ1

)√v

N (0, 1).

On considère le test

ϕα =

H0 si Tn ≤ tαH1 sinon

où tα = qN (0,1)1−α/2 et

Tn =

√n|Xm |√

v.

Le test est de niveau asymptotique α car sous H0, Tn converge en loi vers |g| où g ∼ N (0, 1) et,il est consistant, car sous H1, Tn tends vers +∞ p.s..

**********************

Exercice 5.4 (Ceinture de sécurité)Une enquête sur l’influence de la ceinture de sécurité a donné les résultats suivants : sur

10.779 conducteurs ayant subit un accident l’enquête rapporte les effectifs dans le tableauqui suit selon la gravité et le port au non de la ceinture de sécurité :

nature des blessures port de la ceinture pas de ceinturegraves ou fatales 5 141

blessures sérieuses 25 330

peu ou pas de blessures 1229 9049

On souhaite répondre à la question : la ceinture de sécurité a-t’elle une influence surla gravité des blessures lors d’un accident ?

1. Modéliser ces données.

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 40

ENSAE Statistiques mathématiques

2. Définir un problème de test permettant de répondre à la question.

3. Construire un test de niveau asymptotique α = 0.05, consistant pour ce problème.

4. Comparer la p-value de ce test à 0, 001. Répondre à la question d’origine et donnerun niveau de confiance sur votre décision.

On rappel les quantiles d’ordre 1− α d’une χ2(2) :

α 0,999 0,995 0,99 0,98 0,95 0,9 0,8 0,2 0,1

qχ2(2)1−α 0,0020 0,0100 0,0201 0,0404 0,1026 0,2107 0,4463 3,2189 4,6052

α 0,05 0,02 0,01 0,005 0,001

qχ2(2)1−α 5,9915 7,8240 9,2103 10,5966 13,8155

**********************

Correction de l’exercice 5.4

1. On modélise ces données par le modèle d’échantillonnage de n couples (X1, Y1), . . . , (Xn, Yn) oùpour tout 1 ≤ i ≤ n, Xi correspond à la gravité du ième accident et Yi au port ou non de laceinture :

a) Xi ∈ graves ou fatales, blessures sérieuses, peu ou pas de blessures

b) Yi ∈ port de la ceinture, pas de ceinture

2. On veut tester si le port de la ceinture est indépendant de la gravité des blessures de l’accident.On va donc faire un test d’indépendance entre X et Y . On considère le problème de test suivant :

H0 : ‘X et Y sont indépendantes‘ contre H1 : ‘X et Y ne sont pas indépendantes‘

3. On considère le test d’indépendance du χ2 de niveau asymptotique α :

ϕα((Xi, Yi)i) =

H0 si Tn ≤ tαH1 sinon

où tα = qχ2(2)1−α (la degrés vient de (2− 1)(3− 1) = 2) et Tn = nχ2((p

(n)`,`′)`,`′ , (p

(n)`,• × p

(n)•,`′)`,`′)) où

p(n)`,`′ =

1

n

n∑i=1

I((Xi, Yi) = (`, `′)), p(n)`,• =

1

n

n∑i=1

I(Xi = `) et p(n)•,`′ =1

n

n∑i=1

I(Yi = `′)

pour tout ` ∈ graves ou fatales, blessures sérieuses, peu ou pas de blessureset `′ ∈ port de la ceinture, pas de ceinture. On sait que ce test est consistant (d’après lecours). Par ailleurs, pour α = 0, 05, on a d’après la table qχ

2(2)1−α = 5, 99.

4. On a

Tn =(5− 17, 05)2

17, 05+ · · ·+ (9049− 9077, 52)2

9077, 52= 17, 81.

Alors la p-value du test est plus petite que 0, 001, on a va donc rejeter et on a un très haut niveaude confiance en cette décision. On peut alors affirmer que le port de la ceinture de sécurité et lanature des blessures sont dépendants.

5 EXAMEN DU LUNDI 26 OCTOBRE 2015 41

ENSAE Statistiques mathématiques

6 Rattrapage 2015-2016

**********************Exercice 6.1 (Modèle d’uniforme perturbées)Soit le modèle d’échantillonnage X1, . . . , Xn

i.i.d.∼ Pθ pour θ ∈] − 1, 1[ où Pθ est une loiadmettant une densité par rapport à la mesure de Lebesgue donnée par

f(θ, x) =dPθdλ

(x) = (1− θ)I(−1/2 < x < 0) + (1 + θ)I(0 < x < 1/2).

On pose

Yn = cardi : Xi > 0 =

n∑i=1

I(Xi > 0).

a) Préliminaires

1. Donner l’expérience statistique associée à ces données.

2. Calculer Pθ([0, 1/2]), la moyenne EθX1 et la variance Var(X1).

3. Donner la loi de Yn, sa moyenne et sa variance.

4. Vérifier quef(θ, x) = (1− θ)1−I(0<x<1/2)(1 + θ)I(0<x<1/2).

En déduire l’expression de la vraisemblance de l’échantillon en θ en fonction deYn.

5. Calculer l’information de Fisher sur θ contenue dans un n-échantillon de cemodèle.

b) Estimation de θ

1. Proposer un estimateur des moments de θ en fonction de Yn.

2. Montrer que l’estimateur du maximum de vraisemblance vaut θ mvn = 2

nYn − 1.

3. Etudier les propriétés de θ mvn : biais, variance, consistance.

4. Comparer le risque quadratique de θ mvn et la borne de Cramer-Rao. En déduire

que θ mvn atteint la borne de Cramer-Rao parmi tous les estimateurs sans biais.

5. Montrer que sous Pθ,√n(θ mvn −θ

)converge en loi vers N (0, 1− θ2).

6. Etudier le comportement asymptotique de√n(θ mvn −θ

)√1− θ mv

n

2.

7. Construire un intervalle de confiance pour θ de niveau asymptotique α = 0.95

centré en θ mvn et de longueur proportionnelle à n−1/2.

c) Tests

6 RATTRAPAGE 2015-2016 42

ENSAE Statistiques mathématiques

1. On considère le problème de test :

H0 : θ = 0 contre H1 : θ = 1/2

Sous quelles condition existe-t’il un test de Neyman-Pearson de niveau α (on neconsidère ici que les tests non randomizés). Dans ce cas, existe-t’il un test demême niveau plus puissant ?

2. Pour le même problème de test, construire un test de niveau asymptotique α.Etudier sa puissance.

3. On considère le problème de test :

H0 : θ = 0 contre H1 : θ 6= 0

Construire un test de niveau asymptotique α. Etudier sa consistance.

d) Application

On considère un n-échantillon U1, . . . , Uni.i.d.∼ U([−1/2, 1/2]). Un phénomène aléatoire

perturbe les observations des Ui : pour chaque i = 1, . . . , n, la quantité |Ui| est observéeavec probabilité θ ∈ [0, 1) sinon c’est Ui qui est observée. Ces perturbations sontindépendantes entres elles et indépendantes des Ui. On note X1, . . . , Xn l’échantillonfinalement observé après perturbation.

1. Déterminer la loi de X1.

2. Proposer une méthode d’estimation de θ.

3. Construire un test de niveau asymptotique α consistant permettant de décidersi un tel phénomène de perturbation s’est produit.

4. La loi des Ui n’étant plus uniforme, que suffit-il de connaître sur elle pour quece test reste valable ?

**********************

Correction de l’exercice 6.1

a) 1. L’expérience statistique associée aux données est celle d’un n-échantillon dans un modèledominé par la mesure de Lebesgue :(

R,B(R), Pθ : θ ∈ Θ)⊗n

.

2.

Pθ([0, 1/2]) =1 + θ

2,EθX1 = (1−θ)

∫ 0

−1/2xdx+(1+θ)

∫ 1/2

0xdx =

θ

4et Varθ(X1) =

1

12− θ

2

16

3. Yn est le nombre de succès dans une expérience de n réalisation d’une binomiale de moyenneP[X1 > 0] = (1+θ)/2. C’est donc une multinomiale de paramètreM(n, (1+θ)/2) càd pourtout 0 ≤ k ≤ n, on a

P[Yn = k] =

(n

k

)(1 + θ

2

)k(1− θ2

)n−kOn au aussi EθYn = n(1 + θ)/2 et Varθ Yn = n(1− θ2)/4.

6 RATTRAPAGE 2015-2016 43

ENSAE Statistiques mathématiques

4. On vérifie directement l’égalité en regardant les cas −1/2 < x < 0 et 0 < x < 1/2. Lavraisemblance s’obtient alors comme suit :

L(θ, (Xi)i) =n∏i=1

(1− θ)1−I(0<Xi<1/2)(1 + θ)I(0<Xi<1/2) = (1− θ)n(1 + θ

1− θ

)Yn.

5. L’information de Fisher d’un n-échantillon est In(θ) = nI1(θ) et celle contenue dans uneseule donnée est

I1(θ) = Eθ(∂θ log f(θ,X))2

où log f(θ, x) = log(1− θ)I(−1/2 < x < 0) + log(1 + θ)I(0 < x < 1/2). Alors

∂θ log f(θ, x) =−1

1− θI(−1/2 < x < 0) +

1

1 + θI(0 < x < 1/2).

Donc

I1(θ) = Eθ[ 1

(1− θ)2I(−1/2 < X < 0) +

1

(1 + θ)2I(0 < X < 1/2)

]=

1

(1− θ)2P(−1/2 < X < 0) +

1

(1 + θ)2P(0 < X < 1/2)

=1

(1− θ)21− θ

2+

1

(1 + θ)21 + θ

2=

1

2(1− θ)+

1

2(1 + θ)=

1

1− θ2.

On a donc In(θ) = n/(1− θ2).

b) 1. On a Pθ[X1 > 0] = (1 + θ)/2. L’estimateur des moments d’ordre 1 est θ tel que Yn/n =

(1 + θ)/2 càd

θ = 2Ynn− 1.

2. D’après la question 4 de la partie précédente, la log-vraisemblance est

θ ∈]− 1, 1[7→ n log(1− θ) + Yn log(1 + θ

1− θ

),

elle est maximale en θ mvn = 2(Yn/n)− 1.

3. Eθ θ mvn = 2P[X > 0] − 1 = θ ; donc θ mv

n est sans biais. La variance de l’estimateur est iciégale à son risque quadratique et on a :

Varθ(θmvn ) = (4/n) Varθ(I(X > 0)) = (4/n)Pθ[X > 0]Pθ[X < 0] = (1− θ2)/n.

De plus, la loi forte des grands nombres dit que Ynp.s.−→ Pθ[X > 0] donc θ mv

np.s.−→ θ. Donc

θ mvn est un estimateur fortement consistant.

4. Si θ est un estimateur sans bias de θ alors la borne de Cramer-Rao dit que son risquequadratique vérifie Rθ(θ) ≥ In(θ)−1 = (1− θ2)/n. Par ailleurs, le risque quadratique de θ mv

n

vaut aussi (1− θ2)/n (et θ mvn est sans biais), donc θ mv

n atteint bien la borne de Cramer-Raoparmi tous les estimateurs sans biais.

5. On écrit θ mvn comme une moyenne empirique : θ mv

n = 1n

∑ni=1(2I(Xi > 0)− 1). On applique

le TCL :√n(θ mvn −θ

) N (0,Varθ(2I(X > 0)− 1)) = N (0, 1− θ2)

car Varθ(2I(X > 0)− 1) = 4 Varθ(I(X > 0)) = 4Pθ[X > 0]Pθ[X < 0] = 1− θ2.

6 RATTRAPAGE 2015-2016 44

ENSAE Statistiques mathématiques

6. En utilisant le résultat de convergence de la question précédente, la consistance de θ mvn et

le lemme de Slutsky, on obtient que√n(θ mvn −θ

)√1− θ mv

n

2 N (0, 1).

7. On déduit de la question précédente un intervalle de confiance de niveau asymptotique α :Pθ[θ ∈ In,α]→ 1− α où

In,α =[θ mvn ±q

N (0,1)1−α/2

√1− θ mv

n

2

n

]c) 1. Le rapport de vraisemblance pour 0 = θ0 < θ1 = 1/2 est :

L(θ0, (Xi)i

)L(θ1, (Xi)i

) =(1− θ0

1− θ1

)n((1 + θ0)(1− θ1)(1− θ0)(1 + θ1)

)Yn.

Comme θ0 < θ1, le rapport de vraisemblance est une fonction croissante de Yn, le test deNeyman-Pearson de niveau α est donc de la forme

ϕα =

H0 si Yn/n ≤ tαH1 sinon

Ce test sera exactement de niveau α s’il existe tα tel que

Pθ0 [Yn/n > tα] = α.

Cette condition n’est pas toujours satisfaite car Yn est une variable aléatoire discrète.

2. D’après le TCL, sous H0,√n(Yn/n− 1/2

) N (0, 1/4). Il suffit alors de fixer le seuil dans

le test précédent tel que 2√n(tα−1/2

)= qN (0,1)1−α pour avoir un test de niveau asymptotique

α. Sous H1, Yn/np.s.−→ 3/4, on en déduit que la puissance du test tends vers 1. Donc le test

est consistant.

3. On considère

ϕα =

H0 si

√n| θ mv

n | ≤ tαH1 sinon

où tα = qN (0,1)1−α/2 . Sous H0,

√n| θ mv

n | |g| où g ∼ N (0, 1) et sous H1,√n| θ mv

n |p.s.−→ +∞.

Donc le test est de niveau asymptotique α et il est consistant.

d) 1. On note δi la variable aléatoire indiquant la présence de perturbation dans l’observation i,càd δi = 1 avec probabilité θ et 0 sinon. Par hypothèse les δi sont i.i.d. B(θ) et indépendantesde Ui. La loi de X1 est donnée par : si f est une fonction continue à support compact sur Ralors

Ef(X1) = Ef(|Ui|)δi + f(Ui)(1− δi) = Ef(|Ui|)θ + f(Ui)(1− θ) =

∫ 1/2

−1/2

[f(|u|)θ + f(u)(1− θ)

]du

= 2θ

∫ 1/2

0f(u)du+

∫ 1/2

−1/2f(u)(1− θ)du = (1− θ)

∫ 0

−1/2f(u)du+ (1 + θ)

∫ 1/2

0f(u)du.

Donc X1 est une variable admettant f(θ, ·) pour densité.

6 RATTRAPAGE 2015-2016 45

ENSAE Statistiques mathématiques

2. On va alors estimer θ par θ mvn = 2Yn/n− 1

3. On va considérer le problème de test de la question 3 de la partie c). On décide donc qu’ily aura perturbation si

√n| θ mv

n | > qN (0,1)1−α/2 .

4. Le test ne dépend que de P[X > 0]. Donc pour toute loi telle que Pθ[X > 0] = (1 + θ)/2,on aura les mêmes résultats.

7 Examen du lundi 14 novembre 2016

**********************Exercice 7.1 (Loi géométrique)Soit X1, . . . , Xn un n échantillon de variables aléatoires indépendantes de loi Pθ pour

θ ∈ (0, 1), telle que pour tout entier k, on a Pθ[k] = θ(1− θ)k.

1. Calculer EX1 et déterminer un estimateur de θ par la méthode des moments.

2. Déterminer l’estimateur du maximum de vraisemblance.

3. Calculer l’information de Fisher en θ contenue dans un n-échantillon de ce modèle.

4. On admettra que le modèle est régulier ; établir la normalité asymptotique de l’es-timateur du maximum de vraisemblance.

**********************

Correction de l’exercice 7.1

1. On aEX =

∑k≥0

kθ(1− θ)k = θ(1− θ)∑k≥1

k(1− θ)k−1 =1− θθ

.

Un estimateur des moments est donc θ tel que Xn = (1− θ)/θ càd

θ =1

1 +Xn

.

2. La log-vraisemblance du modèle est la fonction

θ ∈ (0, 1) −→ `n(θ,X1, . . . , Xn) = n log θ + log(1− θ)n∑i=1

Xi.

Elle admet pour dérivée

∂θ`n(θ,X1, . . . , Xn) =n

θ− 1

1− θ

n∑i=1

Xi.

qui s’annule uniquement en

θ =1

1 +Xn

et pour lequel on vérifie que ∂2θ `n(θ, X1, . . . , Xn) < 0. Donc θ est l’EMV.

7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 46

ENSAE Statistiques mathématiques

3. On a pour tout θ ∈ (0, 1), l’information de Fisher en θ d’un n-échantillon est

I(θ) = −Eθ∂2θ `n(θ,X1, . . . , Xn) =n

θ2+

nEθX1

(1− θ)2=

n

θ2+

n

θ(1− θ)

4. Comme le modèle est régulier, on a

√n(θ − θ) d−→ N

(0, θ2(1− θ)

).

**********************

Exercice 7.2 (Test de comparaison de moyenne)On observe n1 variables aléatoires i.i.d. X1, . . . , Xn1 de loi N (µ, σ2) et n2 variables aléatoiresi.i.d. Y1, . . . , Yn2 de loi N (µ+ ∆, σ2) indépendantes des Xi. On souhaite tester ∆ = 0 contre∆ 6= 0 ; les deux paramètres µ et σ2 étant inconnus.

1. Quelle est la loi de Xn1 − Yn2 où

Xn1 =1

n1

n1∑i=1

Xi et Yn2 =1

n2

n2∑i=1

Yi.

2. On note

σ2X,n1=

1

n1 − 1

n1∑i=1

(Xi −Xn1)2 et σ2Y,n2=

1

n2 − 1

n2∑i=1

(Yi − Yn2)2

les variances empiriques (débiaisées) associées respectivement à chacun des deuxéchantillons. Donner la loi de

U2 = (n1 − 1)σ2X,n1+ (n2 − 1)σ2Y,n2

.

3. On introduit

T =

√n1 + n2 − 2Z

U/σoù Z =

Xn1 − Yn2 + ∆

σ√n−11 + n−12

.

Montrer que la loi de T est une loi de Student à n1 + n2 − 2 degrés de liberté.

4. En déduire la construction d’un test de niveau α pour le problème de test

H0 : ∆ = 0 contre H1 : ∆ 6= 0.

5. On observe pour n1 = 13 et n2 = 14, les valeurs

Xn1 = 25.97, σ2X,n1= 1.36, Yn2 = 25.38, and σ2X,n1

= 1.77.

Calculer la p-value du test. Faut-il rejeter aux niveaux usuels 1%, 5% et 10%.

On rappelle quelques valeurs de la fonction de répartition d’une loi de Student à 25 degrésde liberté. On note F (t) = P[X ≤ t] quand X suit une loi de Student à 25 degrés de liberté.

t 0,9 1.0125 1.125 1.2375 1.35 1.4625 1.575 1.6875 1.8F (t) 0.811 0.839 0.864 0.886 0.905 0.921 0.936 0.948 0.958

7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 47

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 7.2

1. La variable aléatoire Xn1 −Yn2 est une combinaison linéaire de variables Gaussiennes, c’est doncaussi une variable Gaussienne. Pour la caractériser, il suffit de donner sa moyenne et sa variance.On a :

E[Xn1 − Yn2

]= −∆ et var

(Xn1 − Yn2

)= var

(Xn1

)+ var

(Yn2

)= σ2

( 1

n1+

1

n2

).

On en déduit que Xn1 − Yn2 ∼ N (−∆, σ2(n−11 + n−12 )).

2. On peut voir U2 comme étant la norme Euclidienne au carré de la projection du vecteur aléatoireGaussien G := (X1, . . . , Xn1 , Y1, . . . , Yn2)> sur l’espace orthogonal à V := vect(v1, v2) où

v1 =1√n1

1...1

0...0

∈ Rn1+n2 et v2 =

1√n2

0...0

1...1

∈ Rn1+n2 . (15)

En effet, v1 et v2 sont deux vecteurs unitaires orthogonaux alors

PVG =⟨G, v1

⟩v1 +

⟨G, v2

⟩v2 =

Xn1

...Xn1

Yn2

...Yn2

et donc PV ⊥G = G−PVG = (X1−Xn1 , . . . , Xn1 −Xn1 , Y1−Yn2 , . . . , Yn2 −Yn2). On a donc bienU2 = ‖PV ⊥G‖

22. Par ailleurs, V

⊥ est un espace vectoriel de dimension n1 + n2 − 2 donc, d’aprèsle théorème de Cochran, U2/σ2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.

3. On peut aussi voir U2 comme étant la norme Euclidienne au carré de la projection du vecteuraléatoire Gaussien G′ := (X1, . . . , Xn1 ,−Y1 + ∆, . . . ,−Yn2 + ∆)> sur l’espace orthogonal à V =

vect(v1, v2) (défini dans (15)). On en déduit par le Théorème de Cochran que :

— PVG′ et PV ⊥G′ sont indépendantes,

— U2/σ2 = ‖G′‖22 /σ2 est distribuée selon une χ2 à n1 + n2 − 2 degrés de liberté.

Par ailleurs,

Z =

⟨PVG

′, e1⟩

+⟨PV ⊥G

′, en1+1

⟩σ√n−11 + n−12

donc Z est indépendant de U2 et c’est un vecteur Gaussien (en tant que combinaison linéaire deGaussiennes) de moyenne nulle et de variance 1 (cf. Question 1). On en déduit que

√n1 + n2 − 2Z/(U/σ)

suit une loi de Student à n1 + n2 − 2 degrès de liberté.

7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 48

ENSAE Statistiques mathématiques

4. On considère la statistique de test

T =

√n1 + n2 − 2

n−11 + n−12

(Xn1 − Yn2)√(n1 − 1)σ2X,n1

+ (n2 − 1)σ2Y,n2

.

Sous H0, T suit une loi de student à n1 + n2 − 2 degrés de liberté. On construit donc un test deniveau α avec

ϕα((Xi)i, (Yi)i) =

H0 quand |T | ≤ tαH1 sinon

où tα est le quantile d’ordre 1− α/2 d’une loi de Student à n1 + n2 − 2 degrés de liberté.

5. La p-value du test est le plus petit α pour lequel le test rejette. Ici la p-value est donnée parα ∈ (0, 1) tel que tα = T . Comme

T =

√13 + 14− 2

1/13 + 1/14

25.97− 25.38√12× 1.36 + 13× 1.77

= 1.222,

on cherche α tel que qS(25)1−α/2 = 1.222. On obtient α ≈ 0.24. En particulier, pour les niveaux 1%,5% et 10%, le test va accepter.

**********************

Exercice 7.3 (Variables uniformes)Soient X1, . . . , Xn des variables i.i.d. uniformes sur [a, b] où a et b sont des paramètresinconnus tels que a < b. On note par P(a,b) la loi des observations.

1. Estimateur par la méthode des moments.

(a) Soit X une variable de loi uniforme sur [a, b]. Calculer EX et EX2 en fonction dea et b.

(b) Proposer un estimateur (a, b) par la méthode des moments.

(c) Etudier la consistance de (a, b).

(d) Etudier la normalité asymptotique de a.

(e) Etudier la normalité asymptotique de (a, b). Cette question étant très calcula-toire, on ne s’intéressera qu’à la démarche à suivre plus qu’au calcul effectif dela matrice de covariance asymptotique. Pour les plus courageux, on ne demandede calculer que la forme de la matrice de covariance asymptotique et de préciseruniquement l’élément an haut à gauche de cette matrice.

2. Estimateur par maximum de vraisemblance.

(a) Donner l’estimateur (a, b) maximisant la vraisemblance en (a, b).

(b) Soit ε > 0. Majorer P(a,b)[|a− a| ≥ ε]. En déduire la consistance de a.

(c) Etudier la normalité asymptotique de a.

3. Comparer les estimateurs a et a de a.

7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 49

ENSAE Statistiques mathématiques

**********************

Correction de l’exercice 7.3

1. Estimateur par la méthode des moments.

(a) Soit X une variable uniformément distribuée sur [a, b]. On a EX = (a + b)/2 et EX2 =

(b2 + ab+ a2)/3.

(b) Un estimateur des moments de (a, b) est donné par (a, b) solution deXn := 1

n

∑ni=1Xi = b+a

2

X2n := 1

n

∑ni=1X

2i = b2+ab+a2

3 .

C’est-à-dire a = Xn −√

3(X2n − (Xn)2

)= Xn −

√3σn

b = Xn +√

3(X2n − (Xn)2

)= Xn +

√3σn.

où σ2n = X2n − (Xn)2.

(c) Par la LFGN, (Xn)n converge p.s. vers EX et (X2n)n converge p.s. vers EX2. Par le “conti-

nuous map theorem”, on en déduit que (a, b) converge p.s. vers (a, b) quand n tend vers +∞.Donc (a, b) est un estimateur fortement consistant de (a, b).

(d) Par le TCL (en dimension 2), on voit que (Xn, X2n)n converge en loi vers une Gaussienne

N (0,Σ) où

Σ =

(var(X) cov(X,X2)

cov(X,X2) var(X2)

)=

(EX2 − (EX)2 EX3 − EXEX2

EX3 − EXEX2 EX4 − (EX2)2

)

=

((a−b)2

12b3−b2a−ba2+a3

12b3−b2a−ba2+a3

124b4−b3a−6b2a2−ba3+4a4

45

)

On considère la fonction

φ :

(x, y) ∈ R2 : y > x2 −→ R(

x

y

)−→ x−

√3(y − x2)

Comme

a = φ

(Xn

X2n

),

la méthode Delta permet d’obtenir

√n(a− a

)=√n

(Xn

X2n

)− φ

(EXEX2

))d−→ N

(0, Σ

)où

Σ = ∇φ

(EXEX2

)>Σ∇φ

(EXEX2

)

7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 50

ENSAE Statistiques mathématiques

et

∇φ

(x

y

)=

1√y − x2

( √y − x2 +

√3x

−√

3/2

).

On pose σ2 = EX2 − (EX)2 = (b− a)2/12. On a

∇φ

(EXEX2

)=

1

(2σ +

√3(a+ b)

−√

3

)=

1

b− a

(2a+ 4b

−3

).

On obtient donc

Σ =1

(b− a)2

(2a+ 4b −3

((a−b)2

12b3−b2a−ba2+a3

12b3−b2a−ba2+a3

124b4−b3a−6b2a2−ba3+4a4

45

)

×

(2a+ 4b

−3

)=

2

15(b− a)2(b4 − 4b3a+ 6b2a2 − 4ba3 + a4

)(e) Par le TCL (en dimension 2), on voit que (Xn, X2

n)n converge en loi vers une GaussienneN (0,Σ) où

Σ =

(var(X) cov(X,X2)

cov(X,X2) var(X2)

)=

(EX2 − (EX)2 EX3 − EXEX2

EX3 − EXEX2 EX4 − (EX2)2

)

=

((a−b)2

12b3−b2a−ba2+a3

12b3−b2a−ba2+a3

124b4−b3a−6b2a2−ba3+4a4

45

)

On considère la fonction

Φ :

(x, y) ∈ R2 : y > x2 −→ R2(

x

y

)−→

(x−

√3(y − x2)

x+√

3(y − x2)

)Comme (

a

b

)= Φ

(Xn

X2n

),

la méthode Delta permet d’obtenir

√n

((a

b

)−

(a

b

))=√n

(Xn

X2n

)− Φ

(EXEX2

))d−→ N

(0, Σ

)où

Σ = ∇Φ

(EXEX2

)>Σ∇Φ

(EXEX2

)et

∇Φ

(x

y

)=

1√y − x2

( √y − x2 +

√3x

√y − x2 −

√3x

−√

3/2√

3/2

).

On pose σ2 = EX2 − (EX)2 = (b− a)2/12. On a

∇Φ

(EXEX2

)=

1

σ

(σ +√

3(a+ b) σ −√

3(a+ b)

−√

3√

3

)=

1

b− a

(2a+ 4b −4a− 2b

−3 3

).

7 EXAMEN DU LUNDI 14 NOVEMBRE 2016 51

ENSAE Statistiques mathématiques

On obtient donc

Σ =1

(b− a)2

(2a+ 4b −3

−4a− 2b 3

((a−b)2

12b3−b2a−ba2+a3

12b3−b2a−ba2+a3

124b4−b3a−6b2a2−ba3+4a4

45

)

×

(2a+ 4b −4a− 2b

−6 6

)=

2

15(b− a)2

(b4 − 4b3a+ 6b2a2 − 4ba3 + a4 ?

? ?

).

2. Estimateur par maximum de vraisemblance.

(a) La vraisemblance du modèle d’échantillonnage à n observations est

Ln

((a

b

), X1, . . . , Xn

)=

n∏i=1

I(a ≤ Xi ≤ b)b− a

=1

(b− a)nI(a ≤ min(Xi))I(maxXi ≤ b).

La vraisemblance est donc maximale pour

a = min1≤i≤n

Xi et b = max1≤i≤n

Xi

et donc l’EMV est ici (a, b) = (min1≤i≤nXi,max1≤i≤nXi).

(b) Soit 0 < ε < b− a. On a

P(a,b)[|a− a| ≥ ε] = P(a,b)[ min1≤i≤n

Xi ≥ a+ ε] =n∏i=1

P(a,b)[Xi ≥ a+ ε] =(P(a,b)[X1 ≥ a+ ε]

)n=

(1

b− a

∫ b

aI(x ≥ a+ ε)dx

)n=

(b− (a+ ε)

b− a

)n=

(1− ε

b− a

)n.

On en déduit que a est un estimateur consistant de a.

(c) On sait que (Zn) tend en loi vers Z si et seulement si la suite des fonctions de répartitiondes Zn converge simplement vers la fonction de répartition de Z en tout point de continuitéde cette dernière. On voit ici que la suite des fonctions de répartition de (n(a − a))n tendvers la fonction de répartition d’une loi exponentielle de paramètre 1/(b− a) càd

limn→+∞

P(a,b)

[n(a− a) ≤ t

]=

0 si t ≤ 0

1− exp(−tb−a

)quand t > 0

doncn(a− a)

d−→ E(1/(b− a))

où E(1/(b− a)) est une loi exponentielle de paramètre 1/(b− a).

3. la vitesse de convergence de a est en 1/√n alors que celle de a est en 1/n. Ce dernier estimateur

est donc préférable à a.

8 Rattrapage 2016-2017

**********************

8 RATTRAPAGE 2016-2017 52

ENSAE Statistiques mathématiques

Exercice 8.1 (Test dans une urne)Nous disposons d’une urne contenant 5 boules. Ces boules peuvent être rouges ou

blanches. On souhaite tester si les boules de l’urne sont toutes blanches ou toutes rouges.On note par r le nombre de boules rouges dans l’urne ; on a donc 5 − r boules blanches.On considère alors le problème de test

H0 : r ∈ 0, 5 contre H1 : r ∈ 1, 2, 3, 4.

On tire deux boules de l’urne (avec ou sans remise) et on prend la décision suivante :

1. on accepte si les deux boules ont la même couleur

2. on rejette sinon.

On propose dans la suite d’étudier les propriétés de ce test dans les deux cas d’avec etsans remise.

1. Quel est le risque de première espèce du test précédent dans les deux cas d’avec etsans remise ?

2. quelle est le puissance du test quand le tirage se fait avec remise ?

3. quelle est le puissance du test quand le tirage se fait sans remise ?

**********************

Correction de l’exercice 8.1

1. Sous H0, toutes le boules ont la même couleur. Alors si on effectue deux tirages avec ou sansremise, les deux boules tirées seront de la même couleur et donc l’hypothèse H0 est acceptée. Enparticulier, la probabilité de rejeter à tord est nulle. Donc le niveau du test est dans les deux cas(avec ou sans remise) de zéro.

2. On rappelle que la puissance d’un test est la fonction qui à tout paramètre r dans l’alternativeassocie la probabilité de rejeter à raison : r ∈ 1, 2, 3, 4 → Pr[test = H1].

On considère dans cette question un tirage avec remise.

Soit r ∈ 1, 2, 3, 4 (un paramètre dans l’alternative). La probabilité de rejeter sous Pr est

Pr[test = H1] = Pr[ tirer deux boules de couleur différentes] = 2(r

5× 5− r

5

)=

2r(5− r)25

.

La puissance du test est donc la fonction

r ∈ 1, 2, 3, 4 7−→ 2r(5− r)25

3. On considère maintenant le problème sans remise. Soit r ∈ 1, 2, 3, 4, on a

Pr[test = H1] = Pr[ tirer deux boules de couleur différentes] =(r

5× 5− r

4

)+(5− r

5× r

4

)=r(5− r)

10.

La puissance du test est donc la fonction

r ∈ 1, 2, 3, 4 7−→ r(5− r)10

.

8 RATTRAPAGE 2016-2017 53

ENSAE Statistiques mathématiques

**********************

Exercice 8.2 (Paramètre vectoriel - vitesses de convergence différentes)Soient X1, . . . , Xn des variables aléatoires i.i.d. de loi exponentielle translatée dont la

densité est de la forme :

f(x, θ, α) =1

θexp

[−(x− α)

θ

]I[α,+∞[(x),

où θ > 0 et α ∈ R sont deux paramètres inconnus.

1. Donner les estimateurs du maximum de vraisemblance (αn, θn) du paramètre (bidi-mensionnel) (α, θ).

2. Quelle est la loi de Xi − α ? Calculer la loi (exacte) de n(αn − α).

3. Déterminer la loi limite de√n(θn − θ).

4. L’objectif de cette question est de montrer que αn et θn sont indépendants.

(a) On rappel que X(1) ≥ X(2) ≥ · ≥ X(n) sont les statistiques d’ordres de l’échantillon.Monter que(

nX(1), (n− 1)(X(2) −X(1)), . . . , 2(X(n−1) −X(n−2)), X(n) −X(n−1))

est un vecteur de Rn ayant pour densité par rapport à la mesure de Lebesgue

y = (yi)ni=1 ∈ Rn → exp

(−

n∑i=1

yi

)I (0 < yi : i = 1, . . . , n) .

(b) En déduire que αn et θn sont indépendants pour tout n.

**********************

Correction de l’exercice 8.2

1. La fonction de vraisemblance est donnée pour tout θ > 0 et α ∈ R par

V (θ, α) = Πni=1f(Xi, θ, α) =

1

θnexp

[−

n∑i=1

(Xi − α)

θ

]I(α ≤ min

iXi

).

On voit déjà que l’EMV pour α estαn = min

1≤i≤nXi.

On en déduit par dérivation de θ 7→ log V (θ, αn) = −n log θ−∑

iXi/θ+nαn/θ que l’EMV pourθ est

θn =1

n

n∑i=1

Xi − αn = Xn −miniXi.

2. On voit que X suit une loi exponentielle de paramètre θ et de translatée α si et seulement si safonction de répartition FX est donnée par

FX(t) =[1− exp

(−(t− α)

θ

)]I(t ≥ α).

8 RATTRAPAGE 2016-2017 54

ENSAE Statistiques mathématiques

Par indépendance, on a

P[αn ≥ t] =(P[X1 ≥ t]

)n= exp

(− n(t− α)

θ

)I(t ≥ α).

Alors αn suit une loi expo de paramètre θ/n et translatée α. Donc n(α− α) est une loi expo deparamètre θ (et translatée nulle).

3. Si X ∼ f alors EX = θ + α et EX2 = α2 + 2θα+ 2θ2. On a

√n(θn − θ

)=√n(Xn − (θ + α)

)−( 1√

n

)[n(min

iXi − α)

].

On voit que(n−1/2

[n(miniXi − α)

])converge en probabilité vers 0 et par le TCL

(√n(Xn −

(θ + α)))

converge en loi vers N (0, var(X1)) où var(X1) = θ2. Par Slutsky, on en déduit que

√n(θn − θ

) N (0, θ2).

4. Sans perte de généralité, on peut supposer les Xi centrés et réduits, càd α = 0 et θ = 1.

(a) On note Sn l’ensemble de toutes les permutations de 1, . . . , n. Soit B un borélien de Rn.On a

P[(nX(1), (n− 1)(X(2) −X(1)), . . . , 2(X(n−1) −X(n−2)), X(n) −X(n−1)

)∈ B

]= P[∃τ ∈ Sn :

(nXτ(1), , . . . , Xτ(n) −Xτ(n−1)

)∈ B et Xτ(1) < · · · < Xτ(n)]

=∑τ∈Sn

P[(nXτ(1), , . . . , Xτ(n) −Xτ(n−1)

)∈ B et Xτ(1) < · · · < Xτ(n)]

= n!P[(nX1, , . . . , Xn −Xn−1

)∈ B et X1 < · · · < Xn]

= n!

∫RnI((nx1, · · · , xn − xn−1) ∈ B

)I(0 < x1 < · · · < xn) exp

(−

n∑i=1

xi

)dx1 · · · dxn.

On considère le changement de variable

Φ :

(x1, . . . , xn) : 0 < x1 < · · · < xn −→ (R∗+)n

(x1, . . . , xn)> −→ (nx1, (n− 1)(x2 − x1), . . . , 2(xn−1 − xn−2), xn − xn−1)>

On voit facilement que le déterminant du gradient (Jacobien) de Φ vaut n!. De plus∑xi =∑

yi pour (yi) = Φ(xi). On en déduit donc, par la formule de changement de variable endimension n que

n!

∫RnI((nx1, · · · , xn − xn−1) ∈ B

)I(x1 < · · · < xn) exp

(−

n∑i=1

xi

)dx1 · · · dxn

=

∫Rn+I((y1, · · · , yn) ∈ B

)exp

(−

n∑i=1

yi

)dy1 · · · dyn

Ainsi la loi de(nX(1), (n− 1)(X(2) −X(1)), . . . , 2(X(n−1) −X(n−2)), X(n) −X(n−1)

)(16)

a pour densité (y1, . . . , yn)→ exp(−∑n

i=1 yi

)I(0 < yi : i = 1, . . . , n).

8 RATTRAPAGE 2016-2017 55

ENSAE Statistiques mathématiques

(b) On déduit de la question précédente que les coordonnées de (16) sont indépendante et commeαn = X(1) et

n−1∑k=2

(n− k)((X(k+1) −X(k)

)= X(n) + · · ·+X(2) − (n− 1)X(1) = n(Xn −X(1)) = nθn

on a bien que αn et θn sont indépendantes.

**********************

Exercice 8.3 (Test du signe)Soient X1, . . . , Xn un n échantillon de variables i.i.d. de fonction de répartition F continueet Y1, . . . , Yn un n-échantillon de variables i.i.d. de fonction de répartition G continue quisont aussi indépendantes des Xi. On considère le problème de test

H0 : F = G contre H1 : F 6= G (17)

1. Montrer que P[Xi = Yi] = 0 et en déduire que si F = G alors P[Xi > Yi] = 1/2.

2. On pose N =∑n

i=1 I(Xi > Yi). Quelle est la loi de N sous H0 ?

3. Soit α ∈ (0, 1). Construire un test de niveau asymptotique α ayant une zone de rejetde la forme

R(cα) = z = ((xi, yi))ni=1 :

√n|N(z)− 1/2| > cα

pour un bon choix de cα.

4. On dit qu’un test est consistant quand sa fonction puissance tend vers 1 quand n

tend vers l’infini. Montrer que le test construit dans la question précédente n’est pasconsistant.

**********************

Correction de l’exercice 8.3

1. Soit i ∈ 1, . . . , n. Comme les fonctions de répartition de Xi et Yi sont continues et que Xi etYi sont indépendantes, la fonction de répartition du couple (Xi, Yi) est le produit tensoriel desfonctions de répartition de Xi et Yi qui est aussi une fonction continue sur R2 ; et en particulier,la loi de (X,Y ) ne charge pas les sous-ensembles de mesure nulle pour le mesure de Lebesgue.On a alors

P[Xi = Yi] =

∫(x,y)∈R2:x=y

dP(X,Y )(x, y) = 0

car l’ensemble (x, y) ∈ R2 : x = y est de mesure nulle pour la mesure de Lebesgue. On a

1 = P[Xi > Yi] + P[Xi = Yi] + P[Xi < Yi] = P[Xi > Yi] + P[Xi < Yi]

et comme Xi et Yi sont i.i.d. sous H0, on a P[Xi > Yi] = P[Xi < Yi]. On en déduit queP[Xi > Yi] = 1/2 sour H0.

2. Sous H0, (I(Xi) > Yi))i est une famille de n variables de Bernoulli i.i.d. de paramètre 1/2. DoncN est une variable aléatoire multinomiale de paramètre 1/2 sous H0.

8 RATTRAPAGE 2016-2017 56

ENSAE Statistiques mathématiques

3. Sous H0, le TCL donne

2√n

(N

n− 1

2

)d−→ N (0, 1). (18)

Ainsi pour cα = qN (0,1)1−α/2 /2, le test de zone de rejet R(cα) est de niveau asymptotique α.

4. L’alternative est l’ensemble des couples de fonctions de répartition (F,G) telles que F et Gsont continues et F 6= G. Prenons pour F la fonction de répartition d’une variable aléatoire Xuniformément distribuée sur [−1, 0] ∪ [1, 2] et pour G la fonction de répartition d’une variablealéatoire Y uniformément distribuée sur [0, 1]. On a donc bien F 6= G, F et G sont continues etcomme P[X > Y ] = P[X > 1] = 1/2, on aura aussi (18) dans ce cas et en particulier,

limn→+∞

P[((Xi, Yi))ni=1 ∈ R(cα)] = α < 1.

Donc le test n’est pas consistant : en au moins un point de l’alternative, la puissance ne tend pasvers 1 quand n tend vers l’infini.

9 Examen de novembre 2017

**********************Exercice 9.1 (EMV Gaussienne tronquée)Soit une loi de probabilité de densité (par rapport à la mesure de Lebesgue sur R)

f(θ, x) = (2/√πθ) exp(−x2/θ)I(x > 0), ∀x ∈ R,

où θ > 0 est un paramètre inconnu. On dispose d’un n-échantillon X1, . . . , Xn de cette loi.

1. Vérifier que pour tout θ > 0, f(θ, ·) est bien une densité sur R par rapport à la mesurede Lebesgue λ. Si X est distribuée selon f(θ, ·).λ, calculer EθX2.

2. Expliciter l’estimateur du maximum de vraisemblance θn de θ. Montrer qu’il est sansbiais et consistant.

3. Calculer la variance de l’estimateur θn (on rappelle que Eg4 = 3 pour g ∼ N (0, 1)).

4. On admettra que le modèle statistique en question est régulier. Calculer l’informationde Fisher associée à ce modèle. Comparer la avec la variance de θn. Conclusion ?Mettre ce résultat en perspective avec la Borne de Cramer-Rao.

5. Déterminer la loi limite quand n→∞ de√n(θn − θ).

6. Soit α ∈]0, 1[. Proposer un test de niveau asymptotique α de l’hypothèse H0 : θ < 3

contre l’alternative H1 : θ > 3.

7. Déterminer la loi de probabilité de la variable aléatoire 2X21/θ. En déduire que la

loi de la variable aléatoire ζ = m2/θ ne depend pas de θ où on note m2 le momentempirique d’ordre 2 associé à l’échantillon X1, . . . , Xn, càd m2 = (1/n)

∑ni=1X

2i .

8. Déterminer les réels a et b tels que [m2/a,m2/b] soit un intervalle de confiance deniveau non-asymptotique 1− α pour θ.

9 EXAMEN DE NOVEMBRE 2017 57

ENSAE Statistiques mathématiques

9. En utilisant la question précédente, proposer un test de niveau α de l’hypothèseH0 : θ = 2 contre l’alternative H1 : θ 6= 2.

10. En utilisant l’approximation de la loi de ζ par une loi normale, chercher les réels a1et b1 tels que [m2/a1,m2/b1] soit un intervalle de confiance de niveau asymptotique1− α pour θ.

**********************

Correction de l’exercice 9.1

1. Soit θ > 0. Pour tout x ∈ R, f(θ, x) ≥ 0 et on vérifie que∫Rf(θ, x)dx = 1.

De plus, si X a pour densité f(θ, ·) pour un certain θ > 0 alors, après un changement de variable(u = x

√2/θ), on voit que

EθX2 =

∫x>0

2x2√πθ

exp(− x2/θ

)dx =

θ

2.

2. La fonction de vraisemblance est définie pour tout θ > 0 par

V (θ, (Xi)i) =n∏i=1

f(θ,Xi) =( 2√

πθ

)nexp

(− 1

θ

n∑i=1

X2i

)I(

miniXi > 0

).

Pour tout θ > 0, les Xi sont presque sûrement positifs sous Pθ alors miniXi > 0 p.s. et donc Lalog-vraisemblance est ici :

`n(θ, (Xi)i) =−n2

log(πθ) + n log 2− 1

θ

n∑i=1

X2i .

En étudiant, cette fonction en θ > 0, on voit que la vraisemblance est maximale en θ mvn =

2n

∑iX

2i . Alors Eθ θ mv

n = 2EθX2 = 2(θ/2) = θ et donc l’EMV est sans biais. Il est consistant parla LFGN.

3. La variance de θ mvn est donnée, sous Pθ, par

Varθ(θmvn ) = Eθ

( 2

n

n∑i=1

X2i −θ

)2= (4/n) Varθ(X

2) = (4/n)(EθX4−(EθX2)2

)=

4(3θ2/4− θ2/4)

n=

2θ2

n.

4. L’information de Fisher contenue dans un n−échantillon s’obtient à partir de la formule In(θ) =

nI1(θ) et pour une observation, on a

I1(θ) = −Eθ∂2θ log f(X, θ) = Eθ(2X2

θ3− 1

2θ2

)=

1

2θ2.

Finalement, l’information de Fisher du n-échantillon est n/(2θ2). On obtient donc que (pour cemodèle) Varθ(θ

mvn ) = In(θ)−1. Autrement dit, la variance de l’EMV vaut de manière non-asymptotique

9 EXAMEN DE NOVEMBRE 2017 58

ENSAE Statistiques mathématiques

l’inverse de l’information de Fisher. Ce résultat est à mettre en parallèle avec le résultat sur la nor-malité asymptotique des EMV dans les modèles réguliers qui assure que la variance asymptotiquedes EMV vaut l’inverse de l’information de Fisher :

√n(θ mvn −θ

) N (0, I1(θ)

−1)

quand n→∞. Ici, on anEθ

(θ mvn −θ

)2= I1(θ)

−1

pour tout n (càd de manière non-asymptotique). On peut aussi voir ce résultat comme un résultatd’optimalité dans la borne de Cramer-Rao pour les estimateurs sans biais (ce qui est le cas deθ mvn ).

5. On a rappelé précédemment que, dans les modèles réguliers (ce qui est admis ici), l’EMV estasymptotiquement normal de variance asymptotique donnée par l’information de Fisher. On adonc ici :

√n(θ mvn −θ

) N (0, I1(θ)

−1)

quand n → ∞ où I1(θ)−1 = 2θ2. On peut aussi retrouver ce résultat en appliquant directementle TCL.

6. Soit α ∈]0, 1[. On utilise l’EMV comme statistique de test. On considère alors un test de la forme

ϕα(X1, . . . , Xn) =

H0 quand

√n(θ mvn −3

)≤ tα

H1 sinon.

On fixe le seuil tα en fonction du niveau asymptotique :

supθ<3

limsupn→+∞

Pθ[√n(θ mvn −3

)> tα] = α.

Étant donné la normalité asymptotique de l’EMV énoncé dans la question précédente, on voitque le supθ<3 est obtenu en θ = 3 et donc

supθ<3

limsupn→+∞

Pθ[√n(θ mvn −3

)> tα] = limsup

n→+∞P3[√n(θ mvn −3

)> tα] = P[I1(3)−1/2g > tα]

où g ∼ N (0, 1) et I1(3) = 18. Il suffit alors de prendre tα = q1−α/√

18, où q1−α est le quantiled’ordre 1− α d’une N (0, 1). Pour conclure, un test de niveau asymptotique α est donné par

ϕα(X1, . . . , Xn) =

H0 quand

√n(θ mvn −3

)≤ q1−α

3√2

H1 sinon.

7. Soit g : R → R une fonction continue à support compact. Pour le changement de variableu = 2x2/θ (pour x > 0), on obtient

Eg(2X2/θ) =

∫ +∞

0g

(2x2

θ

)2√πθ

exp(−x2/θ

)dx =

∫u>0

g(u) exp(−u/2)du√2πu

.

Donc la loi de 2X2/θ admet une densité par rapport à la mesure de Lebesgue donnée par h :

u→ exp(−u/2)I(u > 0)/√

2πu. C’est la desnité d’une χ2(1). Par ailleurs, nm2/θ est une sommede n variables i.i.d. qui admettent h pour densité. Donc, nm2/θ a pour densité le produit deconvolution n fois de h avec lui-même et donc m2/θ admet une densité indépendante de θ. Onpeut aussi dire que une nm2/θ ∼ χ2(n).

9 EXAMEN DE NOVEMBRE 2017 59

ENSAE Statistiques mathématiques

8. On note H la densité de ζ = m2/θ. On vient de voir dans 7) que H était indépendante de θ.Comme ζ est absoluement continue par rapport à la mesure de Lebesgue, on peut trouver b < a

tels que P[b ≤ ζ ≤ a] = 1− α. On a alors, pour tout θ > 0, Pθ[θ ∈ [m2/a,m2/b]] = 1− α. Donc,[m2/a,m2/b] est un intervalle de confiance de niveau non-asymptotique 1− α pour θ.

9. Un test de niveau (non-asymptotique) α est donné par

ϕα(X1, . . . , Xn) =

H0 quand 2 ∈ [m2/a,m2/b]

H1 sinon.

Le niveau est bien α car, d’après 7),

P2 [2 /∈ [m2/a,m2/b]] = α.

10. Le TCL dit que pour tout θ > 0, sous Pθ,√n(ζ − 1/2) tends en loi vers une N (0, 1/2). On en

déduit donc que asymptotiquement (de manière informelle),

m2

θ∼ 1

2+

1√2nN (0, 1).

On note q1−α/2 le quantile d’ordre 1−α/2 d’une N (0, 1), on en déduit alors que pour tout θ > 0,

Pθ[√

2n|m2/θ − 1/2| ≤ q1−α/2]→ 1− α.

Alors, l’intervalle suivant [m2

1/2 + q1−α/2/√

2n,

m2

1/2− q1−α/2/√

2n

]

est un intervalle de confiance de niveau asymptotique 1− α.

**********************

Exercice 9.2 (Cancer et tabac)Voici les chiffres (fictifs) du suivi d’une population de 100 personnes (50 fumeurs, 50

non-fumeurs) pendant 20 ans (cf. Figure 1).

fumeur non-fumeurcancer diagnostiqué 11 5pas de cancer 39 45

Figure 1 – Tableau 1 de données

On se pose la question suivante : la différence du nombre de cancers entre fumeurs etnon-fumeurs est-elle statistiquement significative ? On note Xi la variable qui vaut 1 si lefumeur i a été atteint d’un cancer et 0 sinon. De même, on note Yi la variable qui vaut 1si le non-fumeur i a été atteint d’un cancer et 0 sinon. On suppose que les Xi sont i.i.d.de loi de Bernoulli B(θf ), les Yi sont i.i.d. de loi B(θnf ) et les Xi sont indépendants des Yi.

9 EXAMEN DE NOVEMBRE 2017 60

ENSAE Statistiques mathématiques

1. Si θf 6= θnf , quelle est la limite de√n|Xn − Yn| ?

2. On suppose que θf = θnf = θ et on note θ = (Xn + Yn)/2. Montrez que√n

2θ(1− θ)(Xn − Yn)

loi→ N (0, 1).

3. Proposez un test de niveau asymptotique 5% de H0 : "le taux de cancer n’est pasdifférent" (θf = θnf) contre H1 : "le taux de cancer est différent" (θf 6= θnf). Quedécide le test dans le cas des données de la Figure 1 ?

4. Supposons maintenant qu’une étude supplémentaire permet d’avoir le suivi de 300personnes et que les proportions sont les mêmes (cf. Figure 2) : Quelle est la conclu-

fumeur non-fumeurcancer diagnostiqué 33 15pas de cancer 117 135

Figure 2 – Tableau 2 de données

sion du test avec ces données ?

5. Proposez un test de niveau asymptotique 5% pour le problème de test H0 : "fumern’a pas d’impact sur le taux de cancer" (θf = θnf) contre H1 : "fumer augmente letaux de cancer" (θf > θnf) ? Quelle est la conclusion du test pour les deux jeux dedonnées ? Quelle est la p-value associée à ce test pour les deux jeux de données ?

On donne le tableau des quantiles d’ordre 1− α d’une N (0, 1) :

α 0.051 0.046 0.041 0.036 0.031 0.026 0.021 0.016 0.011

qN (0,1)1−α 1.635 1.685 1.739 1.799 1.866 1.943 2.034 2.144 2.290

α 0.005 0.004 0.003 0.002 0.01

qN (0,1)1−α 2.576 2.652 2.748 2.878 3.090

**********************

Correction de l’exercice 9.2

1. Par la LFGN, on a |Xn − Yn|p.s.→ |θf − θnf |. Si θf 6= θnf alors

√n|Xn − Yn|

p.s.→ +∞.

2. Si θf = θnf = θ alors var(X − Y ) = var(X) + var(Y ) = 2θ(1− θ) et par la TCL, on a√n(Xn −

Yn)loi→ N (0, 2θ(1 − θ)). De plus, θ(1 − θ) converge p.s. vers θ(1 − θ) > 0 alors par le lemme de

Slutsky, on a bien √n

2θ(1− θ)(Xn − Yn)

loi→ N (0, 1).

3. On considère le test H0 : θf = θnf contre H1 : θf 6= θnf . On considère aussi la statistique de test

Tn =

√n

2θ(1− θ)(Xn − Yn).

D’après les deux questions précédentes, on a

9 EXAMEN DE NOVEMBRE 2017 61

ENSAE Statistiques mathématiques

— sous H0, Tnloi→ N (0, 1),

— sous H1, |Tn|p.s.→ +∞.

On note par q1−α/2 le quantile d’ordre 1−α/2 d’une Gaussienne standard N (0, 1) et on construitle test

ϕα(X1, . . . , Xn) =

H0 quand |Tn| < q1−α/2

H1 sinon.

On a alors, sous H0, la probabilité de rejeter à tord tends vers P[|g| > q1−α/2] = α quand n tendsvers +∞. Pour α = 5%, on a bien un test de niveau asymptotique à 5% pour q1−α/2 = 1.96.Dans le cas des données de la figure 1, on obtient pour n = 50,

T50 =

√50

1650

(1− 8

50

) ( 6

50

)= 1.636 < 1.96

donc on accepte.

4. Pour le deuxième jeux de données, on obtient pour n = 300

T300 =

√150

48150

(1− 24

150

) ( 33

150− 15

150

)= 2.83 > 1.96.

On rejette ici pour ce deuxième jeu de données bien qu’il soit dans les mêmes proportions que lepremier jeu de données.

5. On reprend la statistique de test

Tn =

√n

2θ(1− θ)(Xn − Yn).

Sous H0, on a Tnloi→ N (0, 1). Sous H1, on a Tn

p.s.→ +∞. On construit le test

ϕα(X1, . . . , Xn) =

H0 quand Tn < q1−α

H1 sinon.

où q1−α est le quantile d’ordre 1 − α d’une N (0, 1). Pour α = 5%, on a q1−α = 1.64 et le testϕα est bien un test de niveau asymptotique à 5%. On a obtenu sur les données du premier jeu,T50 = 1.636 et T300 = 2.84. La p-value dans la 1er cas est de 5.1% et dans le deuxième cas, elleest de 0.2%. Dans le premier cas, on rejette et dans le deuxième cas on rejette avec un grandniveau de confiance.

**********************

Exercice 9.3 (Test pour une certification bio)Pour avoir la certification "bio", un fabriquant de produits "bio" doit garantir pour

chaque lot un pourcentage d’OGM inférieur à 1%. Il prélève donc n = 25 produits par lotet teste si le pourcentage d’OGM est inférieur à 1%. On note Xi le logarithme naturel dunombre de pourcents d’OGM du paquet numéro i.Modèle : On suppose que les Xi sont indépendants et suivent une loi gaussienne N (θ, 1).

9 EXAMEN DE NOVEMBRE 2017 62

ENSAE Statistiques mathématiques

1. Pour θ1 > θ0, montrez que le test de Neyman-Pearson de niveau α de H0 : θ = θ0

contre H1 : θ = θ1 a une zone de rejet de la forme Xn > tn,α.

2. Pour le fabriquant, le pourcentage d’OGM est inférieur à 1% sauf preuve du contraire.Il veut tester l’hypothèse H0 : θ ≤ 0 contre H1 : θ > 0. A-t’il raison de choisir cetteforme de problème test ? (motiver et expliquer le choix des hypothèses). Par ailleurs,il souhaite que pour θ ≤ 0 le test se trompe avec une probabilité inférieure à 5%.Calculez un seuil t25,5 tel que

supθ≤0

Pθ(X25 > t25,5%) = 5%.

On pourra utiliser que P(Z > 1.645) ≈ 5%, pour Z ∼ N (0, 1).

3. Une association "anti-OGM" veut s’assurer qu’il n’y a effectivement pas plus de1% d’OGM dans les produits labélisés "bio". En particulier, elle s’inquiète de sa-voir si le test parvient à éliminer les produits pour lesquels le pourcentage d’OGMdépasse de 50% le maximum autorisé. Quelle est la probabilité que le test ne re-jette pas H0 lorsque le pourcentage d’OGM est de 1.5%? On pourra utiliser que1.645 −

√25 log(1.5) ≈ −0.38 et que le quantile d’ordre 0.648 d’une gaussienne centrée

réduite vaut approximativement 0.38).

4. Scandalisée par le résultat précédent, l’association milite pour que le test du fabri-quant prouve effectivement que le pourcentage d’OGM est inférieur à 1%. Détermi-ner le problème de test logiquement posé par l’association anti-OGM. Construire untest de niveau 5% pour ce test et montrer sa consistance.

**********************

Correction de l’exercice 9.3

1. Le rapport de vraisemblance est donné pour tout z = (Xi)ni=1 ∈ Rn par

f(θ1, z)

f(θ0, z)= exp

(1

2

n∑i=1

(Xi − θ0)2 − (Xi − θ1)2)

= exp

(n∑i=1

Xi(θ1 − θ0) + (n/2)(θ20 − θ21)

).

Comme θ1 − θ0 > 0, on voit que le test de Neyman-Pearson (de zone de rejet de la formez : f(θ1, z) > cf(θ0, z) pour c une constante à déterminer en fonction du niveau) a une zonede rejet de la forme Xn > tn,α pour un certain seuil tn,α à fixer.

2. Dans l’approche classique en test, on souhaite, avant tout, se couvrir contre le risque de 1èreespèce, càd, éviter de rejeter à tord. On a donc tendance à privilégier H0 et, en conséquence, àtrop souvent accepter. Le fabriquant d’OGM a donc raison de choisir pour H0 l’hypothèse quilui est la plus favorable ; aux associations anti-OGM de montrer que cette hypothèse doit êtrerejetée. C’est donc aux associations anti-OGM d’apporter une preuve que cette hypothèse n’estpas acceptable parce que dans le doute, l’hypothèse H0 sera acceptée.

Pour tout n, Xn est distribuée, sous Pθ, selon une N (θ, 1/n). On note par q1−α le quantile d’ordre1− α d’une N (0, 1). On a alors pour tout θ ≤ 0,

Pθ[Xn > q1−α/√n] ≤ Pθ[Xn > θ + q1−α/

√n] = P0[Xn > q1−α/

√n] = α.

9 EXAMEN DE NOVEMBRE 2017 63

ENSAE Statistiques mathématiques

On a donc biensupα≤0

Pθ[Xn > q1−α/√n] = α.

(On remarque au passage que le supθ≤0 est atteint en θ = 0). On peut alors prendre tn,α =

q1−α/√n et donc t25,5% = q95%/

√25 pour n = 25 observations et α = 5% comme niveau. On a

approximativement q95% = 1.645.

3. On pose θ1 = log(1.5) et on cherche à calculer la probabilité d’accepter sous Pθ1 :

Pθ1 [X25 ≤ t25,5%] = P[g ≤ q95% −

√25 log(1.5)

]= P [g ≤ −0.38] = 0.352

où g ∼ N (0, 1) et on a fait l’approximation que q95%−√

25 log(1.5) ≈ −0.38). On a donc 35% dechance d’accepter l’hypothèse qu’il y a moins de 1% d’OGM alors qu’en réalité il y en a 1.5%.

4. Pour l’association anti-OGM, le pourcentage d’OGM est supérieur à 1% sauf preuve du contraire.Le choix de problème de test par cette association va donc être "H0 : θ ≥ 0" contre "H1 : θ < 0".On est donc bien dans le cas où c’est le fabriquant qui doit apporter la preuve que ses produitscontiennent bien moins de 1% d’OGM. Pour ce choix de problème de test, on choisi par défautl’hypothèse qu’il y a plus de 1% d’OGM, c’est bien l’hypothèse que l’association anti-OGMsouhaite garder par défaut.

On construit maintenant un test de H0 contre H1 tel que la probabilité que le test rejette à tortH0 soit inférieure à 5%. Pour ce type de test, on sait que le test de Neyman-Pearson est UPP.La forme de la zone de rejet associée au test de NP est ici donnée par Xn ≤ sn,α où sn,α est unseuil à définir en fonction du niveau α. On choisit sn,α tel que supθ≥0 Pθ[Xn < sn,α] = α. Commesupθ≥0 Pθ[Xn < sn,α] = P0[Xn < sn,α] on peut prendre sn,α = qNα /

√n.

ϕα(X1, . . . , Xn) =

H0 quand Xn ≥ sn,5%H1 sinon.

Sous H1, on a pour tout θ < 0, Xn tends p.s. vers θ < 0 donc la puissance tends vers 1 sur toutel’alternative.

9 EXAMEN DE NOVEMBRE 2017 64