Statistiques mathématiques : cours 2lecueguillaume.github.io/assets/cours2_ensae_2018.pdf · Cours...

Statistiques mathematiques : cours 2

Guillaume Lecue

29 aout 2018

1/40

References

1. Cours :I V. Rivoirard et G. Stoltz, ”Statistiques en action”I P.J. Bickel et K. Doksum, ”Mathematical statistics”I A. Montfort, ”Cours de statistique mathematique”

2. Exercices :I J.J. Daudin, S. Robin et C. Vuillet, ”Statistique inferentielle. Idees,

demarches, exemples”I D. Fourdrinier, ”Statistiques inferentielle : cours et exercices

corriges”I B. Cadre et C. Vial, ”Statistique Mathematique Cours et Exercices

Corriges”

2/40

Cours precedent (rappel)

I Experience statistique,modele statistique, echantillonnage

I Fonction de repartition empirique :

Fn(x) =1

n

n∑i=1

I(Xi ≤ x

), x ∈ R

et quelques proprietes asymptotiques :

Fn(x)p.s.−→ F (x),

∥∥∥Fn − F∥∥∥∞

p.s.−→ 0 (G .C .)

leurs vitesses de convergence :

√n(Fn(x)− F (x)

) d−→ N (0,F (x)(1− F (x))),

√n∥∥∥Fn(x)− F (x)

∥∥∥∞

d−→ K (K .S .)

I proprietes non-asymptotique grace a Tchebychev.

I LFGN, TCL, Slutsky, continuous map theorem, construction d’IC.

3/40

Aujourd’hui

Estimateur “plug-in” et la methode delta

Quantiles empiriques et applications

Un algorithme ”on-line” : Robbins-Monro

4/40

Estimation de fonctionnelles dans le modele d’echantillonnage

I Objectif : estimation d’une caracteristique scalaire T (F ) d’une loiinconnue de fonction de repartition F a partir d’un n-echantillon

X1, . . . ,Xni.i.d.∼ X ∼ F de cette loi

donnees : X1, . . . ,Xni.i.d.∼ F probleme : estimer T (F )

I ExemplesI Deja vu : valeur en un point T (F ) = F (x) = E I (X ≤ x)I Fonctionnelle reguliere :

T (F ) = h

(∫R

g(x)dF (x)

)= h

(E g(X )

)ou g , h : R→ R sont regulieres et X ∼ F

5/40

Exemples de fonctionelles regulieres

I Moyenne : T (F ) = m(F ) =∫R xdF (x) = EX .

I Variance :

T (F ) = σ2(F ) =

∫R

(x −m(F )

)2dF (x) = E

(X − EX

)2I Asymetrie (skewness) :

T (F ) = α(F ) =

∫R(x −m(F )

)3dF (x)

σ3(F )=

E(X − EX )3

σ3(F )

I Aplatissement (kurtosis) :

T (F ) = κ(F ) =

∫R(x −m(F )

)4dF (x)

σ4(F )=

E(X − EX

)4σ4(F )

6/40

Exemples de fonctionnelles non regulieres

DefinitionSoit X une v.a.r. (de cdf F ) et 0 < p < 1. On appelle quantile d’ordre pde X (resp. F ) :

qp(F ) = inf{x ∈ R : F (x) ≥ p}

I quand F est continue et strictement croissante le quantile d’ordrep de la loi F est l’unique solution de

F (qp) = p ( cad qp = F−1(p) ).

I la mediane = med(F ) = q1/2(F )

I les quartiles = {q1/4(F ),med(F ), q3/4(F )}

7/40

Estimateur “plug-in”

DefinitionOn appelle estimateur “plug-in” (cad “par substitution”) de T (F )

l’estimateur T (Fn).

I quand T (F ) = h(E g(X )

)alors l’estimateur plug-in de T (F ) est :

T (Fn) = h(1

n

n∑i=1

g(Xi ))

I quand T (F ) = qp(F ) = inf{x ∈ R : F (x) ≥ p}, l’estimateur plug-inest le quantile empirique :

T (Fn) = inf{x ∈ R : Fn(x) ≥ p}

8/40

Performances asymptotiques de l’estimateur plug-in pour l’estimation de fonctionnelles

regulieres de la forme T (F ) = h(E g(X )

)

Convergence (consistance) : si g , h : R→ R, h continue et

E |g(X )| <∞, alors T (Fn)p.s.→ T (F ) (LFGN + continuous map

theorem).Vitesse de convergence (normalite asymptotique) :

1. TCL :

√n(1

n

n∑i=1

g(Xi )− E g(X ))

d−→ N(0,Var

[g(X )

])ou Var

[g(X )

]= E

[(g(X )− E g(X ))2

]2. On a un resultat du type

√n(Zn − c1)

d−→ N (0, c2). Comment

transferer ce resultat a√

n(h(Zn)− h(c1))d−→ ?

9/40

Vitesse de convergence de T (Fn) vers T (F ) = h(E g(X ))

Theoreme (Methode � delta �)Soit (Zn) une suite de v.a.r. et V une v.a.r. telles que

an(Zn − c0)d−→ V

ou (an) est une suite de reels positifs tendant vers +∞ et c0 est uneconstante. Soit h : R→ R une fonction continue et derivable en c0. Alors

an(h(Zn)− h(c0)

) d−→ h′(c0)V

10/40

Methode Delta

1. si√

n(Zn − c1)d→ N (0, c2) et h derivable en c1 alors

√n(h(Zn)− h(c1)

) d→ N(0, c2[h′(c1)]2

)2. si V ∼ N (µ, v) et a ∈ R alors aV ∼ N (aµ, a2v).

3. l’idee centrale de la preuve de la methode Delta est undeveloppement limite de h en c0 : quand n→∞

an(h(Zn)− h(c0)) ≈ h′(c0)[an(Zn − c0)

]≈ h′(c0)V

11/40

Conclusion : normalite asymptotique de l’estimateur plug-in dans le cas de

fonctionnelles regulieres T (F ) = h(E g(X ))

PropositionSi E[g(X )2] < +∞ et h est une fonction continue et derivable enE g(X ), alors

√n(T (Fn)− T (F )

) d→ N(0, v(F )

),

ou v(F ) = h′(E[g(X )

])2Var[g(X )

].

Pour construire un intervalle de confiance, on aimerait remplacer v(F )

par v(Fn) : quand h est C1, on montre que v(Fn)P→ v(F ) et, via le

lemme de Slutsky,

√n

T (Fn)− T (F )

v(Fn)1/2d→ N

(0, 1)

12/40

Application de la methode Delta : stabilisation de la variance

Soit X1, . . . ,Xn un n-echantillon de loi Exponentielle de parametreθ ∈ [0, 1].

I densite f (θ, x) = θ exp(−θx)I (x > 0), moyenne Eθ X = 1/θ,variance VarθX = 1/θ2

I TCL :√

n(Xn − 1/θ

) d→ N (0, 1/θ2)

I Pb. : La variance asymptotique depend du parametre inconnu θ

I Methode Delta : si h est C1 alors :

√n(h(Xn)− h(1/θ)

) d→ N(0, (h′(1/θ))2/θ2

)I en particulier pour h(θ) = log(θ), on a

√n(h(Xn)− h(θ)

) d−→ N (0, 1)

13/40

Application : stabilisation de la variance (Bernoulli)

Soit X1, . . . ,Xn un n-echantillon dans le modele de Bernoulli deparametre θ ∈ [0, 1].

I TCL :√

n(Xn − θ

) d→ N (0, θ(1− θ))

I La variance asymptotique depend du parametre inconnu θ

I Methode Delta : si h est C1 alors :

√n(h(Xn)− h(θ)

) d→ N(0, (h′(θ))2θ(1− θ)

)I en particulier pour h(θ) = 2arcsin(

√θ), on a

√n(h(Xn)− h(θ)

) d−→ N (0, 1)

14/40

En dimension k > 1

I Il s’agit de fonctionnelles de la forme

T (F ) = h (E g1(X ), . . . ,E gk(X ))

ou h : Rk → R est C1.

I Exemple : le coefficient d’asymetrie

T (F ) =E(X − EX )3

σ3= h(EX ,EX 2,EX 3)

ou σ est l’ecart-type de X .

I Outil : Version multidimensionnelle

1. du TCL2. de la � methode delta �.

15/40

TCL et methode � delta � multidimensionnelle

I TCL multidimensionnel : (Xn)n≥1 vecteurs aleatoires dans Rk , i.i.d.,de moyenne µ = E[X1] et de matrice de variance-covarianceΣ = E

[(X1−µ)(X1−µ)>

]. Alors Xn = 1

n

∑ni=1 Xi verifie :

√n(Xn − µ

) d→ N(0,Σ

)I Methode � delta � multidimensionnelle : Si, de plus, h : Rk → Rd

continument differentiable, alors

√n(h(Xn)− h(µ)

) d→ N(

0,∇h(µ)>Σ∇h(µ)).

rem. : si A ∈ Rk×d et G ∼ Nk(µ,Σ) alors A>G ∼ Nd(A>µ,A>ΣA)

16/40

Notations : gradient et Jacobien (1/2)

h :

Rk → Rd

x 7→

h1(x)...

hd(x)

alors ∇h(x) =

(∇h1(x) ∇h2(x) · · · ∇hd(x)

)∈ Rk×d

ou ∇hj(x) =

∂x1hj(x)...

∂xk hj(x)

∈ Rk , j = 1, . . . , d

tel que h1(x + v) ≈ h1(x) +⟨∇h1(x), v

⟩= h1(x) +∇h1(x)>v et de

memeh(x + v) ≈ h(x) +∇h(x)>v .

(∇h(x)> est la matrice Jacobienne de h en x).

17/40

Notations : gradient (2/2)

Par exemple :

1. pour h(x) = Ax ou A ∈ Rd×k , on a :

∇h(x) = A>

2. pour h(x) = ‖Ax‖22, on a :

∇h(x) = 2A>Ax

3. pour h(x) = ‖y − Ax‖22, on a :

∇h(x) = −2A>(y − Ax)

18/40

Application : normalite asymptotique de la varianceempirique

I variance : on aT (F ) = h

(EX ,EX 2

)avec

h(α, β) = β − α2

I l’estimateur plug-in est

T (Fn) = h

(1

n

n∑i=1

Xi ,1

n

n∑i=1

X 2i

)

I On applique le TCL multidimensionnel avec Xi = (Xi ,X2i )> et

µ =(EX ,EX 2

)>, puis la methode “Delta” avec h.

19/40

Application : coefficient d’asymetrie

I Coefficient d’asymetrie : on a

T (F ) = h(EX ,EX 2,EX 3

)avec

h(α, β, γ) =γ − 3αβ + 2α3

(β − α2)3/2.

I l’estimateur plug-in est

T (Fn) = h(1

n

n∑i=1

Xi ,1

n

n∑i=1

X 2i ,

1

n

n∑i=1

X 3i

).

I On applique le TCL multidimensionnel avec Xi = (Xi ,X2i ,X

3i )> et

µ =(EX ,EX 2,EX 3

)>, puis la methode � delta � avec h.

20/40

Quantiles theoriques et empiriques

Quantile ”theorique” d’ordre p :

T (F ) = qp(F ) = inf{x ∈ R : F (x) ≥ p}

Quantile empirique d’ordre p :

T (Fn) = qn,p = inf{x ∈ R : Fn(x) ≥ p}

Question : Quelles sont les proprietes statistiques d’estimation de qp(F )par qn,p ? (Pb. : on n’est plus dans le cas regulier)

21/40

Quantiles empiriques : expression explicite par les statistiques d’ordre

DefinitionSoit X1, . . . ,Xn un n-echantillon de v.a.r.. On appelle statistiques d’ordreles n statistiques X(1), . . . ,X(n) construites telles que

X(1) ≤ · · · ≤ X(n)

1. pour le quantile d’ordre 0 < p < 1 :

qn,p = X(k) = X(dnpe) quandk − 1

n< p ≤ k

n

2. en particulier, la mediane empirique verifie :

qn,1/2 = med(Fn) = X(dn/2e) ou dte = min(n ∈ N : n ≥ t)

22/40

Le boxplot : representation synthetique de la dispersion de donnees reelles

q qX∗ qn,1/4 qn,1/2 qn,3/4 X ∗

fin de la “moustache” (whiskers) :

X∗ = min{Xi : |Xi − qn,1/4| ≤ 1, 5In},

X ∗ = max{Xi : |Xi − qn,3/4| ≤ 1, 5In}.

Intervalle interquartile :

In = qn,3/4 − qn,1/4.

Les donnees au-dela des whiskers sont considerees comme outliers.(Il existe d’autres variantes)

23/40

Exemple d’application du boxplot

http://localhost:8888/notebooks/box_qqplots.ipynb Box-plot

24/40

http://localhost:8888/notebooks/box_qqplots.ipynb

http://localhost:8888/notebooks/box_qqplots.ipynb

Le qq-plot : test d’adequation a une loi

Etant donne un n-echantillon X1, . . . ,Xn et une cdf Fref , on veut tester sil’hypothese suivante est acceptable :

(H0) “Les Xi sont distribues selon Fref ”

Pour “accepter ou refuser visuellement” cette hypothese, on peut tracerle qq-plot : c’est le nuage de points(

qi/(n+1)(Fref ), qn,i/(n+1)

)ni=1

=(

qi/(n+1)(Fref ),X(i)

)ni=1

1. si le nuage de points est “approximativement” aligne avec la droitey = x alors l’hypothese est acceptee (on trace aussi la droite y = xsur un qq-plot)

2. si les points sont “approximativement” alignes avec une droite affinealors l’hypothese est vraie a une transformation de centrage etscaling pres (generalement, on normalise les donnees)

25/40

convergence des quantiles empiriques

TheoremeSoit X une v.a.r. (on note par F sa cdf) admettant une densite fX parrapport a la mesure de Lebesgue. On suppose que fX est strictementpositive p.s. sur un intervalle I ⊂ R et nulle en dehors. Soit 0 < p < 1.On a

qn,pp.s.−→ qp(F ) = qp

Si de plus la densite fX de X admet une version continue en qp alors qn,p

est asymptotiquement Gaussien :

√n(qn,p − qp

) d−→ N(

0,p(1− p)

fX (qp)2

)

26/40

Convergence des quantiles empiriques

La variance asymptotique de qn,p est

p(1− p)

fX (qp)2

La quantite fX (qp) est inconnue.

I Comme qn,p est fortement consistant et fX est continue en qp,

fX (qn,p)p.s.−→ fX (qp)

On peut donc ”remplacer” qp par qn,p grace a Slustky :

√nfX (qn,p)√p(1− p)

(qn,p − qp

) d−→ N (0, 1)

I Mais fX (qn,p) est aussi inconnue ! (probleme d’estimation de densite)

27/40

Limites de l’approche ”plug-in”

L’estimation de T (F ) par T (Fn) n’est pas toujours possible :

I Exemple : si F admet une densite f continue par rapport a le mesurede Lebesgue qu’on souhaite estimer en un x0 donne :

T (F ) = f (x0) = F ′(x0),

on ne peut pas prendre comme estimateur F ′n(x0) car Fn estconstante par morceaux.

L’estimation de T (F ) par T (Fn) n’est pas toujours souhaitable :

I Souvent on dispose d’information a priori supplementaire : Fappartient a une sous-classe particuliere de distributions (le modele)et il y a des choix plus judicieux que l’estimateur par plug-in (cf.cours suivants).

28/40

Un algorithme ”on-line” : Robbins-Monro

29/40

”Batch” vs ”on-line”

Il existe principalement deux manieres de generer/recevoir des donnees :

I ”batch” : les donnees sont toutes obtenues en une seule fois (ex. :jeux de donnees)

I ”on-line” : les donnees sont obtenues les unes a la suite des autres(ex. : donnees en temps reel)

Remarque :

1. Fn et qn,α sont des estimateurs ”batch”

2. on peut regarder les donnees ”batch” commme des donnees”on-line” (cf. vowpal wabbit)

30/40

Estimation ”on-line” des quantiles

Question : ebay souhaite connaıtre le 95-ieme pourcentile des montantsde transaction sur son site.

Deux strategies :

1. ”batch” : on reprend tous les achats passes sur eBay depuis sacreation et on calcul qn,95/100. Probleme : n est tres grand !

2. ”on-line” : a chaque nouvel achat, on actualise un estimateur (entemps reel).

Rem. : De nombreux estimateurs on-line sont adaptes d’algorithmesd’optimisation convexe iteratifs comme la descente de gradient.

31/40

Descente de gradient / methode de Newton

Probleme : trouver un zero d’une fonction f croissante et C1 : trouver xtel que

f (x) = 0

La methode de Newton est une methode iterative :

Init : x0 ∈ R while stopping criteria do

1. on fait une DL de f en xk :

f (x) ≈ f (xk) + f ′(xk)(x − xk)

2. on resoud f (xk) + f ′(xk)(x − xk) = 0 (au lieu de f (x) = 0) :

xk+1 = xk −f (xk)

f ′(xk)

end

32/40

Descente de gradient / methode de Newton

1. Critere d’arret (pour ε donne) :

|f (xk)| ≤ ε ou |xk+1 − xk | ≤ ε

2. Quand la fonction n’est pas derivable ou que la derivee est difficile acalculer, on remplace f ′(xk) par η−1k (step size)

3. chercher le minimum d’une fonction convexe h c’est chercher unzero d’une fonction croissante h′ : methode de Newton = descentede gradient

xk+1 = xk −h′(xk)

h′′(xk)

(et si h′′ n’existe pas ou difficile a calculer : h′′(xk)↔ η−1k )

33/40

Estimation ”on-line” des quantiles par Robbins-Monro (1/2)

Soit X une v.a.r. admettant une densite f strictement positive sur uneintervalle I ⊂ R et nulle en dehors de cet intervalle. On note par F la cdfde X .

1. F est derivable sur R : F ′ = f p.p.

2. F est strictement croissante sur I

3. soit p ∈ (0, 1), le quantile d’ordre p de X est l’unique solution de

F (x)− p = 0

On est donc amene a trouver le zero d’une fonction derivable strictementcroissante : on peut utiliser la methode de Newton

34/40

Estimation ”on-line” des quantiles par Robbins-Monro (2/2)

L’algorithme de Newton est

xk+1 = xk −F (xk)− p

f (xk)

Problemes :

1. f est inconnu : f (xk)↔ η−1k (step size)

2. F est inconnue : on ecrit F (xk) = E I (X ≤ xk) et on ”estime” F (xk)par I (Xk+1 ≤ xk) grace a la nouvelle donnee Xk+1

On obtient l’algorithme de Robbins-Monro (1954) :

xk+1 = xk − ηk(I (Xk+1 ≤ xk)− p)

35/40

Robbins-Monro / descente de gradient stochastique

L’algorithme de Robbins-Monro (RM) pour l’estimation du quantiled’ordre p ∈ (0, 1) est le suivant :

Data: X1, . . . ,Xn v.a.r.i.i.d.Init : x0 ∈ (0, 1), (ηk)k une suite de nombre reels positifsfor k = 0, . . . , n do

xk+1 = xk − ηk(I (Xk+1 ≤ xk)− p

)end

1. ecriture en pseudo-code

2. algorithme iteratif

3. (ηk)k est appele le step size. Par exemple :

ηk = k−a, ou a ∈ (1/2, 1] (ou ”line search”)

4. x0 starting point (cf. ”warm start”)

36/40

Convergence de l’algorithme de RM pour l’estimation de quantile

TheoremeSoit p ∈ (0, 1) et X une v.a.r. dont la cdf F verifie :

1. F est continue

2. il existe un unique qp ∈ R tel que pour tout x 6= qp,

(x − qp)(F (x)− p

)> 0

Soit (Xk)ki.i.d.∼ X . Alors, la suite iterative de RM (xk)k ou x0 ∈ R et

xk+1 = xk − ηk(I (Xk+1 ≤ xk)− p) converge presque surement vers qp

quand le step size (ηk)k verifie :∑k

ηk = +∞ et∑k

η2k < +∞

37/40

Vitesse de convergence de RM

TheoremeSi de plus F est C2 alors pour f = F ′ (densite de X ) et σ2 = p(1− p),quand n→∞ :

1. si f (qp) > 1/2 alors

√n(xn − qp)

d−→ N(

0,σ2

2f (qp)− 1

)2. si f (qp) = 1/2 alors√

n

log n

(xn − qp

)d−→ N (0, σ2)

3. si 0 < f (qp) < 1/2 alors nf (qp)(xn − qp

) d−→ Z ou Z est une variablealeatoire bornee p.s..

38/40

Comparaison d’estimateurs (1/2)

Probleme : Dans le cadre ”batch”, on a construit deux estimateurs duquantile qp(F ) : qn,p et xn (RM) lequel choisir ?

1) criteres theoriques (asymptotique) :I les deux estimateurs sont fortement consistantsI la vitesse de convergence de qn,p est toujours en 1/

√n alors que celle

de xn se degrade quand f (qp) ≤ 1/2 ⇒qn,p est preferable a xn quand f (qp) ≤ 1/2

I quand 1/2 < f (qp), qn,p et xn sont tous les deux asymptotiquementnormaux de vitesse de convergence en 1/

√n mais leurs variances

asymtotiques sont

? pour qn,p : σ2/f (qp)2

? pour xn : σ2/(2f (qp)− 1)

or σ2/f (qp)2 ≤ σ2/(2f (qp)− 1) donc

qn,p est preferable a xn quand 1/2 < f (qp)

D’un point de vue theorique, qn,p est preferable a xn

39/40

Comparaison d’estimateurs (2/2)

2) criteres empiriques :I cout de calcul : la construction de qn,p necessite le tri des donnees

X1, . . . ,Xn (qui peuvent etre distribuee quand n est grand)contrairement a xn qui est on-line ⇒

xn est preferable a qn,p quand n est grand

I Etude de la convergence sur des donnees simulees : l’interet desdonnees simulees est qu’on connaıt la valeur de l’objet a estimer.

http://localhost:8888/notebooks/rm_quantile.ipynb

Robbins-Monro

I Etude des estimateurs sur des donnees reelles : coherence desresultats ; echantillon test.

40/40



Statistiques mathématiques : cours 2lecueguillaume.github.io/assets/cours2_ensae_2018.pdf · Cours...

Documents

Transcript of Statistiques mathématiques : cours 2lecueguillaume.github.io/assets/cours2_ensae_2018.pdf · Cours...