Statistiques mathématiques : cours 2lecueguillaume.github.io/assets/cours2_ensae_2018.pdf · Cours...
Transcript of Statistiques mathématiques : cours 2lecueguillaume.github.io/assets/cours2_ensae_2018.pdf · Cours...
Statistiques mathematiques : cours 2
Guillaume Lecue
29 aout 2018
1/40
References
1. Cours :I V. Rivoirard et G. Stoltz, ”Statistiques en action”I P.J. Bickel et K. Doksum, ”Mathematical statistics”I A. Montfort, ”Cours de statistique mathematique”
2. Exercices :I J.J. Daudin, S. Robin et C. Vuillet, ”Statistique inferentielle. Idees,
demarches, exemples”I D. Fourdrinier, ”Statistiques inferentielle : cours et exercices
corriges”I B. Cadre et C. Vial, ”Statistique Mathematique Cours et Exercices
Corriges”
2/40
Cours precedent (rappel)
I Experience statistique,modele statistique, echantillonnage
I Fonction de repartition empirique :
Fn(x) =1
n
n∑i=1
I(Xi ≤ x
), x ∈ R
et quelques proprietes asymptotiques :
Fn(x)p.s.−→ F (x),
∥∥∥Fn − F∥∥∥∞
p.s.−→ 0 (G .C .)
leurs vitesses de convergence :
√n(Fn(x)− F (x)
) d−→ N (0,F (x)(1− F (x))),
√n∥∥∥Fn(x)− F (x)
∥∥∥∞
d−→ K (K .S .)
I proprietes non-asymptotique grace a Tchebychev.
I LFGN, TCL, Slutsky, continuous map theorem, construction d’IC.
3/40
Aujourd’hui
Estimateur “plug-in” et la methode delta
Quantiles empiriques et applications
Un algorithme ”on-line” : Robbins-Monro
4/40
Estimation de fonctionnelles dans le modele d’echantillonnage
I Objectif : estimation d’une caracteristique scalaire T (F ) d’une loiinconnue de fonction de repartition F a partir d’un n-echantillon
X1, . . . ,Xni.i.d.∼ X ∼ F de cette loi
donnees : X1, . . . ,Xni.i.d.∼ F probleme : estimer T (F )
I ExemplesI Deja vu : valeur en un point T (F ) = F (x) = E I (X ≤ x)I Fonctionnelle reguliere :
T (F ) = h
(∫R
g(x)dF (x)
)= h
(E g(X )
)ou g , h : R→ R sont regulieres et X ∼ F
5/40
Exemples de fonctionelles regulieres
I Moyenne : T (F ) = m(F ) =∫R xdF (x) = EX .
I Variance :
T (F ) = σ2(F ) =
∫R
(x −m(F )
)2dF (x) = E
(X − EX
)2I Asymetrie (skewness) :
T (F ) = α(F ) =
∫R(x −m(F )
)3dF (x)
σ3(F )=
E(X − EX )3
σ3(F )
I Aplatissement (kurtosis) :
T (F ) = κ(F ) =
∫R(x −m(F )
)4dF (x)
σ4(F )=
E(X − EX
)4σ4(F )
6/40
Exemples de fonctionnelles non regulieres
DefinitionSoit X une v.a.r. (de cdf F ) et 0 < p < 1. On appelle quantile d’ordre pde X (resp. F ) :
qp(F ) = inf{x ∈ R : F (x) ≥ p}
I quand F est continue et strictement croissante le quantile d’ordrep de la loi F est l’unique solution de
F (qp) = p ( cad qp = F−1(p) ).
I la mediane = med(F ) = q1/2(F )
I les quartiles = {q1/4(F ),med(F ), q3/4(F )}
7/40
Estimateur “plug-in”
DefinitionOn appelle estimateur “plug-in” (cad “par substitution”) de T (F )
l’estimateur T (Fn).
I quand T (F ) = h(E g(X )
)alors l’estimateur plug-in de T (F ) est :
T (Fn) = h(1
n
n∑i=1
g(Xi ))
I quand T (F ) = qp(F ) = inf{x ∈ R : F (x) ≥ p}, l’estimateur plug-inest le quantile empirique :
T (Fn) = inf{x ∈ R : Fn(x) ≥ p}
8/40
Performances asymptotiques de l’estimateur plug-in pour l’estimation de fonctionnelles
regulieres de la forme T (F ) = h(E g(X )
)
Convergence (consistance) : si g , h : R→ R, h continue et
E |g(X )| <∞, alors T (Fn)p.s.→ T (F ) (LFGN + continuous map
theorem).Vitesse de convergence (normalite asymptotique) :
1. TCL :
√n(1
n
n∑i=1
g(Xi )− E g(X ))
d−→ N(0,Var
[g(X )
])ou Var
[g(X )
]= E
[(g(X )− E g(X ))2
]2. On a un resultat du type
√n(Zn − c1)
d−→ N (0, c2). Comment
transferer ce resultat a√
n(h(Zn)− h(c1))d−→ ?
9/40
Vitesse de convergence de T (Fn) vers T (F ) = h(E g(X ))
Theoreme (Methode � delta �)Soit (Zn) une suite de v.a.r. et V une v.a.r. telles que
an(Zn − c0)d−→ V
ou (an) est une suite de reels positifs tendant vers +∞ et c0 est uneconstante. Soit h : R→ R une fonction continue et derivable en c0. Alors
an(h(Zn)− h(c0)
) d−→ h′(c0)V
10/40
Methode Delta
1. si√
n(Zn − c1)d→ N (0, c2) et h derivable en c1 alors
√n(h(Zn)− h(c1)
) d→ N(0, c2[h′(c1)]2
)2. si V ∼ N (µ, v) et a ∈ R alors aV ∼ N (aµ, a2v).
3. l’idee centrale de la preuve de la methode Delta est undeveloppement limite de h en c0 : quand n→∞
an(h(Zn)− h(c0)) ≈ h′(c0)[an(Zn − c0)
]≈ h′(c0)V
11/40
Conclusion : normalite asymptotique de l’estimateur plug-in dans le cas de
fonctionnelles regulieres T (F ) = h(E g(X ))
PropositionSi E[g(X )2] < +∞ et h est une fonction continue et derivable enE g(X ), alors
√n(T (Fn)− T (F )
) d→ N(0, v(F )
),
ou v(F ) = h′(E[g(X )
])2Var[g(X )
].
Pour construire un intervalle de confiance, on aimerait remplacer v(F )
par v(Fn) : quand h est C1, on montre que v(Fn)P→ v(F ) et, via le
lemme de Slutsky,
√n
T (Fn)− T (F )
v(Fn)1/2d→ N
(0, 1)
12/40
Application de la methode Delta : stabilisation de la variance
Soit X1, . . . ,Xn un n-echantillon de loi Exponentielle de parametreθ ∈ [0, 1].
I densite f (θ, x) = θ exp(−θx)I (x > 0), moyenne Eθ X = 1/θ,variance VarθX = 1/θ2
I TCL :√
n(Xn − 1/θ
) d→ N (0, 1/θ2)
I Pb. : La variance asymptotique depend du parametre inconnu θ
I Methode Delta : si h est C1 alors :
√n(h(Xn)− h(1/θ)
) d→ N(0, (h′(1/θ))2/θ2
)I en particulier pour h(θ) = log(θ), on a
√n(h(Xn)− h(θ)
) d−→ N (0, 1)
13/40
Application : stabilisation de la variance (Bernoulli)
Soit X1, . . . ,Xn un n-echantillon dans le modele de Bernoulli deparametre θ ∈ [0, 1].
I TCL :√
n(Xn − θ
) d→ N (0, θ(1− θ))
I La variance asymptotique depend du parametre inconnu θ
I Methode Delta : si h est C1 alors :
√n(h(Xn)− h(θ)
) d→ N(0, (h′(θ))2θ(1− θ)
)I en particulier pour h(θ) = 2arcsin(
√θ), on a
√n(h(Xn)− h(θ)
) d−→ N (0, 1)
14/40
En dimension k > 1
I Il s’agit de fonctionnelles de la forme
T (F ) = h (E g1(X ), . . . ,E gk(X ))
ou h : Rk → R est C1.
I Exemple : le coefficient d’asymetrie
T (F ) =E(X − EX )3
σ3= h(EX ,EX 2,EX 3)
ou σ est l’ecart-type de X .
I Outil : Version multidimensionnelle
1. du TCL2. de la � methode delta �.
15/40
TCL et methode � delta � multidimensionnelle
I TCL multidimensionnel : (Xn)n≥1 vecteurs aleatoires dans Rk , i.i.d.,de moyenne µ = E[X1] et de matrice de variance-covarianceΣ = E
[(X1−µ)(X1−µ)>
]. Alors Xn = 1
n
∑ni=1 Xi verifie :
√n(Xn − µ
) d→ N(0,Σ
)I Methode � delta � multidimensionnelle : Si, de plus, h : Rk → Rd
continument differentiable, alors
√n(h(Xn)− h(µ)
) d→ N(
0,∇h(µ)>Σ∇h(µ)).
rem. : si A ∈ Rk×d et G ∼ Nk(µ,Σ) alors A>G ∼ Nd(A>µ,A>ΣA)
16/40
Notations : gradient et Jacobien (1/2)
h :
Rk → Rd
x 7→
h1(x)...
hd(x)
alors ∇h(x) =
(∇h1(x) ∇h2(x) · · · ∇hd(x)
)∈ Rk×d
ou ∇hj(x) =
∂x1hj(x)...
∂xk hj(x)
∈ Rk , j = 1, . . . , d
tel que h1(x + v) ≈ h1(x) +⟨∇h1(x), v
⟩= h1(x) +∇h1(x)>v et de
memeh(x + v) ≈ h(x) +∇h(x)>v .
(∇h(x)> est la matrice Jacobienne de h en x).
17/40
Notations : gradient (2/2)
Par exemple :
1. pour h(x) = Ax ou A ∈ Rd×k , on a :
∇h(x) = A>
2. pour h(x) = ‖Ax‖22, on a :
∇h(x) = 2A>Ax
3. pour h(x) = ‖y − Ax‖22, on a :
∇h(x) = −2A>(y − Ax)
18/40
Application : normalite asymptotique de la varianceempirique
I variance : on aT (F ) = h
(EX ,EX 2
)avec
h(α, β) = β − α2
I l’estimateur plug-in est
T (Fn) = h
(1
n
n∑i=1
Xi ,1
n
n∑i=1
X 2i
)
I On applique le TCL multidimensionnel avec Xi = (Xi ,X2i )> et
µ =(EX ,EX 2
)>, puis la methode “Delta” avec h.
19/40
Application : coefficient d’asymetrie
I Coefficient d’asymetrie : on a
T (F ) = h(EX ,EX 2,EX 3
)avec
h(α, β, γ) =γ − 3αβ + 2α3
(β − α2)3/2.
I l’estimateur plug-in est
T (Fn) = h(1
n
n∑i=1
Xi ,1
n
n∑i=1
X 2i ,
1
n
n∑i=1
X 3i
).
I On applique le TCL multidimensionnel avec Xi = (Xi ,X2i ,X
3i )> et
µ =(EX ,EX 2,EX 3
)>, puis la methode � delta � avec h.
20/40
Quantiles theoriques et empiriques
Quantile ”theorique” d’ordre p :
T (F ) = qp(F ) = inf{x ∈ R : F (x) ≥ p}
Quantile empirique d’ordre p :
T (Fn) = qn,p = inf{x ∈ R : Fn(x) ≥ p}
Question : Quelles sont les proprietes statistiques d’estimation de qp(F )par qn,p ? (Pb. : on n’est plus dans le cas regulier)
21/40
Quantiles empiriques : expression explicite par les statistiques d’ordre
DefinitionSoit X1, . . . ,Xn un n-echantillon de v.a.r.. On appelle statistiques d’ordreles n statistiques X(1), . . . ,X(n) construites telles que
X(1) ≤ · · · ≤ X(n)
1. pour le quantile d’ordre 0 < p < 1 :
qn,p = X(k) = X(dnpe) quandk − 1
n< p ≤ k
n
2. en particulier, la mediane empirique verifie :
qn,1/2 = med(Fn) = X(dn/2e) ou dte = min(n ∈ N : n ≥ t)
22/40
Le boxplot : representation synthetique de la dispersion de donnees reelles
q qX∗ qn,1/4 qn,1/2 qn,3/4 X ∗
fin de la “moustache” (whiskers) :
X∗ = min{Xi : |Xi − qn,1/4| ≤ 1, 5In},
X ∗ = max{Xi : |Xi − qn,3/4| ≤ 1, 5In}.
Intervalle interquartile :
In = qn,3/4 − qn,1/4.
Les donnees au-dela des whiskers sont considerees comme outliers.(Il existe d’autres variantes)
23/40
Exemple d’application du boxplot
http://localhost:8888/notebooks/box_qqplots.ipynb Box-plot
24/40
Le qq-plot : test d’adequation a une loi
Etant donne un n-echantillon X1, . . . ,Xn et une cdf Fref , on veut tester sil’hypothese suivante est acceptable :
(H0) “Les Xi sont distribues selon Fref ”
Pour “accepter ou refuser visuellement” cette hypothese, on peut tracerle qq-plot : c’est le nuage de points(
qi/(n+1)(Fref ), qn,i/(n+1)
)ni=1
=(
qi/(n+1)(Fref ),X(i)
)ni=1
1. si le nuage de points est “approximativement” aligne avec la droitey = x alors l’hypothese est acceptee (on trace aussi la droite y = xsur un qq-plot)
2. si les points sont “approximativement” alignes avec une droite affinealors l’hypothese est vraie a une transformation de centrage etscaling pres (generalement, on normalise les donnees)
25/40
convergence des quantiles empiriques
TheoremeSoit X une v.a.r. (on note par F sa cdf) admettant une densite fX parrapport a la mesure de Lebesgue. On suppose que fX est strictementpositive p.s. sur un intervalle I ⊂ R et nulle en dehors. Soit 0 < p < 1.On a
qn,pp.s.−→ qp(F ) = qp
Si de plus la densite fX de X admet une version continue en qp alors qn,p
est asymptotiquement Gaussien :
√n(qn,p − qp
) d−→ N(
0,p(1− p)
fX (qp)2
)
26/40
Convergence des quantiles empiriques
La variance asymptotique de qn,p est
p(1− p)
fX (qp)2
La quantite fX (qp) est inconnue.
I Comme qn,p est fortement consistant et fX est continue en qp,
fX (qn,p)p.s.−→ fX (qp)
On peut donc ”remplacer” qp par qn,p grace a Slustky :
√nfX (qn,p)√p(1− p)
(qn,p − qp
) d−→ N (0, 1)
I Mais fX (qn,p) est aussi inconnue ! (probleme d’estimation de densite)
27/40
Limites de l’approche ”plug-in”
L’estimation de T (F ) par T (Fn) n’est pas toujours possible :
I Exemple : si F admet une densite f continue par rapport a le mesurede Lebesgue qu’on souhaite estimer en un x0 donne :
T (F ) = f (x0) = F ′(x0),
on ne peut pas prendre comme estimateur F ′n(x0) car Fn estconstante par morceaux.
L’estimation de T (F ) par T (Fn) n’est pas toujours souhaitable :
I Souvent on dispose d’information a priori supplementaire : Fappartient a une sous-classe particuliere de distributions (le modele)et il y a des choix plus judicieux que l’estimateur par plug-in (cf.cours suivants).
28/40
Un algorithme ”on-line” : Robbins-Monro
29/40
”Batch” vs ”on-line”
Il existe principalement deux manieres de generer/recevoir des donnees :
I ”batch” : les donnees sont toutes obtenues en une seule fois (ex. :jeux de donnees)
I ”on-line” : les donnees sont obtenues les unes a la suite des autres(ex. : donnees en temps reel)
Remarque :
1. Fn et qn,α sont des estimateurs ”batch”
2. on peut regarder les donnees ”batch” commme des donnees”on-line” (cf. vowpal wabbit)
30/40
Estimation ”on-line” des quantiles
Question : ebay souhaite connaıtre le 95-ieme pourcentile des montantsde transaction sur son site.
Deux strategies :
1. ”batch” : on reprend tous les achats passes sur eBay depuis sacreation et on calcul qn,95/100. Probleme : n est tres grand !
2. ”on-line” : a chaque nouvel achat, on actualise un estimateur (entemps reel).
Rem. : De nombreux estimateurs on-line sont adaptes d’algorithmesd’optimisation convexe iteratifs comme la descente de gradient.
31/40
Descente de gradient / methode de Newton
Probleme : trouver un zero d’une fonction f croissante et C1 : trouver xtel que
f (x) = 0
La methode de Newton est une methode iterative :
Init : x0 ∈ R while stopping criteria do
1. on fait une DL de f en xk :
f (x) ≈ f (xk) + f ′(xk)(x − xk)
2. on resoud f (xk) + f ′(xk)(x − xk) = 0 (au lieu de f (x) = 0) :
xk+1 = xk −f (xk)
f ′(xk)
end
32/40
Descente de gradient / methode de Newton
1. Critere d’arret (pour ε donne) :
|f (xk)| ≤ ε ou |xk+1 − xk | ≤ ε
2. Quand la fonction n’est pas derivable ou que la derivee est difficile acalculer, on remplace f ′(xk) par η−1k (step size)
3. chercher le minimum d’une fonction convexe h c’est chercher unzero d’une fonction croissante h′ : methode de Newton = descentede gradient
xk+1 = xk −h′(xk)
h′′(xk)
(et si h′′ n’existe pas ou difficile a calculer : h′′(xk)↔ η−1k )
33/40
Estimation ”on-line” des quantiles par Robbins-Monro (1/2)
Soit X une v.a.r. admettant une densite f strictement positive sur uneintervalle I ⊂ R et nulle en dehors de cet intervalle. On note par F la cdfde X .
1. F est derivable sur R : F ′ = f p.p.
2. F est strictement croissante sur I
3. soit p ∈ (0, 1), le quantile d’ordre p de X est l’unique solution de
F (x)− p = 0
On est donc amene a trouver le zero d’une fonction derivable strictementcroissante : on peut utiliser la methode de Newton
34/40
Estimation ”on-line” des quantiles par Robbins-Monro (2/2)
L’algorithme de Newton est
xk+1 = xk −F (xk)− p
f (xk)
Problemes :
1. f est inconnu : f (xk)↔ η−1k (step size)
2. F est inconnue : on ecrit F (xk) = E I (X ≤ xk) et on ”estime” F (xk)par I (Xk+1 ≤ xk) grace a la nouvelle donnee Xk+1
On obtient l’algorithme de Robbins-Monro (1954) :
xk+1 = xk − ηk(I (Xk+1 ≤ xk)− p)
35/40
Robbins-Monro / descente de gradient stochastique
L’algorithme de Robbins-Monro (RM) pour l’estimation du quantiled’ordre p ∈ (0, 1) est le suivant :
Data: X1, . . . ,Xn v.a.r.i.i.d.Init : x0 ∈ (0, 1), (ηk)k une suite de nombre reels positifsfor k = 0, . . . , n do
xk+1 = xk − ηk(I (Xk+1 ≤ xk)− p
)end
1. ecriture en pseudo-code
2. algorithme iteratif
3. (ηk)k est appele le step size. Par exemple :
ηk = k−a, ou a ∈ (1/2, 1] (ou ”line search”)
4. x0 starting point (cf. ”warm start”)
36/40
Convergence de l’algorithme de RM pour l’estimation de quantile
TheoremeSoit p ∈ (0, 1) et X une v.a.r. dont la cdf F verifie :
1. F est continue
2. il existe un unique qp ∈ R tel que pour tout x 6= qp,
(x − qp)(F (x)− p
)> 0
Soit (Xk)ki.i.d.∼ X . Alors, la suite iterative de RM (xk)k ou x0 ∈ R et
xk+1 = xk − ηk(I (Xk+1 ≤ xk)− p) converge presque surement vers qp
quand le step size (ηk)k verifie :∑k
ηk = +∞ et∑k
η2k < +∞
37/40
Vitesse de convergence de RM
TheoremeSi de plus F est C2 alors pour f = F ′ (densite de X ) et σ2 = p(1− p),quand n→∞ :
1. si f (qp) > 1/2 alors
√n(xn − qp)
d−→ N(
0,σ2
2f (qp)− 1
)2. si f (qp) = 1/2 alors√
n
log n
(xn − qp
)d−→ N (0, σ2)
3. si 0 < f (qp) < 1/2 alors nf (qp)(xn − qp
) d−→ Z ou Z est une variablealeatoire bornee p.s..
38/40
Comparaison d’estimateurs (1/2)
Probleme : Dans le cadre ”batch”, on a construit deux estimateurs duquantile qp(F ) : qn,p et xn (RM) lequel choisir ?
1) criteres theoriques (asymptotique) :I les deux estimateurs sont fortement consistantsI la vitesse de convergence de qn,p est toujours en 1/
√n alors que celle
de xn se degrade quand f (qp) ≤ 1/2 ⇒qn,p est preferable a xn quand f (qp) ≤ 1/2
I quand 1/2 < f (qp), qn,p et xn sont tous les deux asymptotiquementnormaux de vitesse de convergence en 1/
√n mais leurs variances
asymtotiques sont
? pour qn,p : σ2/f (qp)2
? pour xn : σ2/(2f (qp)− 1)
or σ2/f (qp)2 ≤ σ2/(2f (qp)− 1) donc
qn,p est preferable a xn quand 1/2 < f (qp)
D’un point de vue theorique, qn,p est preferable a xn
39/40
Comparaison d’estimateurs (2/2)
2) criteres empiriques :I cout de calcul : la construction de qn,p necessite le tri des donnees
X1, . . . ,Xn (qui peuvent etre distribuee quand n est grand)contrairement a xn qui est on-line ⇒
xn est preferable a qn,p quand n est grand
I Etude de la convergence sur des donnees simulees : l’interet desdonnees simulees est qu’on connaıt la valeur de l’objet a estimer.
http://localhost:8888/notebooks/rm_quantile.ipynb
Robbins-Monro
I Etude des estimateurs sur des donnees reelles : coherence desresultats ; echantillon test.
40/40