Methodes de Bootstrap et applications actuarielles - … · G´en´eralit´es sur les m´ethodes de...

65
en´ eralit´ es sur les m´ ethodes de r´ echantillonnages Validit´ e asymptotique et au second ordre du Bootstrap Intervalles de confiance Bootstrap les echecs du Bootstrap et les rem` edes... Methodes de Bootstrap et applications actuarielles Patrice BERTAIL Laboratoire de Statistique, CREST-INSEE et Universit´ e Paris X, Nanterre FRANCE Formation CARITAT, Paris le 12 mars 2007 Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Transcript of Methodes de Bootstrap et applications actuarielles - … · G´en´eralit´es sur les m´ethodes de...

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Methodes de Bootstrap et applicationsactuarielles

Patrice BERTAIL

Laboratoire de Statistique, CREST-INSEEet Universite Paris X, Nanterre

FRANCE

Formation CARITAT, Paris le 12 mars 2007

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Plan de l’expose

1 Generalites sur les methodes de reechantillonnagesNotations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

2 Validite asymptotique et au second ordre du BootstrapValidite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

3 Intervalles de confiance BootstrapLa methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

4 les echecs du Bootstrap et les remedes...Validite asymptotique du sous echantillonnage

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Contexte et notationsEchantillon de n variables aleatoires Xn = (X1, X2, .., Xn)independantes identiquement distribuees (i.i.d.) de fonction derepartition commune F .But : etudier les caracteristiques d’une statistique Tn(Xn)estimant un parametre θF .Probleme :

Est-il possible sans faire d’hypothese sur la loi F ou deshypotheses minimales sur ses moments) de connaitre lesperformances de Tn(Xn) en terme de biais, de variance?

Peut-on donner une approximation de sa distribution?

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Finalite (historique) :

Estimer la variance de statistique complexe

Construire des intervalles de confiance pour des parametrescomplexes.

Pas d’hypotheses fortes sur les lois sous-jacentes (methodenon-parametrique) mais un domaine de validite bien connu

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Principe de l’approximation

Calcul exact : si Tn simple et la loi F sont specifiees (Ex:moyenne dans le cas gaussien).

Approximations asymptotiques (deterministes):

Distribution asymptotique limite de la statistique centreecorrectement dilatee : pas toujours immediat, ne rend pastoujours bien compte de la distribution a distance finie pour lespetits echantillons. Par exemple, dans le cas de la moyenne, siF dissymetrique, ne rend pas compte de cette dissymetrie(erreur de l’ordre dissymetrie absolue /

√n.

Developpement d’Edgeworth (Feller (1971)) approximations ausecond ordre plus satisfaisantes mais sont souvent difficiles amettre en oeuvre.

Approximation stochastique (estimation) de la loi de Tn parmethodes de reechantillonnage.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

LE JACKKNIFE

Le principe du Jackknife: Tukey (1958): oter de l’echantilloninitial les observations a tour de role pour recalculer la valeur de lastatistique ( Gray, Schucany et Watkins (1972) et Miller (1974)).De nombreux avantages pratiques :

Detections de points aberrants,

Calcul de la contribution de chacun des individus a lastatistique (calcul empirique de la fonction d’influence)

Calcul d’un estimateur de θF en moyennant ayant de meilleursproprietes (correction du biais),

Calcul d’un estimateur de la variance (sous la forme d’unevariance empirique des contributions).

Calcul de l’histogramme des n valeurs obtenues → intervallesde confiance si n est grand et la statistique Tn simple(moments, fonction differentiable de moment).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Le bootstrap : une methode de type plug-in, Efron(1979,1982a)

Echantillon ”Bootstrap” (X∗1 , X

∗2 , ..X

∗n) i.i.d. de distribution

Fn estimant F . Interpretation: si cet estimateur Fn estproche (en un certain sens) de F , ”on fait comme si” lesobservations Xi avaient comme loi Fn au lieu de F .

Distribution Bootstrap et caracteristiques Bootstrap (variance,moments, fractiles bootstrap etc...) = distribution (resp.caracteristiques) de la statistique Tn(X∗

n) sous la loi Fn,connue, au lieu de la loi F .

Distribution de Tn(X∗n) sous la loi Fn est l’estimateur

empirique naturel de la distribution de Tn(Xn) sous la loi F .

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Question : Dans quelle mesure la distribution de Tn(Xn) sousFn permet d’avoir une bonne ide e de la distribution deTn(Xn) sous F i.e. de la vraie distribution.Reponse : essentiellement un probleme d’estimation. Le parametreque l’on cherche a estimer est ici la distribution d’une statistique :est-ce que la methode plug-in marche pour des distributions?

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Quelques definitions

Distribution de la statistique pour un echantillon de taille nkn(x, F ) = Pr F⊗n{Tn(Y1,...,Yn) ≤ x}, n ≥ 1, distribution dela statistique Tn sous F⊗n.

Distribution de la statistique pour un echantillon de taille mkm(x, F ) = Pr F⊗m{Tm(Y1,...,Ym) ≤ x}, m ≥ 1, distributionde la statistique Tm sous F⊗m.Ce sont des parametres (des fonctions) dependants de F :une methode d’estimation simple est simplement de ”plugger”un estimateur de F dans cette expression.

kn(x, Fn) n’est rien d’autre que la distribution bootstrap.

Si m < n , km(x, Fn)) est la distribution bootstrap de taillem (m-out-n bootstrap). Validite universelle si m2/n− > 0 (cfdistribution de sous-echantillonnage).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Autant de methodes de bootstrap que d’estimateurs de F

Cas particulier : le bootstrap naifSi Fn = Fn fonction de repartition empirique des observations,alors l’echantillon bootstrap s’obtient simplement en tirant avecremise de maniere equiprobable des valeurs dans l’echantilloninitial.

km(., Fn) = Pr F⊗mn

{Tm(Y1,...,Ym) ≤ x}

= EF⊗m

n

(I{Tm(Y1,...,Ym)≤x}

)= n−m

n∑i1=1

....

n∑im=1

I{Tm(Xi1,...,Xim )≤x},

En particulier

kn(., Fn) = n−nn∑

i1=1

....

n∑in=1

I{Tn(Xi1,...,Xin )≤x},

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Autant de methodes de bootstrap que d’estimateurs de F

Cas particulier : le bootstrap parametriqueSi le modele est parametrique Fθ, θ ∈ Θ et si θ est un estimateurde θ par exemple l’estimateur du maximum de vraisemblance alorson peut prendre Fn = Fθ l’echantillon bootstrap s’obtient en tirantdes valeurs dans la distribution estimee Fθ.Exercice : X1, X2, ..., Xn i.i.d. de loi normale N(m,σ2).Determiner une approximation de la loi de CV = S2

n/Xn, ou S2n

est la variance empirique et Xn la moyenne empirique. Principe dubootstrap parametrique : generer des observations de loiN(Xn, S

2n).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Autant de methodes de bootstrap que d’estimateurs de F

Cas particulier : le bootstrap lisseLorsque les estimateurs ou les variances dependent fortement de ladensite alors Fn = Fn n’est pas un bon choix.C’est le cas en particulier pour

Les fractiles empiriques d’une distribution (sa variance dependde la densite)

Un estimateur de la densite (par noyau ou ondelette)

Des estimateurs multidimensionnels faisant intervenir unenotion de profondeur (Estimateur de profondeur ou delongueur minimal).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Cas particulier : le bootstrap lisse (smooth bootstrap)Meilleur choix : estimateur lisse de la fonction de repartitionempirique (convolue de Fn avec un noyau).

Fn(x) = 1/nn∑

i=1

K(((x−Xi)/h))

ou K est une fonction de repartition connue centree reduite (parexemple la loi normale centree reduite.Pratiquement : il suffit de tirer un echantillon bootstrap naif (i.i.d.avec remise dans les observations) et de les perturber par des v.a.gaussiennes independantes de loi N(0, h2) avec h petit :typiquement h de l’ordre de 1.049 ∗ n−1/5*Ecart-type del’echantillon.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Autres variations autour du bootstrap : le jackknife

Le bootstrap SANS REMISE de taille m : ousous-echantillonnageSi Fn = Fn fonction de repartition empirique des observations,alors l’echantillon bootstrap sans remise de taille m s’obtientsimplement en tirant sans remise de maniere equiprobable desvaleurs dans l’echantillon initial.

KUm(x, Fn) = 1/Cm

n

∑i1 6=i2,... 6=im

I{Tm(Xi1,...,Xim )≤x}

Cas particuliers :

m = n− 1 → Histogramme du jackknife!

m = n− bn → Histogramme du ” bn-jackknife ou bn-deletejackknife” =distribution de sous-echantillonnage de taillen− bn.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap et calcul de Monte-Carlo

Pas toujours possible de calculer explicitement la distribution oules caracteristiques de Tn(Xn) sous la loi Fn.

Bootstrap naif : nn calculs. Bootstrap lisse ou bootstrapparametrique en general pas d’expression explicite pour ladistribution bootstrap.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap et calcul de Monte-Carlo

Principe de la simulation :Iterer B fois

Generation d’un echantillon independants de loi Fn

(reechantillonnage)Calcul sur l’echantillon tire de la valeur de la statistique

Utilisation des B valeurs pour construire une approximation dela distribution de Tn(Xn) sous Fn.

Bien distinguer deux niveaux:

Un niveau methodologique : passage de F a la loi Fn :methode ”plug-in” ou empirique.

Un niveau pratique : utiliser une technique de typeMonte-Carlo pour obtenir une approximation de ladistribution Bootstrap. A ce titre la methode du bootstrap estune methode de calcul intensif.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap naif et calcul de Monte-CarloOn selectionne de facon aleatoire equiprobable B echantillons,parmi l’ensemble des realisations possibles de l’echantillonBootstrap. Connaissant la realisation (x1, x2, ..xn), on genere Bechantillons:

x∗(b)n = (x∗(b)1 , x

∗(b)2 , x∗(b)n )b = 1, , B

en tirant avec remise les x∗(b)i , i = 1, ..n , dans l’ensemble

{x1, x2, .., xn}, puis on calcule Tn(x∗(b)n ), b = 1, ..B les valeurs dela statistique sur chacune des realisations de l’echantillonBootstrap obtenu.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap naif et calcul de Monte-Carlo

L’histogramme des valeurs Tn(x∗(b)n ), b = 1, ..B donne par

K∗n,B(u) = 1/B

B∑b=1

1(Tn(x

∗(b)n )≤x)

,

donne une approximation de la distribution Bootstrap,

K(x, Fn) = PFn(Tn(X∗n) ≤ x).

On sait que dans tous cas les l’erreur commise par l’etapeMonte-Carlo est de l’ordre 1/

√B. Indication sur le choix du

nombre de reechantillonnage necessaire pour obtenir une precisiondonnee (B=10000 pour une precision a 1% sur toute la loi). Voirdes indications plus precises dans le cas de la constructiond’intervalles de confiance (9999 est meilleur...).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap generalise (pondere) et plan de reechantillonnage

Plan de reechantillonnage associe a Xn = (X1, X2, ., Xn) =

vecteur de frequences W(n)n = (W

(n1 W

(2

)W(n)3 , . . . ..,W

(n)n ),

avec∑n

i=1 W(n)i = 1 et W

(n)i ≥ 0, i = 1, .., n,

Loi du plan de reechantillonnage : W(n)n de loi W ∗(n)

conditionnellement aux Xi (eventuellement dependant desobservations).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap generalise (pondere) : terminologie

Fonction de repartition empirique pondere associee :Fn,W (x) =

∑ni=1W

∗i I(Xi≤x).

Echantillon bootstrap generalise : si nW ∗i prend des valeurs

entieres, (X∗1 , X

∗2 , .., X

∗n) est l’echantillon dans lequel Xi

apparaitrait nW ∗i fois.

Statistique bootstrap generalisee : La ”statistique” associeeau plan de reechantillonnage est definie a partir de lafonctionnelle θ(F ) par θ(Fn,W ) ou simplement par Tn(X∗).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Notations, definitions et principes generauxDistribution Bootstrap et calcul de Monte-CarloBootstrap generalise

Bootstrap generalise (pondere) : cas particuliers.

Le Bootstrap naif : nW∗n de loi multinomiale Mult(n, 1/n).

P (W ∗1 ,= 1, Wi = 0, ...W ∗

n = 1) = 1/n , i = 1, ..n :jackknife.

Wi = γi/(∑n

j=1 γj), γi, i.i.d. γ(1) : bootstrapbayesien=distribution a posteriori pour un a priori de typeDirichlet pour la fonction de repartition (bayesiennon-parametrique).

Choix du meilleur type de bootstrap : souvent en fonction duprobleme considere... Va a l’encontre de l’idee selon laquelle lebootstrap est un outil universel.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du Bootstrap : quid?La conjecture du Bootstrap (Efron(1979)) : les statistiquesetudiees sous la loi Fn connue et sous la loi inconnue F desobservations ont un comportement analogue en terme de loi, debiais, de variance etc....En d’autre termes, que la distribution de la statistique est robustea une petite deviation par rapport a F et que l’on peut remplacersans trop de probleme la loi F par l’ approximation Fn qui est tresproche.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du Bootstrap : quid?On sera amene a comparer les comportements respectifs deR(Tn, F ) = Tn(Xn)− θF et de R(T ∗n , Fn) = Tn(X∗

n)− T (Xn) oude versions dilatees (resp. n1/2R(Tn, F ) et n1/2R(T ∗n , Fn)) evaluesrespectivement sous la loi F et sous la loi Fn , conditionellement aX1, . . . Xn.Si ces quantites ont des comportements identiques en terme de loiasymptotique (a distance finie), on dit que le Bootstrapfonctionne asymptotiquement (a distance finie).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du Bootstrap et methode plug-inLa principale justification du Bootstrap naif repose sur lesproprietes de la fonction de repartition empirique (voir Csorgo etRevesz (1981), Shorack et Wellner (1986)).Glivenko et Cantelli

||Fn − F ||∞ → 0, p.s.

A t fixe, Theoreme central limite et fonctionnel :

n1/2(Fn(t)− F (t))L→

n→∞N (0, F (t)(1− F (t))

Theoreme de Kolmogorov :

n1/2||Fn − F ||∞L→

n→∞KF

KF etant une variable aleatoire ne dependant de F qui si cettederniere n’est pas continue.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du Bootstrap et methode plug-inCes proprietes expriment la proximite de la fonction de repartitionempirique avec la vraie loi, pour la distance de Kolmogorov.D’autres resultats sont egalement disponibles pour d’autresmetriques (Skorokhod, metriques de Zolotarev).Question : est ce que les distributions de statistique sontrobustes a un un changement local de fonction de repartition?En general, NON. Exemple les valeurs extremes (3 domainesd’attraction) → explique l’echec du bootstrap naif dans ce cas.Idem pour les statistiques dont les distributions asymptotiques sontnon continues en certain point : estimateur aseuil(Hodge-Lehmann), ou ayant des points d’hyperefficacite.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du Bootstrap asymptotique et vitesse deconvergenceComment etablir la validite du Bootstrap?Proximite de type asymptotique : comparer la loi limite nondegene ree de n1/2R(Tn, F ) avec la loi limite conditionnelle a Xn

de n1/2R(T ∗n , Fn) (eventuellement avec une autre standardisation).Si ces lois sont identiques, alors on peut se servir de la distributionBootstrap comme d’une approximation de la vraie loi.Avantage : la distribution bootstrap est facile a obtenirpratiquement, ce qui n’est pas toujours le cas de la distributionlimite. Dans le cas gaussien pas tres interessant (eventuellementpour avoir une approximation de la variance).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du Bootstrap : le cas simple de la moyenneBickel et Freedmann(1981) ont montre a l’aide de la distance deMallows que, dans le cas R = R, sous EFX

2i < +∞ ,

n1/2(X∗n −Xn)

L.→ N(0, σ2) p.s.

S2∗n

pr.→ σ2, p.s.

d’ou l’on deduit

n1/2S∗n−1/2(X

∗n −Xn)

L.→ N(0, 1) p.s.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Gine et Zinn(1989) ont montre que la condition EFX2 <∞ est

une condition necessaire et suffisante pour la validite du bootstrapp.s. en Xn.Attention au bootstrap quand il n’existe pas des moments aumoins d’ordre 2 : dans ce cas le bootstrap n’est pas valide enparticulier pour des lois de Cauchy ou des lois de Pareto avec indextrop petit.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite au second ordre du Bootstrap et vitesse deconvergenceEtude de la proximite: en terme d’ecart entre la vrai distribution dela statistique et la distribution bootstrap.Pour cela on etudie la vitesse de convergence d’une distance entreles deux distributions. Les metriques les plus utilisees sont ladistance de Kolmogorov et les distances de Mallows (ou distancede Wasserstein, cf Bickel et Freedman(1981)).Avantage : sous la condition d’existence de moments d’ordre 4 etsi la distribution des variables aleatoires n’est pas reticule, ladistribution Bootstrap centree reduite est plus proche de la vraiedistribution que la distribution asymptotique.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Comparaison des vitesses : asymptotique et bootstrap

L’ecart entre la vraie distribution et la distributionasymptotique : O(n−1/2) (Theoreme de Berry-Esseen).

L’ecart entre la vraie distribution et la distribution Bootstrap:OP (n−1) : on parle de proprietes au second ordre.

pour des statistiques symetriques (exemple n1/2|Xn − θ|), onpeut meme avoir une vitesse de l’ordre OP (n−2).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite au second ordre du Bootstrap et vitesse deconvergenceOn explique ce comportement par le fait que la distributionBootstrap prend en compte, de maniere empirique, l’assymetrie(voire l’applatissement) de la distribution sous-jacente, ce que nefait pas la distribution asymptotique.Un exemple : si X1, X2, ..., Xn, n = 49 i.i.d. de γ(1) et ons’interesse a la moyenne. L’erreur commise en utilisantl’approximation asymptotique gaussienne est superieure acoefficient d’asymetrie absolu /

√n = 2/7 ≈ 0.28. Ce qui signifie

que en construisant un intervalle de confiance a 95% en prenantune gaussienne, le niveau reel est plutot 66%... Avec le bootstrap,si on bootstrappe la moyenne standardise par son ecart-typeestime, l’erreur est de l’ordre 1/n ' 1/49 ' 0.02.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Une amelioration de l’approximation asymptotique : lesdeveloppement d’Edgeworth(1907), Feller (1971),

Chibishov(1972)

Le developpement d’Edgeworth de la moyenne : si on poseEF (X − EFX)2 = 1 et µ3 = EF (X − EFX)3 < +∞ pour lecoefficient d’assymetrie et si

Condition de Cramer limt→∞

|EF exp(itX)| <∞

Condition de moments EF (X)4 < +∞alors on a un developpement de la moyenne empirique de la forme

PF (n1/2(Xn−µ) ≤ x) = Φ(x)− 1

6µ3n

−1/2(x2− 1)φ(x) +O(n−1)

uniformement en x ou φ et Φ respectivement la densite et lafonction de repartition de la loi normale.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Une amelioration de l’approximation asymptotique : lesdeveloppement d’Edgeworth

Plus generalement si Rn est une statistique standardiseeasymptotiquement gaussienne, sous conditions d’existence demoments, il existe des polynomes pi(x, F ), i = 1, .., L, et unefonction

F(n)EL

(x) = Φ(x) +L∑

i=1

n−i/2pi(x, F )φ(x)

tels que, uniformement en x, on ait

PF (Rn) = F(n)EL

(x) + o(n−L/2).

F(n)EL

(x) est le developpement d’Edgeworth d’ordre L (DEL)de Rn.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Developpements d’Edgeworth et correction au second ordre

Abramovitch et Singh (1985) montrent que, si p1(x) est unestimateur de p1(x, F ) tel que pour tout ε > 0PF {|p1(Rn)− p1(Rn, F )| > ε} = O(n−1) alors la statistiqueLn(Xn) definie par Ln(Xn) = Rn − n−1/2p1(Rn) admet le DE1uniforme en x :

PF (Ln(Xn) ≤ x) = Φ(x) +O(n−1).

x− n−1/2p1(x) est une transformation normalisante (au sens deFisher(1925)) dans la mesure ou l’on corrige de la dissymetrie duprobleme. On dit alors que la statistique Ln(Xn) est correcte ausecond ordre.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Distribution Bootstrap et developpement d’EdgeworthFreedman(1980) et Singh(1981). Si F est suffisamment reguliere(condition de Cramer) et admet des moments d’ordre au moins 3,la distribution Bootstrap standardisee est equivalente a un developpement d’Edgeworth D.E. d’ordre 1 et tient donc compte dela dissymetrie de la distribution a distance finie de la moyenne.La distribution Bootstrap s’interprete comme un developpementd’Edgeworth empirique i.e. la moyenne Bootstrap admet commeD.E. celui de la moyenne, dans lequel les moments exacts sontremplaces par les moments empiriques.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

n1/2||PFn(n1/2(X∗n −Xn)/Sn)− Φ(x) + 1

6 µ3n−1/2(x2 −

1)φ(x)||∞Pr→ 0

ou µ3 = n−1∑n

i=1(Xi −Xn)3/(n−1

∑ni=1(Xi −Xn)2

)3/2est le

coefficient d’assymetrie empirique. D’ou si EF |Xi|3 <∞,

n1/2||PFn(n1/2(X∗n −Xn)/Sn)− PF (n1/2(Xn − µ)/σ)||∞

Pr→ 0.Si de plus EFX

6i <∞ alors

n log log(n)−1/2||PFn(n1/2(X∗n −Xn)/Sn)− PF (n1/2(Xn −

µ)/σ)||∞ = HF ou HF est une constante dependant des momentsd’ordre 6.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation a des statistiques plus generalesCes resultats de Singh(1981) ont ete generalises parAthreya(1983), Babu et Singh(1984a), Bhattacharya(1987),Hall(1992) a des statistiques s’exprimant comme des fonctions(trois fois differentiables) de la moyenne et par suite comme desfonctions de moment de F , puis pour des Xi a valeurs dans unBanach (Gotze(1989)).Weng(1989) obtient le D.E. du Bootstrap bayesien, Barbe etBertail(1994) des conditions de validite du Bootstrap generalise.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation a des statistiques plus generales Bhattacharyaet Qumsiyeh(1989) montrent que le D.E. de la distributionBootstrap est la version empirique du D.E. de la distributionexacte, est valide a tout ordre o(n−L/2) sous conditions d’existencedes moments d’ordre (L+ 2)2, presque surement, uniformement enx, mais est aussi valide en p-moyenne, a savoir pour la norme(E(.)p)1/p, uniformement en x.A x fixe, la distribution Bootstrap est pour cette norme toujoursmeilleure que le D.E.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation : le processus empiriqueBickel et Freedman (1981) ont etabli pour l’echantillon Bootstrapdans le cas R = R un resultat analogue a la convergence duprocessus empirique vers le mouvement brownien B(F )soit n1/2(F ∗n − Fn)

w→n→∞

B(F ), a.s..

Mason et Newton(1991) ont obtenu un resultat analogue pour leBootstrap generalise.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation : le processus empiriqueApplications :

Construction de bandes de confiance pour F .

Les tests bootstrap de type Kolmogorov-Smirnov sont valides.

Si on peut etablir une convergence asymptotique avec leprocessus empirique alors sous des conditions tres faibles, lebootstrap est asymptotiquement valide (Csorgo et Mason(1989)).

en particulier il est possible de bootstrapper tous lesM-estimateurs classiques et la plupart des R-L-estimateurs.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation : le processus fractileSi F est continuement derivable et si f designe la densite associeesupposee strictement positive, le processus fractile, Zn=n1/2(F−1

n − F−1), converge vers B(F−1)/f ◦ F−1(.) sur toutintervalle [t0,t1], (t0, t1) ∈]0, 1[2,On a alors

||PF {n1/2(F−1n (t)− F−1(t)) ≤ x}−PFn{n1/2(F ∗−1

n (t)−F−1n (t)) ≤ x | Xn}||∞

de l’ordre de n1/4(loglogn)−1/2 p.s..L’ordre de la difference est en proba O(n−1/4) alors qu’il est deO(n−1/2) pour la distribution asymptotique!!!

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation : le processus fractileNE JAMAIS UTILISER LE BOOSTRAP NAIF POUR UNFRACTILE (cf methode de provisionnement).Lui preferer le BOOTSTRAP LISSE : ordre de l’approximationO(n−3/4).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation : fonctionnelles differentiablesLe parametre d’interet est une fonction de F : T (F ) defini sur unespace convexe contenant au moins les fonctions de repartiondiscrete muni d’une metrique D.

Differentiabilite: il existe une fonction T (1)(x, F ) (la fonctiond’influence) verifiant EFT

(1)(X,F ) = 0 telle que :

T (G)− T (F ) =

∫T (1)(x, F )d(G− F )(x) + o(D(G,F ))

Developpement stochastique (Serfling(1981))

n1/2(T (Fn)− T (F )) = n−1/2n∑

i=1

T (1)(Xi, F )+n1/2o(D(Fn, F )).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Idee : approcher T (Fn)− T (F ) par sa partie lineaire =”delta-methode fonctionnelle”= outil fondamental de larobustesse (voir Huber(1981)).

Version Bootstrap :

n1/2(T (F ∗n)− T (Fn)) = n−1/2n∑

i=1

ψT (X∗i , F )−n−1/2

n∑i=1

ψT (Xi, F )

+R∗n.

Validite du Bootstrap s’en deduit par application du resultatde validite de la moyenne et du processus empirique.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Beran obtient des resultats d’optimalite minimax de la distributionBootstrap pour des fonctionnelles statistiques deux foisdifferentiables sur l’espace des fonctions de repartition a supportcompact et admettant un developpement d’Edgeworth possedantdes proprietes d’uniformite en F .Conclusion : pour des fonctionnelles regulieres, suffisamentdifferentiables, la distribution bootstrap est au sens minimax lemeilleur estimateur regulier possible d’une distribution d’unestatistique empirique dans un cadre i.i.d.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite du bootstrap : les modeles econometriquesGeneralisation du Bootstrap : le modele de correlationSi l’on considere un modele non conditionnel (dit modele decorrelation (Freedman(1981)) aux variables explicatives:Y = Xβ + ε avec EF ε = 0 et VF ε = σ2Inou Y = (Yi)1≤i≤n, X = (X

′i)1≤i≤n et ε = (εi)1≤i≤n

ou les (Yi, X′i) sont des variables aleatoires i.i.d de loi

multidimensionnelle F tels que E(X ′iεi) = 0 alors β admet une

forme fonctionnelle β = (EFX′X)−1EFX′Y et les resultats sur le

cas i.i.d s’appliquent directement au couple (Yi, X′i (voir

Freedman(1981)).Application : Reechantillonnage de couples d’observations(Yi, X

′i), i = 1, ..., n pour conserver la structure de la correlation.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation du Bootstrap: le modele de regressionHypotheses conditionnelles : εi sont i.i.d. de loi F inconnue et quela matrice X est supposee deterministe ou modele conditionnel auxvariables explicatives avec EF (ε/X) = 0 et VF (ε/X) = σ2In).Remarques : les variables aleatoires Yi ne sont pas i.i.d.Estimateur des m.c.o: βn = (X

′X)−1X′Y = β + (X

′X)−1X ′ε

L’idee de base (Freedman(1981)) : reechantillonner des residusestimes centres.Principe : construire un estimateur de la loi des residus et seramener a du reechantillonnage i.i.d.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation du Bootstrap: le modele de regression

Etape estimation Residus estimes du modele ε = Y −Xβn,Residus centres: ε = (εi)i=1,.n εi = εi − n−1

∑ni=1

∑ni=1 εi,

Fonction de repartition empirique des residus estimes centre

Fn(u) =1

n

n∑i=1

hεi(u)

.

Phase de reechantillonnage ε∗i , i = 1, .., n, i.i.d. de loi Fn

conditionnellement a (Y,X).

Pseudo modele Bootstrap

y∗i = x′iβn + ε∗i ,

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Generalisation du Bootstrap: le modele de regression Relevede la categorie Bootstrap semiparametriqueLa version bootstrap est du meme type que le modele initial i.e. dela forme F(β,Fn) avec

EFnε∗i = 0 VFn

ε∗i =1

n

n∑i=1

ε2ipr→

n→∞σ2.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Analogues Bootstrap des estimateurs des m.c.o. et de la varianceresiduelle

β∗n =(X ′X

)−1X ′Y ∗ = βn +

(X ′X

)−1X ′ε∗

σ∗2n =1

n

n∑i=1

(y∗i − x′iβ∗n)2

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Validite asymptotique et au second ordre : le modele deregression

Freedman (1981) montre que cette procedure fonctionneasymptotiquement, sous condition d’existence de momentsd’ordre au moins 4 pour la loi des residus.

Robinson(1987), Hall(1988) etablissent la validite au secondordre de la procedure sous conditions de moments d’ordre aumoins 6.

Le principal argument : proximite de Fn avec Fn et de Fn

avec F , en terme de distance de Mallows.

TRES IMPORTANT: le recentrage des residus crucial pourobtenir la proximite de Fn avec F et la validite du Bootstrap.Centrage automatique si la constante est inclut dans lemodele.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite du Bootstrap : quid?Validite au second ordre du Bootstrap et vitesse de convergenceGeneralisation a des statistiques generalesValidite du bootstrap : les modeles econometriques

Gerenralisation a divers modeles econometriques

Shorack(1982) : M-estimateurs dans la regression robuste,

Staniewski(1985) : l’estimateur des moindre-carres nonlineaires dans la regression non-lineaire,

Hardle et Bowman(1988), Hardle et Marron(1990),Hall(1992) : regression non parametrique.

Freedman(1984): estimateurs des doubles et triples moindrescarres dans des modeles a equations simultanees.

UN SEUL ET MEME PRINCIPE : ESTIMATION DUMODELE DE BASE, ESTIMATION DE LA LOI DESRESIDUS QUI VERIFIENT LE MODELE DE BASE,PSEUDO-MODELE BOOTSTRAP, REESTIMATION(reechantillonnage) DANS LE MONDE BOOTSTRAP

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

Intervalle de confiance exactTn(Xn) un estimateur du parametre reel θF , Tn(X∗

n) la statistiqueBootstrap.Gn(u) (resp. G∗n(u)) : distribution a distance finie de Tn(Xn)(resp. Tn(X∗

n) conditionnellement a Xn).Quantile d’ordre γ de Gn (resp.de G∗n) est defini pargn(γ) = G−1

n (γ) resp. g∗n(γ) = G∗−1n (γ) .

Pour un niveau α donne, si la fonction de repartition Gn connue,intervalle de confiance pour le parametre θF , exact, de niveau 1−α

In[α] = [gn(α/2), gn(1− α/2)].

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

La methode percentileIntervalle construit avec les quantiles de la loi Bootstrap (qui estun estimateur de la vraie loie):Intervalle percentile :

PIn[α] = [g∗n(α/2), g∗n(1− α/2)].

Si le Bootstrap fonctionne asymptotiquement alors,quand (n→∞), PIn[α] est un intervalle de confianceasymptotiquement de niveau 1− α (voir Beran(1984a), Beran etMillar(1986) pour une generalisation au cas multimensionnel).Avantage sur la methode asymptotique : pas besoin d’estimateur

de la la variance ou de la loi asymptotique.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

La methode t-percentileIdee de la methode t-percentile : utiliser les quantiles de lastatistique Bootstrap convenablement standardisee: Rn(T ∗n , Fn),analogue de la quantite Rn(Tn, F ), de maniere a ce que celle-cisoit asymptotiquement pivotale.Rn(Tn, F ) : appele pivot ou racine de l’intervalle de confiance.Exemple de la moyenne : la racine estRn(Tn, F ) = (Tn(Xn)− θF )/Sn(Xn) ou Sn(Xn) est unestimateur de la variance de T (Xn).Analogue Bootstrap est Rn(T ∗n , Fn) = (Tn(X∗

n)−Tn(Xn))/Sn(X∗n)

definie conditionnellement a (X1, X2, .., Xn).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

Avantage de La methode t-percentile

Automatiquement correct au second ordre OP (n−1) pour desintervalles de confiance unilateraux, voire correct au 3emeordre pour des intervalles de confiances bilateraux OP (n−2)

Tiens compte automatiquement des phenomenes dedissymetries

Pas besoin de correction de biais et d’acceleration (coeff.d’assymetrie).

Inconvenient par rapport a la methode percentile

Necessite d’avoir un bon estimateur (de faible biais OP (n−1))de la variance.

Theoriquement, possibilite d’utiliser un estimateur bootstrapde la variance (et donc du double bootstrap) mais souventdecevant en pratique.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

Methodes percentiles corriges du biais et accelere

But : obtenir a partir d’une methode percentile simple unintervalle correct au second ordre.

Outils : inverser le developpement d’Edgeworth de lastatistique non-standardisee

Necessite d’estimer le biais (facile avec la distributionbootstrap) et le coefficient d’assymetrie (plus difficile dans laplupart des situations)

En general, plus simple et plus direct de construire la methodet-percentile.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

Choix du nombre de reechantillonnagesConstruction et resultats sur les intervalles de confiance theoriquedans la mesure ou ils sont construits avec les distributionsBootstrap exactes et non sur leur approximation .Probleme du choix de reechantillonnages B necessaire pour obtenirune precision suffisante sur les bornes de l’intervalle de confiancemais aussi sur la couverture effectivement atteinte.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

Choix du nombre de reechantillonnagesOptique conservative : impact de la phase Monte-CarloOP (1/

√(B)).

Si on utilise une methode percentile alors on ne peut avoir mieuxque OP (1/

√(n)) et donc dans ce cas B¿¿n suffit pour conserver

les proprietes du Bootstrap.Par contre si on utilise une methode t-percentile, avec une erreurOP (1/n)) alors il faut au moins B = n2 simulations pour avoir uneprecision correcte a la fois sur la borne et la couverture de IC etB = n4 si on considere des IC bilateraux.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

La methode percentileLa methode t-percentileLes outsiders percentilesChoix du nombre de reechantillonnages

Un resultat etonnant de Hall(1986) dans le cas de lamethode t-percentile.

Erreur commise sur le niveau de l’intervalle construit par lamethode t-percentile apres reechantillonnage est de l’ordre deB−1

Si B est tel que, pour un niveau 1− α desire, (B + 1)(1− α)est entier alors l’erreur commise n’est plus que de l’ordre de(nB)−1.

En pratique si α = 5% ou 1% alors on doit prendre B = 99,999, 9999 ou un nombre de ce type.

Donne une bonne borne sur la couverture mais pas sur lequantile

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite asymptotique du sous echantillonnage

les echecs du BootstrapDe nombreuses situations dans lesquelles le bootstrap nefonctionne pas meme asymptotiquement.

cas des variables aleatoires ayant des queues de distributionstrop epaisses (pour lesquels le moments d’ordre 2 ) n’existepas,

Les statistiques faisant intervenir des valeurs extremes,

les U ou V statistiques degenerees (du type statistique deWilcoxon sous H0) dont le comportement asymptotique n’estpas gaussien.

Le bootstrap ne fonctionne pas en tout point de l’espace desparametres ou la distribution limite presente unediscontinuite( Estimateur de Hodge-Lehmann, Stein,ondelettes, phenomenes hyperefficacite en certains points).

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite asymptotique du sous echantillonnage

Les solutions aux echecs

Une methode Bootstrap adapte au probleme condidere.Parfois un recentrage adequat au point problematique suffit.Exemple : (X1, ..., Xn) i.i.d. F , validite du bootstrap de(Xn)2?.

Une methode bootstrap par troncature (eliminer ou tenircompte precisement des points ou ca ne fonctionne pas):necessite d’avoir une bonne connaissance du phenomene auxpoints d’hyperefficacite.

Une solution universelle pour des tailles d’echantillons n assezgrande : le sous-echantillonage ou bootstrap sans remise.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite asymptotique du sous echantillonnage

Validite asymptotique du sous echantillonnageH0 : il existe une vitesse τn, telle queτn (Tn(X1,...,Xn)− θ(P )) converge vers une distribution KP

quand n→∞.H1 : KP est non-degeneree et continue (au moins dans unvoisinage d’un point dont on cherche les quantiles).H2 : m

n → 0 et τmτn→ 0 alors

||KUm(., Fn)−Kn(., F )||∞ →

n→∞0 Pr .

Si de plus mn1/2 → 0 alors le m out of n bootstrap (avec remise)

est aussi universellement consistant.Choix optimal m = n2/3 sans correction de population finie.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite asymptotique du sous echantillonnage

Validite asymptotique du sous echantillonnage

Necessite la connaissance de la vitesse de convergence pourconstruire la distribution de sous echantillonnage.

Fonctionne meme si cette vitesse est estimee (possible avec ladistribution de sous-echantillonage), Bertail et al. (1999)

Fonctionne en particulier pour les valeurs extremes, Bertail etal. (2004).

Pas de validite au second ordre possible sans extrapolation...

En pratique le choix optimal de m est un vrai casse tete...

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS

Generalites sur les methodes de reechantillonnagesValidite asymptotique et au second ordre du Bootstrap

Intervalles de confiance Bootstraples echecs du Bootstrap et les remedes...

Validite asymptotique du sous echantillonnage

En pratique : le cas des extremes

construire la distribution de sous-echantillonnage sansstandardisation i.e par exemple directement la distribution dumax pour une succession de valeurs de m (typiquement entrem1/4 et m2/3

representer un ou plusieurs quantiles de la distribution de sousechantillonnage en fonction de m (ex. quantile a 75% ou 90%)

On constate a partir d’un certain m que le quantile devienttres volatile : prendre la valeur juste en dessous.

si on connait la forme de la vitesse de convergence, l’utiliserdirectement. Sinon l’estimer et reconstruire la distribution desous echantillonnage avec cette standardisation estimee.

cf Bertail, Politis, White (2004) pour des applications auxextremes et a la VAR en finance.

Patrice Bertail, CREST and University Paris X CARITAT 2007, PARIS