Stéphane Girard - Inria

48
1 Introduction à la statistique des valeurs extrêmes Stéphane Girard INRIA Rhône-Alpes, projet Mistis http ://mistis.inrialpes.fr/˜girard avril 2008

Transcript of Stéphane Girard - Inria

Page 1: Stéphane Girard - Inria

1

Introduction à la statistique des valeurs extrêmes

Stéphane Girard

INRIA Rhône-Alpes, projet Mistishttp ://mistis.inrialpes.fr/˜girard

avril 2008

Page 2: Stéphane Girard - Inria

2

Plan

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

Page 3: Stéphane Girard - Inria

3

Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

Page 4: Stéphane Girard - Inria

4

Exemple

La hauteur d’une rivière est modélisée par une variable aléatoire X.On dispose de {X1, . . . , Xn} un échantillon de hauteurs d’eauannuelles. On note X1,n ≤ X2,n ≤ · · · ≤ Xn,n l’échantillonordonné.

Deux problèmes complémentaires :Calculer la probabilité p d’une hauteur d’eau h extrêmep = P(X ≥ h) avec h > Xn,n.Calculer le niveau d’eau h qui est atteint ou dépassé une seulefois sur T années avec T > n, i.e. résoudre 1/T = P(X ≥ h).

Page 5: Stéphane Girard - Inria

5

Deux problèmes complémentaires

Définition de la fonction de survie :F (x) = P(X ≥ x) = 1− F (x) où F est la fonction de répartition.

1) Estimation de la queue de la fonction de survie. Etantdonné h, estimer p = F (h) avec h > Xn,n

2) Estimation de quantiles extrêmes. Etant donné p, estimer htel que p = F (h) avec p < 1/n, i.e. estimer h = F−1(p).

Difficulté commune : La fonction de survie F (x) est inconnue etdifficile à estimer au-delà du maximum (x > Xn,n).

Page 6: Stéphane Girard - Inria

6

Approche paramétrique

Démarche :On suppose un modèle paramétrique a priori pour la fonctionde survie : F ∈ {Fθ, θ ∈ Θ}.On estime θ par θn.

Problème : Un bon ajustement sur l’échantillon ne garantit pas unebonne modélisation au-delà du maximum.

Page 7: Stéphane Girard - Inria

7

Illustration

0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.000.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

En abscisse : p. En ordonnée, écart relatif entre le quantile d’ordrep calculé avec un modèle N (0, 1) et Student à 4 degrés de liberté.

Page 8: Stéphane Girard - Inria

8

Approche non-paramétrique

Fonction de survie empirique. On estime P(X ≥ x) par laproportion d’observations qui dépassent x :

ˆFn(x) =1n

n∑i=1

I{Xi ≥ x}

Problème : ˆFn(x) = 0 si x > Xn,n.

Page 9: Stéphane Girard - Inria

9

Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

Page 10: Stéphane Girard - Inria

10

Objectif

Le Théorème de la Limite Centrale (TCL) donne, sous desconditions standards, la loi asymptotique de la moyenne

Xn =1n

n∑i=1

Xi

d’un échantillon {X1, . . . , Xn} de variables indépendantes etidentiquement distribuées :

√n

(Xn − E(X)

σ(X)

)L−→ N (0, 1),

ou en termes de fonctions de répartition (fdr)

limn→∞

P(√

n

(Xn − E(X)

σ(X)

)≤ x

)= Φ(x),

où Φ est la fdr de la loi N (0, 1). Le théorème des valeurs extrêmesest un résultat similaire pour le maximum.

Page 11: Stéphane Girard - Inria

11

Théorème des valeurs extrêmes

[Gnedenko, 43] Sous des conditions générales sur F , il existe troisparamètres an, bn et γ tels que :

limn→∞

P(

Xn,n − an

bn≤ x

)= Hγ(x),

avec, si γ 6= 0,

Hγ(x) = exp(−(1 + γx)−1/γ

+

)où y+ = max(0, y) et H0(x) = exp (−e−x) .

Vocabulaire :Hγ est la loi des valeurs extrêmes (EVD),γ est l’indice des valeurs extrêmes.an et bn sont des paramètres de normalisation.

Page 12: Stéphane Girard - Inria

12

Illustration sur une loi normale

−3 −2 −1 0 1 2 30.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Comparaison entre Hγ(x), P(

Xn,n−an

bn≤ x

)avec n = 10 et

P(

Xn,n−an

bn≤ x

)avec n = 100

Page 13: Stéphane Girard - Inria

13

Loi des valeurs extrêmes

En pratique,

P(Xn,n ≤ x) ' Hγ

(x− an

bn

),

on a une loi à trois paramètres :an est un paramètre de position, jouant le rôle de E(X) dansle TCL,bn est un paramètre d’échelle, jouant le rôle de σ(X)/

√n

dans le TCL,γ un paramètre de forme, il n’a pas d’équivalent dans le TCL.

On distingue 3 cas (donc 3 types de lois) :Si γ > 0, on dit que F appartient au domaine d’attraction deFréchet,si γ = 0, on dit que F appartient au domaine d’attraction deGumbel,si γ < 0, on dit que F appartient au domaine d’attraction deWeibull.

Page 14: Stéphane Girard - Inria

14

Loi des valeurs extrêmes

−4 −3 −2 −1 0 1 2 3 40.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Exemples de densités associées à la loi des valeurs extrêmes(γ = 0, γ = 1 et γ = −1).

Page 15: Stéphane Girard - Inria

15

Domaines d’attraction

Fréchet (γ > 0).Ensemble des lois "à queues lourdes", F (x) → 0 comme unepuissance de x lorsque x →∞.Plus précisément, on a la représentation

F (x) = x−1/γ`(x),

où ` est une fonction à variations lentes, i.e.

∀t > 1, limx→∞

`(xt)`(x)

= 1,

Suites de normalisation : an = 0 et bn = F−1(1/n).Exemples : Cauchy, Student, Pareto.

Page 16: Stéphane Girard - Inria

16

Domaines d’attraction

Gumbel (γ = 0).Ensemble des lois "à queues légères", F (x) → 0exponentiellement vite lorsque x →∞.Il n’y a pas de représentation simple. Un sous-ensembleintéressant est donné par les lois de type Weibull

F (x) = exp(−xθ`(x)

),

où ` est une fonction à variations lentes et θ s’appelle l’indicede queue de Weibull.Suites de normalisation : an = F−1(1/n) et bn compliqué.Exemples : Normale, Log-normale, Weibull, Gamma,Exponentielle.

Page 17: Stéphane Girard - Inria

17

Domaines d’attraction

Weibull (γ < 0).Ensemble des lois "à queue finie", F (x) = 0 pour x > xF ,appelé point terminal.On a l’équivalence avec F (xF − 1/x) appartient au domained’attraction de Fréchet.Exemples : Uniforme, Beta.

Page 18: Stéphane Girard - Inria

18

Domaines d’attraction

Domaine Gumbel Fréchet Weibulld’attraction γ = 0 γ > 0 γ < 0

Normale Cauchy UniformeLoi Exponentielle Pareto Beta

Lognormale StudentGammaWeibull

Page 19: Stéphane Girard - Inria

19

Application à l’extrapolation

Comme P(Xn,n ≤ x) = Fn(x), on déduit du théorème des valeursextrêmes une approximation de F (x) pour les grandes valeurs dex,

F (x) = 1− F (x) ' H1/nγ

(x− an

bn

),

et en passant au logarithme

log(1− F (x)) ' 1n

log Hγ

(x− an

bn

).

Comme x est grand, F (x) est petit, un développement limité au1er ordre de log(1 + u) donne donc

F (x) ' − 1n

log Hγ

(x− an

bn

).

Page 20: Stéphane Girard - Inria

20

Application à l’extrapolation

On a donc une approximation de la fonction de survie en queue :

F (x) ' 1n

[1 + γ

(x− an

bn

)]−1/γ

si γ 6= 0

' 1n

exp(−x− an

bn

)si γ = 0

et de son inverse :

F−1(p) ' an +bn

γ

[(np)−γ − 1

]si γ 6= 0

' an − bn log(np) si γ = 0.

Page 21: Stéphane Girard - Inria

21

Illustration sur une loi normale

2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.00.000

0.002

0.004

0.006

0.008

0.010

0.012

Comparaison entre F (x), 1n exp

(−x−an

bn

)avec n = 10 et

1n exp

(−x−an

bn

)avec n = 100

Page 22: Stéphane Girard - Inria

22

Illustration sur une loi normale

Ici on a utilisé les valeurs théoriques de an, bn et γ connues pour laloi normale centrée-réduite.

Problème : Les paramètres an, bn et γ sont inconnus dans lapratique puisqu’on ne connait pas F , il faut les estimer.

Page 23: Stéphane Girard - Inria

23

Estimation des paramètres de la loi des valeursextrêmes

On souhaite estimer les paramètres de la loi des valeurs extrêmesde fdr

Hγ,a,b(x)def= Hγ

(x− a

b

)= exp

{−

[1 + γ

(x− a

b

)]−1/γ

+

}

Deux difficultés :Il faut un échantillon de maxima (parfois difficiles à extrairedes données initiales, petit nombre d’observations utilisées).Les estimateurs du maximum de vraisemblance ne sont pasexplicites.

Page 24: Stéphane Girard - Inria

24

Estimateurs des moments pondérés

[Hosking, Wallis, Wood, 1985]. Soit {Y1, . . . , Yk} un échantillon dek maxima indépendants tous de fdr Hγ,a,b. On peut définir lemoment pondéré d’ordre r par

µr = E[Y Hr

γ,a,b(Y )].

Cette quantité existe pour γ < 1 et est donnée par

µr =1

r + 1

[a− b

γ{1− (r + 1)γΓ(1− γ)}

],

où Γ est la fonction définie par

Γ(t) =∫ +∞

0xt−1 exp(−x)dx.

Page 25: Stéphane Girard - Inria

25

Estimateurs des moments pondérés

Pour calculer a, b et γ, trois moments pondérés suffisent :

µ0 = a− b

γ{1− Γ(1− γ)}

2µ1 − µ0 = − b

γ(1− 2γ)Γ(1− γ)

3µ2 − µ0

2µ1 − µ0=

1− 3γ

1− 2γ.

En inversant ces formules, on obtient (a, b, γ) en fonction de(µ0, µ1, µ2). Il reste à estimer ces trois moments.

Page 26: Stéphane Girard - Inria

26

Estimateurs des moments pondérés

On remplace l’espérance par une moyenne empirique

µr '1k

k∑i=1

YiHrγ,a,b(Yi) =

1k

k∑i=1

Yi,kHrγ,a,b(Yi,k)

en ordonnant les observations. On remplace Hγ,a,b par la fdrempirique :

µr '1k

k∑i=1

Yi,kFrk (Yi,k) =

1k

k∑i=1

Yi,k

(i− 1

k

)r

.

On obtient alors un estimateur sous forme d’une combinaisonlinéaire :

µr =1k

k∑i=1

Yi,k

(i− 1

k

)r

.

Page 27: Stéphane Girard - Inria

27

Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

Page 28: Stéphane Girard - Inria

28

Définition d’un excès

Plutôt que de se focaliser sur le maximum, on étudie les valeursdépassant un seuil donné. L’excès Y de la variable X au dessusdu seuil u est défini par X − u quand X ≥ u.

YY YY

Y2

3

451

i6 95 7 84321

X i

u

Page 29: Stéphane Girard - Inria

29

Fonction de survie d’un excès

La fonction de survie Fu d’un excès au dessus de u est donnéepour y > 0 par

Fu(y) = P(Y ≥ y)= P(X − u ≥ y|X ≥ u)

=P(X ≥ u + y, X ≥ u)

P(X ≥ u)

=F (u + y)

F (u)

Lorsque le seuil est grand, on peut approcher cette quantité par lafonction de survie d’une loi de Pareto Généralisée (GPD).

Page 30: Stéphane Girard - Inria

30

Loi de Pareto Généralisée

Sa fonction de survie est donnée par

Gγ,σ(y) =(1 + γ

y

σ

)−1/γsi γ 6= 0,

= exp(− y

σ

)sinon.

Son ensemble de définition est R+ si γ ≥ 0 ou [0,−σ/γ[ si γ < 0.Elle dépend de deux paramètres :

σ > 0 est un paramètre d’échelle,γ ∈ R est un paramètre de forme.

Deux cas particuliers :γ = 0, loi exponentielle d’espérance σ,γ = −1, loi uniforme sur [0, σ].

Page 31: Stéphane Girard - Inria

31

Théorème de Pickands

[Pickands, 1975] Il y a équivalence entre la convergence en loi dumaximum vers une EVD et la convergence en loi d’un excès versune GPD :

limn→∞

P(

Xn,n − an

bn≤ x

)= Hγ(x),

si et seulement si

limu→xF

supy∈[0,xF−u]

|Fu(y)− Gγ,σ(u)(y)| = 0.

On remarque que le paramètre de forme γ est le même pourl’EVD et la GPD.

Page 32: Stéphane Girard - Inria

32

Application à l’extrapolation

En utilisant le théorème de Pickands, on a, pour y ≥ 0,

Fu(y) =F (u + y)

F (u)' Gγ,σ(y).

Avec le changement de variable x = u + y on obtientl’approximation (valable pour x ≥ u) :

F (x) ' F (u)Gγ,σ(x− u).

Finalement, on introduit la probabilité α que X dépasse u,α = F (u), d’où

F (x) ' αGγ,σ(x− F−1(α)).

Page 33: Stéphane Girard - Inria

33

Application à l’extrapolation

On a donc une approximation de la fonction de survie en queue :

F (x) ' α

[1 + γ

(x− F−1(α)

σ

)]−1/γ

si γ 6= 0

' α exp(−x− F−1(α)

σ

)si γ = 0

et de son inverse :

F−1(p) ' F−1(α) +σ

γ

[( p

α

)−γ− 1

]si γ 6= 0

' F−1(α)− σ log( p

α

)si γ = 0.

Page 34: Stéphane Girard - Inria

34

Comparaison avec l’approche EVD

Les expressions sont les mêmes, il y a trois paramètres inconnus :l’indice des valeurs extrêmes γ,σ qui joue le rôle de bn dans l’approche EVD,F−1(α) qui joue le rôle de an dans l’approche EVD.

Avantages :Il est plus facile d’avoir un échantillon d’excès que de maxima,F−1(α) est un quantile classique, facile à estimer parinversion de la fonction de survie empirique.En pratique : on choisit α = k/n, où k est le nombred’excès, on estime F−1(k/n) par Xn−k+1,n,

Il reste à estimer γ et σ.

Page 35: Stéphane Girard - Inria

35

Estimateurs des moments pondérés

[Hosking, Wallis, 1987]. Soit {Y1, . . . , Yk} un échantillon de kexcès indépendants tous de fdr Gγ,σ. On peut définir un autre typede moment pondéré d’ordre s par

νs = E[Y Gs

γ,σ(Y )].

Cette quantité existe pour γ < 1 et est donnée par

νs =σ

(s + 1)(s + 1− γ).

Pour obtenir γ et σ, deux moments suffisent

γ =4ν1 − ν0

2ν1 − ν0et σ =

2ν1ν0

ν0 − 2ν1,

on estime ensuite ν0 et ν1 classiquement.

Page 36: Stéphane Girard - Inria

36

Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

Page 37: Stéphane Girard - Inria

37

Modèle semi-paramétrique

On se restreint au domaine d’attraction de Fréchet où l’on a lacaractérisation

F (x) = x−1/γ`(x),

avec ` une fonction à variations lentes et γ > 0. Ce modèle defonction de survie comporte :

une partie paramétrique x−1/γ ne dépendant que d’unparamètre réel (γ).une partie non-paramétrique `(x) sur laquelle on saitseulement que

limu→∞

`(tu)`(u)

= 1,

pour t > 1.

Page 38: Stéphane Girard - Inria

38

Application à l’extrapolation

Pour t > 1,

limu→∞

F (tu)F (u)

= t−1/γ

(lim

u→∞

`(tu)`(u)

)= t−1/γ .

On en déduit l’approximation

F (tu) ' F (u)t−1/γ .

En posant x = tu et α = F (u), on a

F (x) ' α

(x

F−1(α)

)−1/γ

F−1(p) ' F−1(α)( p

α

)−γ,

pour x > u ou de façon équivalente p ≤ α.

Page 39: Stéphane Girard - Inria

39

Application à l’extrapolation

Remarques :Ces approximations sont des cas particuliers de l’approcheGPD avec σ = γF−1(α) ;F−1(α) s’estime comme nous l’avons déjà vu par une desobservations ordonnées.Il reste uniquement à estimer γ, en se basant encore sur

F−1(p) ' F−1(α)( p

α

)−γ,

que l’on peut réécrire

log F−1(p)− log F−1(α) ' γ log(α/p).

Page 40: Stéphane Girard - Inria

40

Estimation semi-paramétrique de γ

On choisit comme précédemment, α = k/n et on considèreplusieurs valeurs de p = i/n, i = 1, . . . , k − 1. (on doit avoirp < α). On obtient :

log F−1(i/n)− log F−1(k/n) ' γ log(k/i),

et en estimant les fonctions de survies par leurs équivalentsempiriques,

log Xn−i+1,n − log Xn−k+1,n ' γ log(k/i).

Il est possible de vérifier graphiquement cette approximation.

Page 41: Stéphane Girard - Inria

41

Estimation semi-paramétrique de γ

Simulation de n = 500 réalisations d’une loi de Student à 2 degrésde liberté (γ = 1/2). On a choisi k = 100.

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.00.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

En abscisse : log(k/i). En ordonnée : y = x/2 etlog Xn−i+1,n − log Xn−k+1,n pour i = 1, . . . , k − 1.

Page 42: Stéphane Girard - Inria

42

Estimation semi-paramétrique de γ

En sommant de part et d’autre sur i = 1, . . . , k − 1, on obtient

γ '

k−1∑i=1

log Xn−i+1,n − log Xn−k+1,n

k−1∑i=1

log(k/i)

Le dénominateur se réécrit log[kk−1/(k − 1)!], en utilisant laformule de Stirling, il est équivalent à k au voisinage de l’infini. Onobtient l’Estimateur de Hill

γ(k) =1k

k−1∑i=1

(log Xn−i+1,n − log Xn−k+1,n),

[Hill, 1975].

Page 43: Stéphane Girard - Inria

43

Comportement de l’estimateur de Hill

Trois simulations de n = 500 réalisations d’une loi de Student à 2degrés de liberté (γ = 1/2).

0 20 40 60 80 100 120 140 160 180 2000.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

En abscisse : k. En ordonnée : γ(k) pour k = 1, . . . , 200.

Page 44: Stéphane Girard - Inria

44

En pratique ...

Le choix de k est difficile :Si k est petit, γ(k) utilise peu d’observations, il a alors unegrande variance.Si k est grand, le seuil estimé Xn−k+1,n est petit, on sort dela zône où la fonction de survie est approximativement unepuissance, γ(k) a alors un grand biais.

Page 45: Stéphane Girard - Inria

45

Plan de l’exposé

1 Motivation

2 Etude du maximum

3 Etude des excès

4 Approche semi-paramétrique

5 Recherches actuelles

Page 46: Stéphane Girard - Inria

46

Recherches actuelles

Approches semi-paramétriques : Réduction du biais (enprécisant la convergence de `(xt)/`(x) vers 1), choixautomatique de k,Données non-indépendantes,Présence de covariable,Extrêmes multivariés.

Page 47: Stéphane Girard - Inria

47

Bibliographie

Article fondateur :B. Gnedenko (1943), Sur la distribution limite du termemaximum d’une série aléatoire, The annals of Mathematics,2nd Ser., 44, 423–453.Moments pondérés :J.R.M. Hosking, J.R. Wallis and E.F. Wood (1985),Estimation of the Generalized Extreme-Value distribution bythe method of probability-weighted moments, Technometrics,27, 251–261.J.R.M. Hosking and J.R. Wallis (1987), Parameter andquantile estimation for the Generalized Pareto Distribution,Technometrics, 29, 1339–1349.Premier estimateur de l’indice des valeurs extrêmes :B.M. Hill (1975), A simple general approach to inferenceabout the tail of a distribution, The Annals of Statistics, 3,1163–1174.

Page 48: Stéphane Girard - Inria

48

Bibliographie

Livres de référence :P. Embrechts, P., C. Klüppelberg, and T. Mikosch (1997),Modelling extremal events, Springer.

M. Falk, J. Hüsler and R. Reiss (2004), Laws of smallnumbers : Extremes and rare events, 2nd edition, Birkhäuser.

R. Reiss and M. Thomas (2001), Statistical analysis ofextreme values, Birkhäuser, Basel.

N. Bingham, C. Goldie and J. Teugels (1987), Regularvariation, Encyclopedia of Mathematics and its Applications,27, Cambridge University Press.