Statistique avec des petits échantillons

40
Statistique avec des petits échantillons Gilles Celeux Select, Inria Saclay, Université Paris-Sud Gilles Celeux (Inria) Petits échantillons 1 / 40

Transcript of Statistique avec des petits échantillons

Page 1: Statistique avec des petits échantillons

Statistique avec des petits échantillons

Gilles Celeux

Select, Inria Saclay, Université Paris-Sud

Gilles Celeux (Inria) Petits échantillons 1 / 40

Page 2: Statistique avec des petits échantillons

Plan

1 Modélisation statistiqueEstimation du maximum de vraisemblanceChoix de modèles

2 Problèmes statistiques à information faible

3 Inférence bayésienneTraduction des informations a priori en lois a prioriApproximation de la loi a posterioriIllustration pour une loi de Weibull très censuréeSélection bayésienne de modèles

Gilles Celeux (Inria) Petits échantillons 2 / 40

Page 3: Statistique avec des petits échantillons

Inférence statistique

Des données x = (x1, . . . , xn) dans Rd sont issues d’une loi deprobabilité inconnue de densité f (x).

Les données sont utilisées pour tirer de l’information sur cette densitéf (x).

Modèle paramétrique : on suppose que

f (x) = f (x ; θ),

avec θ paramètre inconnu à estimer à partir de (x1, . . . , xn).

Gilles Celeux (Inria) Petits échantillons 3 / 40

Page 4: Statistique avec des petits échantillons

Exemple : la loi normale

Les données (x1, . . . , xn) représentent le poids de n objets fabriquésen série.

On suppose que ces poids suivent une loi normale de moyenne µ etde variance σ2 :

f (x ; θ) =1√

(2π)σexp(−(x − µ)2

σ2 ).

Le paramètre à estimer est θ = (µ, σ2).

Gilles Celeux (Inria) Petits échantillons 4 / 40

Page 5: Statistique avec des petits échantillons

Exemple : la loi de Weibull

Les données (x1, . . . , xn) représentent les durées de vie de nmatériels.

Une loi couramment utilisée pour modéliser des durées de vie est la loide Weibull.

Elle utilise un paramètre d’échelle η et un paramètre de forme β :

f (x ; θ) = β(xη

)β−1 exp((−xη

)β)

Le paramètre à estimer est θ = (η, β).

Gilles Celeux (Inria) Petits échantillons 5 / 40

Page 6: Statistique avec des petits échantillons

Estimation du maximum de vraisemblance

La vraisemblance du paramètre θ associé aux données s’écrit

L(θ) =n∏

i=1

f (xi ; θ).

La vraisemblance contient toute l’information apportée par (x1, . . . , xn)sur le paramètre θ.

La méthode du maximum de vraisemblance consiste à estimer θ par

θ̂ = arg maxθ

L(θ).

Cet estimateur jouit de bonnes propriétés lorsque n est grand devantla dimension de θ.

Gilles Celeux (Inria) Petits échantillons 6 / 40

Page 7: Statistique avec des petits échantillons

Exemples d’estimateurs du MV

Cas gaussien

µ̂ =1n

n∑i=1

xi

σ̂2 =1n

n∑i=1

(xi − µ̂)2.

Cas de Weibull. Les équations de vraisemblance sont

1β̂

+

∑ni=1 log(xi)

n−

∑ni=1 xi β̂ log(xi)∑n

i=1 x β̂i

= 0.

et

η̂ = [

∑ni=1 x β̂

in

]1/β̂.

Gilles Celeux (Inria) Petits échantillons 7 / 40

Page 8: Statistique avec des petits échantillons

Test du rapport de vraisemblance

Pour choisir entre deux modèles M0 et M1 dont les espaces desparamètres sont emboîtés, on dispose du test de rapport devraisemblance.

Λ =L(θ̂0)

L(θ̂1)

Sous l’hypothèse que les données sont issues de la loi f (x ; θ0),

−2 log Λ suit asymptotiquement une loi du χ2 à dim θ1 - dim θ0 degrésde liberté.

Gilles Celeux (Inria) Petits échantillons 8 / 40

Page 9: Statistique avec des petits échantillons

Critères de vraisemblance pénalisée

Les critères de vraisemblance pénalisé sont utilisés pour choisir unmodèle parmi des modèles non nécessairement emboîtés.

AIC(M) = −2 log L(θ̂M) + 2dim(θM)

BIC(M) = −2 log L(θ̂M) + dim(θM) log(n)

Ces critères sont obtenus sous des arguments asymptotiques etjouissent de propriétés asymptotiques optimales.

Gilles Celeux (Inria) Petits échantillons 9 / 40

Page 10: Statistique avec des petits échantillons

Plan

1 Modélisation statistiqueEstimation du maximum de vraisemblanceChoix de modèles

2 Problèmes statistiques à information faible

3 Inférence bayésienneTraduction des informations a priori en lois a prioriApproximation de la loi a posterioriIllustration pour une loi de Weibull très censuréeSélection bayésienne de modèles

Gilles Celeux (Inria) Petits échantillons 10 / 40

Page 11: Statistique avec des petits échantillons

Petits échantillons

La taille d’un échantillon n est à comparer au nombre ν deparamètres à estimer.

Typiquement, pour une distribution dans R avec 2 paramètres àestimer les problèmes peuvent commencer avec n<20.

Les problèmes deviennent sérieux lorsque ν ≈ n . . .

Les statisticiens sont de plus en plus confrontés à des tailles nplus petites que la dimension d des données.

Gilles Celeux (Inria) Petits échantillons 11 / 40

Page 12: Statistique avec des petits échantillons

Donnés censurées

Il arrive fréquemment que des données de durées de vie soientcensurées.

Données censurées à droite : une durée de vie x est censuré àdroite en c si l’on sait juste que x > c.

Données censurées à gauche : une durée de vie x est censuré àgauche en c si l’on sait juste que x < c.

Données censurées par intervalle : une durée de vie x estcensuré par intervalle si l’on sait juste que a < x < b.

Gilles Celeux (Inria) Petits échantillons 12 / 40

Page 13: Statistique avec des petits échantillons

Modèles à structure manquante

Il existe de nombreuses situations où les données générées par unphénomène ne sont pas toutes disponibles.

Exemple : modèles de durées de vie à risques concurrents.

Soit un matériel constitué de k composants C1, . . . , Ck montés ensérie.Les données complètes sont de la forme (xi , zi), i = 1, . . . , n, xi étant ladurée de vie du matériel i et zi le numéro du composant ayant causéla panne.Mais souvent les zi sont manquants, . . .

Gilles Celeux (Inria) Petits échantillons 13 / 40

Page 14: Statistique avec des petits échantillons

Dangers des petits échantillons

Forte variabilité des estimations

Forte sensibilité aux valeurs atypiques

Exagération des contrastes

Gilles Celeux (Inria) Petits échantillons 14 / 40

Page 15: Statistique avec des petits échantillons

Attitudes devant de petits échantillons

Renoncer à l’analyse

Régulariser les estimations

Apporter de l’information extérieure aux données, ce qui conduit àl’inférence bayésienne

Contourner la difficulté (contexte de l’apprentissage statistique oude la fouille de données)

Gilles Celeux (Inria) Petits échantillons 15 / 40

Page 16: Statistique avec des petits échantillons

Plan

1 Modélisation statistiqueEstimation du maximum de vraisemblanceChoix de modèles

2 Problèmes statistiques à information faible

3 Inférence bayésienneTraduction des informations a priori en lois a prioriApproximation de la loi a posterioriIllustration pour une loi de Weibull très censuréeSélection bayésienne de modèles

Gilles Celeux (Inria) Petits échantillons 16 / 40

Page 17: Statistique avec des petits échantillons

Le paradigme bayésien

Le paramètre θ associé au modèle statistique f (x ; θ) est considérélui-même aléatoire de loi a priori Π(θ).

Sachant les données x, θ suit une loi a posteriori Π(θ/x):

Π(θ/x) =L(θ/x)Π(θ)∫L(θ/x)Π(θ)dθ

.

L’inférence statistique se conduit sur la base de cette loi a posteriori.

Gilles Celeux (Inria) Petits échantillons 17 / 40

Page 18: Statistique avec des petits échantillons

La loi a priori

La loi a priori Π(θ) résume l’information préalable à l’obtention desdonnées que l’on possède sur le paramètre θ.

Elle résume également l’incertitude sur la valeur de cetteinformation.

Elle fournit un cadre cohérent et contrôlable pour quantifier lesconnaissances et les opinions d’expert.Grâce au théorème de Bayes, elle donne naissance à la loi aposteriori Π(θ/x) qui tire toute l’information des données et de laloi a priori.

Gilles Celeux (Inria) Petits échantillons 18 / 40

Page 19: Statistique avec des petits échantillons

La loi a posteriori

Une fois la loi a posteriori établie ou approché, on en déduit unestimateur ponctuel de θ qui peut être

la moyenne a posteriorile mode a posteriorila médiane a posteriori.

Potentiellement, la loi a posteriori contient les éléments pourévaluer l’incertitude de cet estimateur ponctuel.

Gilles Celeux (Inria) Petits échantillons 19 / 40

Page 20: Statistique avec des petits échantillons

Un exemple: la moyenne d’une loi normale

Soit le modèle gaussien f (x ; θ) = N (θ, σ2) avec σ2 connu.

Loi a priori : Π(θ) = N (µ, τ2), µ et τ2 étant des hyperparamètres fixéspar un expert.

Loi a posteriori : Π(θ/x) = N (σ2µ+nτ2x̄σ2+nτ2 , σ2τ2

σ2+nτ2 ), où

x̄ =1n

n∑i=1

xi .

L’estimateur bayésien de θ est

θ̃ =σ2µ + nτ2x̄σ2 + nτ2 .

Gilles Celeux (Inria) Petits échantillons 20 / 40

Page 21: Statistique avec des petits échantillons

Un exemple: loi exponentielle

Soit le modèle exponentiel f (x ; η) = 1η exp(−x

η ), x ≥ 0.

Loi a priori : Π(η) = Gamma(a, b), de moyenne a/b et de variancea/b2, les hyperparamètres étant a et b.

Loi a posteriori : Π(θ/x) = Gamma(a + nx̄ , b + n), où

x̄ =1n

n∑i=1

xi .

Un estimateur bayésien de η est

η̃ =a + nx̄b + n

.

Gilles Celeux (Inria) Petits échantillons 21 / 40

Page 22: Statistique avec des petits échantillons

Difficultés de l’approche bayésienne

Traduction des informations a priori : choix des lois a priori,détermination des hyperparamètres.

Que faire en l’absence d’information a priori ? Lois a priori noninformatives.

Difficultés analytiques de détermination de la loi a posteriori àcause de l’intégrale

∫L(θ/x)Π(θ)dθ.

Difficultés numériques et algorithmiques pour calculer desapproximations de cette loi a priori : méthodes de Monte Carlo.

Gilles Celeux (Inria) Petits échantillons 22 / 40

Page 23: Statistique avec des petits échantillons

Traduction des informations a priori en lois a priori

La première tâche consiste à choisir une forme de loi a priori. Cen’est pas la tâche la plus sensible.

Le plus important est de bien choisir les hyperparamètres de la loia priori. Typiquement, pour un paramètre scalaire, on dispose dedeux hyperparamètres. Cela permet de rentrer

l’information en moyenne sur le paramètre (point de vue de l’expertterrain),L’incertitude que l’on a sur cette information (point de vue del’expert statisticien).

Des études de sensibilité sont indispensables pour un réglagefiable de ces hyperparamètres.

Gilles Celeux (Inria) Petits échantillons 23 / 40

Page 24: Statistique avec des petits échantillons

Lois a priori conjuguées

Pour beaucoup de modèles classiques, il existe des lois a prioriconjuguées :Ce sont des lois a priori qui assurent que la loi a posteriori est demême forme paramétrique que la loi a priori.Exemples :

modèle de Poisson, lois a priori Gammamodèle gaussien univarié, loi a priori normale pour la moyenne etinverse Gamma pour la variancemodèle gaussien multivarié, loi a priori normale pour la moyenneet loi de Wishart pour la matrice variancemodèle exponentiel, loi a priori Gammamodèle binomiale, loi a priori Bêta.

Mais la loi de Weibull n’admet pas de lois a priori conjuguées, . . .

Gilles Celeux (Inria) Petits échantillons 24 / 40

Page 25: Statistique avec des petits échantillons

Exemples de choix d’hyperparamètres

Soit un matériel dont la durée de vie est modélisée par une loiexponentielle f (x ; η) = 1

η exp(−xη ), x ≥ 0.

Loi a priori : Π(η) = Gamma(a, b), de moyenne a/b et de variancea/b2,Les hyperparamètres à déterminer sont a et b.

Point de vue de l’expert terrain :on choisit le rapport a/b de sorte à tenir compte de son avis sur ladurée de vie moyenne du matériel.

Point de vue de l’expert statisticien :On choisit ensuite b suffisamment petit pour assurer une variancesuffisamment grande de la loi a priori.

Gilles Celeux (Inria) Petits échantillons 25 / 40

Page 26: Statistique avec des petits échantillons

Lois a priori non informatives

Ce sont des lois intégrant l’ignorance sur les paramètres du modèle :elles ne doivent pas dépendre de la paramétrisation.

La solution de Jeffreys consiste à prendre une loi proportionnelle àdetI(θ)1/2, où I(θ) est l’information de Fisher de θ:

I(θ) = −Eθ[∂2

∂i∂jlog f (x ; θ)].

Exemples :loi normale N (µ, σ2), alors Π(θ) ∝ 1/σ2

loi de Weibull W(η, β), alors Π(θ) ∝ 1/(ηβ)

Gilles Celeux (Inria) Petits échantillons 26 / 40

Page 27: Statistique avec des petits échantillons

Approximation de la loi a posteriori

La loi a posteriori

Π(θ/x) =L(θ/x)Π(θ)∫L(θ/x)Π(θ)dθ

.

doit souvent être approximée. Les approches possibles sont

l’intégration numérique

les méthodes de simulation de Monte-CarloLes méthodes MCMC (Monte Carlo Markov Chains)l’échantillonnage préférentiel (Importance Sampling)

Gilles Celeux (Inria) Petits échantillons 27 / 40

Page 28: Statistique avec des petits échantillons

Chaînes de Markov de Monte-Carlo

Le principe de ces méthodes est de simuler une chaîne de Markovdont la loi limite est la loi a posteriori visée.

La méthode la plus populaire est l’échantillonnage de Gibbs, casparticulier de l’algorithme général d’Hasting-Metropolis.

Les problèmes des méthodes MCMC concernent le contrôle de laconvergence :

à partir de combien d’itérations chaîne de Markov a-t-elle atteintson régime limite ?Combien d’itérations sont ensuite nécessaires pour obtenir unebonne approximation de la loi a posteriori visée ?

Gilles Celeux (Inria) Petits échantillons 28 / 40

Page 29: Statistique avec des petits échantillons

Échantillonnage de Gibbs

On part d’un choix au hasard θ(0) = (θ(0)1 , . . . , θ

(0)d )

Étant donné θ(i), l’échantillonnage de Gibbs consiste en

simulation de θ(i+1)1 Π(θ1 | θ

(i)2 , . . . , θ

(i)d , x)

simulation de θ(i+1)2 π(θ2 | θ

(i+1)1 , θ

(i)3 , . . . , θ

(i)d , x)

...simulation de θ

(i+1)d π(θd | θ

(i+1)1 , . . . , θ

(i+1)d−1 , x)

La suite θ(`+1), . . . , θ(M+`) est la réalisation de la loi limite de la chaînede Markov.Et pour toute fonction d’intérêt h

1M

M+∑̀i=`+1

h(θ(i))p.s.−→ EΠ(h(θ)).

Gilles Celeux (Inria) Petits échantillons 29 / 40

Page 30: Statistique avec des petits échantillons

Échantillonnage préférentiel

L’échantillonnage préférentiel comporte deux étapes et peut êtrecomplété par une troisème étape à partir d’une loi instrumentale ρ

1 simulation de m réalisations indépendantes (θ1, . . . , θM) de la loi ρ;

2 calcul des poids d’importance wi ∝ Π(θi/x)/ρ(θi)et des probabilités pi = wi/

∑Mj=1 wj ;

3 tirage de (θ1, . . . , θ`) échantillon indépendant parmi (θ1, . . . , θM)selon la loi (pi)i=1,...,M .

Il est important que ρ ait un support plus grand que celui de la loi aposteriori visée.

Gilles Celeux (Inria) Petits échantillons 30 / 40

Page 31: Statistique avec des petits échantillons

Exemple : loi de Weibull censurée

Simulations de Monte- Carlo pour des lois de W(β, η) avec η = 100 etβ = 0.5; 1.2; 2; 3.

On considère des échantillons de taille n = 25 avec un temps decensure à droite c = 40.

Chaque situation est répétée 50 fois.

Le nombre moyen de défaillances observées fut de 12 pour laW(0.5, 100), 7 pour la W(1.2, 100), 4 pour la W(2, 100) et 2 pour laW(3, 100).

Gilles Celeux (Inria) Petits échantillons 31 / 40

Page 32: Statistique avec des petits échantillons

Maximum de vraisemblance pour Weibull censuré

On note n le nombre d’observations et m ≤ n le nombre dedéfaillances.

L’estimateur du maximum de vraisemblance β̂ du paramètre de formeβ est solution de

+

∑mi=1 log(ti)

m−

[∑ni=1 tβi log(ti)∑n

i=1 tβi

]= 0

et

η̂ =

[n∑

i=1

t β̂i /m

] 1β̂

.

Ces estimateurs (β̂, η̂) sur données censurées sont biaisés mêmepour n grand.

Gilles Celeux (Inria) Petits échantillons 32 / 40

Page 33: Statistique avec des petits échantillons

Lois a priori choisies

Les connaissances a prioriβ est supposé être dans [β` = 0.5, βr = 5].η est supposé être dans [η` = 50, ηr = 300], et sa valeur estévaluée à 120.

Les lois a prioriLa loi pour le paramètre de forme est une loi Bêta sur [β`, βr ]:

π(β) ∝ (β − β`)p−1(βr − β)q−1

(βr − β`)p+q−1 I[β`,βr ](β)

avec p = q = 1.5.La loi pour le paramètre d’échelle est une loi Gamma de moyennea/b = 120 et telle que 99% de sa masse soit concentrée sur[50, 300].

π(η) ∝ ηa−1 exp(−η

b

), η > 0

Ce qui conduit à prendre a = 52 et b = 0.43Gilles Celeux (Inria) Petits échantillons 33 / 40

Page 34: Statistique avec des petits échantillons

Une procédure d’échantillonnage préférentiel :WLB

Elle s’apparente à une procédure bootstrap :1 simulation d’un vecteur de poids ω̃j = (ω̃j

1, . . . , ω̃jN) selon une loi

P(ω1, . . . , ωN), (typiquement une distribution uniforme de Dirichlet)et normaliser ces poids pour qu’ils soient de somme 1.

2 Utiliser ces poids pour calculer l’estimateur de maximum devraisemblance pondéré (procédure de type bootstrap).

En répétant ces étapes M fois, on obtient (θ1, . . . , θM).On en tire une densité ρ̂ par une méthode de lissage de type "noyaux"qui est au final utilisée comme densité instrumentale pour menerl’échantillonnage préférentiel.

Gilles Celeux (Inria) Petits échantillons 34 / 40

Page 35: Statistique avec des petits échantillons

Une autre procédure d’échantillonnagepréférentiel : BRM

Elle tire parti de la structure à données manquantes en 3 étapes :(B) simulation de θ selon la loi a priori Π(θ);(R) simulations des défaillances manquantes au-delà descensures selon leur loi conditionelle sachant les données et leparamètre θ obtenu à l’étape B;(M) Calcul de θ maximisant la vraisemblance de l’échantilloncomplété.

En répétant ces étapes M fois, on obtient (θ1, . . . , θM).On en tire une densité ρ̂ par une méthode de lissage de type "noyaux"qui est au final utilisée comme densité instrumentale pour menerl’échantillonnage préférentiel.

Gilles Celeux (Inria) Petits échantillons 35 / 40

Page 36: Statistique avec des petits échantillons

Comparaison maximum de vraisemblance etinférence bayésienne

ML WLB-IS BRM-ISE (Std) E (Std) E (Std)

β = 0.5 0.583 (0.196) 0.628 (0.096) 0.593 (0.098)η = 100 110.534 (112.237) 108.342 (8.244) 83.724 (21.108)β = 1.2 1.810 (2.540) 1.648 (2.534) 1.327 (0.325)η = 100 296.287 (987.475) 109.290 (14.517) 108.138 (6.505)β = 2 2.994 (2.738) 2.733 (2.774) 1.898 (0.284)

η = 100 300.355 (1237.941) 109.030 (24.281) 116.157 (4.932)β = 3 7.683 (20.783) 2.877 (0.180) 2.232 (0.176)

η = 100 341.242 (1288.989) 102.777 (28.502) 121.143 (3.898)

Gilles Celeux (Inria) Petits échantillons 36 / 40

Page 37: Statistique avec des petits échantillons

Modèles à risques concurrents

Soit 100 données fortement censurés issues d’un système à deuxrisques concurrents.On compare les performances d’une version stochastique del’algorithme EM et de l’échantillonneur de Gibbs.La loi a priori choisi est une loi Bêta sur [1, 3] pour β1, une loi Bêta sur[2, 4] pour β2, et une loi non informative proportionnelle à 1/η pour η1et η2.

β1 = 2 η1 = 50 β2 = 3 η2 = 100Mean Std Mean Std Mean Std Mean Std

c=50SEM 2.10 0.20 49.53 3.87 7.15 2.12 79.07 18.15Bayes 2.05 0.23 50.86 4.80 3.12 0.83 97.15 12.71

c=30SEM 2.29 0.33 46.73 6.63 7.07 1.91 78.61 22.87Bayes 1.88 0.25 52.76 7.03 2.72 0.91 85.85 18.91

Gilles Celeux (Inria) Petits échantillons 37 / 40

Page 38: Statistique avec des petits échantillons

Le facteur de Bayes

La vraisemblance intégrée d’un modèle m s’écrit

f(x|m) =

∫f(x|θm)Π(θm)dθm,

Cette vraisemblance intégrée est un critère prédictif pour comparerdeux modèles dénommé le facteur de Bayes B21 :

f(m2|x)

f(m1|x)=

f(x|m2)

f(x|m1)

p(m2)

p(m1)

Pour n assez grand, le logarithme de cette vraisemblance intégréepeut être approximé par le critère BIC.

Gilles Celeux (Inria) Petits échantillons 38 / 40

Page 39: Statistique avec des petits échantillons

Approximation du facteur de Bayes

La vraisemblance intégrée d’un modèle m s’écrit

f(x|m) =f(x|θm)Π(θm)

Π(θ | x)

On peut tirer profit le fait que le terme de droite ne dépende pas de θpour choisir une "bonne" valeur de θ pour approximer cettevraisemblance intégrée. Un choix naturel est de prendre θ?, le mode aposteriori obtenu sur les réalisations d’un algorithme MCMC:

f̂(x|m) =f(x|θ?

m)Π(θ?m)

Π(θ? | x).

Gilles Celeux (Inria) Petits échantillons 39 / 40

Page 40: Statistique avec des petits échantillons

Les sujets non traités

Dans cette présentation, il n’a pas été question des techniques derégularisation de la statistique prévisionnelle multivarié avec denombreuses variables (d > n,. . . )

Régresssion linéaire : ridge regression, méthodes Lasso, ElasticNet, . . .Classification supervisée : Support Vector Machine, techniquesde régularisation des matrices variance

Σ −→ Σ + λI . . .

Merci pour votre attention...

Gilles Celeux (Inria) Petits échantillons 40 / 40