Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane,...

Post on 23-Jul-2020

0 views 0 download

Transcript of Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane,...

Algorithmes rapides pour l’estimation de lamediane geometrique en grande dimension

Herve Cardot

Institut de Mathematiques de Bourgogne, Universite de Bourgogneavec Peggy Cenac (Univ. Bourgogne) et Pierre-Andre Zitt (Univ. Bourgogne)

Herve.Cardot@u-bourgogne.fr

Montpellier - Juin 2012

Un exemple : audience TV (donnees de Mediametrie)

0 200 400 600 800 1000 1200 1400

0.0

0.2

0.4

0.6

0.8

1.0

minutes

TV

au

die

nce

La mediane dans RUne notion ”centrale” en statistique depuis Laplace.

Pour une variable aleatoire reelle

”La” (pas necessairement unique) valeur m telle que P(X ≤ m) = 0.5 .

Une autre caracterisation de la mediane m

E (sign(X −m)) =

∫sign(X (ω)−m)dP(ω) = 0.

Puisque sign(X −m) = X−m|X−m| , elle verifie aussi

m = arg minz∈R

E |X − z | .

• Le quantile d’ordre α, pour α ∈]0, 1[, est defini par P(X ≤ qα) = α.Soit encore,

qα = arg minz∈R

E [|X − z |+ (2α− 1)(X − z)] .

La mediane geometrique dans Rd (ou H Hilbert separable)

Rd muni de la norme euclidienne ‖ ‖, une generalisation naturelle de lamediane (Haldane, 1948)

m := arg minz∈H

E [‖X − z‖ − ‖X‖]

appelee L1-mediane ou mediane spatiale ou geometrique.

Note : le moment d’ordre 1 de ‖X‖ n’est pas forcement defini.

Propriete (Kemperman, 1987)Si l’espace H est strictement convexe, la mediane geometrique m estunique, sauf si le support X est sur une droite.

• Exemples d’espace strictement convexes :- espaces euclidiens Rd , avec d > 1,- espaces de Hilbert H separables (par ex. L2[0,T ])- Certains espaces de Banach (Lp, 1 < p <∞).

Caracterisation de la mediane geometriqueNous supposons qu’il n’y a pas d’atomes (∀x ∈ H, P(X = x) = 0).

Alors G : H 7→ R definie par G (x) = E‖X − x‖, est strictement convexeet est Frechet differentiable

Φ(x) := ∇Gx = −E(

X − x

‖X − x‖

).

La mediane m est caracterisee par ∇Gm = 0.

Si E‖X −m‖−1 <∞, G a une derivee seconde au sens de Frechet, en m,Γm : H 7→ H,

Γm := E[

1

‖X −m‖

(IH −

(X −m)⊗ (X −m)

‖X −m‖2

)],

ou IH est l’identite dans H et u ⊗ v = 〈u, .〉v , pour (u, v) ∈ H2.

L’operateur Γm est borne et strictement positif. Il existe des constantes,∞ > E‖X −m‖−1 = λM > λm > 0,

λM‖u‖2 ≥ 〈Γmu, u〉 ≥ λm‖u‖2, ∀u ∈ H.

Robustesse : la fonction d’influenceSoit une distribution P0 contaminee par une masse z ∈ H,

Pε,z = (1− ε)P0 + εδz .

La fonction d’influence

IFm(z) = limε→0

m(Pε,z)−m(P0)

ε

est une mesure de la sensibilite de la mediane a des petites perturbationsde la distribution cible.

Propriete

IFm(z) = Γ−1m

z −m

‖z −m‖et la ”gross error sensitivity” est bornee

sup{‖IFm(z)‖, z ∈ H} =1

λm.

• Cet indicateur de robustesse n’est pas borne pour la moyenne.

Estimation dans Rd

Un echantillon de n realisations independantes, X1, . . . ,Xn.L’estimateur usuel de m (Gower, 1974, Vardi & Zhang, 2000, Gervini,2008) est caracterise par

n∑i=1

Xi − mn

‖Xi − mn‖= 0.

Approximations numeriques iteratives (Newton-Raphson or Weiszfeld)basees sur

n∑i=1

Xi − m

‖Xi − m‖= 0 ⇒ me+1 =

n∑i=1

pi (me) Xi .

Propriete (Haberman, 1989, Niemiro, 1992).Si H = Rd , quand n→ +∞,

√n (mn −m) N (0, Γ−1

m Var(S(X −m))Γ−1m )

ou S(u) = u/‖u‖, u ∈ Rd .

Un algorithme recursif tres simple

Notre premier estimateur

mn+1 = mn + γnXn+1 −mn

‖Xn+1 −mn‖

ou les pas γn verifient ∀n, γn > 0, et∑n≥1

γn =∞ and∑n≥1

γ2n <∞.

Avantages

• Pour un echantillon de taille n de vecteurs de Rd : O(nd) operations.• Mise a jour automatique (estimation en ligne).

• Pas besoin de sauvegarder en memoire toutes les donnees.

qui est un algorithme de Robbins-Monro (1951)

Cet algorithme de gradient stochastique peut aussi s’ecrire

mn+1 = mn − γn ( Φ(mn)︸ ︷︷ ︸gradient

+ζn+1),

avec ζn+1 = − Xn+1−mn

‖Xn+1−mn‖ − Φ(mn).

• Si les Xn sont i .i .d ., la suite ζn+1 est une difference de martingales,

E (ζn+1 | Fn) = 0 avec Fn = σ(X0, . . . ,Xn).

Par ailleurs,E(‖ζn+1‖2|Fn

)≤ 4.

Hypotheses et commentairesA1 Le support de X n’est pas reduit a une droite.

A2 La loi de X est un melange de la forme µX = λµc + (1− λ)µd , avec

I µc verifie, ∀x ∈ H, µc({x}) = 0 et

∀A,∃CA ∈ [0,∞),∀α ∈ B(0,A), E(‖X − α‖−1

)≤ CA,

ou B(0,A) est la boule {α ∈ H, ‖α‖ ≤ A},I µd est une mesure discrete, µd =

∑i piδαi , qui ne charge pas la

mediane m. On note D the support de µd .

L’hypothese A1 assure l’unicite de la mediane (Kemperman, 1987),tandis que l’hypothese A2 est liee a la dimension. Elle implique qued ≥ 2. Elle peut se traduire en termes de petites boules

E(‖X −m‖−1

)=

∫ ∞0

P[‖X −m‖ ≤ t−1

]dt.

Si P [‖X −m‖ ≤ ε] ≤ Cεd , pour ε petit, alors

E(‖X −m‖−β

)<∞,

pour 0 ≤ β < d .

Convergence dans les espaces de Hilbert

Resultat (Cardot, Cenac, Zitt 2010)Sous les hypotheses (A1) et (A2), la suite mn converge presque surementquand n tend vers l’infini,

‖mn −m‖ → 0, p.s.

Est-ce que ca marche vraiment ?

Un echantillon tire selon une loi normale

de moyenne (0, 0) et de variance

(10 33 2

).

La loi est symetrique, la mediane m est donc egale a la moyenne.

Un exemple d’echantillon

-5 0 5

-4-2

02

4

X1

X2

Meme pas, pour des exemples sans aucun piege ! ! !

mn+1 = mn +g

n3/4

Xn+1 −mn

‖Xn+1 −mn‖

0 2000 4000 6000 8000 10000

0.0

0.1

0.2

0.3

0.4

0.5

Iterations

MSE

RM, g=10RM, g=1AV, g=10AV, g=1

0 2000 4000 6000 8000 10000

0.00

0.02

0.04

0.06

0.08

0.10

iteration

MSE

RM, g=10RM, g=1AV, g=10AV, g=1

Une formule magique : la moyennisationMoyennisation : Polyak & Juditsky (1992), ...

Considerons la moyenne des iterations passees, mn =1

n

n∑j=1

mj ,mn+1 = mn + γn

Xn+1 −mn

‖Xn+1 −mn‖mn+1 = mn +

mn+1 − mn

n + 1

Resultat (Cardot, Cenac, Zitt, 2011)• Sous les hypotheses precedentes, si γn = g/nα, 0.5 < α < 1, et pourune constante A > 0,

∃CA ∈ [0,∞),∀h ∈ B(0,A), E(‖X − (m + h)‖−2

)≤ CA.

alors √n (mn −m) N (0,∆) en distribution dans H,

ou∆ = Γ−1

m Var(S(X −m))Γ−1m

avec S(u) = u/‖u‖, u ∈ H.

Est-ce que ca marche maintenant ?

200 echantillons de taille n = 2000.

g = 0.1 g = 0.5 g = 1 g = 2 g = 5 g = 10

0.00

0.05

0.10

0.15

0.20

0.25

Mean g = 0.1 g = 0.5 g = 1 g = 2 g = 5 g = 10

0.00

0.05

0.10

0.15

0.20

0.25

Averaging

Comparaisons : precision et temps de calcul

Erreur d’estimation de la mediane

n=250 n=500 n=2000Estimator [Q1 median Q3] [Q1 median Q3] [Q1 median Q3]cγ = 0.2 0.45 0.60 0.80 0.38 0.53 0.69 0.25 0.35 0.47cγ = 0.6 0.21 0.29 0.40 0.15 0.21 0.29 0.06 0.09 0.12cγ = 1 0.15 0.22 0.31 0.11 0.16 0.21 0.05 0.08 0.10cγ = 2 0.15 0.21 0.30 0.09 0.15 0.20 0.05 0.07 0.10cγ = 5 0.13 0.19 0.25 0.09 0.13 0.18 0.04 0.06 0.09cγ = 10 0.13 0.18 0.25 0.09 0.13 0.18 0.04 0.06 0.09cγ = 15 0.12 0.18 0.25 0.09 0.13 0.18 0.04 0.06 0.08cγ = 25 0.13 0.19 0.26 0.09 0.13 0.18 0.04 0.06 0.09cγ = 50 0.13 0.19 0.26 0.09 0.13 0.18 0.04 0.06 0.09cγ = 75 0.14 0.20 0.27 0.09 0.14 0.19 0.05 0.07 0.09

Vardi & Zhang 0.12 0.18 0.25 0.09 0.12 0.17 0.04 0.06 0.08

En une seconde, on peut traiter, avec le langage R, un echantillon detaille

• n = 150 avec l’algorithme de Vardi & Zhang (2000)

• n = 4500 avec notre algorithme moyennise

• n = 90000 avec notre algorithme moyennise (appel a une routine C).

Retour sur l’exemple des audiences individuelles

• Un echantillon de n = 5423 vecteurs Xi ∈ {0, 1}86400, (mesures a laseconde pendant 24 heures, le 6/09/2010).

Mediane conditionnelleUn couple (X ,Z ) dans H × ROn note p(z) la densite de Z .

• Pour Z = z , il faut chercher le minimum en α ∈ H de la fonctionnelle

G (α, z) = p(z) E [‖Y − α‖ − ‖Y ‖|Z = z ] .

• En introduisant un noyau K et une fenetre h, une approximation

Gh(α, z) = E[

(‖Y − α‖ − ‖Y ‖) 1

hK

(Z − z

h

)]

• D’ou l’algorithme recursif initial (controle par 2 suites γn et hn),

mn+1(z) = mn(z) + γnYn+1 −mn(x)

‖Yn+1 −mn(x)‖1

hnK

(Zn+1 − z

hn

)et sa version moyennisee

mn+1(z) =1

n + 1

n+1∑i=1

mn(z).

Mediane conditionnelle : convergence en loiOn considere des suites de la forme

γn = n−γ et hn = n−h

et une hypothese de regularite (avec β coef. de Holder).Resultat (Cardot, Cenac, Zitt, 2012)Si γ < 1, 2γ − h > 1, γ + βh > 1 et h > (2β + 1)−1, then :√

nhn (mn(z)−m(z)) N(

0,1

1 + hΓ−1ΣΓ−1

),

ou

Σ = p(z)

(∫K 2(u)du

)E

[(Y −m(z))⊗ (Y −m(z))

‖Y −m(z)‖2 |Z = z

]

Γ = E

[1

‖Y −m(z)‖

(IH −

(Y −m(z))⊗ (Y −m(z))

‖Y −m(z)‖2

)|Z = z

].

Remarques : une variance limite plus faible que l’approche statique(Cadre & Gannoun, 2000) ! ! !Mokkadem et al. (2009) : un resultat similaire en regression avec Y reelle.

Sur l’interet pratique de la moyennisation

0.05 0.10 0.20 0.50 1.00 2.00 5.00 10.00

0.005

0.010

0.015

0.020

0.025

0.030

0.035

parameter c!

MSE

Robbins MonroAveraging

Retour sur l’exemple des audiences individuelles

5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

Hours

Audience

meanmedianq25q50q75q90

Classification automatique non hierarchique dans Rd

On souhaite trouver une partition de Rd en k ensembles (classes)homogenes, chaque classe etant caracterisee par son centre θ` ∈ Rd ,` = 1, . . . , k, en minimisant la fonction g : Rdk 7→ R definie par

g(θ) = E(

min`=1,...,k

ϕ(‖X − θ`‖)),

ou ϕ est une fonction croissante (sur R+).

Deux cas particuliers :

• ϕ(u) = u2, conduit a proposer l’algorithme des k-means .

• ϕ(u) = |u|, conduit aux k-medians.

Une version recursive des k-means dans MacQueen (1967) et

des k-medians dans Cardot, Cenac, Monnez (2012).

Quelques references

I Cadre, B. and Gannoun, A. (2000). Asymptotic normality of consistent estimateof the conditional L1-median. Pub. Inst. Stat. Univ. Paris, XXXXIV :13–33.

I Cardot, H., Cenac, P., and Zitt, P.-A. (2011). Efficient and fast estimation ofthe geometric median in Hilbert spaces with an averaged stochastic gradientalgorithm. To appear in Bernoulli.

I Cardot, H., Cenac, P. and Monnez, J-M. (2012). A fast and recursive algorithmfor clustering large datasets with k-medians. CSDA, 56, 1434-1449.

I Cardot, H., Cenac, P. and Zitt, P-A. (2012). Recursive estimation of theconditional geometric median in Hilbert spaces. Arxiv 1204.3213.

I Duflo, M. (1997). Random iterative models, volume 34 of Applications ofMathematics (New York). Springer-Verlag, Berlin.

I Kemperman, J. H. B. (1987). The median of a finite measure on a Banachspace. In Statistical data analysis based on the L1-norm and related methods(Neuchatel, 1987), pages 217–230. North-Holland, Amsterdam.

I Mokkadem, A., Pelletier, M., and Slaoui, Y. (2009). Revisiting Revesz stochasticapproximation method for the estimation of a regression function. Alea, 6,63–114.

I Polyak, B. and Juditsky, A. (1992). Acceleration of stochastic approximation.SIAM J. Control and Optimization, 30, 838–855.

I Vardi, Y. and Zhang, C.-H. (2000). The multivariate L1-median and associateddata depth. Proc. Natl. Acad. Sci. USA, 97(4) :1423–1426.