Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane,...

23
Algorithmes rapides pour l’estimation de la ediane g´ eometrique en grande dimension Herv´ e Cardot Institut de Math´ ematiques de Bourgogne, Universit´ e de Bourgogne avec Peggy C´ enac (Univ. Bourgogne) et Pierre-Andr´ e Zitt (Univ. Bourgogne) [email protected] Montpellier - Juin 2012

Transcript of Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane,...

Page 1: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Algorithmes rapides pour l’estimation de lamediane geometrique en grande dimension

Herve Cardot

Institut de Mathematiques de Bourgogne, Universite de Bourgogneavec Peggy Cenac (Univ. Bourgogne) et Pierre-Andre Zitt (Univ. Bourgogne)

[email protected]

Montpellier - Juin 2012

Page 2: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Un exemple : audience TV (donnees de Mediametrie)

0 200 400 600 800 1000 1200 1400

0.0

0.2

0.4

0.6

0.8

1.0

minutes

TV

au

die

nce

Page 3: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

La mediane dans RUne notion ”centrale” en statistique depuis Laplace.

Pour une variable aleatoire reelle

”La” (pas necessairement unique) valeur m telle que P(X ≤ m) = 0.5 .

Une autre caracterisation de la mediane m

E (sign(X −m)) =

∫sign(X (ω)−m)dP(ω) = 0.

Puisque sign(X −m) = X−m|X−m| , elle verifie aussi

m = arg minz∈R

E |X − z | .

• Le quantile d’ordre α, pour α ∈]0, 1[, est defini par P(X ≤ qα) = α.Soit encore,

qα = arg minz∈R

E [|X − z |+ (2α− 1)(X − z)] .

Page 4: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

La mediane geometrique dans Rd (ou H Hilbert separable)

Rd muni de la norme euclidienne ‖ ‖, une generalisation naturelle de lamediane (Haldane, 1948)

m := arg minz∈H

E [‖X − z‖ − ‖X‖]

appelee L1-mediane ou mediane spatiale ou geometrique.

Note : le moment d’ordre 1 de ‖X‖ n’est pas forcement defini.

Propriete (Kemperman, 1987)Si l’espace H est strictement convexe, la mediane geometrique m estunique, sauf si le support X est sur une droite.

• Exemples d’espace strictement convexes :- espaces euclidiens Rd , avec d > 1,- espaces de Hilbert H separables (par ex. L2[0,T ])- Certains espaces de Banach (Lp, 1 < p <∞).

Page 5: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Caracterisation de la mediane geometriqueNous supposons qu’il n’y a pas d’atomes (∀x ∈ H, P(X = x) = 0).

Alors G : H 7→ R definie par G (x) = E‖X − x‖, est strictement convexeet est Frechet differentiable

Φ(x) := ∇Gx = −E(

X − x

‖X − x‖

).

La mediane m est caracterisee par ∇Gm = 0.

Si E‖X −m‖−1 <∞, G a une derivee seconde au sens de Frechet, en m,Γm : H 7→ H,

Γm := E[

1

‖X −m‖

(IH −

(X −m)⊗ (X −m)

‖X −m‖2

)],

ou IH est l’identite dans H et u ⊗ v = 〈u, .〉v , pour (u, v) ∈ H2.

L’operateur Γm est borne et strictement positif. Il existe des constantes,∞ > E‖X −m‖−1 = λM > λm > 0,

λM‖u‖2 ≥ 〈Γmu, u〉 ≥ λm‖u‖2, ∀u ∈ H.

Page 6: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Robustesse : la fonction d’influenceSoit une distribution P0 contaminee par une masse z ∈ H,

Pε,z = (1− ε)P0 + εδz .

La fonction d’influence

IFm(z) = limε→0

m(Pε,z)−m(P0)

ε

est une mesure de la sensibilite de la mediane a des petites perturbationsde la distribution cible.

Propriete

IFm(z) = Γ−1m

z −m

‖z −m‖et la ”gross error sensitivity” est bornee

sup{‖IFm(z)‖, z ∈ H} =1

λm.

• Cet indicateur de robustesse n’est pas borne pour la moyenne.

Page 7: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Estimation dans Rd

Un echantillon de n realisations independantes, X1, . . . ,Xn.L’estimateur usuel de m (Gower, 1974, Vardi & Zhang, 2000, Gervini,2008) est caracterise par

n∑i=1

Xi − mn

‖Xi − mn‖= 0.

Approximations numeriques iteratives (Newton-Raphson or Weiszfeld)basees sur

n∑i=1

Xi − m

‖Xi − m‖= 0 ⇒ me+1 =

n∑i=1

pi (me) Xi .

Propriete (Haberman, 1989, Niemiro, 1992).Si H = Rd , quand n→ +∞,

√n (mn −m) N (0, Γ−1

m Var(S(X −m))Γ−1m )

ou S(u) = u/‖u‖, u ∈ Rd .

Page 8: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Un algorithme recursif tres simple

Notre premier estimateur

mn+1 = mn + γnXn+1 −mn

‖Xn+1 −mn‖

ou les pas γn verifient ∀n, γn > 0, et∑n≥1

γn =∞ and∑n≥1

γ2n <∞.

Avantages

• Pour un echantillon de taille n de vecteurs de Rd : O(nd) operations.• Mise a jour automatique (estimation en ligne).

• Pas besoin de sauvegarder en memoire toutes les donnees.

Page 9: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

qui est un algorithme de Robbins-Monro (1951)

Cet algorithme de gradient stochastique peut aussi s’ecrire

mn+1 = mn − γn ( Φ(mn)︸ ︷︷ ︸gradient

+ζn+1),

avec ζn+1 = − Xn+1−mn

‖Xn+1−mn‖ − Φ(mn).

• Si les Xn sont i .i .d ., la suite ζn+1 est une difference de martingales,

E (ζn+1 | Fn) = 0 avec Fn = σ(X0, . . . ,Xn).

Par ailleurs,E(‖ζn+1‖2|Fn

)≤ 4.

Page 10: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Hypotheses et commentairesA1 Le support de X n’est pas reduit a une droite.

A2 La loi de X est un melange de la forme µX = λµc + (1− λ)µd , avec

I µc verifie, ∀x ∈ H, µc({x}) = 0 et

∀A,∃CA ∈ [0,∞),∀α ∈ B(0,A), E(‖X − α‖−1

)≤ CA,

ou B(0,A) est la boule {α ∈ H, ‖α‖ ≤ A},I µd est une mesure discrete, µd =

∑i piδαi , qui ne charge pas la

mediane m. On note D the support de µd .

L’hypothese A1 assure l’unicite de la mediane (Kemperman, 1987),tandis que l’hypothese A2 est liee a la dimension. Elle implique qued ≥ 2. Elle peut se traduire en termes de petites boules

E(‖X −m‖−1

)=

∫ ∞0

P[‖X −m‖ ≤ t−1

]dt.

Si P [‖X −m‖ ≤ ε] ≤ Cεd , pour ε petit, alors

E(‖X −m‖−β

)<∞,

pour 0 ≤ β < d .

Page 11: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Convergence dans les espaces de Hilbert

Resultat (Cardot, Cenac, Zitt 2010)Sous les hypotheses (A1) et (A2), la suite mn converge presque surementquand n tend vers l’infini,

‖mn −m‖ → 0, p.s.

Est-ce que ca marche vraiment ?

Un echantillon tire selon une loi normale

de moyenne (0, 0) et de variance

(10 33 2

).

La loi est symetrique, la mediane m est donc egale a la moyenne.

Page 12: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Un exemple d’echantillon

-5 0 5

-4-2

02

4

X1

X2

Page 13: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Meme pas, pour des exemples sans aucun piege ! ! !

mn+1 = mn +g

n3/4

Xn+1 −mn

‖Xn+1 −mn‖

0 2000 4000 6000 8000 10000

0.0

0.1

0.2

0.3

0.4

0.5

Iterations

MSE

RM, g=10RM, g=1AV, g=10AV, g=1

0 2000 4000 6000 8000 10000

0.00

0.02

0.04

0.06

0.08

0.10

iteration

MSE

RM, g=10RM, g=1AV, g=10AV, g=1

Page 14: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Une formule magique : la moyennisationMoyennisation : Polyak & Juditsky (1992), ...

Considerons la moyenne des iterations passees, mn =1

n

n∑j=1

mj ,mn+1 = mn + γn

Xn+1 −mn

‖Xn+1 −mn‖mn+1 = mn +

mn+1 − mn

n + 1

Resultat (Cardot, Cenac, Zitt, 2011)• Sous les hypotheses precedentes, si γn = g/nα, 0.5 < α < 1, et pourune constante A > 0,

∃CA ∈ [0,∞),∀h ∈ B(0,A), E(‖X − (m + h)‖−2

)≤ CA.

alors √n (mn −m) N (0,∆) en distribution dans H,

ou∆ = Γ−1

m Var(S(X −m))Γ−1m

avec S(u) = u/‖u‖, u ∈ H.

Page 15: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Est-ce que ca marche maintenant ?

200 echantillons de taille n = 2000.

g = 0.1 g = 0.5 g = 1 g = 2 g = 5 g = 10

0.00

0.05

0.10

0.15

0.20

0.25

Mean g = 0.1 g = 0.5 g = 1 g = 2 g = 5 g = 10

0.00

0.05

0.10

0.15

0.20

0.25

Averaging

Page 16: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Comparaisons : precision et temps de calcul

Erreur d’estimation de la mediane

n=250 n=500 n=2000Estimator [Q1 median Q3] [Q1 median Q3] [Q1 median Q3]cγ = 0.2 0.45 0.60 0.80 0.38 0.53 0.69 0.25 0.35 0.47cγ = 0.6 0.21 0.29 0.40 0.15 0.21 0.29 0.06 0.09 0.12cγ = 1 0.15 0.22 0.31 0.11 0.16 0.21 0.05 0.08 0.10cγ = 2 0.15 0.21 0.30 0.09 0.15 0.20 0.05 0.07 0.10cγ = 5 0.13 0.19 0.25 0.09 0.13 0.18 0.04 0.06 0.09cγ = 10 0.13 0.18 0.25 0.09 0.13 0.18 0.04 0.06 0.09cγ = 15 0.12 0.18 0.25 0.09 0.13 0.18 0.04 0.06 0.08cγ = 25 0.13 0.19 0.26 0.09 0.13 0.18 0.04 0.06 0.09cγ = 50 0.13 0.19 0.26 0.09 0.13 0.18 0.04 0.06 0.09cγ = 75 0.14 0.20 0.27 0.09 0.14 0.19 0.05 0.07 0.09

Vardi & Zhang 0.12 0.18 0.25 0.09 0.12 0.17 0.04 0.06 0.08

En une seconde, on peut traiter, avec le langage R, un echantillon detaille

• n = 150 avec l’algorithme de Vardi & Zhang (2000)

• n = 4500 avec notre algorithme moyennise

• n = 90000 avec notre algorithme moyennise (appel a une routine C).

Page 17: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Retour sur l’exemple des audiences individuelles

• Un echantillon de n = 5423 vecteurs Xi ∈ {0, 1}86400, (mesures a laseconde pendant 24 heures, le 6/09/2010).

Page 18: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Mediane conditionnelleUn couple (X ,Z ) dans H × ROn note p(z) la densite de Z .

• Pour Z = z , il faut chercher le minimum en α ∈ H de la fonctionnelle

G (α, z) = p(z) E [‖Y − α‖ − ‖Y ‖|Z = z ] .

• En introduisant un noyau K et une fenetre h, une approximation

Gh(α, z) = E[

(‖Y − α‖ − ‖Y ‖) 1

hK

(Z − z

h

)]

• D’ou l’algorithme recursif initial (controle par 2 suites γn et hn),

mn+1(z) = mn(z) + γnYn+1 −mn(x)

‖Yn+1 −mn(x)‖1

hnK

(Zn+1 − z

hn

)et sa version moyennisee

mn+1(z) =1

n + 1

n+1∑i=1

mn(z).

Page 19: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Mediane conditionnelle : convergence en loiOn considere des suites de la forme

γn = n−γ et hn = n−h

et une hypothese de regularite (avec β coef. de Holder).Resultat (Cardot, Cenac, Zitt, 2012)Si γ < 1, 2γ − h > 1, γ + βh > 1 et h > (2β + 1)−1, then :√

nhn (mn(z)−m(z)) N(

0,1

1 + hΓ−1ΣΓ−1

),

ou

Σ = p(z)

(∫K 2(u)du

)E

[(Y −m(z))⊗ (Y −m(z))

‖Y −m(z)‖2 |Z = z

]

Γ = E

[1

‖Y −m(z)‖

(IH −

(Y −m(z))⊗ (Y −m(z))

‖Y −m(z)‖2

)|Z = z

].

Remarques : une variance limite plus faible que l’approche statique(Cadre & Gannoun, 2000) ! ! !Mokkadem et al. (2009) : un resultat similaire en regression avec Y reelle.

Page 20: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Sur l’interet pratique de la moyennisation

0.05 0.10 0.20 0.50 1.00 2.00 5.00 10.00

0.005

0.010

0.015

0.020

0.025

0.030

0.035

parameter c!

MSE

Robbins MonroAveraging

Page 21: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Retour sur l’exemple des audiences individuelles

5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

Hours

Audience

meanmedianq25q50q75q90

Page 22: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Classification automatique non hierarchique dans Rd

On souhaite trouver une partition de Rd en k ensembles (classes)homogenes, chaque classe etant caracterisee par son centre θ` ∈ Rd ,` = 1, . . . , k, en minimisant la fonction g : Rdk 7→ R definie par

g(θ) = E(

min`=1,...,k

ϕ(‖X − θ`‖)),

ou ϕ est une fonction croissante (sur R+).

Deux cas particuliers :

• ϕ(u) = u2, conduit a proposer l’algorithme des k-means .

• ϕ(u) = |u|, conduit aux k-medians.

Une version recursive des k-means dans MacQueen (1967) et

des k-medians dans Cardot, Cenac, Monnez (2012).

Page 23: Algorithmes rapides pour l'estimation de la médiane géometrique …€¦ · m ediane (Haldane, 1948) m := argmin z2H E[kX zkk Xk] appel ee L 1-m ediane ou m ediane spatiale ou g

Quelques references

I Cadre, B. and Gannoun, A. (2000). Asymptotic normality of consistent estimateof the conditional L1-median. Pub. Inst. Stat. Univ. Paris, XXXXIV :13–33.

I Cardot, H., Cenac, P., and Zitt, P.-A. (2011). Efficient and fast estimation ofthe geometric median in Hilbert spaces with an averaged stochastic gradientalgorithm. To appear in Bernoulli.

I Cardot, H., Cenac, P. and Monnez, J-M. (2012). A fast and recursive algorithmfor clustering large datasets with k-medians. CSDA, 56, 1434-1449.

I Cardot, H., Cenac, P. and Zitt, P-A. (2012). Recursive estimation of theconditional geometric median in Hilbert spaces. Arxiv 1204.3213.

I Duflo, M. (1997). Random iterative models, volume 34 of Applications ofMathematics (New York). Springer-Verlag, Berlin.

I Kemperman, J. H. B. (1987). The median of a finite measure on a Banachspace. In Statistical data analysis based on the L1-norm and related methods(Neuchatel, 1987), pages 217–230. North-Holland, Amsterdam.

I Mokkadem, A., Pelletier, M., and Slaoui, Y. (2009). Revisiting Revesz stochasticapproximation method for the estimation of a regression function. Alea, 6,63–114.

I Polyak, B. and Juditsky, A. (1992). Acceleration of stochastic approximation.SIAM J. Control and Optimization, 30, 838–855.

I Vardi, Y. and Zhang, C.-H. (2000). The multivariate L1-median and associateddata depth. Proc. Natl. Acad. Sci. USA, 97(4) :1423–1426.