ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW
-
Upload
vera-manning -
Category
Documents
-
view
13 -
download
0
description
Transcript of ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET FAST MCD PETER J. ROUSSEEUW
ESTIMATION ROBUSTE LES ALGORITHMES MVE ET MCD ET
FAST MCD PETER J. ROUSSEEUW
Présenté par : MOHSEN BEN HASSINEJanvier 2011
2
MINIMUM VOLUME ELLIPSOID ESTIMATOR
Rousseeuw (1983, 1984) a introduit un estimateur equivariant avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
Principe : Trouver l’ellipsoide qui couvre au moins n /2 des points
2
3
MVE : illustration
Hertzsprung-Russell data (star cluster cygnus)47 points2 variables ( température , light)97.5% tolerance ellipse6 outliers
3
4
MVE : Etapes et algorithme
On commence par un échantillon de ( p + 1) observations, indexé par J = {i1, . . . , ip+1}, P: nombre de paramètres
On calcule la moyenne arithmétique et la matrice de covariance, comme suit :
4
5
Pour chaque observation on calcule la distance : Dji= Trouver la médiane
Le volume de l’ellipsoide est proportionnel à : Vj ~
MVE : Etapes et algorithme5
6
Le volume calculé Vj correspond à un seul échantillon, on doit répéter le calcul précédent pour m échantillons
Retenir L’échantillon dont la valeur Vj est minimale
Les valeurs de la moyenne et de la matrice de covariance seront donc :
: facteur de correction
MVE : Etapes et algorithme6
7
MVE : Etapes et algorithme
Calculer les distances robustes :
Les outliers : RDi > C= Pondération:
Valeurs pondérées:
7
8
MINIMUM COVARIANCE DETERMINANT ESTIMATOR
Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum
Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
8
9
MINIMUM COVARIANCE DETERMINANT ESTIMATOR
Idée: Chercher h observations parmi n , dont le déterminant de la matrice de covariance est minimum
Estimateur avec un breakdown maximal de (n/2 –p + 1) /n , qui converge vers 50 % quand n ∞
9
10
MCD : ILLUSTRATION10
11
MCD: LES ETAPES Choisir une taille d’échantillon : h entre (n+p+1)/2 et n Choisir m échantillons de taille (p+1) ou h ?1. Pour chaque échantillon J , si det (cov(J)) =0 , étendre la taille de
l’échantillon 2. Calculer : T0= moyenne(J), S0=cov(J)3. Calculer : D02 (i)= 4. Trier ces distances par ordre croissant 5. Recalculer T0 et S0 pour l’échantillon J1 de h nouveaux points Cette procédure est appelée C-step (1:5), est répétée n fois
11
12
MCD: LES ETAPES Pour les 10 meilleurs échantillons parmi m
(min(det(cov(J))) , Répéter les C-steps jusqu’à convergence det(Si+1)= det(Si)
Reporter T et S / Min [ det(Sj)] Calculer les distances robustes et déduire
les outliers
12
13
FAST MCD Motivations :
Si n devient plus grand >600 (nested extension)
Optimiser le nombre de c-steps Temps de réponse nettement amélioré
13
14
BIBLIOGRAPHIE14
1. Rousseeuw, P.J. and Leroy, A.M. (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons, Inc.
2. Rousseeuw, P.J. and van Driessen, K. (1999), A fast algorithm for the minimum covariance determinant estimator, Technometrics, 41, 212–223.
3. Rousseeuw, P.J. and Bert van zomeren, Robust distances : simulations and cutoff values, The IMA volumes in mathematics and its applications, vol 34, new york 1991