STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013....

29
1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments (master actuariat, MR085) Programme Modalités de contrôle SAS Informations http://cedric.cnam.fr/~saporta/Cours.html

Transcript of STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013....

Page 1: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

1

STA 201 Statistique Multivariée Approfondie

Inscriptions et agréments (master actuariat, MR085) Programme Modalités de contrôle SAS Informations

http://cedric.cnam.fr/~saporta/Cours.html

Page 2: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

2

Bibliographie

M.BARDOS : Analyse discriminante (Dunod, 2001)

T.HASTIE, J.FRIEDMAN, R.TIBSHIRANI : The Elements of Statistical Learning, 2ème édition (Springer, 2009)

http://www.stanford.edu/~hastie/local.ftp/Springer/ESLII_print10.pdf L.LEBART, M.PIRON, A.MORINEAU : Statistique exploratoire multidimensionnelle,

4ème édition (Dunod, 2006)

J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003)

G.SAPORTA : Probabilités, analyse des données, statistique, 3ème édition (Technip, 2011)

S.TUFFÉRY : Data mining et statistique décisionnelle, 3ème édition (Technip, 2010)

Page 3: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

Eléments d’analyse multivariée

Gilbert Saporta Conservatoire National des Arts et Métiers, Paris [email protected] http://cedric.cnam.fr/~saporta octobre 2013

Page 4: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

4

I.Généralités sur les vecteurs aléatoires

I.1 Fonction de répartition et densité x∈Rp

1 1 1

11

1

( ,..., ) ( ... )

( ,..., )( ,..., )

...

p p p

pp

pp

F x x P X x X x

F x xf x x

x x

= < <

∂=

∂ ∂

Page 5: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

5

Changement de variable

Densité

J jacobien

1

( )( ,.., )i i pY X X

ϕϕ

==

Y X

1( ( ))( )det

fg ϕ−

=yy

J

11 1 1 1

1 1

1 1

... ...

... ...

... ...

p p

p p p p

p p

y y x xx x y y

y y x xx x y y

−∂ ∂ ∂ ∂∂ ∂ ∂ ∂

= =∂ ∂ ∂ ∂∂ ∂ ∂ ∂

J

Page 6: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

6

I.2 Fonction caractéristique (transformée de Fourier de la densité)

Condition nécessaire et suffisante d’indépendance

1

( ) (exp ) (exp ( ))p

j jj

E i E i a Xϕ=

′= = ∑X a a x

1 1

( ) (exp ) ( )p p

j j j jj j

E ia X aϕ ϕ= =

= =∏ ∏X a

Page 7: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

7

Théorème de Cramer-Wold (1936):

La loi de X est déterminée de façon unique

par celle des combinaisons linéaires des composantes

1

( ) (exp( )) (exp( ))(1) ( )

p

j jj

Y

Y

Y a X

t E itY E itϕϕ ϕ

=

′ =

′= ==

X

= a x

a xa

Page 8: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

8

Harald Cramer 1893-1985

Herman Wold 1908-1992

Page 9: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

9

I.3 Espérance et matrice de variance

Transformation linéaire y=Ax Cas particulier y=a’x

1 21 12

2

( ).

... ( ').

....( ) p

p

E X

E

E X

σ σ

σ

′= = = −

μ Σ xx μμ

′y x y xμ = Aμ Σ = AΣ A

( )V y ′= a Σa

Page 10: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

10

CNS pour être une matrice de variance: Σ symétrique positive

Σ a une racine carrée:

12Σ

Page 11: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

11

I.4 Transformation de Mahalanobis:

Composantes de Y centrées, réduites, non-

corrélées

Distance de Mahalanobis au centre: Pour toute matrice orthogonale P (P’=P-1),

Py a aussi ses composantes centrées, réduites et non-corrélées.

2

p2 2 2

j=1

( ) car = j

D

E D p D Y

′ ′= =

= ∑

-1(x - μ) Σ (x - μ) y y

12-y = Σ (x - μ)

Page 12: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

Prasanta Chandra Mahalanobis

Fondateur de l’Indian Statistical Institute 1931

On the generalized distance in statistics, 1936

Mahalanobis International Award in Statistics depuis 2003

12

1893-1972

Page 13: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

13

I.5 Composantes principales

Combinaisons linéaires de variance maximale :

a vecteur propre de Σ

( )V y ′= a Σa

Page 14: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

14

II Loi normale à p dimensions

II.1 Définition X suit une Np si et seulement si toute

combinaison linéaire des composantes suit une loi normale Np(µ; Σ) Les composantes de X sont indépendantes si

et seulement si Σ est diagonale

Page 15: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

15

II.2 Densité

Démonstration: changement de variable: y est

Np(0;I)

puis jacobien et retour à x

1 1/ 2/ 2

1 1( ,..., ) exp( )2(2 )p p

f x xπ

′= − -1(x - μ) Σ (x - μ)Σ

12-y = Σ (x - μ)

2 2/ 2

1 1

1 1 1 1( ) exp( ) exp( )2 (2 ) 22

p p

j jpj j

g y y yππ= =

= − = −∏ ∑

Page 16: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

16

II.3 loi de D2 et surfaces d’isodensité

D2 suit une loi du khi-deux à p degrés de liberté f(x)=c ⇒ D2=k : ellipsoïde

p2 2

j=1jD Y′ ′= = = ∑-1(x - μ) Σ (x - μ) y y

Page 17: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

17

Loi normale à deux dimensions

Source: http://azzalini.stat.unipd.it/SN/plot-SN2.html

Page 18: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

18

Loi normale à deux dimensions

Source : http://www2.kenyon.edu/people/hartlaub/MellonProject/Bivariate2.html

Page 19: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

19

Loi normale à deux dimensions

Page 20: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

20

III Quelques problèmes d’inférence

III.1 Centre de gravité d’un nuage de points n observations iid

11 1

1

p

pn n

x x

x x

1 2( ; ;....; )px x x=g

( ) En

= =gΣg μ Σ

Page 21: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

21

Théorème central-limite Pour n grand g suit approximativement une

loi Np(µ; Σ/n)

Ellipsoïde de confiance: si Σ est connu

12( ) ( ) suit une loi pn

χ−

′− −

Σg μ g μ

Page 22: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

22

si Σ est inconnu: estimation par V matrice de variance-covariance de l’échantillon (n en dénominateur)

La loi du khi-deux doit être remplacée par une F: 1( ) ( ) ( ; )p F p n p

n p−′− − = −

−g μ V g μ

Page 23: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

23

III. 2 Ellipsoïde de tolérance: où se trouve une nouvelle observation? Si µ est estimé par g, x-g suit une Si Σ estimé par la matrice de variance du

nuage V:

( ) ( )1

2

'

où est le fractile 1- d'un p

k

k α χ

−− − =x μ Σ x μ

1; 1pNn

+ 0 Σ

( ) ( ) ( ) ( )1 1 1' ;n p n F p n pn p n

− − +− − = −

−x g V x g

Page 24: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

24

Page 25: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

25

III.3 Distance de Mahalanobis

Distance au sens de la métrique W-1. 1. pour p=1 :

2. p quelconque : Standardisation de chaque composante xj Décorrélation...

( ) ( )2 11 2 1 2'pD g g W g g−= − −

g1

Dp g2

( ) ( )

( ) ( )

2 11 2 1 2

2 1/ 2 1/ 21 2 1 2

1/2

'

p

p

W X

D g g W g g

D g g W W g g

− −

= − −

′= − −

221 2 1 2 1 2

1 1 21 2 1 2

(1; 2)ˆ

n n x x n n D F n nn n n nσ

− = + − + +

Page 26: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

26

( ) ( )

( ) ( )

( ) ( )

2 2 -1p 1 2 1 2

p p1 2

2 2p

1 1 2 2

2 11 2 1 2

théorique : '

2 populations N , et N ,

estimation (biaisée) de

ˆ2

= '

p

p

Le

DnV n VW

nD g g W g g

µ µ µ µ

µ µ

∆ ∆ = − ∑ −

∑ ∑

+= = ∑

−− −

Page 27: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

27

( )

( ) ( )

2 2

1 2

21 2

21 2p

21

0

1 D ~ ; 12

p pn pnE D

n p n n

Si

n n n p F p n pn p n

µ µ

−= ∆ + − −

∆ = =

− −− −

Test de comparaison de deux moyennes multivariées

Page 28: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

28

Forme de Hotelling

22

( 2) ( 2)pn n T n

n−

= −-11 2 1 2(g - g )'W (g - g )

2 ( ) ( ; 1)1p

npT n F p n pn p

= − +− +

Page 29: STA 201 Statistique Multivariée Approfondiecedric.cnam.fr/~saporta/multivariee2013.pdf · 2013. 10. 2. · 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments

29

2 groupes parmi k

Théoriques :

Estimées :

( ) ( )2 1'p i j i jµ µ µ µ−∆ = − ∑ −

( ) ( )1

2 'p i j i j

nD g g W g gn k

− = − − −

( ) ( )

2

2

0n-k-p+1 ;n-k-p+1

n-ki j

pi j

Sin n

D F pn n p

∆ =

⋅ ⋅ =+