Analyse en composantes principales · 2014. 9. 17. · Onaprisicides”3” etdes”8”...

Analyse en composantes principales

Gilles Gasso, Stéphane Canu

INSA Rouen - Département ASILaboratoire LITIS 1

17 septembre 2014

1. Ce cours est librement inspiré du cours DM de Alain RakotomamonjyGilles Gasso, Stéphane Canu Analyse en composantes principales 1 / 22

Plan

1 Introduction

2 ACPPrincipeFormulation mathématique et résolution

3 Algorithme

4 PropriétésDes axes factorielsDe l’ACPRéduction de dimension

Gilles Gasso, Stéphane Canu Analyse en composantes principales 2 / 22

Introduction

Introduction

Objectifs

{xi ∈ RD}i=1,··· ,N : ensemble de N points décrits par D attributs.

Objectifs de l’analyse en composantes principales1 représentation (graphique) des points dans un sous-espace de dimension

d (d Variable (attribut) : x j


Introduction

Les données : description

Données

Soit X la matrice des données (xi ∈ RD) :

X =

x1,1 x1,2 . . . x1,D... ...xN,1 xN,2 . . . xN,D

= x

>1...

x>N

=( x1 x2 . . . xN )>

Statistiques sommaires : moyenne et variance

Moyenne x̄ =(x̄1 x̄2 . . . x̄D

)> avec x̄ j = 1N ∑Ni=1 xi ,j ,Variance des variables var(x j) = 1N

∑Ni=1(xi ,j − x̄ j)2


Introduction

Covariance et Matrice de covariance

Covariance entre variables j et k

cov(x j , xk) =1N

N∑i=1

(xi ,j − x̄ j)(xi ,k − x̄k)

Si covariance grande (en valeur absolue) =⇒ variables j et kdépendantes. Covariance nulle =⇒ variables indépendantes

Matrice de covariance Σ ∈ RD×D

Σ est une matrice symétrique de terme général Σj ,k = cov(x j , xk) :

Σ =1N

N∑i=1

(xi − x̄) (xi − x̄)>

données centrées : Σ = 1N∑N

i=1 xix>i , ou encore Σ =

1N X>X


ACP Principe

Analyse en Composantes Principales

Principe

Soit xi ∈ RD , i = 1, · · · ,N des données centrées.

Objectif : trouver un sous-espace de dimension d ≤ D où projeter lesxi de façon à perdre le moins d’informations possibles

−2 −1 0 1 2 3 4 5 6−2

−1

0

1

2

3

4

5

6

Points

Moyenne

Axe 1

Axe 2

Trouver une “meilleure base orthonormale”de représentation des données parcombinaison linéaire de la base originale.

p1, p2 : vecteurs orthonormés (axes 1 et 2).Projeter les données sur l’espace engendrépar p1 et p2 =⇒ changement de base

Quel est le meilleur sous-espace dedimension 1 ?


ACP Principe

Analyse en Composantes PrincipalesObjectifs et hypothèses

X ∈ RN×D : matrice de données centrées.

Objectif ACP : trouver un sous-espace de dimension d ≤ D quipermet d’avoir une représentation réduite de X .

Comment ?

Projection linéaire de xi ∈ RD sur ti ∈ Rd

ti = P>xi avec P =(p1 · · · pd

), pi ∈ RD

P ∈ RD×d : matrice de transformation linéaire

Contrainte : P>P = ILes vecteurs de la nouvelle base sont orthogonaux 2 à 2 c’est-à-direp>j pi = 0 ∀ i 6= j


ACP Principe

Analyse en Composantes Principales

Reconstruction de xi à partir de tiSi d = D, la matrice P est orthogonale

ti = P>xi =⇒ Pti = PP>xi =⇒ xi = Pti

Dans ce cas, pas de réduction de dimension, juste un changement debase et donc pas de perte d’information

d < D (réduction de dimension)Reconstruction de xi par l’approximation

x̂i = Pti ou x̂i = PP>xi

Problématique

Construire P de sorte que l’erreur ‖xi − x̂i‖2 entre le vrai xi et sareconstruction x̂i soit minimale et ceci pour tous les points xi , i = 1, · · · ,N


ACP Formulation mathématique et résolution

Minimisation d’erreur/maximisation variance

Soit Je(P) l’erreur quadratique d’estimation. On a :

Je(P) =1N

N∑i=1

‖xi − x̂i‖2 =1N

N∑i=1

(xi − PP>xi )>(xi − PP>xi )

=1N

N∑i=1

(x>i xi − 2x>i PP>xi + x>i PP>PP>xi )

=1N

N∑i=1

x>i xi −1N

N∑i=1

x>i PP>xi =

1N

N∑i=1

x>i xi −1N

N∑i=1

t>i ti

= trace

(1N

N∑i=1

x>i xi −1N

N∑i=1

ti t>i

)= trace

(1N

N∑i=1

xix>i −1N

N∑i=1

P>xix>i P

)Je(P) = trace (Σ)− trace

(P>ΣP

)pour des données xi centrées

minJe(P) revient à maximiser par rapport à P la variance P>ΣP despoints projetés.



Axes factoriels et composantes principales

Soit X la matrice des données et p ∈ RD tq ‖p‖ = 1. Soit le vecteurde RN , c1 = Xp1 =

(x>1 p1 . . . x

>N p1

)>.On appelle premier axe factoriel de X le vecteur p1 tel que la variancede Xp1 soit maximale. Le vecteur c1 est appelé première composanteprincipale.

Le k ième axe factoriel est le vecteur pk unitaire (‖pk‖ = 1) tel que lavariance de ck = Xpk soit maximale et que pk soit orthogonal aux k − 1premiers axes factoriels.



Minimisation de l’erreur quadratique d’estimation

Premier axe factoriel

On cherche le sous espace engendré par p1 tq p>1 p1 = 1.Problème d’optimisation sous contrainte égalité :

minp1

Je(p1) =1N

N∑i=1

x>i xi −1N

N∑i=1

x>i p1p>1 xi avec p

>1 p1 = 1

Simplification de Je(p1)

Je(p1) = −p>1

(1N

N∑i=1

xix>i

)p1 = −p>1 Σp1

Le lagrangien s’écrit

L(p1, λ1) = −p>1 Σp1 + λ1(p>1 p1 − 1)Gilles Gasso, Stéphane Canu Analyse en composantes principales 11 / 22


Minimisation de l’EQE

OptimisationConditions d’optimalité

∇p1L = 0 = −2Σp1 + 2λ1p1 et ∇λ1L = 0 = p>1 p1 − 1

=⇒ Σp1 = λ1p1 et p>1 Σp1 = λ1Interprétation

1 (λ1, p1) représente la paire (valeur propre, vecteur propre) de lamatrice de covariance Σ

2 Je(p1) = −λ1 est la fonctionnelle que l’on cherche à minimiser

SolutionLe premier axe factoriel p1 est le vecteur propre associé à la plus grandevaleur propre de Σ.



k-ième axe factoriel

LemmeLe sous-espace de dimension k minimisant l’erreur quadratique d’estimationdes données contient nécessairement le sous-espace de dimension k − 1.

Calcul du 2e axe factoriel p2 sachant que p1 est connu

minp2

Je(p2) = −p>2 Σp2

tel que p>2 p2 = 1, p>2 p1 = 0

Interprétation : on cherche un vecteur unitaire p2 qui maximise lavariance p>2 Σp2 et qui soit orthogonal au vecteur p1

ExerciceMontrer que p2 est le vecteur propre associé à λ2, la seconde plus grandevaleur propre de Σ


Algorithme

Algorithme

1 Centrer les données : {xi ∈ RD}Ni=1 −→ {xi = xi − x̄ ∈ RD}Ni=12 Calculer la matrice de covariance Σ = 1N X

>X avec X> =(x1 · · · xN

)3 Calculer la décomposition en valeurs propres {pj ∈ RD , λj ∈ R}Dj=1 de Σ

4 Ordonner les valeurs propres λj par ordre décroissant

5 Nouvelle base de représentation des données :

P = (p1, · · · , pd) ∈ RD×d

{p1, · · · , pd} sont les d vecteurs propres associés aux d plus grandes λj .

6 Projection de tous les points via P s’obtient matriciellement :

C = XP =(c1 · · · cd

)Note : la projection d’un point quelconque x est donnée par t = P>(x − x̄)


Propriétés Des axes factoriels

Propriétés des axes factoriels

Les valeurs propres de Σ sont positives car Σ est une matricesemi-definie positive

Le nombre d’axes factoriels est égal au nombre de valeurs propresnon-nulles de Σ.

La variance expliquée par l’axe factoriel pk (homogène à une inertie)s’écrit Ik = p>k Σpk = p

>k λkpk = λk .

La variance totale des axes factoriels est I =∑d

k=1 λk

Pourcentage de variance expliquée par les d premiers axes∑dk=1 λk∑Dk=1 λk

· 100


Propriétés Des axes factoriels

Propriétés des axes factoriels

Choix de la dimension d du sous-espaceValidation croiséeDétection "d’un coude" sur le graphique des valeurs propresOn choisit d de sorte qu’un pourcentage fixé (par exemple 95%) de lavariance soit expliqué

1 2 3 4 5 6 7 8 9 10 11 12 13 14 150

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8Spectre de la matrice de variance−covariance

0 5 10 150

10

20

30

40

50

60

70

80

90

100

Pourcentage de variance cumulee


Propriétés De l’ACP

Propriétés de l’ACP

Les composantes principales {ci}i=1,··· ,D sont centrées etnon-corrélées ie

cov(ci , ck) = 0 si i 6= k

cov(ci , ck) =1N

c>i ck =1N

p>i X>Xpk = p>i Σpk = p

>i (pkλk) = 0

Soit ck = Xpk , le vecteur représentant la projection de X sur le k-ièmeaxe pk . La variance de la composante principale ck est

1N

c>k ck =1N

p>k X>Xpk = p>k Σpk = p

>k λkpk = λk


Propriétés De l’ACP

Exemple des données iris : xi ∈ R4

45

67

8

2

3

4

50

2

4

6

8

Représentation 3D Corrélation entre les variables

1 2 3 4

0.5

1

1.5

2

2.5

3

3.5

4

4.5 −0.4

−0.2

0

0.2

0.4

0.6

0.8

1

−4 −2 0 2 4−1.5

−1

−0.5

0

0.5

1

1.5

Composante principale 1

Com

posante

princip

ale

2

Projection en 2D par ACP


Propriétés Réduction de dimension

Réduction de la dimensionalité

ACP ≡ représenter les données dans un espace de dim. réduite.

La nouvelle base de représentation est donnée par la matrice P .Chaque vecteur de cette base est combinaison linéaire des vecteurs dela base originale. P vérifie P>P = I .

C = XP : matrice des composantes principales qui est en fait lamatrice de projections de tous les xi sur les axes factoriels.

Reconstruction des xi à partir des composantes principalesxi est reconstruit par x̂i = Pti + x̄ avec ti = P>xi .On déduit que la matrice des données reconstruites est

X̂ = CP> + 1N ⊗ x̄> ou x̂i =d∑

k=1

Ci ,kpk + x̄

Note : un point quelconque projeté t est reconstruit par x̂ = Pt + x̄



Réduction de la dimensionalité

Si q = d , c’est à dire que le nouveau sous-espace de représentationest égale à l’espace original alors

X̂ = X

Erreur d’approximation sur un sous-espace vectoriel de dimension d

Eq =1N

N∑i=1

||xi − x̂ (d)i ||2 =

D∑i=d+1

λi

L’analyse en composantes principale est un outil de visualisation desdonnées ...... et permet de faire de la reduction de la dimensionalité.



Exemple : données USPS

Caractères manuscripts sous forme d’images 16× 16Chaque image est transformée en un vecteur de dimension 256On a pris ici des ”3” et des ”8” (quelques exemples ci-dessous)

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

Moyenne

5 10 15

2

4

6

8

10

12

14

16

Corrélation entre les variables

50 100 150 200 250

50

100

150

200

250 −0.5

0

0.5

1



Exemple : données USPS

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

Figure: Reconstructionavec d = 2 composantes

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

5 10 15

2

4

6

8

10

12

14

16

Figure: Reconstructionavec d = 50 composantes

−10 −5 0 5 10−10

−5

0

5

10

Composante principale 1

Co

mp

osa

nte

prin

cip

ale

2

Projection en 2D par ACP

3

8


IntroductionACPPrincipeFormulation mathématique et résolution

AlgorithmePropriétésDes axes factorielsDe l'ACPRéduction de dimension

Analyse en composantes principales · 2014. 9. 17. · Onaprisicides”3” etdes”8”...

Documents

Transcript of Analyse en composantes principales · 2014. 9. 17. · Onaprisicides”3” etdes”8”...