Analyse en composantes principales · 2014. 9. 17. · Onaprisicides”3” etdes”8”...
Transcript of Analyse en composantes principales · 2014. 9. 17. · Onaprisicides”3” etdes”8”...
-
Analyse en composantes principales
Gilles Gasso, Stéphane Canu
INSA Rouen - Département ASILaboratoire LITIS 1
17 septembre 2014
1. Ce cours est librement inspiré du cours DM de Alain RakotomamonjyGilles Gasso, Stéphane Canu Analyse en composantes principales 1 / 22
-
Plan
1 Introduction
2 ACPPrincipeFormulation mathématique et résolution
3 Algorithme
4 PropriétésDes axes factorielsDe l’ACPRéduction de dimension
Gilles Gasso, Stéphane Canu Analyse en composantes principales 2 / 22
-
Introduction
Introduction
Objectifs
{xi ∈ RD}i=1,··· ,N : ensemble de N points décrits par D attributs.
Objectifs de l’analyse en composantes principales1 représentation (graphique) des points dans un sous-espace de dimension
d (d Variable (attribut) : x j
Gilles Gasso, Stéphane Canu Analyse en composantes principales 3 / 22
-
Introduction
Les données : description
Données
Soit X la matrice des données (xi ∈ RD) :
X =
x1,1 x1,2 . . . x1,D... ...xN,1 xN,2 . . . xN,D
= x
>1...
x>N
=( x1 x2 . . . xN )>
Statistiques sommaires : moyenne et variance
Moyenne x̄ =(x̄1 x̄2 . . . x̄D
)> avec x̄ j = 1N ∑Ni=1 xi ,j ,Variance des variables var(x j) = 1N
∑Ni=1(xi ,j − x̄ j)2
Gilles Gasso, Stéphane Canu Analyse en composantes principales 4 / 22
-
Introduction
Covariance et Matrice de covariance
Covariance entre variables j et k
cov(x j , xk) =1N
N∑i=1
(xi ,j − x̄ j)(xi ,k − x̄k)
Si covariance grande (en valeur absolue) =⇒ variables j et kdépendantes. Covariance nulle =⇒ variables indépendantes
Matrice de covariance Σ ∈ RD×D
Σ est une matrice symétrique de terme général Σj ,k = cov(x j , xk) :
Σ =1N
N∑i=1
(xi − x̄) (xi − x̄)>
données centrées : Σ = 1N∑N
i=1 xix>i , ou encore Σ =
1N X>X
Gilles Gasso, Stéphane Canu Analyse en composantes principales 5 / 22
-
ACP Principe
Analyse en Composantes Principales
Principe
Soit xi ∈ RD , i = 1, · · · ,N des données centrées.
Objectif : trouver un sous-espace de dimension d ≤ D où projeter lesxi de façon à perdre le moins d’informations possibles
−2 −1 0 1 2 3 4 5 6−2
−1
0
1
2
3
4
5
6
Points
Moyenne
Axe 1
Axe 2
Trouver une “meilleure base orthonormale”de représentation des données parcombinaison linéaire de la base originale.
p1, p2 : vecteurs orthonormés (axes 1 et 2).Projeter les données sur l’espace engendrépar p1 et p2 =⇒ changement de base
Quel est le meilleur sous-espace dedimension 1 ?
Gilles Gasso, Stéphane Canu Analyse en composantes principales 6 / 22
-
ACP Principe
Analyse en Composantes PrincipalesObjectifs et hypothèses
X ∈ RN×D : matrice de données centrées.
Objectif ACP : trouver un sous-espace de dimension d ≤ D quipermet d’avoir une représentation réduite de X .
Comment ?
Projection linéaire de xi ∈ RD sur ti ∈ Rd
ti = P>xi avec P =(p1 · · · pd
), pi ∈ RD
P ∈ RD×d : matrice de transformation linéaire
Contrainte : P>P = ILes vecteurs de la nouvelle base sont orthogonaux 2 à 2 c’est-à-direp>j pi = 0 ∀ i 6= j
Gilles Gasso, Stéphane Canu Analyse en composantes principales 7 / 22
-
ACP Principe
Analyse en Composantes Principales
Reconstruction de xi à partir de tiSi d = D, la matrice P est orthogonale
ti = P>xi =⇒ Pti = PP>xi =⇒ xi = Pti
Dans ce cas, pas de réduction de dimension, juste un changement debase et donc pas de perte d’information
d < D (réduction de dimension)Reconstruction de xi par l’approximation
x̂i = Pti ou x̂i = PP>xi
Problématique
Construire P de sorte que l’erreur ‖xi − x̂i‖2 entre le vrai xi et sareconstruction x̂i soit minimale et ceci pour tous les points xi , i = 1, · · · ,N
Gilles Gasso, Stéphane Canu Analyse en composantes principales 8 / 22
-
ACP Formulation mathématique et résolution
Minimisation d’erreur/maximisation variance
Soit Je(P) l’erreur quadratique d’estimation. On a :
Je(P) =1N
N∑i=1
‖xi − x̂i‖2 =1N
N∑i=1
(xi − PP>xi )>(xi − PP>xi )
=1N
N∑i=1
(x>i xi − 2x>i PP>xi + x>i PP>PP>xi )
=1N
N∑i=1
x>i xi −1N
N∑i=1
x>i PP>xi =
1N
N∑i=1
x>i xi −1N
N∑i=1
t>i ti
= trace
(1N
N∑i=1
x>i xi −1N
N∑i=1
ti t>i
)= trace
(1N
N∑i=1
xix>i −1N
N∑i=1
P>xix>i P
)Je(P) = trace (Σ)− trace
(P>ΣP
)pour des données xi centrées
minJe(P) revient à maximiser par rapport à P la variance P>ΣP despoints projetés.
Gilles Gasso, Stéphane Canu Analyse en composantes principales 9 / 22
-
ACP Formulation mathématique et résolution
Axes factoriels et composantes principales
Soit X la matrice des données et p ∈ RD tq ‖p‖ = 1. Soit le vecteurde RN , c1 = Xp1 =
(x>1 p1 . . . x
>N p1
)>.On appelle premier axe factoriel de X le vecteur p1 tel que la variancede Xp1 soit maximale. Le vecteur c1 est appelé première composanteprincipale.
Le k ième axe factoriel est le vecteur pk unitaire (‖pk‖ = 1) tel que lavariance de ck = Xpk soit maximale et que pk soit orthogonal aux k − 1premiers axes factoriels.
Gilles Gasso, Stéphane Canu Analyse en composantes principales 10 / 22
-
ACP Formulation mathématique et résolution
Minimisation de l’erreur quadratique d’estimation
Premier axe factoriel
On cherche le sous espace engendré par p1 tq p>1 p1 = 1.Problème d’optimisation sous contrainte égalité :
minp1
Je(p1) =1N
N∑i=1
x>i xi −1N
N∑i=1
x>i p1p>1 xi avec p
>1 p1 = 1
Simplification de Je(p1)
Je(p1) = −p>1
(1N
N∑i=1
xix>i
)p1 = −p>1 Σp1
Le lagrangien s’écrit
L(p1, λ1) = −p>1 Σp1 + λ1(p>1 p1 − 1)Gilles Gasso, Stéphane Canu Analyse en composantes principales 11 / 22
-
ACP Formulation mathématique et résolution
Minimisation de l’EQE
OptimisationConditions d’optimalité
∇p1L = 0 = −2Σp1 + 2λ1p1 et ∇λ1L = 0 = p>1 p1 − 1
=⇒ Σp1 = λ1p1 et p>1 Σp1 = λ1Interprétation
1 (λ1, p1) représente la paire (valeur propre, vecteur propre) de lamatrice de covariance Σ
2 Je(p1) = −λ1 est la fonctionnelle que l’on cherche à minimiser
SolutionLe premier axe factoriel p1 est le vecteur propre associé à la plus grandevaleur propre de Σ.
Gilles Gasso, Stéphane Canu Analyse en composantes principales 12 / 22
-
ACP Formulation mathématique et résolution
k-ième axe factoriel
LemmeLe sous-espace de dimension k minimisant l’erreur quadratique d’estimationdes données contient nécessairement le sous-espace de dimension k − 1.
Calcul du 2e axe factoriel p2 sachant que p1 est connu
minp2
Je(p2) = −p>2 Σp2
tel que p>2 p2 = 1, p>2 p1 = 0
Interprétation : on cherche un vecteur unitaire p2 qui maximise lavariance p>2 Σp2 et qui soit orthogonal au vecteur p1
ExerciceMontrer que p2 est le vecteur propre associé à λ2, la seconde plus grandevaleur propre de Σ
Gilles Gasso, Stéphane Canu Analyse en composantes principales 13 / 22
-
Algorithme
Algorithme
1 Centrer les données : {xi ∈ RD}Ni=1 −→ {xi = xi − x̄ ∈ RD}Ni=12 Calculer la matrice de covariance Σ = 1N X
>X avec X> =(x1 · · · xN
)3 Calculer la décomposition en valeurs propres {pj ∈ RD , λj ∈ R}Dj=1 de Σ
4 Ordonner les valeurs propres λj par ordre décroissant
5 Nouvelle base de représentation des données :
P = (p1, · · · , pd) ∈ RD×d
{p1, · · · , pd} sont les d vecteurs propres associés aux d plus grandes λj .
6 Projection de tous les points via P s’obtient matriciellement :
C = XP =(c1 · · · cd
)Note : la projection d’un point quelconque x est donnée par t = P>(x − x̄)
Gilles Gasso, Stéphane Canu Analyse en composantes principales 14 / 22
-
Propriétés Des axes factoriels
Propriétés des axes factoriels
Les valeurs propres de Σ sont positives car Σ est une matricesemi-definie positive
Le nombre d’axes factoriels est égal au nombre de valeurs propresnon-nulles de Σ.
La variance expliquée par l’axe factoriel pk (homogène à une inertie)s’écrit Ik = p>k Σpk = p
>k λkpk = λk .
La variance totale des axes factoriels est I =∑d
k=1 λk
Pourcentage de variance expliquée par les d premiers axes∑dk=1 λk∑Dk=1 λk
· 100
Gilles Gasso, Stéphane Canu Analyse en composantes principales 15 / 22
-
Propriétés Des axes factoriels
Propriétés des axes factoriels
Choix de la dimension d du sous-espaceValidation croiséeDétection "d’un coude" sur le graphique des valeurs propresOn choisit d de sorte qu’un pourcentage fixé (par exemple 95%) de lavariance soit expliqué
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8Spectre de la matrice de variance−covariance
0 5 10 150
10
20
30
40
50
60
70
80
90
100
Pourcentage de variance cumulee
Gilles Gasso, Stéphane Canu Analyse en composantes principales 16 / 22
-
Propriétés De l’ACP
Propriétés de l’ACP
Les composantes principales {ci}i=1,··· ,D sont centrées etnon-corrélées ie
cov(ci , ck) = 0 si i 6= k
cov(ci , ck) =1N
c>i ck =1N
p>i X>Xpk = p>i Σpk = p
>i (pkλk) = 0
Soit ck = Xpk , le vecteur représentant la projection de X sur le k-ièmeaxe pk . La variance de la composante principale ck est
1N
c>k ck =1N
p>k X>Xpk = p>k Σpk = p
>k λkpk = λk
Gilles Gasso, Stéphane Canu Analyse en composantes principales 17 / 22
-
Propriétés De l’ACP
Exemple des données iris : xi ∈ R4
45
67
8
2
3
4
50
2
4
6
8
Représentation 3D Corrélation entre les variables
1 2 3 4
0.5
1
1.5
2
2.5
3
3.5
4
4.5 −0.4
−0.2
0
0.2
0.4
0.6
0.8
1
−4 −2 0 2 4−1.5
−1
−0.5
0
0.5
1
1.5
Composante principale 1
Com
posante
princip
ale
2
Projection en 2D par ACP
Gilles Gasso, Stéphane Canu Analyse en composantes principales 18 / 22
-
Propriétés Réduction de dimension
Réduction de la dimensionalité
ACP ≡ représenter les données dans un espace de dim. réduite.
La nouvelle base de représentation est donnée par la matrice P .Chaque vecteur de cette base est combinaison linéaire des vecteurs dela base originale. P vérifie P>P = I .
C = XP : matrice des composantes principales qui est en fait lamatrice de projections de tous les xi sur les axes factoriels.
Reconstruction des xi à partir des composantes principalesxi est reconstruit par x̂i = Pti + x̄ avec ti = P>xi .On déduit que la matrice des données reconstruites est
X̂ = CP> + 1N ⊗ x̄> ou x̂i =d∑
k=1
Ci ,kpk + x̄
Note : un point quelconque projeté t est reconstruit par x̂ = Pt + x̄
Gilles Gasso, Stéphane Canu Analyse en composantes principales 19 / 22
-
Propriétés Réduction de dimension
Réduction de la dimensionalité
Si q = d , c’est à dire que le nouveau sous-espace de représentationest égale à l’espace original alors
X̂ = X
Erreur d’approximation sur un sous-espace vectoriel de dimension d
Eq =1N
N∑i=1
||xi − x̂ (d)i ||2 =
D∑i=d+1
λi
L’analyse en composantes principale est un outil de visualisation desdonnées ...... et permet de faire de la reduction de la dimensionalité.
Gilles Gasso, Stéphane Canu Analyse en composantes principales 20 / 22
-
Propriétés Réduction de dimension
Exemple : données USPS
Caractères manuscripts sous forme d’images 16× 16Chaque image est transformée en un vecteur de dimension 256On a pris ici des ”3” et des ”8” (quelques exemples ci-dessous)
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
Moyenne
5 10 15
2
4
6
8
10
12
14
16
Corrélation entre les variables
50 100 150 200 250
50
100
150
200
250 −0.5
0
0.5
1
Gilles Gasso, Stéphane Canu Analyse en composantes principales 21 / 22
-
Propriétés Réduction de dimension
Exemple : données USPS
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
Figure: Reconstructionavec d = 2 composantes
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
5 10 15
2
4
6
8
10
12
14
16
Figure: Reconstructionavec d = 50 composantes
−10 −5 0 5 10−10
−5
0
5
10
Composante principale 1
Co
mp
osa
nte
prin
cip
ale
2
Projection en 2D par ACP
3
8
Gilles Gasso, Stéphane Canu Analyse en composantes principales 22 / 22
IntroductionACPPrincipeFormulation mathématique et résolution
AlgorithmePropriétésDes axes factorielsDe l'ACPRéduction de dimension