Quelques rappels utiles pour l’analyse de données multivariées

34
Quelques rappels utiles pour l’analyse de données multivariées Chimiométrie [LCHM1320]

Transcript of Quelques rappels utiles pour l’analyse de données multivariées

Page 1: Quelques rappels utiles pour l’analyse de données multivariées

Quelques rappels utiles pour l’analyse dedonnées multivariées

Chimiométrie [LCHM1320]

Page 2: Quelques rappels utiles pour l’analyse de données multivariées

Rappels▶ Eléments de calcul matriciel▶Notion de distances entre objets▶ Visualisation des données et statistiques simples

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 2

Page 3: Quelques rappels utiles pour l’analyse de données multivariées

Eléments de calcul matriciel

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 3

Page 4: Quelques rappels utiles pour l’analyse de données multivariées

Motivation et plan du chapitreMotivation

Quand un outil statistique implique plus de deux variables, il devient très difficile de décrire mathématiquement les méthodes à l’aide de notations mathématiques simples. Les notations matricielles et le calcul matriciel (ou algèbre linéaire) fournissent une approche élégante pour écrire les formules et développements mathématiques liés aux outils de statistique multivariée.

Plan du chapitre▷ Notion de matrice et matrices particulières▷ Opérations sur les matrices▷ Décomposition spectrale d’une matrice▷ Matrice de corrélation et de variance covariance▷ Ecriture de la régression linéaire simple sous forme matricielle

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 4

Page 5: Quelques rappels utiles pour l’analyse de données multivariées

La matrice = l’élément de base du chimiomètre

XTaille: (n x m)

=𝑥!! ⋯ 𝑥!"⋮ ⋱ ⋮𝑥#! ⋯ 𝑥#"

m variables

n observations

11

Vecteur colonne 𝒙!

j

i

Vecteur ligne 𝒙"Élément matriciel 𝑥"!

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 5

Page 6: Quelques rappels utiles pour l’analyse de données multivariées

Définition de matriceUne matrice A de taille (n x m) est un tableau de nombres rectangulaire formé de n

lignes et m colonnes.

A est une matrice (2 x 3)

aij est l’élément se trouvant à la lignei et à la colonne j de A.

Matrice carrée : n = m Matrice carrée (2 x 2) :

Vecteur colonne (n x 1) Vecteur ligne (1 x m)

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 6

𝑨 = 1 4 −13 −2 6

𝑨 =𝑎## 𝑎#$ 𝑎#%𝑎$# 𝑎$$ 𝑎$%

𝐀 = 3 1−2 5

𝑨 =43−2 𝑨 = 2 4 −3

Page 7: Quelques rappels utiles pour l’analyse de données multivariées

Matrices carrées particulièresMatrice symétrique : aij=aji

Matrice diagonale = matrice carrée telle que aij= 0 (i¹j)

Matrice identité In= matrice carrée (n x n) telle que aii=1 et aij=0 (i¹j)

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 7

𝑨 =1 4 −14 −2 6−1 6 3

𝑨 =1 0 00 4 00 0 10

𝑰% =1 0 00 1 00 0 1

Page 8: Quelques rappels utiles pour l’analyse de données multivariées

Opérations sur les matrices (1)Transposée A’ ou At d’une matrice A : aij’ = aji

Somme de deux matrices de mêmes tailles (m x n)

(A+B)ij =aij+bij

Multiplication d’une matrice par un scalaire

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 8

𝑨 = 1 4 −13 −2 6 ⟹ 𝑨& =

1 34 −2−1 6

𝑨 = 1 4 −13 −2 6 , 𝑩 = −2 5 1

−3 1 3 ⟹ 𝑨 + 𝑩 = −1 9 00 −1 9

𝑨 = 1 4 −13 −2 6 ⟹ 3 × 𝑨 = 3 12 −3

9 −6 18

Page 9: Quelques rappels utiles pour l’analyse de données multivariées

Opérations sur les matrices (2)Multiplication d’une matrice A (m x n) avec B (n x p)

C = A x B est une matrice (m x p)

A : (m x n) B : (n x p)

C : (m x p)

njinjiji

n

kkjikij ba...bababa c +++== å

=2211

1

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 9

𝑨 =1 34 −2−1 6

𝑩 = 3 1−2 5

C est (3 x 2)

𝑪 = 𝑨×𝑩 =−3 1616 −6−15 29

Page 10: Quelques rappels utiles pour l’analyse de données multivariées

Opérations sur les matrices (2)Multiplication matricielle : exemple

𝑨 =1 34 −2−1 6

𝑩 = 3 1−2 5

A x B

Page 11: Quelques rappels utiles pour l’analyse de données multivariées

Inverse d’une matrice et matrice orthogonaleL’inverse de la matrice carrée A de taille (n x n) est la matrice A-1 de même taille

telle que : A´A-1 = In = A-1´A

Quelques remarques ▷ Rien a été dit sur la méthode à utiliser pour trouver la matrice inverse.▷ Si une matrice n’a pas d’inverse on dit qu’elle est une matrice singulière. C’est le cas quand

une ou plusieurs colonnes de la matrice sont des combinaisons linéaires des autres.▷ Une matrice orthogonale est une matrice telle que A-1 = A’

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 11

𝑨 = 1 −2−3 7 ⟹ 𝑨:! = 7 2

3 1car

𝑨×𝑨:! = 1 −2−3 7 × 7 2

3 1 = 𝑨:!× 𝑨 = 7 23 1 × 1 −2

−3 7

Page 12: Quelques rappels utiles pour l’analyse de données multivariées

Norme▶Norme d’un vecteur x (n x 1): ▷ = la longueur du vecteur dans l’espace. Elle est directement liée au produit scalaire

𝒙 = 𝒙!𝒙 = ∑"#$% 𝑥"&

▶Norme d’une matrice X (n x m) (= norme de Frobenius) :

𝑿 = 2$'"'%$'(')

𝑥"(&

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 12

Page 13: Quelques rappels utiles pour l’analyse de données multivariées

Décomposition spectrale d’une matriceDécomposition en valeurs propres et vecteurs propres

Soit une matrice carrée A de taille (m x m)Il existe une matrice orthogonale P et une matrice diagonale L telles que

A = PL P’P est la matrice des vecteurs propres et L la matrice des valeurs propresExemple

Décomposition en valeurs singulièresSoit une matrice X de taille (n x m)Il existe des matrices orthogonales P (m x m) et Q (n x n) et une matrice bloc diagonale S (n x m) des valeurs singulières telles que

X = QSP’P est la matrice des vecteurs propres de X’X et S comprend les racines carrées des valeurs propres de X’X. On a alors X’X = PS’SP’ = PLP’

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 13

𝑨 = 25.5 99 12 = 𝑷𝜦𝑷! = 0.894 −0.447

0.447 0.89430 00 7.5

0.894 0.447−0.447 0.894

Page 14: Quelques rappels utiles pour l’analyse de données multivariées

Matrice de variance covariance et matrice de corrélation

Soit X une matrice (n x m) comprenant

les valeurs de m variables x1, x2,… xm pour n individus.Exemple : n=150 Iris et m=4 caractéristiques (longsep, largsep…)

On peut définir la matrice (m x m) de variance-covariance de X comprenant les variances des xi sur la diagonale et les covariances hors de la diagonale et la matrice des corrélations.

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 14

𝑟(𝒙;, 𝒙<)

cov(𝒙;, 𝒙<)var(𝒙<)

Page 15: Quelques rappels utiles pour l’analyse de données multivariées

Décomposition spectrale de la matrice de variance covariance

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 15

Si on applique une décomposition en valeurs et vecteurs propres à une matrice de variance-covariance, les vecteurs propres donnent les directions des axes de l’ellipsoïde englobant les données et les valeurs propres sont proportionnelles aux racines carrées des longueurs de ses axes.

Exemple : Iris (versicolor)

Page 16: Quelques rappels utiles pour l’analyse de données multivariées

Rappel de régression linéaire simpleObjectif : Établir une droite pour expliquer une variable Y en fonction d’une

variable X.𝒚 = 𝛽* + 𝛽$𝒙 + 𝝐 avec 𝝐 ~ iN(0,sy.x²)

Méthode d’estimation :Moindres carrés

Droite estimée :

Variances desestimateurs

X

Y

0

1000

2000

3000

4000

5000

6000

7000

8000

0 4 8 12 16 20

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 16

>𝒚 = 𝑏* + 𝑏$𝒙 avec 𝑏* = @𝑦 − 𝑏$�̅� 𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)

∑"#$% 𝑥" − �̅�&

𝑠+!& = 𝑠,..&

1𝑛 +

�̅�&

(𝑛 − 1)𝑠.&𝑠+"& = 𝑠,..&

1(𝑛 − 1)𝑠.&

Page 17: Quelques rappels utiles pour l’analyse de données multivariées

Exemple de régression linéaire simple

X

Y

0

4

8

12

16

20

0 1 2 3 4 5

X Y1 42 123 84 16

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 17

𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)

∑"#$% 𝑥" − �̅� & =165 = 3.2

𝑏* = @𝑦 − 𝑏$�̅� = 10 − 2.5 ∗ 3.2 = 2

�̅� = 2.5 @𝑦 = 10

2"#$

%

𝑥" − �̅� 𝑦" − @𝑦 = 16

2"#$

%

𝑥" − �̅� & = 5

Page 18: Quelques rappels utiles pour l’analyse de données multivariées

Ecriture matricielle du modèle linéaire simpleModèle générique : y = b0 + b1 x + eModèle pour l’observation i : yi = b0 + b1 xi + ei (i=1…n)

Liste des n équations pour les n observations :

On définit :

Expression matricielle du modèle : Y = Xb + e

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 18

𝑦$ = 𝛽* + 𝛽$𝑥$ + 𝜖$𝑦& = 𝛽* + 𝛽$𝑥& + 𝜖&…𝑦% = 𝛽* + 𝛽$𝑥% + 𝜖%

𝒀 =𝑦$𝑦&⋮𝑦%

𝑿 =

11⋮

𝑥$𝑥&⋮

1 𝑥%

𝜷 = 𝛽*𝛽$

𝝐 =

𝜖$𝜖&⋮𝜖%

(n x 1) (n x 2) (2 x 1) (n x 1)

Page 19: Quelques rappels utiles pour l’analyse de données multivariées

ExempleModèle théorique :

Y = Xb + eExemple :

úúúú

û

ù

êêêê

ë

é

=úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

=

úúúú

û

ù

êêêê

ë

é

=

ne

ee

bb

!

2

1

1

0 ,,

41312111

,

168124

εβXY

X Y1 42 123 84 16

úúúú

û

ù

êêêê

ë

é

+úû

ùêë

é´

úúúú

û

ù

êêêê

ë

é

=

úúúú

û

ù

êêêê

ë

é

=+=

ne

ee

bb

!

2

1

1

0

41312111

168124

εXβY

410

310

210

110

4163821214

ebbebbebbebb

++=++=++=++=

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 19

avec : 𝒀 =𝑦$𝑦&⋮𝑦%

𝑿 =

11⋮

𝑥$𝑥&⋮

1 𝑥%

𝜷 = 𝛽*𝛽$

𝝐 =

𝜖$𝜖&⋮𝜖%

Page 20: Quelques rappels utiles pour l’analyse de données multivariées

Expression matricielle des estimateurs

úû

ùêë

é=ú

û

ùêë

é´úû

ùêë

é-

-==ú

û

ùêë

é=

úû

ùêë

éSS

=úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

´úû

ùêë

é=ú

û

ùêë

é-

-=

úû

ùêë

éSSS

=úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

´úû

ùêë

é=

úúúú

û

ù

êêêê

ë

é

=

úúúú

û

ù

êêêê

ë

é

=

-

-

2.32

11640

2.05.05.05.1

)(

11640

168124

43211111

2.05.05.05.1

)(

3010104

41312111

43211111

41312111

168124

1

1

0

1

2

YX'XX'b

YX'XX'

XX'XY

bb

yxy

xxxn

ii

i

ii

i

Les estimateurs b0 et b1 des paramètres 𝛽= et 𝛽! peuvent se calculer par la formule suivante :

b=(X’X)-1X’Y

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 20

Page 21: Quelques rappels utiles pour l’analyse de données multivariées

Visualisation des données et statistiques simplesSource: cours LCHM1381 (2019-2020)

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 21

Page 22: Quelques rappels utiles pour l’analyse de données multivariées

Visualisation des données et stat de base▶ Permet de rapidement voir et explorer les données,

avant l’analyse mutlivariée

▶ Etapes:

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 22

Préparer Visualiser Résumer Interpréter

Préparer unetable des données

Visualiser pargraphiques

Résumer avec chiffres et tables

Tirer des conclusions,documenter

Page 23: Quelques rappels utiles pour l’analyse de données multivariées

Visualisation: variables quantitatives et qualitatives

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 23

Avec variablequantitative

Avec variablequalitative

Variablequantitative

Variablequalitative

Séquentiel (temps)Dot PlotBoxplotHistogramme

Diagramme en barreDiagramme en tarte

Graphe X-Y

Graphe X-Y matriciel

Graphe en points ou box-plot par catégories

Seule

Diagramme en barrepar catégories

Graphe en points ou box-plot par catégories

Préparer Visualiser Résumer Interpréter

Page 24: Quelques rappels utiles pour l’analyse de données multivariées

Box plot : Définition et construction▶Ordonner les données, couper en 4 groupes de 25% des observations

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 24

médiane

75ème percentile

25ème percentile

Maximum (sans outliers)

Minimum (sans outliers)

Outlier (observation < 25th percentile - 1.5 EIQ)

01000

2000

3000

4000

5000

*

••

•••••

•••

••

••••

••••

•••

••

••••

••

••••

••

•••

••

1.5 EIQ

Ecart inter quartiles

1.5 EIQ25%

25%25%

25%

Page 25: Quelques rappels utiles pour l’analyse de données multivariées

Visualisation de deux variables quantitatives▶ Graphique x-y (simple) ou nuage de points (simple x-y graph, scatterplot)▶ Graphique x-y (multiple) ou graphique matriciel (multiple x-y graph)

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 25

Page 26: Quelques rappels utiles pour l’analyse de données multivariées

Analyse exploratoire: Résumer les données

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 26

Préparer Visualiser Résumer Interpréter

Moyenne, médiane,mode,écart-type, EIQ

Table de fréquences

Coefficient de corrélation(Pearson ou autre)

Cramer fCoefficient de correlation des rangs

Table de contingenceCramer f

Avec variablequantitative

Avec variablequalitativeSeule

Variablequantitative

Variablequalitative

Cramer fCoefficient de correlation des rangs

Page 27: Quelques rappels utiles pour l’analyse de données multivariées

Les indices de position▶ De combien les données varient-elles autour du centre ?

Etendue - Range Ecart inter-quartiles

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 27

55 60 655045

Etendue = max(xi) - min(xi) EIQ = q0.75 - q0.25

25% obs 25% 25% 25%Etendue EIQ

q0.25 q0.5 q0.75

55 60 655045

Box Plot

Page 28: Quelques rappels utiles pour l’analyse de données multivariées

Les indices de position▶Objectif: donner une valeur « centrale » pour un ensemble de donnéesMoyenne arithmétique Médiane Mode

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 28

8 9 10 11 12 13 14

• Souvent utilisée • Centre de gravité des données• Sensible aux outliers• Efficace pour données ‘propres’

8 9 10 11 12 13 14

50% of obs. 50% of obs

« milieu » = q0.5=13

• Résistante aux outliers• S’appelle aussi 50ème percentile• Moins efficace pour données ‘propres’• Utile pour distributions asymétriques

Comparer la moyenne et la médiane et essayer d’expliquer les différences

8 9 10 11 12 13 14

valeur (classe) laplus fréquente= 14

• Facile à comprendre • Parfois ambigu • Moins utilisé

>𝒙 =1𝑛@"'#

(

𝑥" = 12

Page 29: Quelques rappels utiles pour l’analyse de données multivariées

Les indices de dispersionVariance :

▷ Utile pour dérivations mathématiques

Ecart-type (standard deviation) :

▷ Utile pour interprétation (unités de départ)

Erreur-type (standard error) :

▷ précision de l’estimateur de la moyenne

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 29

55 60 655045X

55 60 655045

92.72 == ss

nssX /=

𝑠$ =1

𝑛 − 1@"'#

($ =

1𝑛 − 1

@"'#

(

𝑥" − �̅� $

= 62.667

Page 30: Quelques rappels utiles pour l’analyse de données multivariées

Le coefficient de corrélation▶ Le coefficient de corrélation r de Pearson mesure la relation

linéaire existant entre deux variables quantitatives x et y.▷ Si x1,..xn et y1,.. ,yn sont deux échantillons observés simultanément

sur x et y :

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 30

1»r

1-»r

01 <<- r

10 << r

0»r

xx

xx

x

x

x

x x

xx

x

xxx

x

x

x

x

Gaffe !

0»r

0>r

𝑟 =∑EF!# (𝑥E − �̅�)(𝑦E − *𝑦)

∑EF!# 𝑥E − �̅� G ∑EF!

# 𝑦E − *𝑦 G

covariance = $%/$

∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)

Page 31: Quelques rappels utiles pour l’analyse de données multivariées

Notion de distances entre objets

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 31

Page 32: Quelques rappels utiles pour l’analyse de données multivariées

Distances EuclidiennesSoient deux objets (vecteurs colonne) x1=(x11, x12, … , x1m)’ et x2=(x21, x22, … , x2m)’

dans Rm.

▶ Distance euclidienne simple :

𝑑 𝒙$, 𝒙& = 2(#$

)𝑥$( − 𝑥&(

& = 𝒙$ − 𝒙& ! 𝒙$ − 𝒙&

Notion de métrique 𝑴 : 𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙& !𝑴 𝒙$ − 𝒙&=> pour la distance euclidienne simple, 𝑴 = 𝑰)

▶ Distance euclidienne standardisée :

𝑑 𝒙$, 𝒙& = ∑(#$) ."#/.$#$

0#$ = 𝒙$ − 𝒙& !𝑫 𝒙$ − 𝒙& avec 𝑫 = diag(1/𝒔$&, … , 1/𝒔)& )

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 32

Page 33: Quelques rappels utiles pour l’analyse de données multivariées

Distances Euclidiennes▶ Distance de Mahalanobis :

𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙𝟐 !𝑺/$ 𝒙$ − 𝒙& avec 𝑺 la matrice de variance-covariance des mvariables

▶ Distance Euclidienne généralisée (expression générale des trois distances) :𝑑 𝐱$, 𝒙& = 𝐱$ − 𝐱& !𝐐 𝐱$ − 𝐱& avec 𝐐 une matrice carrée définie positive

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 33

Iso-courbes de distances euclidienne (gauche) et de Mahalanobis (droite) depuis l’origine (0,0)

Page 34: Quelques rappels utiles pour l’analyse de données multivariées

Autres mesures de distance, (dis)similaritéDistance de Manhattan :

𝑑 𝒙$, 𝒙& = ∑(#$) 𝑥$( −𝑥&(

Coefficient de corrélation de Pearson := mesure de similarité

𝑑 𝒙$, 𝒙& = 234(𝒙",𝒙$)49: 𝒙$ 49: 𝒙"

Distance euclidienne (unique)Distance de Manhattan (plusieurs chemins possibles)

2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 34