Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de...

53
Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une droite de régression 1.1.2. Trois façons de résumer un nuage de point 1.2. Coefficient de corrélation 1.2.1. Définition 1.2.2. Critères caractérisant la relation entre deux caractères 1.2.3. Calcul du coefficient de corrélation de Pearson 1.2.4. Significativité d’une relation 1.2.5. Caractères trompeurs d’une relation 1.2.6. Corrélation partielle 2 – Les analyses multidimensionnelles 2.1. Introduction 2.2. Etapes d’une analyse multidimensionnelle 2.3. Les principales analyses multidimensionnelles 2.3.1. L’ACP 2.3.2. L’analyse factorielle (AF)

Transcript of Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de...

Page 1: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

Séminaire II : Corrélation et analyse multidimensionnelle

Plan 1 – Corrélation 1.1. Notion de droite de régression

1.1.1. Calcul des coefficients d’une droite de régression1.1.2. Trois façons de résumer un nuage de point

1.2. Coefficient de corrélation1.2.1. Définition1.2.2. Critères caractérisant la relation entre deux caractères1.2.3. Calcul du coefficient de corrélation de Pearson1.2.4. Significativité d’une relation1.2.5. Caractères trompeurs d’une relation1.2.6. Corrélation partielle

2 – Les analyses multidimensionnelles2.1. Introduction2.2. Etapes d’une analyse multidimensionnelle2.3. Les principales analyses multidimensionnelles

2.3.1. L’ACP2.3.2. L’analyse factorielle (AF)2.3.3. Quelques mots sur les analyses confirmatoires

Page 2: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Problématique générale = étudier la relation qui existe (ou pas !) entre 2 variables (une variable x et une variable y). La relation est exprimée par un coefficient de corrélation.

e.g, Corrélation entre 2 épreuves signifie qu’il y a une dimension psychologique partagée par ces 2 épreuves

Page 3: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Notion de droite de régressionsujets poids taille sujets poids taille

S1 64 173 S21 70 175

S2 61 171 S22 75 179

S3 62 174 S23 71 172

S4 84 182 S24 72 171

S5 56 170 S25 81 184

S6 59 171 S26 78 181

S7 68 179 S27 79 180

S8 74 175 S28 68 175

S9 71 176 S29 65 172

S10 59 165 S30 66 176

S11 63 169 S31 63 170

S12 81 183 S32 75 180

S13 68 178 S33 64 175

S14 69 177 S34 82 186

S15 74 180 S35 67 175

S16 73 177 S36 71 179

S17 68 169 S37 69 176

S18 59 165 S38 81 180

S19 60 172 S39 59 168

S20 80 185 S40 65 172

Page 4: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Notion de droite de régression

Il est possible de représenter graphiquement ces données au moyen de 2 axes dans un plan : axe des x et axe des y. Chaque point correspond à l’un des couples (x, y) du tableau précédent = nuage de points

160

165

170

175

180

185

190

50 55 60 65 70 75 80 85 90

Taille

Poids

Page 5: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

Déterminer la droite d’ajustement qui rend le mieux compte de cette distribution

1 – Corrélation

Notion de droite de régression

Méthode des moindres carrés = déterminer les coefficient a et b de l’équation y=ax + b

Déterminer une droite dont le tracé consistera à minimiser l’écart au carré des distances de

chaque point par rapport à cette droite. On cherche à minimiser la somme des carrés des

écarts (= variance) entre les valeurs estimées et les valeurs observées de la variable

dépendante

160

165

170

175

180

185

190

55 60 65 70 75 80 85 90

Page 6: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

55 60 65 70 75 80 85

poids

165

170

175

180

185

190

taill

e

R-deux linéaire = 0,751

Déterminer la droite d’ajustement qui rend le mieux compte de cette distribution

1 – Corrélation

Notion de droite de régression

Méthode des moindres carrés = déterminer les coefficient a et b de l’équation y=ax + b

Déterminer une droite dont le tracé consistera

à minimiser l’écart au carré des distances de

chaque point par rapport à cette droite. On

cherche à minimiser la somme des carrés des

écarts (= variance) entre les valeurs estimées

et les valeurs observées de la variable

dépendante

Page 7: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

Déterminer la droite d’ajustement qui rend le mieux compte de cette distribution

1 – Corrélation

Notion de droite de régression

Méthode des moindres carrés = déterminer les coefficient a et b de l’équation y=ax + b

Déterminer une droite dont le tracé consistera

à minimiser l’écart au carré des distances de

chaque point par rapport à cette droite. On

cherche à minimiser la somme des carrés

des écarts (= variance) entre les valeurs

estimées et les valeurs observées de la

variable dépendante

R2 = 0,8477

19

21

23

25

27

29

31

8 10 12 14 16x1

M1y1

P1ax1+b

M3

M4

M2

M5

Page 8: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Notion de droite de régression : calcul des coefficients a et b

Exemple simple de calcul des coefficients a et b dans l’équation y=ax+bSi on a 3 points avec pour coordonnées respectives (A= 2, 5 ; B= 3, 7 et C= 4, 10), pour calculer a et b on cherche deux équations

2x

xbxya

N

xayb

D’où deux équations à résoudre :29a + 9b = 719a + 3b = 22

D’où a = 2.5 et b = - 0,167L’équation de la droite est donc y = 2,5x – 0,167

Dans l’exemple :

xy = (2*5) + (3*7) + (4*10) = 71

x = 2 + 3 + 4 = 9

2x = 4 + 9 + 16 = 29

y = 5 + 7 + 10 = 22N = 3

29

971 ba

3

922 ab

Page 9: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Notion de droite de régression : résumé d’un nuage de point

Droite exprimant la relation moyenne entre X et Y

Droite exprimant X en fonction de Y

Droite exprimant Y en fonction de X

Page 10: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation

Coefficient de corrélation = Mesure du degré de dépendance entre deux

phénomènes de nature statistique ou probabiliste.

On dit qu'il existe une relation entre X et Y si l'attribution des modalités de X

et de Y ne se fait pas au hasard, c'est à dire si les valeurs de X dépendent

des valeurs de Y ou si les valeurs de Y dépendent des valeurs de X. Dire que

Y dépend de X signifie que la connaissance des valeurs de X permet de

prédire, dans une certaine mesure, les valeurs de Y

Page 11: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : définition

Relation linéaire : suppose qu’il existe une relation monotone entre les x et

les y. Evaluée à l’aide du coefficient de corrélation r de Bravais Pearson Le r de Bravais Pearson peut prendre toutes les valeurs réelles comprises

dans l’intervalle [-1, 1]. Plus la valeur absolue de r est proche de 1, plus il y a de conformité avec le

modèle linéaire Un indice positif indique que les deux variables « évoluent » dans le même

sens Un indice négatif indique qu’il existe une relation inverse entre les variables x

et y  Le coefficient de corrélation est un indice indépendant de la moyenne Permet par exemple de déterminer le classement d’un individu sur deux test

Page 12: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : critères

Relation entre deux caractères diagramme de corrélation (diagramme croisant

les modalités de X et de Y). Chaque élément i est représenté par le point de

coordonnées (Xi,Yi). L'ensemble des points forme un nuage de points dont la forme

permet de caractériser la relation à l'aide de trois critères :

Intensité de la relation

Forme de la relation

Sens de la relation

Page 13: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : critères

Intensité de la relation

Absence de relation Relation faible Relation forte

Page 14: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : critères

Forme de la relation

relation non-linéaire et non-monotone

relation non-linéaire et monotone

relation linéaire (toujours monotone)

Page 15: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : critères

Sens de la relation

relation linéaire positive

relation linéaire négative

relation non linéaire positive

relation non linéaire négative

Page 16: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : calcul

Ce coefficient permet de détecter la présence ou l'absence d'une relation

linéaire entre deux caractères quantitatifs continus. Pour calculer ce

coefficient il faut tout d'abord calculer la covariance. La covariance est la

moyenne du produit des écarts à la moyenne.

NB : La covariance de deux variables réelles permet de mesurer la dépendance linéaire des variables, c´est à dire la façon dont deux variables X et Y varient simultanément. Globalement, lorsque X croît (ou décroît) et Y croît (ou décroît), la covariance est positive. Covariance nulle = indépendance des variables

Page 17: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : calcul

Le coefficient de corrélation linéaire de deux caractères X et Y est égal à

la covariance de X et Y divisée par le produit des écarts-types de X et Y

22 )()(

)])([(

YYXX

YYXXr

])(][)([

))((2222 YYnXXn

YXXYnr

Le coefficient de corrélation peut se calculer directement à l’aide des formules suivantes :

Page 18: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : calcul et limites

En principe, le coefficient de Pearson n'est applicable que pour mesurer la

relation entre deux variables X et Y ayant une distribution de type gaussien et

ne comportant pas de valeur exceptionnelles. Si ces conditions ne sont pas

vérifiées (cas fréquent ...) l'emploi de ce coefficient peut aboutir à des

conclusions erronées sur la présence ou l'absence d'une relation.

On notera également que l'absence d'une relation linéaire ne signifie pas

l'absence de toute relation entre les deux caractères étudiés.

Page 19: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : significativité et validité d’une relation

Coefficient de corrélation : en lui-même, il n’est qu’une étape

exploratoire de l’analyse.

Il doit être validé par un test de la significativité de la relation et par

une vérification de la validité de la relation (absence de biais).

Page 20: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : significativité d’une relation

Le coefficient de corrélation ne renseigne pas sur le degré de significativité

d'une relation car celle-ci dépend également du nombre d'observations.

NB : il faut connaître l’échantillon pour connaître la significativité (ensuite table)

Exemple :

- Un r de + 0.6 établi sur un échantillon de 10 personnes n'est pas significatif au

seuil de 5%  (il peut s'agir d'un hasard).

- Un r de + 0.2 établi sur un échantillon de 200 personnes est  significatif au seuil

de 5%  (la taille de l'échantillon fait que la relation, bien que faible  a peu de

chances d'être due au hasard).

Page 21: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : significativité d’une relation

Pour déterminer si une relation est significative, il faut procéder à un

test d'hypothèse :

(1) H0 : il n'y a pas de relation entre les deux caractères X et Y

(2) On se fixe un risque d'erreur pour le rejet de H0 (exemple

alpha=5%)

(3) On calcule la valeur absolue du coefficient de corrélation r(X,Y)

dans la table correspondante (Pearson ou Spearman)

(4) On calcule la valeur théorique r(alpha, N.) de ce coefficient qui

n'est dépassé que dans alpha % des cas

(5) On teste H0 vraie si r(alpha, d.d.l.) > abs[ r(X,Y) ]

(6) On accepte ou rejette H0

Page 22: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : validité d’une relation

Le fait que le test de significativité permet de rejeter l'hypothèse

d'indépendance ne doit pas amener à conclure trop vite à l'existence d'une

relation. Celle-ci peut souvent être la conséquence de biais liés à un

mauvais respect des conditions d'utilisation des coefficients de corrélation.

Ici le coefficient de corrélation est nul,

pourtant il y a un lien entre les deux

variables. Lien qui n’est pas une relation de

linéarité

Page 23: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : validité d’une relation

Influence d’une valeur exceptionnelle

Dans cet exemple, le calcul du coefficient de

corrélation de Pearson aboutirait à l'idée qu'il

existe une corrélation positive (+0.54) mais non

significative (au seuil de 5%) entre les deux

variables cette corrélation positive résulte

uniquement de l'influence du point exceptionnel

(9,9). Si l'on retire ce dernier, on obtient une

corrélation négative (-0.67) et significative (au

seuil de 5%) entre les deux variables.

Page 24: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : validité d’une relation

Emboîtement de relation et composante

d’échelle

Dans cet exemple il n'est pas faux de conclure à

l'existence d'une relation positive significative

(+0.75) mais celle-ci est le résultat des

différences de comportement de trois sous

populations à l'intérieur desquelles la relation est

au contraire rigoureusement négative. Il existe

donc une composante d'échelle dans la relation

observée et les conclusions seront très variables

selon l'échantillon considéré.

Page 25: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : résumé

a) L’objectif est d’étudier les relations entre deux mesures (2

VD). Evaluer l’existence d’une part de variance commune à 2

tests. Permettre de prédire les scores à un test en

connaissant les scores à un autre test qui lui est corrélé.

Attention, l’existence d’une corrélation entre deux tests ne

signifie pas que les deux tests mesurent exactement la même

dimension psychologique

b) La moyenne (indice de tendance centrale) et la corrélation

sont deux indices indépendants.

Page 26: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

1 – Corrélation

Coefficient de corrélation : résumé

d) L’interprétation de la corrélation dépend de la taille de

l’échantillon.

e) Une corrélation nulle ne signifie pas l’absence de

relation, mais uniquement qu’il n’y a pas de relation linéaire

(il peut y avoir une relation quadratique, exponentielle, etc.)

f) Pour connaître le pourcentage de variance expliquée

d’une variable Y par une variable X : r2*100 (coefficient de

détermination)

Page 27: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Introduction

Analyses statistiques dont le but est de simplifier, décrire, résumer les

groupes de données complexes (i.e. généralement sur des matrices de

corrélation ou covariances à plusieurs variables) en fournissant des

facteurs d’organisation des données initiales.

Permet la représentation simultanée de plusieurs dimensions à partir de

facteurs synthétiques.

Page 28: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Introduction sujets poids taille

S1 64 173

S2 61 171

S3 62 174

S4 84 182

S5 56 170

S6 59 171

S7 68 179

S8 74 175

S9 71 176

S10 59 165

S11 63 169

S12 81 183

S13 68 178

S14 69 177

S15 74 180

S16 73 177

S17 68 169

S18 59 165

S19 60 172

S20 80 185

poids taille

moyenne 67,7 174,6

écart type 8,1 5,7

coeff. corrélation 0,86

2 variables = 5 nombres nécessaires pour résumer les données (2 indices de tendance centrale; 2 indices de dispersion et un indice d’association entre ces 2 variables).

Pour p variables, on doit calculer p indices de tendance centrale, p

indices de dispersion, mais aussi (p2-p)/2 indices d’association entre

ces variables (si 10 mesures = 10 indices de tendance centrale, 10

indices de dispersion et (102-10)/2 indices d’association), donc 45

nombres pour résumer les données.

Page 29: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Introduction : vocabulaire / définitions

Facteur :Dimension latente, non directement observable, que l’on tente d’étudier en recueillant un certain nombre de variables censées mesurer cette dimension.

Saturation :Corrélation entre la variable et le facteur (dimension hypothétique). On dit que le facteur sature telles ou telles variables : ce sont les variables qui ont le plus participé à la constitution du facteur ; l’information ainsi contenue dans la dimension extraite a été fournie surtout par ces items.NB. La saturation au carré représente la pourcentage de variance, de la variable (ou item), expliquée par le facteur.

Valeur propre :Part de la variance totale expliquée par un facteur ou importance de chaque facteur dans l’explication des notes du sujet.

Communauté :Part de la variance d’une variable expliquée par l’ensemble des facteurs retenus.

Page 30: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principes et étapes

Principe : en se basant sur la matrice des corrélations ou covariance entre

les diverses variables observées, l’analyse factorielle consiste à rechercher la

part de variance commune (d’information) à ces variables. Il s’agit de

construire une nouvelle variable (construit mathématique) : extraction d’un 1er

facteur qui résume le mieux possible l’information partagée par l’ensemble des

variables.

Après avoir délester les variables de cette 1ère information, l’analyse

réitère l’opération à partir de la variance résiduelle : elle chercher un second

facteur non corrélé au premier (notion d’orthogonalité et d’indépendance),

susceptible d’expliquer la variance restante.

L’opération est réitérée jusqu’à ce que les variables ne présentent plus de

communauté suffisante pour permettre l’extraction d’un nouveau facteur.

Page 31: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principes et étapes

Construire ou sélectionner une batterie d’observations, ou mesures (e.g, un test

d’intelligence)

Sélectionner la population à qui le test va être administré

Calculer la corrélation entre les scores sur toutes les paires de tests = matrice

des corrélations

Analyse factorielle sur la matrice des corrélations 2 tableaux : l’un donnant le

pourcentage de variance expliquée (valeurs propres) et l’autre indiquant l’ensemble

des saturations.

Décider du nombre de facteurs à retenir

Décider si une rotation est nécessaire et quelle rotation (dépend des hypothèses

de recherche)

Interpréter les facteurs

Page 32: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP

Identifier des facteurs indépendants, qui rendent compte de toute la

variance.

Nombre maximum de facteurs = nombre total de variables

Interpréter les facteurs sélectionnés au préalable : travail du

psychologue !!

NB : Préalablement à la mise en œuvre d’une ACP centrer toutes les notes des sujets sur la moyenne, ce qui revient, géométriquement, à déplacer les axes X1 et X2 en X’1 et X’2.

Page 33: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : exemple

Matrice de corrélation

testA testB testC testD testE testF testG

testA 1

testB 0,99 1

testC 1,00 0,99 1

testD 0,90 0,85 0,90 1

testE 0,20 0,17 0,20 0,22 1

testF 0,17 0,13 0,17 0,20 0,99 1

testG 0,04 0,00 0,03 0,07 0,85 0,85 1

testH 0,23 0,25 0,25 0,24 -0,08 -0,07 -0,17

Page 34: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : exemple

Tableau des saturations

F1 F2 F3 F4 F5 F6 F7 F8

testA 0,96 -0,25 -0,11 0,00 0,09 0,01 -0,01 0,02

testB 0,94 -0,28 -0,09 -0,05 0,17 -0,01 0,02 0,00

testC 0,96 -0,25 -0,09 -0,01 0,07 0,01 -0,02 -0,01

testD 0,91 -0,19 -0,06 0,11 -0,34 -0,01 0,01 0,00

testE 0,45 0,87 0,09 -0,16 -0,01 -0,08 0,00 0,00

testF 0,42 0,88 0,11 -0,16 -0,06 0,08 0,00 0,00

testG 0,27 0,90 0,03 0,33 0,10 0,00 0,00 0,00

testH 0,26 -0,31 0,91 0,03 0,02 0,00 0,00 0,00

Page 35: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : exemple

Tableau des saturations au carré

F1 F2 F3 F4 F5 F6 F7 F8 Communauté

testA 0,92 0,06 0,01 0,00 0,01 0,00 0,00 0,00 1,00

testB 0,88 0,08 0,01 0,00 0,03 0,00 0,00 0,00 1,00

testC 0,92 0,06 0,01 0,00 0,00 0,00 0,00 0,00 1,00

testD 0,83 0,04 0,00 0,01 0,12 0,00 0,00 0,00 1,00

testE 0,20 0,76 0,01 0,03 0,00 0,01 0,00 0,00 1,00

testF 0,17 0,78 0,01 0,03 0,00 0,01 0,00 0,00 1,00

testG 0,07 0,80 0,00 0,11 0,01 0,00 0,00 0,00 1,00

testH 0,07 0,10 0,84 0,00 0,00 0,00 0,00 0,00 1,00

Valeurs propres 4,07 2,68 0,89 0,18 0,17 0,01 0,00 0,00

% de variance expliquée 50,82 33,4 11,09 2,24 2,18 0,16 0,01 0,01

Communauté (entre 0 et 1) : Variance d’une variable expliquée par les n facteurs retenus

Page 36: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : exemple

0,00 0,20 0,40 0,60 0,80

0,00

0,20

0,40

0,60

0,80

1,00

fac

teu

r1

0,000,20

0,400,60

0,801,00

Graphique saturation

Page 37: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : rotation

Rotation = processus mathématique qui permet de faciliter l’interprétation des

facteurs en maximisant les saturations les plus fortes et en minimisant les plus

faibles (maximiser la variance).

Rotations = construction de nouvelles variables (composantes), fonctions des

anciennes, dans lesquelles on exprimera les scores des sujets.

Rotations = rotations des axes ne sont pas faites au hasard, elles obéissent à des

règles précises :

La dispersion des points doit être maximum sur le premier axe.

L’information perdue, si l’on représentait les sujets uniquement sur le

premier axe, doit être minimum. Autrement dit, l’écart entre la distance initiale des

sujets dans le plan et la distance suite à leur projection sur l’axe Y1 est

minimisé.

Les axes suivants (Y2, Y3,…) doivent être indépendants

(orthogonaux, perpendiculaires) du premier axe.

Page 38: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : rotation (exemple)

Tableau des saturations après rotation Varimax

1 2 3 4 5 6 7 8

testA 0,994 0,076 0,073 0,002 -0,015 -0,004 -0,010 -0,016

testB 0,988 0,044 0,097 -0,018 -0,105 0,013 0,027 0,002

testC 0,993 0,072 0,094 -0,014 0,002 -0,005 -0,016 0,015

testD 0,892 0,107 0,099 0,001 0,427 -0,001 -0,001 0,000

testE 0,131 0,984 -0,023 -0,086 -0,004 0,079 0,001 0,000

testF 0,095 0,986 -0,017 -0,101 0,035 -0,079 -0,001 0,000

testG -0,018 0,900 -0,099 0,423 0,002 0,000 0,000 0,000

testH 0,161 -0,075 0,984 -0,013 0,012 0,000 0,000 0,000

Page 39: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : rotation (exemple)

Avant rotation

Valeur propre 4,066 2,679 0,887 0,180 0,174 0,013 0,001 0,000

% de la variance 50,82 33,487 11,091 2,244 2,180 0,157 0,012 0,006

Après rotation

Valeur propre 3,798 2,782 1,012 0,197 0,195 0,013 0,001 0,000

% de la variance 47,47 34,781 12,655 2,468 2,441 0,159 0,013 0,006

Après rotation : redistribution de la

variance

Page 40: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : rotation (exemple)

-0,20 0,00 0,20 0,40 0,60 0,80 1,00facteur2

-0,20

0,00

0,20

0,40

0,60

0,80

1,00

fact

eur1

-0,200,000,200,400,600,801,00facteur3

0,00 0,20 0,40 0,60 0,80facteur2

0,00

0,20

0,40

0,60

0,80

1,00

fact

eur1

0,000,20

0,400,60

0,801,00

facteur3

Avant rotation Après rotation Varimax

Page 41: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : réduction du nombre de facteurs

et communauté

1 2 3 Communauté

testA 0,988 0,006 0,005 0,999

testB 0,976 0,002 0,009 0,988

testC 0,985 0,005 0,009 0,999

testD 0,796 0,012 0,010 0,817

testE 0,017 0,969 0,001 0,986

testF 0,009 0,973 0,000 0,982

testG 0,000 0,811 0,010 0,821

testH 0,026 0,006 0,968 0,999

Valeur propre 3,798 2,782 1,012

% variance 47,478 34,781 12,655

Page 42: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : nombre de facteurs retenus

1 2 3 4 5 6 7 8

Numéro de composant

0

1

2

3

4

5

Val

eur

pro

pre

Graphique des valeurs propres

Valeur propre : part de la variance expliquée par un facteur sur l’ensemble des variables

Fac.Val.

Propre % Var.

1 3,80 47,48

2 2,78 34,78

3 1,01 12,65

4 0,20 2,47

5 0,20 2,44

6 0,01 0,16

7 0,00 0,01

8 0,00 0,01

Page 43: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : différentes rotations

Méthode varimax. Méthode de rotation orthogonale qui minimise le

nombre de variables ayant de fortes corrélations sur chaque facteur. Simplifie

l'interprétation des facteurs.

Critère oblimin direct. Méthode de rotation oblique (non orthogonale).

Méthode quartimax. Méthode de rotation qui réduit le nombre de facteurs

requis pour expliquer chaque variable. Simplifie l'interprétation des variables

observées.

Page 44: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : différentes rotations

Equamax. Méthode de rotation qui est une combinaison de la méthode

Varimax (qui simplifie les facteurs) et de la méthode Quartimax (qui simplifie

les variables). Le nombre de variables pesant sur un facteur et le nombre de

facteurs nécessaires pour expliquer une variable sont minimisés.

Rotation Promax. Rotation oblique qui permet aux facteurs d'être

corrélés. Peut être calculée plus rapidement qu'une rotation oblimin directe,

aussi est-elle utile pour les vastes ensembles de données.

Page 45: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 1) l’ACP : interprétation des facteurs

1 2 3

testA .988 .006 .005

testB .976 .002 .009

testC .985 .005 .009

testD .796 .012 .010

testE .017 .969 .001

testF .009 .973 .000

testG .000 .811 .010

testH .026 .006 .968

Interpréter les différents facteurs : leur donner un

nom

Pour interpréter les facteurs il faut savoir quelles

dimensions sont mesurées par les épreuves (ou

variables)

Un facteur = dimension psychologique si toutes les

épreuves censées mesurer cette dimension vont dans

le même sens

Page 46: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 2) l’AFC (analyse en facteurs communs)

Objectif identique à l’ACP : réduire les données, déterminer les facteurs, déduire

les dimensions psychologiques.

Suppose qu’il existe deux types de facteurs : communs (à plusieurs variables) et

spécifiques (à chaque variable).

Ne s’intéresse pas à la variance spécifique de chaque variable. S’intéresse à la

variance commune.

Rendre compte des corrélations observées et non pas de la variance totale.

Page 47: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 2) l’AFC (analyse en facteurs communs)

Les facteurs ne sont pas considérés comme indépendants

La variance spécifique à une variable n’est pas prise en compte

On cherche à expliquer la variance commune à au moins 2 variables

Le nombre de facteurs peut être plus important que le nombre de variables

Test A Test B Test C Test D

Test A .76

Test B .94 .68

Test C .65 .77 .71

Test D .69 .50 .42 .66

Traduit ce qui reste de commun avec les autres épreuves

Page 48: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 3) Les analyses confirmatoires

Analyse exploratoire : structure des variables latentes (facteurs) n’est pas connue a priori Analyse confirmatoire : hypothèse sur la structure des variables latentes

Principes

Modèle a priori

Tester le modèle : hypothèse que le modèle est plausible

Collecter des données sur l’ensemble des variables spécifiées dans le modèle

Les données correspondent-elles au modèle ?

Imposer une structure des données (forcer les données)

Données = modèle + résidus

Page 49: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 3) Les analyses confirmatoires

Deux types de modèles : mesure et structure

Modèle de mesure : défini les relations entre les variables observées et non-

observées (entre les mesures et les construits)

Modèle de structure : défini les relations entre les variables non-observées (quelle

variable latente influence directement ou indirectement, telle ou telle autre variable

latente)

Page 50: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 3) Les analyses confirmatoires

Variables latentes

Exogènes : Synonyme de VI. Causent les fluctuations des valeurs des autres VL dans le modèle. Fluctuation des valeurs des VL_exogène n’est pas expliquée par le modèle mais par des facteurs externes au modèle (e.g, : âge, sexe, etc.)

Endogènes : Synonyme de VD. Influencées par les VL_exogènes directement ou indirectement.

Page 51: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 3) Les analyses confirmatoires

testA

testB

test C

test D

test E

test F

test G

test H

latent1

latent2

1

.95

.87

.89

1

.95

.68

err.1

err.2

err.3

err.4

err.5

err.6

err.7

err.8

1

1

1

1

1

1

1

1

Exemple d'un diagramme obtenu à partir d'une analyse confirmatoire(analyse équations structurales)

.39

Page 52: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 3) Les analyses confirmatoires

testA

testB

test C

test D

test E

test F

test G

test H

latent1

latent2

1

.95

.87

.89

1

.95

.68

err.1

err.2

err.3

err.4

err.5

err.6

err.7

err.8

1

1

1

1

1

1

1

1

Exemple d'un diagramme obtenu à partir d'une analyse confirmatoire(analyse équations structurales)

latent31

.11

Page 53: Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de droite de régression 1.1.1. Calcul des coefficients d’une.

2 – Analyse multidimensionnelle

Principales analyses multidimensionnelles 3) Les analyses confirmatoires

Résumé :

Les analyses factorielles confirmatoires sont basées sur des modèles d’équations structurales : la structure est imposée

Les données sont-elles en adéquation avec le modèle ?

Possibilité de tester différents modèles théoriques et de choisir celui avec lequel les données sont le mieux en adéquation

Ces analyses sont indépendantes de l’échantillon