Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de...
-
Upload
nel-lapeyre -
Category
Documents
-
view
110 -
download
0
Transcript of Séminaire II : Corrélation et analyse multidimensionnelle Plan 1 – Corrélation 1.1. Notion de...
Séminaire II : Corrélation et analyse multidimensionnelle
Plan 1 – Corrélation 1.1. Notion de droite de régression
1.1.1. Calcul des coefficients d’une droite de régression1.1.2. Trois façons de résumer un nuage de point
1.2. Coefficient de corrélation1.2.1. Définition1.2.2. Critères caractérisant la relation entre deux caractères1.2.3. Calcul du coefficient de corrélation de Pearson1.2.4. Significativité d’une relation1.2.5. Caractères trompeurs d’une relation1.2.6. Corrélation partielle
2 – Les analyses multidimensionnelles2.1. Introduction2.2. Etapes d’une analyse multidimensionnelle2.3. Les principales analyses multidimensionnelles
2.3.1. L’ACP2.3.2. L’analyse factorielle (AF)2.3.3. Quelques mots sur les analyses confirmatoires
1 – Corrélation
Problématique générale = étudier la relation qui existe (ou pas !) entre 2 variables (une variable x et une variable y). La relation est exprimée par un coefficient de corrélation.
e.g, Corrélation entre 2 épreuves signifie qu’il y a une dimension psychologique partagée par ces 2 épreuves
1 – Corrélation
Notion de droite de régressionsujets poids taille sujets poids taille
S1 64 173 S21 70 175
S2 61 171 S22 75 179
S3 62 174 S23 71 172
S4 84 182 S24 72 171
S5 56 170 S25 81 184
S6 59 171 S26 78 181
S7 68 179 S27 79 180
S8 74 175 S28 68 175
S9 71 176 S29 65 172
S10 59 165 S30 66 176
S11 63 169 S31 63 170
S12 81 183 S32 75 180
S13 68 178 S33 64 175
S14 69 177 S34 82 186
S15 74 180 S35 67 175
S16 73 177 S36 71 179
S17 68 169 S37 69 176
S18 59 165 S38 81 180
S19 60 172 S39 59 168
S20 80 185 S40 65 172
1 – Corrélation
Notion de droite de régression
Il est possible de représenter graphiquement ces données au moyen de 2 axes dans un plan : axe des x et axe des y. Chaque point correspond à l’un des couples (x, y) du tableau précédent = nuage de points
160
165
170
175
180
185
190
50 55 60 65 70 75 80 85 90
Taille
Poids
Déterminer la droite d’ajustement qui rend le mieux compte de cette distribution
1 – Corrélation
Notion de droite de régression
Méthode des moindres carrés = déterminer les coefficient a et b de l’équation y=ax + b
Déterminer une droite dont le tracé consistera à minimiser l’écart au carré des distances de
chaque point par rapport à cette droite. On cherche à minimiser la somme des carrés des
écarts (= variance) entre les valeurs estimées et les valeurs observées de la variable
dépendante
160
165
170
175
180
185
190
55 60 65 70 75 80 85 90
55 60 65 70 75 80 85
poids
165
170
175
180
185
190
taill
e
R-deux linéaire = 0,751
Déterminer la droite d’ajustement qui rend le mieux compte de cette distribution
1 – Corrélation
Notion de droite de régression
Méthode des moindres carrés = déterminer les coefficient a et b de l’équation y=ax + b
Déterminer une droite dont le tracé consistera
à minimiser l’écart au carré des distances de
chaque point par rapport à cette droite. On
cherche à minimiser la somme des carrés des
écarts (= variance) entre les valeurs estimées
et les valeurs observées de la variable
dépendante
Déterminer la droite d’ajustement qui rend le mieux compte de cette distribution
1 – Corrélation
Notion de droite de régression
Méthode des moindres carrés = déterminer les coefficient a et b de l’équation y=ax + b
Déterminer une droite dont le tracé consistera
à minimiser l’écart au carré des distances de
chaque point par rapport à cette droite. On
cherche à minimiser la somme des carrés
des écarts (= variance) entre les valeurs
estimées et les valeurs observées de la
variable dépendante
R2 = 0,8477
19
21
23
25
27
29
31
8 10 12 14 16x1
M1y1
P1ax1+b
M3
M4
M2
M5
1 – Corrélation
Notion de droite de régression : calcul des coefficients a et b
Exemple simple de calcul des coefficients a et b dans l’équation y=ax+bSi on a 3 points avec pour coordonnées respectives (A= 2, 5 ; B= 3, 7 et C= 4, 10), pour calculer a et b on cherche deux équations
2x
xbxya
N
xayb
D’où deux équations à résoudre :29a + 9b = 719a + 3b = 22
D’où a = 2.5 et b = - 0,167L’équation de la droite est donc y = 2,5x – 0,167
Dans l’exemple :
xy = (2*5) + (3*7) + (4*10) = 71
x = 2 + 3 + 4 = 9
2x = 4 + 9 + 16 = 29
y = 5 + 7 + 10 = 22N = 3
29
971 ba
3
922 ab
1 – Corrélation
Notion de droite de régression : résumé d’un nuage de point
Droite exprimant la relation moyenne entre X et Y
Droite exprimant X en fonction de Y
Droite exprimant Y en fonction de X
1 – Corrélation
Coefficient de corrélation
Coefficient de corrélation = Mesure du degré de dépendance entre deux
phénomènes de nature statistique ou probabiliste.
On dit qu'il existe une relation entre X et Y si l'attribution des modalités de X
et de Y ne se fait pas au hasard, c'est à dire si les valeurs de X dépendent
des valeurs de Y ou si les valeurs de Y dépendent des valeurs de X. Dire que
Y dépend de X signifie que la connaissance des valeurs de X permet de
prédire, dans une certaine mesure, les valeurs de Y
1 – Corrélation
Coefficient de corrélation : définition
Relation linéaire : suppose qu’il existe une relation monotone entre les x et
les y. Evaluée à l’aide du coefficient de corrélation r de Bravais Pearson Le r de Bravais Pearson peut prendre toutes les valeurs réelles comprises
dans l’intervalle [-1, 1]. Plus la valeur absolue de r est proche de 1, plus il y a de conformité avec le
modèle linéaire Un indice positif indique que les deux variables « évoluent » dans le même
sens Un indice négatif indique qu’il existe une relation inverse entre les variables x
et y Le coefficient de corrélation est un indice indépendant de la moyenne Permet par exemple de déterminer le classement d’un individu sur deux test
1 – Corrélation
Coefficient de corrélation : critères
Relation entre deux caractères diagramme de corrélation (diagramme croisant
les modalités de X et de Y). Chaque élément i est représenté par le point de
coordonnées (Xi,Yi). L'ensemble des points forme un nuage de points dont la forme
permet de caractériser la relation à l'aide de trois critères :
Intensité de la relation
Forme de la relation
Sens de la relation
1 – Corrélation
Coefficient de corrélation : critères
Intensité de la relation
Absence de relation Relation faible Relation forte
1 – Corrélation
Coefficient de corrélation : critères
Forme de la relation
relation non-linéaire et non-monotone
relation non-linéaire et monotone
relation linéaire (toujours monotone)
1 – Corrélation
Coefficient de corrélation : critères
Sens de la relation
relation linéaire positive
relation linéaire négative
relation non linéaire positive
relation non linéaire négative
1 – Corrélation
Coefficient de corrélation : calcul
Ce coefficient permet de détecter la présence ou l'absence d'une relation
linéaire entre deux caractères quantitatifs continus. Pour calculer ce
coefficient il faut tout d'abord calculer la covariance. La covariance est la
moyenne du produit des écarts à la moyenne.
NB : La covariance de deux variables réelles permet de mesurer la dépendance linéaire des variables, c´est à dire la façon dont deux variables X et Y varient simultanément. Globalement, lorsque X croît (ou décroît) et Y croît (ou décroît), la covariance est positive. Covariance nulle = indépendance des variables
1 – Corrélation
Coefficient de corrélation : calcul
Le coefficient de corrélation linéaire de deux caractères X et Y est égal à
la covariance de X et Y divisée par le produit des écarts-types de X et Y
22 )()(
)])([(
YYXX
YYXXr
])(][)([
))((2222 YYnXXn
YXXYnr
Le coefficient de corrélation peut se calculer directement à l’aide des formules suivantes :
1 – Corrélation
Coefficient de corrélation : calcul et limites
En principe, le coefficient de Pearson n'est applicable que pour mesurer la
relation entre deux variables X et Y ayant une distribution de type gaussien et
ne comportant pas de valeur exceptionnelles. Si ces conditions ne sont pas
vérifiées (cas fréquent ...) l'emploi de ce coefficient peut aboutir à des
conclusions erronées sur la présence ou l'absence d'une relation.
On notera également que l'absence d'une relation linéaire ne signifie pas
l'absence de toute relation entre les deux caractères étudiés.
1 – Corrélation
Coefficient de corrélation : significativité et validité d’une relation
Coefficient de corrélation : en lui-même, il n’est qu’une étape
exploratoire de l’analyse.
Il doit être validé par un test de la significativité de la relation et par
une vérification de la validité de la relation (absence de biais).
1 – Corrélation
Coefficient de corrélation : significativité d’une relation
Le coefficient de corrélation ne renseigne pas sur le degré de significativité
d'une relation car celle-ci dépend également du nombre d'observations.
NB : il faut connaître l’échantillon pour connaître la significativité (ensuite table)
Exemple :
- Un r de + 0.6 établi sur un échantillon de 10 personnes n'est pas significatif au
seuil de 5% (il peut s'agir d'un hasard).
- Un r de + 0.2 établi sur un échantillon de 200 personnes est significatif au seuil
de 5% (la taille de l'échantillon fait que la relation, bien que faible a peu de
chances d'être due au hasard).
1 – Corrélation
Coefficient de corrélation : significativité d’une relation
Pour déterminer si une relation est significative, il faut procéder à un
test d'hypothèse :
(1) H0 : il n'y a pas de relation entre les deux caractères X et Y
(2) On se fixe un risque d'erreur pour le rejet de H0 (exemple
alpha=5%)
(3) On calcule la valeur absolue du coefficient de corrélation r(X,Y)
dans la table correspondante (Pearson ou Spearman)
(4) On calcule la valeur théorique r(alpha, N.) de ce coefficient qui
n'est dépassé que dans alpha % des cas
(5) On teste H0 vraie si r(alpha, d.d.l.) > abs[ r(X,Y) ]
(6) On accepte ou rejette H0
1 – Corrélation
Coefficient de corrélation : validité d’une relation
Le fait que le test de significativité permet de rejeter l'hypothèse
d'indépendance ne doit pas amener à conclure trop vite à l'existence d'une
relation. Celle-ci peut souvent être la conséquence de biais liés à un
mauvais respect des conditions d'utilisation des coefficients de corrélation.
Ici le coefficient de corrélation est nul,
pourtant il y a un lien entre les deux
variables. Lien qui n’est pas une relation de
linéarité
1 – Corrélation
Coefficient de corrélation : validité d’une relation
Influence d’une valeur exceptionnelle
Dans cet exemple, le calcul du coefficient de
corrélation de Pearson aboutirait à l'idée qu'il
existe une corrélation positive (+0.54) mais non
significative (au seuil de 5%) entre les deux
variables cette corrélation positive résulte
uniquement de l'influence du point exceptionnel
(9,9). Si l'on retire ce dernier, on obtient une
corrélation négative (-0.67) et significative (au
seuil de 5%) entre les deux variables.
1 – Corrélation
Coefficient de corrélation : validité d’une relation
Emboîtement de relation et composante
d’échelle
Dans cet exemple il n'est pas faux de conclure à
l'existence d'une relation positive significative
(+0.75) mais celle-ci est le résultat des
différences de comportement de trois sous
populations à l'intérieur desquelles la relation est
au contraire rigoureusement négative. Il existe
donc une composante d'échelle dans la relation
observée et les conclusions seront très variables
selon l'échantillon considéré.
1 – Corrélation
Coefficient de corrélation : résumé
a) L’objectif est d’étudier les relations entre deux mesures (2
VD). Evaluer l’existence d’une part de variance commune à 2
tests. Permettre de prédire les scores à un test en
connaissant les scores à un autre test qui lui est corrélé.
Attention, l’existence d’une corrélation entre deux tests ne
signifie pas que les deux tests mesurent exactement la même
dimension psychologique
b) La moyenne (indice de tendance centrale) et la corrélation
sont deux indices indépendants.
1 – Corrélation
Coefficient de corrélation : résumé
d) L’interprétation de la corrélation dépend de la taille de
l’échantillon.
e) Une corrélation nulle ne signifie pas l’absence de
relation, mais uniquement qu’il n’y a pas de relation linéaire
(il peut y avoir une relation quadratique, exponentielle, etc.)
f) Pour connaître le pourcentage de variance expliquée
d’une variable Y par une variable X : r2*100 (coefficient de
détermination)
2 – Analyse multidimensionnelle
Introduction
Analyses statistiques dont le but est de simplifier, décrire, résumer les
groupes de données complexes (i.e. généralement sur des matrices de
corrélation ou covariances à plusieurs variables) en fournissant des
facteurs d’organisation des données initiales.
Permet la représentation simultanée de plusieurs dimensions à partir de
facteurs synthétiques.
2 – Analyse multidimensionnelle
Introduction sujets poids taille
S1 64 173
S2 61 171
S3 62 174
S4 84 182
S5 56 170
S6 59 171
S7 68 179
S8 74 175
S9 71 176
S10 59 165
S11 63 169
S12 81 183
S13 68 178
S14 69 177
S15 74 180
S16 73 177
S17 68 169
S18 59 165
S19 60 172
S20 80 185
poids taille
moyenne 67,7 174,6
écart type 8,1 5,7
coeff. corrélation 0,86
2 variables = 5 nombres nécessaires pour résumer les données (2 indices de tendance centrale; 2 indices de dispersion et un indice d’association entre ces 2 variables).
Pour p variables, on doit calculer p indices de tendance centrale, p
indices de dispersion, mais aussi (p2-p)/2 indices d’association entre
ces variables (si 10 mesures = 10 indices de tendance centrale, 10
indices de dispersion et (102-10)/2 indices d’association), donc 45
nombres pour résumer les données.
2 – Analyse multidimensionnelle
Introduction : vocabulaire / définitions
Facteur :Dimension latente, non directement observable, que l’on tente d’étudier en recueillant un certain nombre de variables censées mesurer cette dimension.
Saturation :Corrélation entre la variable et le facteur (dimension hypothétique). On dit que le facteur sature telles ou telles variables : ce sont les variables qui ont le plus participé à la constitution du facteur ; l’information ainsi contenue dans la dimension extraite a été fournie surtout par ces items.NB. La saturation au carré représente la pourcentage de variance, de la variable (ou item), expliquée par le facteur.
Valeur propre :Part de la variance totale expliquée par un facteur ou importance de chaque facteur dans l’explication des notes du sujet.
Communauté :Part de la variance d’une variable expliquée par l’ensemble des facteurs retenus.
2 – Analyse multidimensionnelle
Principes et étapes
Principe : en se basant sur la matrice des corrélations ou covariance entre
les diverses variables observées, l’analyse factorielle consiste à rechercher la
part de variance commune (d’information) à ces variables. Il s’agit de
construire une nouvelle variable (construit mathématique) : extraction d’un 1er
facteur qui résume le mieux possible l’information partagée par l’ensemble des
variables.
Après avoir délester les variables de cette 1ère information, l’analyse
réitère l’opération à partir de la variance résiduelle : elle chercher un second
facteur non corrélé au premier (notion d’orthogonalité et d’indépendance),
susceptible d’expliquer la variance restante.
L’opération est réitérée jusqu’à ce que les variables ne présentent plus de
communauté suffisante pour permettre l’extraction d’un nouveau facteur.
2 – Analyse multidimensionnelle
Principes et étapes
Construire ou sélectionner une batterie d’observations, ou mesures (e.g, un test
d’intelligence)
Sélectionner la population à qui le test va être administré
Calculer la corrélation entre les scores sur toutes les paires de tests = matrice
des corrélations
Analyse factorielle sur la matrice des corrélations 2 tableaux : l’un donnant le
pourcentage de variance expliquée (valeurs propres) et l’autre indiquant l’ensemble
des saturations.
Décider du nombre de facteurs à retenir
Décider si une rotation est nécessaire et quelle rotation (dépend des hypothèses
de recherche)
Interpréter les facteurs
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP
Identifier des facteurs indépendants, qui rendent compte de toute la
variance.
Nombre maximum de facteurs = nombre total de variables
Interpréter les facteurs sélectionnés au préalable : travail du
psychologue !!
NB : Préalablement à la mise en œuvre d’une ACP centrer toutes les notes des sujets sur la moyenne, ce qui revient, géométriquement, à déplacer les axes X1 et X2 en X’1 et X’2.
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : exemple
Matrice de corrélation
testA testB testC testD testE testF testG
testA 1
testB 0,99 1
testC 1,00 0,99 1
testD 0,90 0,85 0,90 1
testE 0,20 0,17 0,20 0,22 1
testF 0,17 0,13 0,17 0,20 0,99 1
testG 0,04 0,00 0,03 0,07 0,85 0,85 1
testH 0,23 0,25 0,25 0,24 -0,08 -0,07 -0,17
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : exemple
Tableau des saturations
F1 F2 F3 F4 F5 F6 F7 F8
testA 0,96 -0,25 -0,11 0,00 0,09 0,01 -0,01 0,02
testB 0,94 -0,28 -0,09 -0,05 0,17 -0,01 0,02 0,00
testC 0,96 -0,25 -0,09 -0,01 0,07 0,01 -0,02 -0,01
testD 0,91 -0,19 -0,06 0,11 -0,34 -0,01 0,01 0,00
testE 0,45 0,87 0,09 -0,16 -0,01 -0,08 0,00 0,00
testF 0,42 0,88 0,11 -0,16 -0,06 0,08 0,00 0,00
testG 0,27 0,90 0,03 0,33 0,10 0,00 0,00 0,00
testH 0,26 -0,31 0,91 0,03 0,02 0,00 0,00 0,00
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : exemple
Tableau des saturations au carré
F1 F2 F3 F4 F5 F6 F7 F8 Communauté
testA 0,92 0,06 0,01 0,00 0,01 0,00 0,00 0,00 1,00
testB 0,88 0,08 0,01 0,00 0,03 0,00 0,00 0,00 1,00
testC 0,92 0,06 0,01 0,00 0,00 0,00 0,00 0,00 1,00
testD 0,83 0,04 0,00 0,01 0,12 0,00 0,00 0,00 1,00
testE 0,20 0,76 0,01 0,03 0,00 0,01 0,00 0,00 1,00
testF 0,17 0,78 0,01 0,03 0,00 0,01 0,00 0,00 1,00
testG 0,07 0,80 0,00 0,11 0,01 0,00 0,00 0,00 1,00
testH 0,07 0,10 0,84 0,00 0,00 0,00 0,00 0,00 1,00
Valeurs propres 4,07 2,68 0,89 0,18 0,17 0,01 0,00 0,00
% de variance expliquée 50,82 33,4 11,09 2,24 2,18 0,16 0,01 0,01
Communauté (entre 0 et 1) : Variance d’une variable expliquée par les n facteurs retenus
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : exemple
0,00 0,20 0,40 0,60 0,80
0,00
0,20
0,40
0,60
0,80
1,00
fac
teu
r1
0,000,20
0,400,60
0,801,00
Graphique saturation
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : rotation
Rotation = processus mathématique qui permet de faciliter l’interprétation des
facteurs en maximisant les saturations les plus fortes et en minimisant les plus
faibles (maximiser la variance).
Rotations = construction de nouvelles variables (composantes), fonctions des
anciennes, dans lesquelles on exprimera les scores des sujets.
Rotations = rotations des axes ne sont pas faites au hasard, elles obéissent à des
règles précises :
La dispersion des points doit être maximum sur le premier axe.
L’information perdue, si l’on représentait les sujets uniquement sur le
premier axe, doit être minimum. Autrement dit, l’écart entre la distance initiale des
sujets dans le plan et la distance suite à leur projection sur l’axe Y1 est
minimisé.
Les axes suivants (Y2, Y3,…) doivent être indépendants
(orthogonaux, perpendiculaires) du premier axe.
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : rotation (exemple)
Tableau des saturations après rotation Varimax
1 2 3 4 5 6 7 8
testA 0,994 0,076 0,073 0,002 -0,015 -0,004 -0,010 -0,016
testB 0,988 0,044 0,097 -0,018 -0,105 0,013 0,027 0,002
testC 0,993 0,072 0,094 -0,014 0,002 -0,005 -0,016 0,015
testD 0,892 0,107 0,099 0,001 0,427 -0,001 -0,001 0,000
testE 0,131 0,984 -0,023 -0,086 -0,004 0,079 0,001 0,000
testF 0,095 0,986 -0,017 -0,101 0,035 -0,079 -0,001 0,000
testG -0,018 0,900 -0,099 0,423 0,002 0,000 0,000 0,000
testH 0,161 -0,075 0,984 -0,013 0,012 0,000 0,000 0,000
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : rotation (exemple)
Avant rotation
Valeur propre 4,066 2,679 0,887 0,180 0,174 0,013 0,001 0,000
% de la variance 50,82 33,487 11,091 2,244 2,180 0,157 0,012 0,006
Après rotation
Valeur propre 3,798 2,782 1,012 0,197 0,195 0,013 0,001 0,000
% de la variance 47,47 34,781 12,655 2,468 2,441 0,159 0,013 0,006
Après rotation : redistribution de la
variance
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : rotation (exemple)
-0,20 0,00 0,20 0,40 0,60 0,80 1,00facteur2
-0,20
0,00
0,20
0,40
0,60
0,80
1,00
fact
eur1
-0,200,000,200,400,600,801,00facteur3
0,00 0,20 0,40 0,60 0,80facteur2
0,00
0,20
0,40
0,60
0,80
1,00
fact
eur1
0,000,20
0,400,60
0,801,00
facteur3
Avant rotation Après rotation Varimax
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : réduction du nombre de facteurs
et communauté
1 2 3 Communauté
testA 0,988 0,006 0,005 0,999
testB 0,976 0,002 0,009 0,988
testC 0,985 0,005 0,009 0,999
testD 0,796 0,012 0,010 0,817
testE 0,017 0,969 0,001 0,986
testF 0,009 0,973 0,000 0,982
testG 0,000 0,811 0,010 0,821
testH 0,026 0,006 0,968 0,999
Valeur propre 3,798 2,782 1,012
% variance 47,478 34,781 12,655
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : nombre de facteurs retenus
1 2 3 4 5 6 7 8
Numéro de composant
0
1
2
3
4
5
Val
eur
pro
pre
Graphique des valeurs propres
Valeur propre : part de la variance expliquée par un facteur sur l’ensemble des variables
Fac.Val.
Propre % Var.
1 3,80 47,48
2 2,78 34,78
3 1,01 12,65
4 0,20 2,47
5 0,20 2,44
6 0,01 0,16
7 0,00 0,01
8 0,00 0,01
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : différentes rotations
Méthode varimax. Méthode de rotation orthogonale qui minimise le
nombre de variables ayant de fortes corrélations sur chaque facteur. Simplifie
l'interprétation des facteurs.
Critère oblimin direct. Méthode de rotation oblique (non orthogonale).
Méthode quartimax. Méthode de rotation qui réduit le nombre de facteurs
requis pour expliquer chaque variable. Simplifie l'interprétation des variables
observées.
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : différentes rotations
Equamax. Méthode de rotation qui est une combinaison de la méthode
Varimax (qui simplifie les facteurs) et de la méthode Quartimax (qui simplifie
les variables). Le nombre de variables pesant sur un facteur et le nombre de
facteurs nécessaires pour expliquer une variable sont minimisés.
Rotation Promax. Rotation oblique qui permet aux facteurs d'être
corrélés. Peut être calculée plus rapidement qu'une rotation oblimin directe,
aussi est-elle utile pour les vastes ensembles de données.
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 1) l’ACP : interprétation des facteurs
1 2 3
testA .988 .006 .005
testB .976 .002 .009
testC .985 .005 .009
testD .796 .012 .010
testE .017 .969 .001
testF .009 .973 .000
testG .000 .811 .010
testH .026 .006 .968
Interpréter les différents facteurs : leur donner un
nom
Pour interpréter les facteurs il faut savoir quelles
dimensions sont mesurées par les épreuves (ou
variables)
Un facteur = dimension psychologique si toutes les
épreuves censées mesurer cette dimension vont dans
le même sens
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 2) l’AFC (analyse en facteurs communs)
Objectif identique à l’ACP : réduire les données, déterminer les facteurs, déduire
les dimensions psychologiques.
Suppose qu’il existe deux types de facteurs : communs (à plusieurs variables) et
spécifiques (à chaque variable).
Ne s’intéresse pas à la variance spécifique de chaque variable. S’intéresse à la
variance commune.
Rendre compte des corrélations observées et non pas de la variance totale.
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 2) l’AFC (analyse en facteurs communs)
Les facteurs ne sont pas considérés comme indépendants
La variance spécifique à une variable n’est pas prise en compte
On cherche à expliquer la variance commune à au moins 2 variables
Le nombre de facteurs peut être plus important que le nombre de variables
Test A Test B Test C Test D
Test A .76
Test B .94 .68
Test C .65 .77 .71
Test D .69 .50 .42 .66
Traduit ce qui reste de commun avec les autres épreuves
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 3) Les analyses confirmatoires
Analyse exploratoire : structure des variables latentes (facteurs) n’est pas connue a priori Analyse confirmatoire : hypothèse sur la structure des variables latentes
Principes
Modèle a priori
Tester le modèle : hypothèse que le modèle est plausible
Collecter des données sur l’ensemble des variables spécifiées dans le modèle
Les données correspondent-elles au modèle ?
Imposer une structure des données (forcer les données)
Données = modèle + résidus
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 3) Les analyses confirmatoires
Deux types de modèles : mesure et structure
Modèle de mesure : défini les relations entre les variables observées et non-
observées (entre les mesures et les construits)
Modèle de structure : défini les relations entre les variables non-observées (quelle
variable latente influence directement ou indirectement, telle ou telle autre variable
latente)
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 3) Les analyses confirmatoires
Variables latentes
Exogènes : Synonyme de VI. Causent les fluctuations des valeurs des autres VL dans le modèle. Fluctuation des valeurs des VL_exogène n’est pas expliquée par le modèle mais par des facteurs externes au modèle (e.g, : âge, sexe, etc.)
Endogènes : Synonyme de VD. Influencées par les VL_exogènes directement ou indirectement.
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 3) Les analyses confirmatoires
testA
testB
test C
test D
test E
test F
test G
test H
latent1
latent2
1
.95
.87
.89
1
.95
.68
err.1
err.2
err.3
err.4
err.5
err.6
err.7
err.8
1
1
1
1
1
1
1
1
Exemple d'un diagramme obtenu à partir d'une analyse confirmatoire(analyse équations structurales)
.39
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 3) Les analyses confirmatoires
testA
testB
test C
test D
test E
test F
test G
test H
latent1
latent2
1
.95
.87
.89
1
.95
.68
err.1
err.2
err.3
err.4
err.5
err.6
err.7
err.8
1
1
1
1
1
1
1
1
Exemple d'un diagramme obtenu à partir d'une analyse confirmatoire(analyse équations structurales)
latent31
.11
2 – Analyse multidimensionnelle
Principales analyses multidimensionnelles 3) Les analyses confirmatoires
Résumé :
Les analyses factorielles confirmatoires sont basées sur des modèles d’équations structurales : la structure est imposée
Les données sont-elles en adéquation avec le modèle ?
Possibilité de tester différents modèles théoriques et de choisir celui avec lequel les données sont le mieux en adéquation
Ces analyses sont indépendantes de l’échantillon