Facteur 9

30
Université de Montréal département de sociologie L'analyse factorielle et l'analyse de fidélité notes de cours et exemples © Claire Durand, 2003

description

amana

Transcript of Facteur 9

  • Universit de Montral

    dpartement de sociologie

    L'analyse factorielle et l'analyse de fidlit

    notes de cours et exemples

    Claire Durand, 2003

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 2

    Notes aux lecteurs...

    Ce texte a d'abord t prpar pour accompagner un coursd'introduction l'analyse factorielle. J'ai tent qu'il soit aussicomplet que possible. Toutefois, la proccupation premire avidemment influenc la forme.

    Ce texte se veut une synthse pratique visant faciliter lacomprhension, l'excution et l'interprtation d'analysesfactorielles et de fidlit dans le processus de la validation demesures. Il s'inspire entre autres de la bibliographie prsenteen fin de texte et de l'exprience de l'auteure dans la conduite dece type d'analyse.

    J'ai ajout la fin un texte de Lauri Tarkkonen qui expliquebien mon avis la diffrence entre analyse factorielle et analyseen composantes principales.

    Je suis ouverte et intresse vos commentaires et critiques quime permettront d'amliorer ventuellement le texte.

    Claire [email protected]

    Table des matires

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 1

    1. Qu'est-ce que l'analyse factorielle? A quoi sert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1Les quations: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2Type de questions auxquelles l'analyse factorielle permet de rpondre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Analyse en composantes principales et analyse factorielle: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Analyse exploratoire et analyse confirmatoire: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2. Considrations thoriques et pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    3. Les types d'extraction d'une solution factorielle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    4. Les types de rotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    5. Les tapes de l'analyse factorielle de type exploratoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    6) Outils de diagnostic de la solution factorielle : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9A) adquation de la solution globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9a) Le dterminant de la matrice: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9b) La mesure de Kaiser-Meyer-Olkin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10c) Le test de sphricit de Bartlett: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10d) Le Graphique des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11e) La matrice reproduite et les rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12f) La structure obtenue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12B) Pertinence de garder une variable dans la solution. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13a) Les statistiques descriptives des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13b) La qualit de la reprsentation (communality) de chaque variable avec la solution factorielle initiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13c) La simplicit ou la complexit de chaque variable dans la solution factorielle finale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14d) Un cas spcial: le Heywood case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    7) Commandes pour l'analyse factorielle avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    8) Qu'est ce que l'analyse de fidlit? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Deux concepts cls: La fidlit et la validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Plusieurs types de validit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19La fidlit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    9) L'analyse de fidlit : aspects pratiques et outils diagnostiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    10) L'analyse de fidlit avec SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    11) Notes additionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24a) Relation entre l'analyse factorielle, l'analyse en composantes principales et l'analyse de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24b) Attention aux valeurs manquantes: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    Factor analysis and Principal components analysis, what's the difference? (L. Tarkkonen) . . . . . . . . . . . . . . . . . . 26

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 1

    1. Qu'est-ce que l'analyse factorielle? A quoi sert?

    On utilise le terme gnrique d'analyse factorielle pour parler de deux types d'analyse ayant denombreux liens de parent mais lgrement diffrentes: l'analyse en composantes principaleset l'analyse factorielle proprement dite. Avant d'examiner les diffrences entre ces deux typesd'analyse, il est pertinent de voir les points communs la famille des analyses factorielles.

    L'analyse factorielle cherche rduire un nombre important d'informations (prenant la formede valeurs sur des variables) quelques grandes dimensions. Comme dans toute analysestatistique, on tente donc d'expliquer la plus forte proportion de la variance (de la covariancedans le cas de l'analyse factorielle) par un nombre aussi restreint que possible de variables(appeles ici composantes ou facteurs). On utilise le terme de variables latentes pour parler deces variables qui existent au plan conceptuel seul et qui ne sont pas mesures.

    Exemple:

    - De faon mesurer la satisfaction des gens face leur travail, j'ai d'abord dtermin que celle-ci portait sur trois grandes dimensions: la qualit des relations interpersonnelles, la nature mmedu travail et les aspects extrinsques (salaire, horaire,...).

    - Pour chacune des dimensions, j'ai pos quatre (4) questions du type "Etes-vous trs satisfait,assez satisfait, peu satisfait ou pas du tout satisfait a) de la qualit de vos relations avec voscollgues... b) de la qualit de vos relations avec vos suprieurs... c) de la qualit de vosrelations avec vos subordonns d) de la qualit gnrale des relations interpersonnelles votretravail...

    - En agissant ainsi, je suppose qu'une dimension gnrale de satisfaction face au climat desrelations interpersonnelles existe et que le positionnement des individus face cette dimension"explique", "prdit" leur positionnement sur chacune des "variables mesures".

    - Si cette hypothse est vraie, les personnes auront tendance rpondre de la mme manire auxquatre questions portant sur cette dimension et leurs rponses ces questions seront pluscorreles entre elles qu'avec les autres variables pour lesquelles on demande leur degr desatisfaction.

    - Cette perspective suppose aussi que l'on conoit que les variables mesures constituent unchantillon de l'ensemble des variables aptes mesurer le concept choisi.

    L'analyse factorielle tente de donner un sommaire des patrons de corrlations entre lesvariables. Elle tente de dcomposer les patrons de corrlations pour les expliquer par unnombre restreint de dimensions. Elle est souvent utilise comme mthode d'analyseexploratoire en vue de crer des chelles.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 2

    Les quations:

    Contrairement l'entendement intuitif, il faut comprendre que ce sont les rponses aux variablesmesures qui dpendent des scores aux facteurs et non pas l'inverse. Ainsi, l'analyse pose quela rponse des individus diverses questions portant, par exemple, sur leur satisfaction face auxrelations avec leurs collgues ou avec leurs suprieurs dpend de deux lments: d'une part, lasatisfaction gnrale face aux relations interpersonnelles et d'autre part, un lment rsiduel quicomprend l'erreur de mesure et un aspect unique propre la satisfaction spcifique qui estmesure.

    Les quations s'crivent ainsi:

    S'il y a un seul facteur et trois variables:

    x1 = b1F+U1x2 = b2F+U2x3 = b3F+U3

    o: x1 est la valeur pour la variable 1b1 est la valeur du coefficient de rgression et donne l'importance de l'influence de F surx1F est la valeur thorique du facteur F

    et U1 est la valeur de l'lment rsiduel comprenant le facteur unique la variable 1.

    Similairement, s'il y avait n facteurs, l'quation pour chaque variable s'crirait:

    xi= bi1F1 + bi2F2+...binFn + Ui

    Ainsi, dans le cas par exemple d'un questionnaire de sondage ou d'un test, on peut dire que larponse que donne un individu une question pose est conue comme une combinaisonlinaire 1) de la rponse thorique qu'il donnerait une variable globale que l'on ne peut pasmesurer directement et 2) d'autres facteurs relis entre autres la question spcifique qui estpose.

  • 1 Quoiqu'il soit possible de faire des rotations orthogonales ou obliques en ACP, cette utilisation nerespecte pas les bases mmes de l'ACP, savoir une solution unique et des composantes indpendantes entre ellesqui expliquent chacune une proportion dcroissante de la variance.

    Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 3

    Type de questions auxquelles l'analyse factorielle permet de rpondre (Tabachnik et Fidell,1989: 601)

    - Combien de facteurs sont ncessaires pour donner une reprsentation juste et parcimonieusedes donnes?

    - Quelle est la nature de ces facteurs, comment peut-on les interprter?

    - Quelle proportion de la variance des donnes peut tre explique par un certain nombre dedimensions (facteurs) majeures?

    - Jusqu' quel point la solution factorielle est conforme la thorie que je voulais vrifier?

    - La structure factorielle est-elle la mme pour divers groupes?

    - (Quel score auraient obtenu les sujets si on avait pu mesurer les facteurs?)

    Analyse en composantes principales et analyse factorielle:

    - L'analyse en composantes principales (ACP) cherche une solution l'ensemble de la variancedes variables mesures. De plus, elle cherche une solution o les composantes sontorthogonales (c'est--dire indpendantes entre elles)1. Quelque soit la matrice de corrlations,il y a toujours une solution en ACP. L'ACP maximise la variance explique.

    - L'analyse factorielle (A.F.) cherche une solution la covariance entre les variables mesures.Elle tente d'expliquer seulement la variance qui est commune au moins deux variables etprsume que chaque variable possde aussi une variance unique reprsentant son apport propre.Les divers modes d'extraction visent maximiser une bonne reproduction de la matrice decorrlations originale.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 4

    Analyse exploratoire et analyse confirmatoire:

    L'analyse habituellement effectue par les logiciels courants (SPSS, BMDP, SAS) est uneanalyse de type exploratoire puisqu'elle ne permet pas de dterminer l'avance quelles variablesdevraient tre lies quels facteurs. Lorsque la solution factorielle propose par le logiciel (lasolution statistique) confirme nos hypothses de dpart, c'est bon signe. Lorsque ce n'est pasle cas, ceci n'infirme pas ncessairement nos hypothses, ceci parce qu'une multitude desolutions sont possibles pour chaque analyse et que le logiciel ne peut en proposer qu'une seule,celle qui est la plus approprie statistiquement. Une autre solution, plus conforme noshypothses, peut tre presque aussi bonne que la solution propose et on ne peut pas le vrifier.

    L'analyse factorielle confirmatoire permet de dterminer non seulement le nombre de facteursmais aussi l'appartenance de chaque variable un ou plusieurs facteurs. Ce type d'analyse doittre utilis avec prcaution, lorsque l'on est vraiment l'tape finale de la confirmation d'unmodle. Elle ncessite l'utilisation de logiciels permettant de faire des analyses par quationsstructurales (EQS et LISREL, maintenant AMOS en module de SPSS version 7.0). LISREL VIItait disponible comme module de SPSS (versions antrieures la version 7.0); toutefois, laversion VIII, une version Windows, est nettement plus conviviale.

    2. Considrations thoriques et pratiques (Tabachnik et Fidell, 1989: 603-605)

    - Pour qu'une variable soit intgre dans l'analyse, sa distribution doit montrer une certainevariance i.e. elle doit discriminer les positions des individus.

    - Idalement, on cherche une structure simple, c'est--dire une solution o chaque variabledtermine fortement un et un seul facteur.

    - Lorsqu'une variable est corrle plus d'un facteur, on dit que c'est une variable complexe; onpeut dire que la signification des rponses cette variable s'interprte selon plusieursdimensions.

    - La structure factorielle peut tre diffrente pour diffrentes populations. Il faut faire attention ne pas regrouper pour l'analyse des populations trop diffrentes.

    - Pour qu'une structure factorielle soit stable, elle doit avoir t vrifie sur un minimum de cas.La rgle veut qu'il y ait un minimum de 5 cas par variable. Lorsque cette rgle n'est pasrespecte, plusieurs problmes peuvent survenir dont celui de la "matrice malade" (ill-conditioned matrix) ou le fait qu'une deuxime analyse avec une population diffrente donnedes regroupements trs diffrents. Il y a donc des problmes de stabilit, de fidlit, de lasolution factorielle.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 5

    - Les variables utilises pour l'analyse devraient se distribuer normalement. Toutefois,lorsqu'on utilise l'analyse factorielle uniquement comme outil exploratoire, il est possible de"transgresser" cette rgle. Il faut alors utiliser une procdure d'extraction (Moindres carrs nonpondrs ou ULS en anglais) qui tient compte du fait que la distribution des variables n'est pasnormale. Si le but de l'analyse est l'infrence, le postulat de normalit est plus important etcertaines transformations normalisant la distribution peuvent tre effectues.

    - La relation entre les paires de variables est prsume linaire.

    - On devrait idalement reprer et liminer les cas ayant des patrons de rponses "anormaux"(Cas aberrants)

    - La matrice de corrlation ne peut pas tre singulire pour ce qui est de l'AF pure. Cecisignifie que les variables ne peuvent pas tre ce point corrles entre elles qu'une variableconstitue une combinaison linaire d'une ou plusieurs autres variables; il y a alors redondance,c'est--dire que la mme information est inscrite deux reprises. Mathmatiquement, lesproduits de matrices ncessaires l'estimation ne peuvent tre effectus dans une telle situation.

    - La matrice de corrlation doit contenir un patron, une solution factorielle. Certainsensembles de variables doivent tre corrls entre eux, suffisamment pour qu'on puisse direqu'ils constituent un facteur. La solution factorielle doit aussi expliquer une proportionsuffisamment intressante de la variance pour que la rduction un nombre restreint de facteursne se fasse pas au prix d'une perte importante d'information.

    - Toutes les variables doivent faire partie de la solution c'est--dire tre corrlesminimalement avec une ou plusieurs variables, sinon elles constituent des cas aberrants etdoivent par consquent tre retires de l'analyse.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 6

    3. Les types d'extraction d'une solution factorielle.

    A) l'extraction de type ACP pour analyse en composantes principales (ou PC pour principalcomponents en anglais) Ce type d'extraction produit ncessairement une solution et la solution produite est unique. Ils'agit d'un solution maximisant la variance explique par les facteurs.

    B) l'extraction pour l'analyse factorielle

    Il y a plusieurs mthodes d'extraction. Il faut souligner que lorsque la solution factorielle eststable, les diverses mthodes donnent des rsultats similaires, la plupart du temps identiques.Les mthodes les plus utilises sont:

    - ML pour maximum de vraisemblance (ou maximum likelihood en anglais) : maximise laprobabilit que la matrice de corrlation reflte une distribution dans la population. Cettemthode produit aussi un test de P2 de rapport de vraisemblance qui indique si la solutionfactorielle est plausible. La probabilit de ce test doit tre suprieure .05, c'est--dire quel'on ne doit pas rejeter l'hypothse nulle qui veut que le modle soit compatible avec lesdonnes. La mthode est toutefois sensible aux dviations la normalit des distributions: on rencontrefrquemment des problmes lorsqu'on utilise cette mthode avec des chelles ordinales de typetrs, assez, peu, pas du tout.

    - ULS pour moindres carrs non pondrs (ou unweighted least square en anglais) : minimiseles rsidus. Cette mthode est privilgie lorsque les chelles de mesure sont ordinales ou quela distribution des variables n'est pas normale. Cette situation se prsente frquemment ensciences sociales, particulirement lorsque l'on mesure des attitudes.

    alpha-maximisation : Cette mthode est trs peu utilise et trs peu connue. Elle s'avrepertinente lorsque le but de l'analyse est de crer des chelles puisqu'elle tente de maximiserl'homognit l'intrieur de chaque facteur et donc, la fidlit.

  • 2 voir note de bas de page 1 page 3

    Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 7

    4. Les types de rotation

    La rotation est le processus mathmatique qui permet de faciliter l'interprtation des facteurs enmaximisant les saturations les plus fortes et en minimisant les plus faibles de sorte que chaquefacteur apparaisse dtermin par un ensemble restreint et unique de variables. Ce processus esteffectu par rotation, repositionnement des axes.

    Deux types de rotations:

    rotation orthogonale: On utilise cette rotation avec l'ACP2 et avec l'analyse factorielle (AF)lorsque l'on croit qu'il est possible de dterminer des facteurs qui soient indpendants les unsdes autres. Une solution orthogonale est toujours prfrable parce qu'une telle solution indiqueque chaque facteur apporte une information unique, non partage par un autre facteur.Toutefois, ce type de solution est rarement possible en sciences sociales puisque habituellement,il existe des liens conceptuels entre les facteurs. Il existe trois mthodes pour produire unerotation orthogonale; la plus frquemment utilise est VARIMAX.

    rotation oblique: La rotation oblique, utilise surtout avec l'A.F. puisquelle estconceptuellemnet plus approprie dans ce cas, permet qu'il y ait corrlation entre les facteurs.Comme elle correspond habituellement mieux la ralit, elle est frquemment utilise ensciences sociales. La mthode utilise est OBLIMIN.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 8

    5. Les tapes de l'analyse factorielle de type exploratoire

    a) dterminer l'ensemble des variables qui seront analyses conjointement.

    b) idalement, examiner cet ensemble de faon conceptuelle et dterminer la solution quiapparatrait plausible au plan du nombre de facteurs et du regroupement des variables.

    c) - Effectuer une analyse en composantes principales avec rotation orthogonale (varimax) enlaissant la procdure dfinir le nombre de facteurs par dfaut; - effectuer en mme temps une analyse factorielle (lorsque c'est le but final de l'analyse) avecune rotation orthogonale et une rotation oblique (oblimin). Le nombre de facteurs par dfautest dtermin par un critre, celui dune valeur propre plus grande que 1.0. Le Graphique desvaleurs propres donne aussi des indications quant au nombre de facteurs appropris.

    d) Examiner cette analyse pour dterminer les lments suivants:- comparer la ou les solutions proposes avec l'hypothse de regroupement faite audpart.

    - Pour chacune des variables, dcider du maintien dans les analyses subsquentes partirdes critres suivants:

    1) voir si la qualit de la reprsentation ("communality" - A.F. statistiquesinitiales) est suffisamment bonne pour le maintien dans l'analyse.

    2) voir si les variables appartiennent un seul facteur ou plusieurs. Une tropgrande complexit d'une variable justifierait son retrait.

    3) examiner paralllement la pertinence des regroupements et la pertinencethorique de maintenir ou de retirer une variable plutt qu'une autre.

    4) examiner les divers indices de pertinence de la solution factorielle

    e) refaire l'analyse de faon itrative jusqu' arriver une solution simple satisfaisante.

    Le test d'une bonne analyse factorielle rside, en fin de compte, dans la signification desrsultats. C'est le chercheur qui "dcode" la signification conceptuelle de chaque facteur. Ilfaut donc pouvoir nommer chaque facteur.

  • 3 La mention SPSS Windows rfre l'item ANALYSE FACTORIELLE du menu droulant ANALYSE-FACTORISATION La mention SPSS syntaxe rfre la version UNIX ou PC ainsi qu ' la syntaxe que l'on peutditer soi-mme dans la version Windows.

    Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 9

    Deux problmes se posent:

    1) Le critre de la justesse de l'analyse est en partie subjectif (Est-ce que le regroupement fait dusens?). Il faut faire particulirement attention la tendance qu'ont certains chercheurs donneraux facteurs des noms qui font du sens et qui impressionnent mais qui ne refltent pas ce qui at mesur.

    2) Il y a une infinit de solutions possibles aprs rotation; il n'y a donc pas une seule "bonne"solution. Il est alors difficile de dcrter que la solution prsente est "la solution". Il faut laprsenter comme une solution plausible qui n'est pas contredite par les donnes.

    6) Outils de diagnostic de la solution factorielle :

    Si le principal critre d'un bonne solution factorielle demeure sa justesse au plan thorique, auplan du sens, il demeure que plusieurs outils statistiques nous guident dans la recherche de lameilleure solution possible. Voici une brve prsentation des principaux outils diagnostiquesutiliss. L'exemple prsent permettra d'en comprendre l'utilisation de faon plus pousse.

    A) adquation de la solution globale

    a) Le dterminant de la matrice:

    Un dterminant gal a zro signifie qu'au moins une variable est une combinaison linaireparfaite d'une ou de plusieurs autres variables. Il y a donc une variable qui ne rajoute aucuneinformation nouvelle au-del de celle fournie par les autres variables. Dans ce cas l'analyse nepeut procder pour des raisons mathmatiques (Il est impossible d'inverser la matrice). Notonsque nous recherchons un dterminant trs petit, ce qui constitue un bon indice de l'existence depatrons de corrlations entre les variables, mais non gal zro.

    On obtient le dterminant- en indiquant DTERMINANT dans la fentre CARACTRISTIQUES (SPSS Windows)3.- en indiquant DET dans la sous-procdure /PRINT (SPSS syntaxe)

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 10

    b) La mesure de Kaiser-Meyer-Olkin

    Plus communment appel le KMO, la mesure de Kaiser-Meyer-Olkin est un indiced'adquation de la solution factorielle. Il indique jusqu' quel point l'ensemble de variablesretenu est un ensemble cohrent et permet de constituer une ou des mesures adquates deconcepts. Un KMO lev indique qu'il existe une solution factorielle statistiquement acceptablequi reprsente les relations entre les variables.

    Une valeur de KMO de moins de .5 est inacceptable.5 est misrable.6 est mdiocre .7 est moyenne.8 est mritoire.9 est merveilleuse (ref: SPSS professional statistics)

    Le KMO reflte le rapport entre d'une part les corrlations entre les variables et d'autre part, lescorrlations partielles, celles-ci refltant l'unicit de l'apport de chaque variable.

    On obtient le KMO - en indiquant Indice KMO et test de Bartlett dans la fentre CARACTRISTIQUES (SPSS Windows).- en indiquant KMO dans la sous-procdure /PRINT (SPSS syntaxe)

    c) Le test de sphricit de Bartlett:

    Ce test vrifie l'hypothse nulle selon laquelle toutes les corrlations seraient gales zro. Ondoit donc tenter de rejeter l'hypothse nulle i.e. que le test doit tre significatif (la probabilitd'obtenir la valeur du test doit tre plus petite que .05). Toutefois le test est trs sensible aunombre de cas; il est presque toujours significatif lorsque le nombre de cas est grand. Sesrsultats sont donc intressants presque uniquement lorsqu'il y a moins de 5 cas par variable.

    On obtient le test de sphricit automatiquement - avec l'indication Indice KMO et test de Bartlett dans la fentre CARACTRISTIQUES (SPSS Windows).- avec l'indication KMO dans la sous-procdure /PRINT (SPSS syntaxe)

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 11

    d) Le test du coude de Cattell

    Le Graphique des valeurs propres donne une reprsentation graphique des informations sur lesvaleurs propres de chaque facteur prsentes dans le tableau des statistiques initiales. Dans cettereprsentation, il faut rechercher le point (parfois les points) de cassure qui reprsente le nombrede facteurs au-del duquel l'information ajoute est peu pertinente. Plus la courbe est accentue,plus il apparat qu'un petit nombre de facteurs explique la majeure partie de la variance. A partirdu moment o la courbe devient presque une ligne droite horizontale, il apparat que les facteurssubsquents apportent peu de nouvelles informations.

    Note : Les valeurs propres reprsentent la variance explique par chaque facteur. Elles sontconstitues de la somme des poids factoriels au carr de toutes les variables pour un facteurdtermin.

    On obtient cette reprsentation- en indiquant Graphique des valeurs propres dans l'item "afficher" de la fentre EXTRACTION (SPSS Windows).- en indiquant EIGEN dans la sous-procdure /PLOT (SPSS syntaxe)

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 12

    e) La matrice reconstitue et les rsidus

    L'analyse en composantes principales, tout comme l'analyse factorielle, constitue unedcomposition de la matrice des corrlations entre les variables.

    Ainsi, si l'on effectue une analyse en composantes principales et que l'on demande autant defacteurs qu'il y a de variables dans l'analyse, la matrice de corrlation reconstitue seraidentique la matrice de corrlation initiale.

    Ce n'est pas le cas pour l'analyse factorielle puisque celle-ci tente d'expliquer non pas la variancetotale mais uniquement la covariance entre les variables. Donc, mme avec autant de facteursque de variables, la matrice qui est cre lorsque l'on tente l'opration inverse, c'est--dire dereproduire les corrlations d'origine partir des informations extraites des facteurs suite l'analyse, ne reproduira pas les corrlations originales la perfection, il restera des rsidus.Il restera d'autant plus de rsidus que l'on garde seulement une partie des facteurs.

    Donc, plus la solution factorielle est bonne, plus la matrice reconstitue s'approche de la matricede corrlation initiale et moins les rsidus sont importants. L'indication d'une proportion faiblede rsidus plus grands que .05 signifie que la solution est approprie. Ces rsidus devraientquand mme tre examins pour voir s'il n'y a pas des cas aberrants.

    On obtient la matrice reproduite et la matrice des rsidus- en demandant RECONSTITUE dans la fentre CARACTRISTIQUES (SPSS Windows).- en indiquant REPR dans la sous-procdure /PRINT (SPSS syntaxe)

    f) La structure obtenue

    La structure obtenue, c'est--dire le tableau des corrlations entre les variables et les facteurs(Matrice des composantes en rotation orthogonale et Matrice des types en rotation oblique), doittre simple, ce qui veut dire que chaque variable doit avoir une corrlation plus grande que .3avec au moins un facteur et avec un seul facteur.

    Ces matrices sont imprimes automatiquement- en indiquant Structure aprs rotation dans la fentre ROTATION (SPSS Windows). Pouravoir ces mmes tableaux avant rotation, on indique Structure factorielle sans rotation dansla fentre EXTRACTION.- en indiquant DEFAULT dans la sous-procdure /PRINT (SPSS syntaxe)

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 13

    B) Pertinence de garder une variable dans la solution.

    a) Les statistiques descriptives des variables

    Les variables, par dfinition, doivent montrer une certaine variation du positionnement desindividus quant ce qui est mesur. En ce sens, un cart-type important et une moyenne qui serapproche du milieu de l'chelle de mesure (exemple: moyenne de 2.5 pour une chelle 4catgories) sont de bons indices que la variable apporte une information susceptible d'aider diffrencier les individus.

    Ces statistiques sont produites - en indiquant Caractristiques univaries dans la fentre CARACTRISTIQUES (SPSSWindows).- en indiquant UNIVARIATE dans la sous-procdure /PRINT (SPSS syntaxe)

    b) La qualit de la reprsentation de chaque variable avec la solution factorielle initiale

    On doit examiner les statistiques de qualit de la reprsentation pour l'analyse factorielleproprement dite (et non lACP) et ceci avant lextraction d'un nombre restreint de facteurs. Laqualit de la reprsentation indique alors l'appartenance de chaque variable la covariance del'ensemble des variables. C'est la variance de chaque variable qui peut tre explique parl'ensemble des autres variables. On considre que la qualit de la reprsentation doit treminimalement de .20 pour justifier le maintien de la variable dans l'analyse.

    Par ailleurs, quoique ce soit un indice diffrent, il pourrait arriver qu'une variable ait une bonnequalit de la reprsentation avec la solution initiale mais non avec la solution aprs extractiond'un nombre restreint de facteurs. Ceci se reflterait probablement par le fait que cette variablene se regrouperait pas avec les autres dans la solution factorielle; elle dterminerait entirementun facteur.

    NOTE: La somme des poids factoriels au carr pour une variable donne gale la qualit de lareprsentation de cette variable.

    On obtient ces informations - en indiquant Structure initiale dans la fentre CARACTRISTIQUES (SPSS Windows).- via DEFAULT dans la sous-procdure /PRINT (SPSS syntaxe)

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 14

    c) La simplicit ou la complexit de chaque variable dans la solution factorielle finale

    Une variable est dite complexe lorsqu'elle est corrle substantiellement (saturation factorielleplus grande que 0,30 plus d'un facteur). On peut dire que les rponses cette variable refltentplus d'un concept. Ainsi, il pourrait arriver que la satisfaction face aux avantages sociaux soitcorrle deux facteurs, un portant sur la rmunration (associ au salaire) et l'autre portant surla scurit d'emploi. Cela entrane un problme lorsque l'on veut crer des chelles : Avecquelle chelle devrait-on regrouper cette variable, celle portant sur la rmunration ou celleportant sur la scurit?

    Il y a plusieurs manires de traiter ce problme en fonction de l'importance thorique de lavariable, du choix quant au nombre de facteurs, de la rotation (orthogonale ou oblique)privilgie. Dans le cas o d'autres variables amnent une information similaire, on peut retirerla variable considre comme complexe. Il arrive qu'on la maintienne dans l'analyse; lorsquel'on veut crer les chelles, on dcide de son appartenance une chelle plutt qu'une autre partir des informations fournies par les analyses de fidlit et partir de considrationsthoriques.

    Ces informations sont tires des matrices factorielles (Matrice des composantes ou Matrice destypes) que l'on obtient- en indiquant Structure aprs rotation dans la fentre ROTATION (SPSS Windows).- en indiquant DEFAULT dans la sous-procdure /PRINT (SPSS syntaxe)

    d) Un cas spcial: le Heywood case

    On parle de cas Heywood lorsque, d aux relations entre les variables, il y a un problme dansles calculs et la qualit de la reprsentation devient plus grande que 1.0. On repre un casHeywood case - lorsque la qualit de la reprsentation d'une variable est note comme

    tant .9998 ou .9999.- lorsque la saturation factorielle de la variable est plus grande que 1.0. (SPSS met unavertissement disant que la qualit de la reprsentation d'une ou de plusieurs variablesest plus grande que 1.0).

    Le cas Heywood est d au fait que la variable est trop fortement corrle une ou plusieursautres variables. Dans ce cas, il faut dcider soit de retirer la variable des analysessubsquentes soit de retirer une autre variable avec laquelle elle est fortement corrle.

  • 4 Nota bene : On ne peut pas choisir plus d'une mthode la fois. C'est la mme chose pour les rotations.Il est habituellement prfrable d'diter le fichier de syntaxe de faon pouvoir faire plusieurs analyses la fois,sinon il faut diter le fichier Rsultats pour ne pas faire imprimer plusieurs fois les mmes informations.

    Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 15

    En rsum, voici les commandes pour l'analyse factorielle avec Spss -Windows:6 Allez dans ANALYSE,

    6 choisir FACTORISATION - ANALYSE FACTORIELLEDans le tableau principal de l'analyse factorielle

    a) Choisir les VARIABLES que l'on veut analyser

    b) Dans CARACTRISTIQUES : - STATISTIQUES 6 CARACTRISTIQUES UNIVARIES 6 STRUCTURE INITIALE

    - MATRICE DE CORRLATIONS6 COEFFICIENTS6 DTERMINANT 6 INDICE KMO ET TEST DE BARTLETT 6 MATRICE DES CORRLATION RECONSTITUE

    c) Dans EXTRACTION : - METHODE4 6COMPOSANTES PRINCIPALES (PC)6MOINDRES CARRS NON PONDRS (ULS)6ALPHA-MAXIMISATION6...

    - EXTRAIRE 6VALEURS PROPRES SUPRIEURES 1.06NOMBRE DE FACTEURS =6MAXIMUM DES ITRATIONS POUR CONVERGER (pouraugmenter le nombre d'itrations ncessaires laconvergence).

    - AFFICHER 6STRUCTURE FACTORIELLE SANS ROTATION6GRAPHIQUE DES VALEURS PROPRES

    d) Dans ROTATION: - MTHODE 6VARIMAX6OBLIMIN DIRECTE

    - DISPLAY 6STRUCTURE APRS ROTATION6CARTE(S) FACTORIELLE(S) (par dfaut: 3-D pour 3premiers facteurs; si on veut un graphique des facteursdeux par deux, il faut diter la syntaxe en rajoutant uneparenthse (n1 n2) aprs l'indication PLOT)

    e) Dans OPTIONS: - VALEURS MANQUANTES6 EXCLURE TOUTE OBSERVATION INCOMPLTE OU EXCLURESEULEMENT LES COMPOSANTES NON VALIDES OUREMPLACER PAR LA MOYENNE

    - AFFICHAGE DES PROJECTIONS6CLASSEMENT DES VARIABLES PAR TAILLE6SUPPRIMER LES VALEURS ABSOLUES INFRIEURES (.30)

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 16

    7) Commandes pour l'analyse factorielle avec SPSS

    En rsum, une commande d'analyse factorielle dans SPSS qui donnerait l'ensemble desinformations ncessaires prsentes plus haut aurait la forme suivante:

    COMMANDE, SOUS-COMMANDE SIGNIFICATION

    FACTOR /VAR=NATURE3 TO RECON8CARRIER1 STABIL2 PERFECT9 SECUR13SALAIR10 TO HORAIR12* Dans Windows, slectionner les variables

    FACTOR: demande une analyse factorielle/VAR= liste des variables qui seront analyses

    /PRINT DEFAULT UNIVARIATECORRELATION REPR DET KMO*Dans Windows, choisir Structure initiale,Caractristiques univaries, Coefficients,Reconstitue, Dterminant et Indice KMO et testde Bartlett dans CARACTRISTIQUES

    /PRINT indique les informations qui devronttre imprimes, dans ce cas-ci, les statistiquespar dfaut, les statistiques univaries pourchaque variable, la matrice de corrlationoriginale, la matrice reproduite, le dterminant,le KMO et le test de sphricit.

    /CRITERIA FACTORS (4)

    * Dans Windows, cette option est disponibledans la fentre EXTRACTION

    /CRITERIA permet de spcifier, lorsquencessaire, des critres tels le nombre defacteurs et le nombre d'itrations; dans ce cas-ci, on demande 4 facteurs.

    /PLOT EIGEN *ROTATION (1,2)* Dans Windows, on demande le Graphique desvaleurs propres (eq. de PLOT EIGEN) dans lafentre EXTRACTION et Carte factorielle dansla fentre ROTATION (eq. de ROTATION). Pardfaut , cette dernire indication donne ungraphique en 3 dimensions des 3 premiersfacteurs, le cas chant. Pour obtenir desgraphiques en deux dimensions , il faut diter lasyntaxe.

    /PLOT permet de demander des graphiques desvaleurs de eigen ou des facteurs; dans ce cas-cion demande le graphique des valeurs de eigenet celui des deux premiers facteurs

    /FORMAT SORT BLANK (.3)* Dans Windows, la fentre OPTIONS donnelAffichage des projections. On cliqueClassement des variables par taille et Supprimerles valeurs absolues infrieures __. On changela valeur par dfaut (.10) .30.

    /FORMAT contrle l'apparence; dans ce cas-ciSORT permet que les variables apparaissentdans les matrices factorielles en fonction de leurimportance et selon les facteurs et BLANK (.3)permet que les saturations factoriellesinfrieures .3 n'apparaissent pas dansl'impression ce qui facilite la lecture.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 17

    /EXTRACTION PC /ROTATION VARIMAX /EXTRACTION ULS /ROTATION VARIMAX /ROTATION OBLIMIN.*Dans SPSS Windows, il faut, pour chaqueextraction ou rotation, refaire la commandedAnalyse facorielle au complet (i.e. choisir lemode d'extraction appropri dans EXTRACTIONet la rotation dsire dans ROTATION). Il estnettement prfrable d'diter la commande pourdemander les extractions et rotations pour unensemble de variables dtermin en une seulecommande. Attention, c'est dans la fentreEXTRACTION que l'on demande le Graphiquedes valeurs propres (Scree plot) ainsi que lasolution factorielle sans rotation et que l'ondfinit les critres (nombre de facteurs et/ouditrations) le cas chant. Dans ROTATION,on demande la Structure aprs rotation et lescartes factorielles (loading plots).

    EXTRACTION spcifie le type d'extraction etROTATION le type de rotation. Dans ce cas-ci,on demande une premire analyse avec uneextraction PC (en composantes principales)avec une rotation orthogonale et une deuximeanalyse avec extraction ULS (moindres carrsnon pondrs) comprenant une rotationorthogonale et une rotation oblique.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 18

    8) Qu'est ce que l'analyse de fidlit?

    Blalock (1968):

    "Les sociologues thoriciens utilisent souvent des concepts qui sont formuls un assez hautniveau d'abstraction. Ce sont des concepts relativement diffrents des variables utilises qui sontle lot des sociologues empiriques... Le problme du lien entre la thorie et la recherche peut donctre vu comme une question d'erreur de mesure".

    La mesure peut tre vue comme le "processus permettant de lier les concepts abstraits auxindicateurs empiriques" (Carmines et Zeller, 1979).

    Deux concepts cls: La fidlit et la validit

    Fidlit: Consistance dans la mesure : Jusqu' quel point plusieurs mesures prises avec lemme instrument donneront les mmes rsultats dans les mmes circonstances.

    Exemple: Je fais passer un questionnaire portant sur l'idologie deux fois auxmmes personnes deux mois d'intervalle et j'obtiens des rsultats diffrentsentre les deux passations. Est-ce que l'idologie d'une personne peut changer sivite ou si c'est l'instrument qui n'est pas fiable?

    La fidlit demeure au plan empirique: elle dit si en soi l'instrument est un bon instrument.

    Validit: Jusqu' quel point l'instrument mesure ce qu'il est suppos mesurer.

    Exemple: Si j'utilise une srie de questions censes mesurer les prfrencesidologiques et que je me rends compte que j'ai en fait mesur l'identification un parti politique, ma mesure est une mesure non valide de l'idologie.

    La validit concerne la relation entre la thorie et les concepts qui lui sont relis d'une part etla mesure d'autre part: elle est concerne par l'adquation de la traduction du concept en mesure.

    Plusieurs types de validit:

    validit relie au critre: relation entre l'instrument et ce quoi il devrait thoriquement trereli. On parle de validit prdictive quand le critre est mesur aprs et de validit concurrentequand le critre est mesur en mme temps.

    validit de contenu: relation entre le /les concepts mesurer et l'instrument utilis. Un instrumentde mesure de l'alination mesurera le sentiment d'absence de pouvoir, d'absence de normes,d'isolation sociale, etc. Ceci implique que le domaine et les concepts doivent tre bien dfinis.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 19

    validit de construit: relation entre l'instrument et d'autres instruments suppos mesurer desconcepts relis.

    validit convergente et discriminante: voir analyse factorielle: Jusqu' quel point chaqueindicateur constitue une mesure d'un et d'un seul concept.

    La fidlit:

    6 thorie classique des tests: 6 le score observ (qui peut-tre par exemple la rponse d'une personne unequestion) est une combinaison linaire d'une partie reprsentant le score vraiet d'une partie d'erreur alatoire.

    X=t+eo "t" reprsente le score vrai

    et "e" reprsente l'erreur alatoire

    6 la corrlation entre deux scores observs constitue un estim de la fidlit desmesures 6 Ds qu'on a plus d'une mesure d'un mme concept, on peut estimerla fidlit D ; on peut concevoir l'erreur moyenne de mesure comme larciproque de la fidlit, "1-D ". Dans la thorie classique des tests, ceci est vraisi les scores vrais et la variance d'erreur sont identiques (i.e. les mesures sontparallles).

    Diverses manires de mesurer la fidlit:

    fidlit test-retest: corrlation entre la mesure prise un temps 1 et la mesure prise un temps2: fidlit dans le temps.

    fidlit "split-half" entre deux sous-ensembles: Jusqu' quel point deux sous-ensembles desitems constituent deux mesures fidles du mme concept.

    fidlit entre diffrentes formes: Jusqu' quel point deux ensembles diffrents d'items peuventmesurer le mme concept.

    consistance interne: Jusqu' quel point chacun des items constitue une mesure quivalente d'unmme concept.

    On peut mesurer la consistance interne en utilisant le

    6 Alpha de Cronbach:

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 20

    o "k" est le nombre d'itemscoGv est la covariance moyenne entre les items

    et vaGr est la variance moyenne des items

    Si les items sont standardiss de faon avoir la mme variance, la formule se modifie commesuit:

    o "k" reprsente le nombre d'items dans l'chelleet "D)" est la corrlation moyenne

    Ce coefficient Alpha peut tre considr comme la moyenne des coefficients alpha que l'onobtiendrait pour toutes les combinaisons possibles de deux sous-ensembles des items mesurantun mme concept. Il peut aussi tre vu comme l'estim de la corrlation que l'on obtiendraitentre un test et une forme alternative du mme test comprenant le mme nombre d'items.

    Le coefficient alpha est la borne infrieure de la fidlit relle i.e la fidlit relle ne peut pastre infrieure la valeur du alpha et elle est gale cette valeur lorsque les items sont paralllesi.e. les scores vrais ont la mme moyenne et la variance d'erreur est la mme.

    Remarquer que la valeur de alpha augmente avec le nombre d'items, mais ce la condition quela corrlation moyenne inter-item ne soit pas diminue avec l'ajout de nouveaux items (i.e.toutes choses gales par ailleurs). L'amlioration du alpha devient marginale au-del d'uncertain nombre d'items (environ 6-7).

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 21

    9) L'analyse de fidlit : aspects pratiques et outils diagnostiques

    Plusieurs outils sont disponibles pour valuer la fidlit d'un ensemble de variables. Laprocdure POSITIONNEMENT-ANALYSE DE FIABILIT de SPSS permet d'examiner lesinformations pertinentes:

    Matrice de corrlation: Tout comme avec l'analyse factorielle, cette matrice permet de voirjusqu' quel point les items sont corrls entre eux et quels items sont plus fortement corrls.S'il s'avrait que deux concepts sont mesurs plutt qu'un seul, les corrlations pourraient nouspermettre de reprer cette possibilit.

    6 Dans SPSS Windows, on indique Corrlations dans COHRENCE INTER-ITEMS6 Dans SPSS syntaxe, on indique la sous-commande CORR dans /STATISTICS

    Statistiques univaries:Pour chacun des items, on peut obtenir la moyenne et l'cart type, ce qui permet de voir si lesstatistiques descriptives sont similaires pour les divers items,

    6 Dans SPSS Windows, on indique Item dans CARACTRISTIQUES6 Dans SPSS syntaxe, on indique la sous-commande DESCRIPTIVE dans /STATISTICS

    Les statistiques d'chelle: indiquent quelle serait la moyenne, la variance et l'cart-type del'chelle si on additionnait les rponses chacun des items. Donne une ide des propritsfutures de l'chelle crer 6 la variance sera-t-elle suffisante?

    6 Dans SPSS Windows, on indique Echelle dans CARACTRISTIQUES6 Dans SPSS syntaxe, on indique la sous-commande SCALE dans /STATISTICS

    Le sommaire des statistiques d'items: les moyennes: Donnent les indications sur les diffrencesde moyennes entre les items i.e minimum, maximum, moyenne, ratio maximum/minimum. Sices diffrences sont trop importantes, on pourrait penser que chaque item ne mesure pas leconcept de faon quivalente.

    6 Dans SPSS Windows, on indique Moyennes dans PRINCIPALES STATISTIQUES6 Dans SPSS syntaxe, on indique la sous-commande MEANS dans /SUMMARY

    Le sommaire des statistiques d'items: les variances: Donnent les indications sur les diffrencesde variances entre les items. Mme interprtation que pour les moyennes.

    6 Dans SPSS Windows, on indique Variances dans PRINCIPALES STATISTIQUES6 Dans SPSS syntaxe, on indique la sous-commande VARIANCES dans /SUMMARY

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 22

    Les statistiques d'items: les corrlations inter-items: Donnent les indications trs importantessur les diffrences de corrlations entre les items. Des corrlations trs faibles ou ngativesdevraient tre repres dans la matrice de corrlation et la pertinence de garder des itemsmontrant une corrlation ngative avec un ou plusieurs items value. Si cette situation existe,soit que plus d'un concept est mesur, soit que certains items mesurent mal le concept ou quel'chelle aurait due tre inverse pour cet item (Par exemple, dans le cas o des items sontformuls ngativement et d'autres positivement).

    6 Dans SPSS Windows, on indique Corrlations dans PRINCIPALES STATISTIQUES6 Dans SPSS syntaxe, on indique la sous-commande CORR dans /SUMMARY

    Les statistiques de la relation entre chaque item et le total (chelle):

    Moyenne, variance qui rsulterait si on enlevait un item : La moyenne et la variance de l'chellene devraient pas tre fortement modifis par le retrait d'un item sinon, ceci signifie que l'itemen question ne contribue pas de la mme manire la mesure du concept que les autres items.

    Corrlation corrige: Il s'agit de la corrlation entre l'item et les autres items de l'chelle (i.el'chelle moins l'item en question). Cette corrlation devrait tre minimalement de .30 (commedans le cas de la corrlation entre chaque item et le facteur dans l'analyse factorielle).

    Corrlation multiple au carr: Il s'agit de la variance de l'item explique par les autres items.Plus elle est leve, plus l'item est une mesure commune du concept. Il s'agit de l'quivalent dela "communaut" dans les statistiques initiales en analyse factorielle.

    alpha si l'item tait enlev: Il est trs important de regarder cette information. Si un itemn'appartient pas l'chelle, alors la fidlit telle que mesure par le alpha serait suprieure sil'item tait enlev. Donc, lorsque le "alpha if item deleted" est suprieur au alpha standardis,ceci signifie que l'item en question est une mesure qui dtriore la fidlit de l'chelle.

    Toutes les statistiques prcdentes sont obtenues6 Dans SPSS Windows, on indique Echelle sans litem dans CARACTRISTIQUES6 Dans SPSS syntaxe, on indique la sous-commande SCALE dans /STATISTICS

    ALPHA ET ALPHA STANDARDIS: Ces deux mesures sont similaires lorsque les moyenneset les variances des items diffrent peu. L'valuation d'un bon alpha est similaire celle duKMO: On recherche une valeur suprieure .70, une valeur suprieure .90 tant magnifique.

    10) L'analyse de fidlit avec SPSS

    En rsum, voici les commandes pour l'analyse de fidlit avec Spss -Windows:6 Allez dans ANALYSE,

    6choisir POSITIONNEMENT- ANALYSE DE FIABILIT

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 23

    Dans le tableau principal de l'analyse de fidlita) Choisir les VARIABLES (items) que l'on veut analyser

    b) Cliquer sur LISTER LES TIQUETTES DITEM

    c) Dans MODLE : - choisir le type d'analyse 6 ALPHA- autres choix (split-half, Guttman, parallel, strict parallel)

    d) Dans STATISTIQUES : - CARACTRISTIQUES POUR 6 ITEM

    6 CHELLE6 CHELLE SANS LITEM

    - PRINCIPALES STATISTIQUES6 MOYENNES6 VARIANCES6 CORRLATIONS6 COVARIANCES

    - COHRENCE INTER-ITEM 6 CORRLATIONS

    6 COVARIANCES- TABLEAU ANOVA

    6 AUCUN6 (TEST F - teste qu'il n'y a pas de diffrencesignificative entre les diffrentes mesures del'chelle)

    Autres informations disponibles : - T carr de Hotelling- Test dadditivit de Tukey

    En rsum, la syntaxe:

    RELIABILITY /VARIABLES=q65c q65d q65e q65f q65g q65h /FORMAT=LABELS /SCALE(ALPHA)=ALL /MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE CORR /SUMMARY=TOTAL MEANS VARIANCE CORR .

    11) Notes additionnelles

    a) Relation entre l'analyse factorielle, l'analyse en composantes principales et l'analyse defidlit.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 24

    Le but premier de ces analyses est d'en arriver regrouper ensemble les items qui mesurent lemme concept de faon ce qu'une addition des rponses un ensemble d'items constitue unenouvelle mesure, composite, d'un concept. Par exemple, si on additionne les rponses de chaquerpondant chacun des items mesurant la satisfaction envers un aspect extrinsque de sontravail, on obtiendra pour chaque rpondant une mesure de satisfaction extrinsque.

    L'analyse en composantes principales (ACP) dcompose la matrice de corrlation en tenantcompte de l'ensemble de la variance des items. Elle en extrait un certain nombre de facteursindpendants. Le but de l'analyse en composantes principales est d'expliquer le plus de variancepossible avec un nombre de composantes le plus restreint possible. Aprs extraction, une partseulement de la variance totale est explique. Le mode d'extraction et de rotation permet dedterminer les sous-ensembles d'items qui sont plus fortement corrls entre eux et qui peuventdonc constituer des mesures d'un nombre restreint de concepts.

    L'analyse factorielle (AF) fait la mme chose que l'ACP mais tient compte uniquement de lavariance commune l'ensemble des items. Elle extrait des facteurs qui peuvent treindpendants ou corrls entre eux. Son but est de reproduire le plus fidlement possible lamatrice de corrlation. Comme l'ACP, elle permet de dterminer des sous-ensembles plusfortement corrls entre eux.

    Comme l'ACP et l'AF ne retiennent qu'une partie de la variance totale dans la solution finale, lesrsultats de l'analyse de fidlit peuvent contredire en partie ceux de l'analyse factorielle ou del'ACP. On peut expliquer cette situation par le fait que la variance commune d'un item est bienrelie celle d'un autre item mais que leurs variances spcifiques sont peu ou pas du toutcorrles ou mme en corrlation ngative. Comme l'analyse de fidlit considre l'ensemblede la variance, cette situation peut faire qu'un item bien identifi un facteur en AF se rvleun mauvais contributeur l'chelle.

  • Claire Durand - L'analyse factorielle et l'analyse de fidlit - 13 juillet 2005 25

    b) Attention aux valeurs manquantes:

    Comme il est possible que certains rpondants n'aient pas rpondu tous les items d'unensemble donn, le nombre de cas valides peut varier d'une analyse l'autre selon que l'on retireou que l'on ajoute un item. Ceci peut modifier les rsultats. Il existe dans certaines procduresdes moyens d'estimer les valeurs manquantes, entre autres en remplaant la valeur manquantepar la moyenne du groupe. Comme rgle gnrale, les valeurs manquantes ne sont pasestimes: les cas qui n'ont pas rpondu toutes les questions n'apparaissent pas dans l'analyse.Nous n'avons pas le temps d'aborder toute cette problmatique durant le cours (Il existe dansBMDP, par exemple, 15 manires diffrentes d'estimer les valeurs manquantes, chacune ayantson biais propre) mais il demeure qu'il faut examiner les rsultats et la modification du nombrede cas valides selon les analyses.

    Bibliographie

    Tabachnik,Barbara G.; Fidell,Linda S. (1996): Using multivariate statistics. Harper and Row,New York. 509 pages.

    Norusis,M. J. (1993): Spss professional statistics. SPSS, Chicago.

    Norusis,M. J. (1993): Spss advanced statistics. SPSS, Chicago.

    Analyse factorielle et fidlit:

    Carmines,Edward G.; Zeller,Richard A. (1979): Reliabiblity and validity assessment.(Quantitative applications in the social sciences, 17.) Sage, Beversly Hills. 71 pages.

    Kim,Jae-On; Mueller,Charles (1978): Introduction to factor analysis. What it is and how todo it. (Quantitative applications in the social sciences.) Sage, Beverly Hills.

    Kim,Jae-On; Mueller,Charles (1978): Factor analysis, statistical methods and practical issues.(Quantitative applications in the social sciences.) Sage, Beverly Hills.

  • Factor analysis and Principal components analysis, what's the difference?

    by Lauri Tarkkonen

    Factor analysis is based on the model

    x = Bf+e, and cov(x)=Acov(f)A'+cov(e), one can make some further assumptions say cov(f)=I andcov(e)=D (diagonal), so the covariance is simplified to cov(x) = BB'+D = S.

    Principal components are by definition:

    u = A'x, such as V(u(i)) = a(i)'x is maximum a'a = 1 and the u(i) are orthogonal. Then cov(u) =A'cov(x)A, A'A and AA' are I, thus cov(x) = S = AA' . The factor analysis is a statistical model and theprincipal componentsare just a linear transformation of the original variables. Anyway, in factor analysisS-D = BB' and in principal components S = AA'.The difference in B and A is that you remove the D,the variances of the errors in FA but not in PCA. If there is no errors (it is easy to show that the sameapplies if all error variances are equal) the two methods will give you the same results.

    If there is significant differences in the communalities of the variables, the two methods differ. So whatis the proper one. If you do not assume measurement errors then use PCA; if you think there aremeasurement errors use FA.

    I would like to put it this way:

    You all know the thing called the blueberry pie. First you take some dough, make a bottom ofit, go to the forrest and pick some blueberries. If you believe in PCA, you put everything in yourbasket on top of the how. If you believe that there is something in your basket like leaves,needles, frogs that do not belong to the blueberry pie, you blow strongly while you pour yourberries to the pie. Most things that do not belong to the pie fly away, you might loose someberries as well, but the taste is perhaps more of blueberries. If you did good job in picking yourberries, there is no difference.

    So why is this so difficult? Why do we always have this discussion?

    First: Tradition.

    In the beginning, there was T.W Anderson and his Introduction to Multivariate Analysis (-58). It startedwith PCA and told us that in the appendix (was it F) there is a funny thing called the Factor analysis. Allthe statisticians thought that PCA is the proper method and FA is some magic developed by somepsychologists and you should not take it seriously.

    Remember FA had this rotational indeterminacy.

    Then: Lawley come up with the Maximum Likelihood solution. Now the statisticians had to accept FAas a bona fide statistical model. If there was Maximum Likelihood estimates for something, it must bethe real thing. They realized that there was no theoretical base but the simplicity and the lack ofindeterminacy speaking for the PCA.

  • More confusion:

    Because both solutions were derived by the same solution of the eigenvalue problem, the spectraldecomposition of a symmetric matrix, both analysis was performed with the same computer program.You just told it: do you have the communality estimation or not. Some programmers, like the maker ofSYSTAT did not even understand the difference. Because the default value varied, so the naive userskept on getting whatever the programmers had to think as the main method.

    Still more confusion:

    The calculation of the factor solution has been two stage. Earlier the first stage was calculated by the'principal axes' method. Some people do not see the difference with 'principal axes' and 'principalcomponents'. They might have factors but they claim they have principal components.

    Rotation

    If you bother to stick to the definition of 'principal components' you will not rotate them, because if yourotate, the maximum variance part is not true anymore.

    More tradition In some areas the use of multivariate methods was started during the time when the statistician felt thatPCA is the method and FA is some trick, there they swear still by PCA, because all the articles havePCA.

    GREED

    Some like PCA better because it gives sometimes higher loadings, but for some reason they still wantto remove leaves and frogs from their blueberry pie.

    Hope this helps.

    - Lauri Tarkkonen

    Lauri Tarkkonen / email: [email protected] Tel:+358 0 666108Korkeavuorenkatu 2 b B 11, 00140, Helsinki, Finland FAX +358 0 1913379