Post on 18-Jun-2022
Fondements épistémologiques et
principes de mise en œuvre des modèles
d’équations structurelles en psychologie
Jacques JuhelUniversité Rennes 2
CRPCC (E.A. 1285)
Université Montpellier 3 4 décembre 2015
Qu’entend-on par modèles d’équations
structurelles (SEM) ?
Le modèles d’équations structurelles offrent à la recherche en
psychologie un cadre méthodologique et un outil de
modélisation statistique
A partir d’une certaine façon de « comprendre » un phénomène
complexe et en fonction des buts qu’il poursuit, le chercheur :
• choisit le niveau d’observation et d’analyse associée du phénomène ;
• opérationnalise ses hypothèses théoriques sous la forme d’un système de relations
entre les variables considérées ;
• déduit de ces hypothèses les contraintes imposées aux paramètres d’un certain
modèle statistique ;
• recueille des données empiriques sur un échantillon de participants ;
• estime les paramètres du modèle statistique spécifié et teste sa capacité à reproduire
l’organisation des données ;
• « infère à la meilleure explication » et discute celle-ci.
Un outil de modélisation statistique qui intègre
• L’analyse en pistes causales (biométrie)
Approche déductive : calcul des corrélations entre variables en fonction de relations
causales (des régressions linéaires) spécifiées a priori.
• Les modèles à équations simultanées (économétrie)
Induction statistique en économétrie des modèles linéaires.
• L’analyse en facteurs communs (psychométrie)
Ré-expression de données corrélationnelles, génération d’hypothèses ou test
d’hypothèses.
1y
2y
3y
4y
5y
6y
1ε
2ε
3ε
4ε
5ε
6ε
1η
2η
4x
5x
6x
4δ
5δ
6δ
1ξ
2ξ
1δ
2δ
3δ
1x
2x
3x 1ζ
2ζ
11γ
21β
12γ
21γ
22γ
11
xλ
21
xλ
31
xλ
52
xλ
62
xλ
42
xλ
11
yλ
21
yλ
31
yλ
52
yλ
62
yλ
42
yλ
Jöreskog, K. G. (1973). A general method for estimating a linear structural equation system. In A. S. Goldberger & O. D. Duncan
(Eds.), Structural equation models in the social sciences (pp. 85–112). New York, NY: Seminar Press.
δΘ xΛ Φ Β εΘyΛΨΓ
Modèle de mesure des
variables exogènes
Modèle de mesure des
variables endogènes
Modèle structural
Factor Analysis + Simultaneous Equation Model : le modèle
LISREL
Modèle de régression linéaire simple
Equation : X ⫫ ε
Représentation structurale :
xβ1
y ε1
VAR(ε)
Le modèle structural est un modèle de régression linéaire
0 1 ,
avec (0, ),
y x
N ε
β β ε
ε σ
= + +
∼
Composante stochastique d’erreur
1
Xµ β0
Modèle d’analyse en facteurs communs
Système d’équations (sans structure de moyenne)
Représentation structurale (sans structure de moyenne)
1
2
3
1 1 1 1
2 2 2 2
3 3 3 3
, avec (0, )
, avec (0, )
, avec (0, )
x N
x N
x N
δ
δ
δ
λ ξ δ δ σ
λ ξ δ δ σ
λ ξ δ δ σ
= +
= +
= +
∼
∼
∼
Le modèle de mesure est un modèle d’analyse factorielle
var(δ1) 1x
2x ξ
1 1λ =
2λ
1δ
2δ
3x3δ
3λvar(δ2)
var(δ3)
ξ
3λ
1λ
2λ var(ξ)
Un cadre méthodologique et un outil de modélisation
statistique qui permettent
• de modéliser des relations complexes au sein d’un système d’entités
observables et inobservables ;
• de mesurer « sans erreur » des construits psychologiques ;
• de tester des hypothèses spécifiques portant sur la structure de covariance et
sur la structure de moyenne du modèle spécifié dans des comparaisons :
- entre individus,
- entre groupes d’individus (multi-groupes),
- entre moments (données longitudinales),
- entre niveaux (données hiérarchisées).
Juhel, J., Brunot, S., & Zapata, G. (2012). Response distortion on the NEO PI-R among candidates taking the entrance examination
to the National School of Civil Aviation (ENAC - France). Psychology, 3, 393-398.
Illustration : différences entre individus
Azzopardi, B., Juhel, J., & Auffray, C. (2015). Aging and performance on laboratory and naturalistic prospective memory tasks: The
mediating role of executive flexibility and retrospective memory. Intelligence, 52, 24–35.
Illustration : différences entre individus et différences liées à
l’âge
Illustration : différences entre groupes
Brunot, S., & Juhel, J. (en préparation). Self-concept clarity mediates the relationship between school stress and subjective well-being
in high-school juniors.
Girls
Boys
Interest in schoolwork
Subjective well-being
-0.317**
-0.465**0.741**
-0.456**
-0.493**0.648**
Mean = 0
Mean = 0.582**
Intercept = 0.512**
Intercept = 0.449**
Mean = 0
Self-concept clarity
Schoolstress
Mean = 0
Intercept = 0
Intercept = 0
Interest in schoolwork
Subjective well-being
Self-concept clarity
Schoolstress
Lebahar, J., & Juhel, J. (2012). Evolution temporelle de la variabilité intra-individuelle des latences à une tâche de contrôle
cognitif et performance au Trail Making Test chez la personne âgée. XIIème Colloque International sur le vieillissement cognitif.
Tours: France.
Illustration : évolution au cours du temps des différences liées à
l’âge
Michinov, E., & Juhel, J. (under review). Team cognition as a mediator between team identification and team effectiveness: Findings
at the individual and team levels.
Illustration : différences selon le niveau (individus, équipes)
Epistémologie des SEM : quelle interprétation du modèle
structural ?
Interprétation empiriste
Les lois scientifiques sont des relations entre observations, de la forme y=f(xn) ,
comprises comme des descriptions de conjonctions constantes d’événements.
L’analyse de régression (repose sur un théorème mathématique qui) postule
l’existence d’un modèle « vrai », qu’elle estime.
- Pré-supposé ontologique : les relations peuvent être décrites par une fonction
mathématique.
- Pré-supposé épistémologique : il est possible de connaître les paramètres de cette
fonction.
Comment justifier de l’existence d’un modèle vrai des relations entre variables
psychologiques ?
Epistémologie des SEM : quelle interprétation du modèle
structural ?
Interprétation empiriste
Version 1
L’analyse de régression permet d’identifier des régularités. C’est un objet
algébrique qui ne peut être employé que dans un cadre d’inférence descriptive.
Version 2
On peut toujours construire des modèles concurrents qui peuvent être corroborés
ou falsifiés.
Le critère d’ajustement empirique est nécessaire mais pas suffisant pour choisir
rationnellement entre modèles concurrents. Il faut recourir à des éléments
additionnels :
- d’autres éléments empiriques, théoriques, mécanismes causaux, etc.
- notion de plausibilité (inférence bayésienne).
Epistémologie des SEM : quelle interprétation du modèle
structural ?
Interprétation réaliste (critique)
L’analyse de régression est une activité dont l’objectif est de démontrer l’existence
d’un mécanisme causal en modifiant fictivement l’issue d’un évènement par la
modification d’une de ses causes, conditionnellement aux hypothèses impliquées
par la forme et la structure du modèle.
Manipulation expérimentale idéalisée ou intervention contrefactuelle : évaluation de
l’énoncé du type « X est la cause de Y si et seulement s’il est vrai que si X n’avait pas
varié, Y n’aurait pas varié, toutes choses égales par ailleurs ».
X Y
Z
(a) (b)
Y
Z
XI1
Pearl, J. (2000). Causality: Models, reasoning and inference. Cambridge: Cambridge University Press.
Epistémologie des SEM : quelle interprétation du modèle
structural ?
Interprétation réaliste (critique)
L’analyse statistique ne peut, à elle-seule, fournir une représentation formelle
d’un mécanisme. L’hypothèse nulle d’ajustement exact du modèle est donc
inappropriée.
Le bon ajustement d’un modèle correctement spécifié indique qu’il peut être
utilisé pour évaluer par intervention formelle les hypothèses théoriques ayant
présidé à sa spécification.
Epistémologie des SEM : quelle interprétation du modèle de
mesure ?
1. Détection de pattern, généralisation empirique
2. Hypothèse du facteur g
3. g⇒ différences des tétrades toutes nulles
1 2 3 4 1 4 2 30x x x x x x x xρ ρ ρ ρ⋅ − ⋅ =
Le phénomène (le positive manifold), l’hypothèse de la « cause
commune » et la théorie bi-factorielle de Spearman
Epistémologie des SEM : quelle interprétation du modèle de
mesure ?
• Perspective instrumentaliste, opérationnaliste, « fictionniste » (développement
des procédures mathématiques) : les facteurs sont des fictions utiles.
• Perspective réaliste (développement des théories) qui n’implique pas
nécessairement que les facteurs, en attente d’études ultérieures, soient réels.
→ Processus d’inférence abductive à une cause commune (abduction
existentielle et analogique)
1. Identification d’un phénomène surprenant
2. Si g existe, le phénomène en découle
3. Il est fondé de considérer l’hypothèse du facteur g comme une « protothéorie »
initialement plausible et méritant d’être explorée plus avant (réalisme
scientifique).
Haig, B. D. (2005). Exploratory factor analysis, theory generation and scientific method. Multivariate Behavioral Research, 40(3),
303–329.
La question du statut ontologique des entités théoriques
Mise en œuvre des SEM
Plusieurs suppositions garantissent l’interprétation des résultats
du modèle
Pouvoir justifier a priori des spécifications du modèle structural :
• le choix des variables exogènes et endogènes ;
• l’exogénéité des variables indépendantes (X→Y et X ⫫ εY) ;
• les contraintes imposées au modèle (par ex., l’absence de relation entre deux
variables) et dont dépendent les estimations ;
• l’orientation des relations : non orientées, récurrentes, non récurrentes ;
• le respect de la condition d’antériorité temporelle si une variable intermédiaire
est distinguée d’un antécédent qui conditionne le phénomène ;
• le respect de l’hypothèse de perturbations indépendantes les unes des autres ;
• etc.
Plusieurs suppositions garantissent l’interprétation des résultats
du modèle
Pouvoir justifier a priori du respect de certaines hypothèses statistiques
liées aux données d’observation :
• l’hypothèse de variables exogènes mesurées sans erreur (les perturbations des
variables endogènes latentes proviennent des erreurs de mesure et de certaines
causes non mesurées).
• des hypothèses distributionnelles : par ex., l’hypothèse de normalité
multivariée des variables endogènes pour l’estimateur du maximum de
vraisemblance.
• etc.
Principe de l’analyse de structure de covariance
• Une approche « confirmatoire » : un modèle de connaissance orienté vers le
mécanisme de génération de la structure de covariance.
• Principe : estimer les valeurs des paramètres inconnus de la population pour
lesquelles
la matrice de variance-covariance Σ(θ) Σ(θ) Σ(θ) Σ(θ) impliquée par le modèle
spécifié
est « la plus proche possible » de
la matrice de variance-covariance S des variables observées.
Spécification
du modèle :
paramètres θθθθ
Matrice de
covariance
ΣΣΣΣ(θθθθ) déduite
du modèle
xβ1
y ε1
VAR(ε)
Matrice impliquée par le modèle de régression simple
Formules pour la population :
- matrice de covariance :
- matrice de covariance correspondant au modèle spécifié :
VAR( ),
COV( , ) VAR( )
y
x y x
Σ =
2
1
1
VAR( ) VAR( )(θ) .
VAR( ) VAR( )
x
x x
β ε
β
+Σ =
Structure de covariance
Σ(θ)
Formules pour la population :
- matrice de covariance :
- matrice de covariance correspondant au modèle spécifié :
Modèle unifactoriel : 3 indicateurs (sans structure de moyenne)
Matrice impliquée par le modèle d’analyse en facteurs
communs
1
2 1 2
3 1 3 2 3
VAR( )
COV( , ) VAR( )
COV( , ) COV( , ) VAR( )
x
x x x
x x x x x
Σ =
21 1
22 1 2 2
23 1 3 2 3 3
VAR( ) VAR( )*
(θ) VAR( ) VAR( ) VAR( )
VAR( ) VAR( ) VAR( ) VAR( )
λ ξ δ
λ λ ξ λ ξ δ
λ λ ξ λ λ ξ λ ξ δ
+
Σ = +
+
Σ(θ)
1* fixé à 1 pour des contraintes d'identification du modèle.λ
L’optimisation d’une fonction objective explicite
Quelles sont, sachant le modèle et les données, les valeurs les plus vraisemblables
des paramètres ?
Spécification
du modèle :
paramètres θθθθ
Matrice ΣΣΣΣ(θθθθ) déduite
du modèle
Matrice S
observée
( , ( ))F S Σ θ
FonctionMatrice
δ estimée
Ecart : matrice de covariance résiduelle
Indices d’ajustement
ˆ ( )Σ θ
Minimisation de la
fonction
de discordance ⇓
Re-spécification du modèle
• Estimateurs du maximum de vraisemblance (ML, MLM, MLMV, MLR; FIML avec les données brutes),
• Estimateurs des moindres carrés (à information complète; généralisés : GLS, pondérés : WLS, WLSM, WLSMV),
• Estimateur bayésien (Markov Chain Monte Carlo).
Les étapes de la modélisation
Description desSpécification du
modèle
Description desIdentification du
modèle
Description des
Description des
Estimation du
modèle
Ajustement et
sélection du modèle
Description desModification du
modèle
La spécification du modèle
Description des relations entre les variables d’un modèle en imposant des
contraintes c’est-à-dire en fixant certains paramètres du modèle.
• Un modèle dans lequel aucun paramètre n’est fixé à 0 s’ajuste toujours parfaitement
(modèle complet ou saturé), même s’il n’a aucun sens.
1 1 11
2 4 4 2
3 7 7 3
4 10 10 4
la variable de référence de est : 1
la variable de référence de est : 1
la variable de référence de est : 1
la variable de référence de est : 1
absence de rel
,
,
,
,
f y
f y
f y
f y
λ
λ
λ
λ
=
=
=
=
1 4 4 1
2 4 4 2
ation entre et : 0
absence de relation entre et : 0
,
,
f f
f f
γ
γ
=
=
L’identification du modèle
L’information est-elle suffisante pour pouvoir estimer les paramètres
inconnus?
Exemple de modèle sur-identifié : 78 unités d’information pour estimer 28
paramètres (ddl=50).
Information connue
12 variances, 66 covariances
Information inconnue
8 saturations (4 autres fixées)
16 variances
1 covariance
3 coefficients de régression
Ddlmodèle = 78 – 28 = 50
L’estimation du modèle
Quelles sont, sachant le modèle et les données, les valeurs les plus
vraisemblables des paramètres ?
L’estimation du modèle
Quelles sont, sachant le modèle et les données, les valeurs les plus
vraisemblables des paramètres ?
Ajustement du modèle et « inférence à la meilleure explication »
Le modèle s’ajuste-t-il ?
T= (N-1)FMLmin
FMLmin : valeur minimale de la fonction
d’ajustement (convergence).
2max( ddl,0)RMSEA
ddl( -1)N
χ −=
BIC=-2logvraisemblance ln( ), paramètres.k N k+
Ajustement du modèle et « inférence à la meilleure explication »
Le RMSEA est une opérationnalisation partielle mais utile de la qualité
d’ajustement du modèle.
Les ddl mesurent la parcimonie de la description et le degré de testabilité
de l’hypothèse.
Toutes choses restant égales par ailleurs, les modèles ayant le plus grand
nombre de degrés de liberté nécessitent moins d’ajustement ad hoc et ont
donc une plus grande puissance explicative .
Ajustement du modèle et « inférence à la meilleure explication »
Le modèle s’ajuste-t-il mieux que certains autres ?
M0 (ddl=50) M1 (ddl=48)
2 2 2plus parcimonieux moins parcimonieux
plus parcimonieux moins parcimonieux
Test du chi-deux du rapport de vraisemblance
ddl ddl ddl
χ χ χ∆ = −
∆ = −
En conclusion
Le plus important commence avant !
• Le passage d’une théorie substantielle (psychologique) à un modèle testable
empiriquement.
• La proposition d’un modèle d’explication dans un contexte donné de
« causalité », conditionnellement à la satisfaction d’hypothèses statistiques
et de suppositions causales plausibles (mais non testables) ;
Par ex., le respect de l’hypothèse de clôture (chaque variable non incluse dans le
système affecte au plus une variable du système).
• La logique est de tester les conséquences logiques d’une hypothèse en
imposant des contraintes au modèle (i.e., en fixant des paramètres) plutôt
qu’en estimant (i.e., en libérant) tous ses paramètres.
• La recherche de modèles alternatifs ou équivalents ;
Des effets statistiques conformes aux attendus accroissent d’autant plus la
crédibilité du modèle que celui-ci a été confronté à d’autres modèles, d’autres
données.
Garder présent à l’esprit que…
• Les SEM ne peuvent pas compenser les erreurs méthodologiques
(importance du plan d’expérience).
• Les erreurs de spécification d’un modèle contribuent à biaiser les
estimations et leurs erreurs-type.
• L’importance des variances et des covariances résiduelles libérées pour
améliorer l’ajustement d’un modèle ne doit pas être sous-estimée (paradoxe
: des unités d’information sans signification théorique contribuent à
l’ajustement du modèle!).
• Il est préférable de se focaliser sur des mesures de taille d’effet, d’intervalle
de confiance (ou de crédibilité) plutôt que sur les seuls indices d’ajustement
(la part de variance des endogènes peut être très faible dans un modèle
s’ajustant bien).
• Le jugement de l’ajustement d’un modèle complexe s’accompagne toujours
d’une certaine subjectivité…
Niveau débutant
Hoyle, R.H. (2011). Structural Equation Modeling for Social and Personality Psychology. Sage.
Raykov, T., & Marcoulides, G.A. (2006). A First Course in Structural Equation Modeling. New York :
Psychology Press.
Schumacker, R.E., & Lomax, R.G. (2010). A Beginner's Guide to Structural Equation Modeling: Third
Edition. New York: Routledge.
Niveau intermédiaire/avancé
Bartholomew, D.J., Knott, M., & Moustaki, I. (2011). Latent Variable Models and Factor Analysis: A
Unified Approach. Wiley.
Bollen, K. (1989). Structural Equations with Latent Variables. Wiley.
Hancock, G.R. & Mueller, R.O. (Ed.) (2006). Structural Equation Modeling: A second course.
Greenwich : IAP.
Hoyle, R.H. (Ed.) (2012). Handbook of Structural Equation Modeling. New York: The Guilford Press.
Kaplan, D. (Ed.) (2009). Structural Equation Modeling: Foundations and Extensions. London : Sage.
Kline, R.B. (2011). Principles and Practice of Structural Equation Modeling. The Guilford Press.
Skrondal, A., & Rabe-Hesketh, S. (Eds.) (2005). Generalized Latent Variable Modeling: Multilevel,
Longitudinal, and Structural Equation Models. Chapman et Hall/CRC.
Niveau avancé/très avancé
Lee, S.-Y. (Ed.) (2007). Handbook of Latent Variable and Related Models. Oxford: Elsevier.
Lee, S.-Y. (2007). Structural Equation Modeling: A Bayesian Approach. Wiley.
Song, X.-Y., & Lee, S.-Y. (2012). Basic and Advanced Bayesian Structural Equation Modeling. Wiley.
Références