STT-7620 MODELES D’EQUATIONS STRUCTURELLES

55
1 STT-7620 MODELES D’EQUATIONS STRUCTURELLES Louis-Paul Rivest Université Laval [email protected] Introduction: Quelques rappels algèbre linéaire: manipulations de matrices régression linéaire simple et multiple Causalité Analyse de cheminement (Path Analysis) Effets directs et indirects

Transcript of STT-7620 MODELES D’EQUATIONS STRUCTURELLES

Page 1: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

1

STT-7620

MODELES D’EQUATIONS STRUCTURELLES

Louis-Paul Rivest Université Laval

[email protected]

Introduction: Quelques rappels

algèbre linéaire: manipulations de matrices régression linéaire simple et multiple

Causalité Analyse de cheminement (Path Analysis) Effets directs et indirects

Page 2: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

2

MATRICE ET ALGÈBRE LINÉAIRE Une matrice est un tableau de nombres ; on dit que la matrice A est mxn si elle compte m lignes et n colonnes. On note également par Aij l’élément sur la ligne i et sur la colonne j de A. Posons par exemple

1.5 2 3.1 8

1 4 5 6.5A

L’élément (1,2) de la matrice vaut 2, A12=2. On dit que la matrice A est 2x4 car elle a 2 lignes et 4 colonnes. Une matrice ne contenant qu’une colonne est appelée un vecteur et une matrice ne contenant qu’une ligne est un vecteur ligne. Par exemple

21

x

et 2 4 1y

sont respectivement un vecteur 2x1 et un vecteur ligne 1x3.

Page 3: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

3

TRANSPOSE D’UNE MATRICE Si A est une matrice mxn le transposé de A, A’, est une matrice nxm dont l’élément (i,j) est donné par Aji. Si A’=A on dit que la matrice A est symétrique. Par exemple le transposé de

1.5 2 3.1 81 4 5 6.5

A

est

1.5 12 4

'3.1 58 6.5

A

ADDITION ET SOUSTRACTION DE MATRICES

Posons : 1.5 2 3.1 8

1 4 5 6.5A

et 1 3 4 81 5 2 4

B

.La somme et la différence de deux matrices A et B de mêmes dimensions mxn est la matrice des sommes et des différences terme à terme. Ainsi

2.5 5 7.1 162 9 7 10.5

A B

et 0.5 1 .9 00 1 3 2.5

A B

.

Page 4: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

4

PRODUIT DE MATRICES

Si 1.5 2 3.1 8

1 4 5 6.5A

et

1 2 12 1 00 0 00 0 1

C

le produit AC est la matrice 2x3 des produits

d’une ligne de A par une colonne de B. Ainsi l’élément (1,1) de AC est

AC11=1.5x1+2x2+3.1x0+8x0=5.5.

La matrice AC est donnée par 5.5 5 9.57 2 5.5

AC

MATRICE IDENTITE La matrice identité, notée I, est une matrice carré (avec m=n), diagonale (Iij=0 si i≠j) avec Iii=1.

La matrice identité 3x3 est 1 0 00 1 00 0 1

I

Page 5: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

5

DETERMINANT D’UNE MATRICE A nxn

Le déterminant de A (noté det(A) ou |A|) est une caractéristique numérique d’une matrice. En dimension 2 et 3 les formules suivantes permettent de calculer le déterminant

11 1211 22 12 21

21 22

A AA A A A

A A

et

11 12 13

21 22 23 11 22 33 21 32 13 31 12 23

31 32 33

11 32 23 12 21 33 31 22 13

A A AA A A A A A A A A A A AA A A

A A A A A A A A A

INVERSE D’UNE MATRICE A nxn L’inverse de A, noté A-1, est la matrice nxn telle que A A-1= A-1A = I. Cet inverse est défini dans la mesure où |A|≠0. Il se calcule relativement facilement. Par exemple, pour une matrice 2x2 inversible

111 12 22 12

21 22 21 1111 22 12 21

1A A A AA A A AA A A A

.

Page 6: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

6

MATRICE DE VARIANCES COVARIANCES Soient deux variables x et y mesurées sur n individus. Les données s’écrivent {xi,yi :i=1,…,n}. La moyenne et la variance de x s’écrivent

1

1 n

ii

x xn

et 2 2

1

1 ( )1

n

x ii

s x xn

.

On a des définitions semblables pour la moyenne y et la variance 2ys de y. La covariance sxy et la

corrélation rxy (de Pearson) entre x et y sont définies par

1

1 ( )( )1

n

xy i ii

s x x y yn

et

2 2

xyxy

x y

sr

s s

Les matrices de variances covariances et de corrélation pour cet échantillon bivarié s’écrivent 2

2x xy

xy y

s sS

s s

et 1

1xy

xy

rR

r

C’est une matrice symétrique 2x2. Lorsque l’on mesure plus de deux variables, ces matrices sontde taille pxp, où p est le nombre de variables. La corrélation rxy satisfait 1 1xyr ; une valeur proche de 0 signifie une absence de lien entre les deux variables ; une valeur positive signifie une association positive entre les variables.

Page 7: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

7

Considérons par exemple la matrice de variances covariances de (FaEd ,HSRank, DegreeAsp, Selctvty , Degree) , des variables observées auprès de n=3094 étudiants

2.283 .150 .187 .902 .1875.150 .604 .153 .576 .141.187 .153 1.028 .432 .247.902 .576 .432 3.96 .486.1875 .141 .247 .486 .925

S

Cette matrice est symétrique car elle satisfait S=ST. On peut déduire de cette matrice la corrélation entre n’importe quelle paire de variables. Par exemple la corrélation entre FaEd et Degree est

0.1875 0.1292.283 0.925xyr

Cette valeur est proche de 0 et la corrélation entre ces deux variables est faible. Les 10 corrélations associées à cette matrice sont peu importantes. Une des plus élevées est celle entre HSRank et Selctvty qui est .576/(.6043.96)1/2=.373. Les modèles étudiés dans ce cours font intervenir des matrices de variances covariances. Ces modèles sont formulés à l’aide de la distribution normale multidimensionnelle que nous allons maintenant présenter.

Page 8: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

8

LOI NORMALE UNIDIMENSIONNELLE La densité de la loi normale de moyenne et de variance 2, N(2), est donnée par

21 1( ) exp 22

xx x

Histogramme de données anormales (n=60)

x

Freq

uenc

y

0.0 0.5 1.0 1.5 2.0 2.5 3.0

05

1015

2025

30

Histogramme de données normales (n=60)

x

Freq

uenc

y

1 2 3 4 5

02

46

810

12

Page 9: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

9

VERIFICATION DE L’HYPOTHESE DE NORMALITE Les méthodes varient selon les logiciels. Des statistiques très utilisées sont les coefficients d’asymétrie ( 1b , skewness) et d’aplatissement ( 2b , kurtosis). Ces coefficients sont donnés par

3 4

1 11 23/2 2

2 2

1 1

( ) ( ) et 3

( ) ( )

n n

i ii i

n n

i ii i

n y y n y yb b

y y y y

Les deux sont voisins de 0 lorsque les données sont normales. Extrait de Hilron et al. (2004)

Des versions multivariées des coefficients d’asymétrie et d’aplatissement sont disponibles. Leurs valeurs théoriques sont 0 et p p 2 , où p est la dimension de X.

Page 10: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

10

LOI NORMALE MULTIDIMENSIONNELLE

On parle d’un vecteur aléatoire,

1

2

...

p

XX

X

X

d’un vecteur d’espérances

1

2

( )( )

( )...

( )p

E XE X

E X

E X

.

et d’une matrice de variances-covariances théorique

21 1 2 1 1 12 1

21 2 2 2 12 2 2

21 2 1 2

( ) ( , ) ... ( , ) ...( , ) ( ) ... ( , ) ...... ... ... ... ... ... ... ...

( , ) ( , ) ... ( ) ...

p p

p p

p p p p p p

Var X Cov X X Cov X XCov X X Var X Cov X X

Cov X X Cov X X Var X

La diagonale de contient les p variances de X1, X2,…,Xn; les covariances sont les éléments hors diagonale. Le coefficient de corrélation de Pearson entre deux variable Xi et Xj est donné par

2 2

ij ijij

i ji j

Page 11: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

11

La matrice des corrélations théorique est 2 2 2 2

12 1 2 1 112 1

2 2 2 212 2 12 1 2 2 2

2 2 2 21 21 1 2 2

1 / ... /1 ...1 ... / 1 ... /

... ... ... ... ... ... ... ...... 1

/ / ... 1

p pp

p p p

p pp p p p

Si les variables aléatoires sont indépendantes, toutes les corrélations sont nulles. On a alors

21

22

2

0 ... 00 ... 0... ... ... ...0 0 ... p

et

1 0 ... 00 1 ... 0... ... ... ...0 0 ... 1

I

.

Page 12: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

12

La densité de la distribution normale multidimensionnelle de moyenne et de matrice de variances-covariances p) est donnée par

1

/ 2 1/ 2

1exp ( ) ' ( )2( )(2 ) | |p

x xf x

Le graphique ci-contre donne la densité normale bivarié (p=2) avec

0 3 2 et

0 2 3

.

Dans cet exemple la corrélation vaut

12 2 / 3 3 2 / 3 0.67

Page 13: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

13

Calculons par exemple f(1,1). On a 1 3 21 2 35

et ||=5 donc

'1 3 2 11 3 3 2 (exp exp1 2 3 12 5 exp 1/52 5(1,1) .0582 5 2 5 2 5

f

Propriétés de la loi normale bidimensionnelle Si (X1, X2) suit une loi normale bidimensionnelle de moyenne et de matrices de variance covariance , alors

1. Les distributions marginales de X1 et X2 sont normales (N(1,12) et N(2,2

2) respectivement)

2. La loi conditionnelle de X2 étant donné X1=x1 est une 2 2122 1 1 22

1

( ), (1 )N x

,

ainsi la variance conditionnelle de X2 étant donné X1 ne dépend pas de la valeur de X1. 3. Si 12 (ou est nul alors X1 et X2 sont indépendantes.

Page 14: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

14

Graphique de dispersion de deux échantillons de taille n=150 dont les marges sont normales. Ces deux échantillons viennent-ils de distributions normales bivariées?

Page 15: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

15

Les distributions marginales sont normales (skewness et kurtosis voisins de 0) dans les deux cas. Dans le graphique de gauche les points se répartissent selon des ellipses. Dans celui de droite, il y a plus de variabilité lorsque x1 est grand. Les données de droite ne viennent pas d’une distribution normale bivariée, même si ses lois marginales sont normales. On peut tester la normalité multivariée à l’aide des coefficients de skewness et de kurtosis multivarié.

Page 16: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

16

RÉDUCTION DES DONNÉES Dans les analyses de régression et les analyses factorielles, toutes les statistiques associées à un modèle (loadings, coefficients de régression, variances, R2, mesures d’ajustement) se calculent à partir de la matrice de variance covariance empirique entre les p variables X1,..,Xp.

2

1 12 1

2

21 2 2

2

1 2

...

...... ... ... ...

...

p

p

p p p

s s ss s s

S

s s s

avec 2 2

1

1 ( )1

n

j ji ji

s x xn

, et

1

1 ( )( )1

n

jk ji j ki ki

s x x x xn

.

Le coefficient de corrélation empirique entre Xj et Xk peut être déduit de S. Il est donné par

2 2ˆ jk

jk jk

j k

sr

s s .

Plutôt que de mettre la matrice nxp des données

11 12 1

1 2

...... ... ... ...

...

p

n n np

x x xX

x x x

en entrée des

programmes de calcul, il suffit de lire la matrice pxp de variance covariance S et la taille d’échantillon n (p est le nombre de variables).

Page 17: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

17

RÉGRESSION LINÉAIRE SIMPLE : QUELQUES FORMULES Les données sont (xi,yi), i=1,…,n. Le modèle est i YX i iy x , i=1,…,n Le paramètre est l’ordonnée à l’origine et YX représente la pente. C’est le paramètre d’intérêt. Ces deux paramètres sont inconnus. Les i sont les erreurs, de loi N(0,2)où 2 représente la variance résiduelle. Si 0 est une valeur acceptable pour YX, on conclut qu’il n’y a pas de relation linéaire entre y et x. Sous forme matricielle le modèle s’écrit

Y=e + XYX + ,

avec 1

Y ...

n

y

y

, 1

X ...

n

x

x

,1

e ...1

et 1

...

n

.

On utilise la méthode des moindres carrés pour estimer les paramètres. On prend les valeurs de et YX qui minimise

yk - - YXxk

Page 18: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

18

RÉGRESSION LINÉAIRE SIMPLE L’estimateur des moindres carrés de la pente YX de la droite est

21

2 22

1

( )( )ˆ =

( )

n

k kyx yk

YX yxnx x

kk

y y x x s sr

s sx x

celui de l’ordonnée à l’origine ˆ YXy x . La valeur prédite de yk à xk est ˆ ˆˆk YX ky x . Les résidus sont donnés par, ˆ ˆk k k ke y y k=1,…,n. L’estimateur de la variance résiduelle est égale à

2 2

1

1ˆ2

n

kk

en

Lorsque les erreurs sont normales, 2 2ˆ ( , / ( ) )YX YX kN x x . On peut calculer des intervalles de confiance pour la pente YX et tester H0 : YX =0 en utilisant le résultat suivant :

2

22

( )ˆ

ˆk

YX YX n

x xt

.

Page 19: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

19

Le R2 est la proportion de la variance de y expliquée par x :

2 2

2 1 1

2 2

1 1

ˆ( )1

( ) ( )

n n

k kk kn n

k kk k

y y eR

y y y y

.

En régression linéaire simple, R2 est le carré de la corrélation de Pearson entre x et y :

2 2yxR r .

Page 20: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

20

EXEMPLE : Étude de la relation entre LA VENTE DE CIGARETTES (CIG= nb de cigarettes fumées en centaine par habitant) et la MORTALITE DUE AU CANCER DU POUMON (LUNG= #morts par 100 000 habitants) dans n=44 états américains. Le graphique ci-contre donne le diagramme de dispersion des points avec la droite des moindres carrés. Variable endogène=LUNG (y) Variable exogène = CIG (x) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.4717 2.1407 3.023 0.00425 CIG 0.5291 0.0839 6.306 1.44e-07

2 2ˆ 3.066 R2= 0.4864 Deux états (le district de Colombia et le Névada) ont des consommations de cigarette supérieures à CIG=35. Il est intéressant de refaire les analyses sans ces deux points. Le graphique des résidus versus les valeurs prédites confirme cette observation.

Page 21: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

21

Analyse sans les deux états Estimate Std. Error t value Pr(>|t|) (Intercept) 2.9138 2.5907 1.125 0.267 CIG 0.6829 0.1057 6.459 1.07e-07

2 2ˆ 2.919 R2= 0.5105. Calcul d’un intervalle de confiance pour la pente : 0.6829 ±1.96*0.1057=(.476,.890).

Page 22: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

22

RELATION CAUSALE Cette analyse démontre-t-elle une relation causale entre le fait de fumer et celui d’avoir le cancer du poumon? Une telle relation peut être représentée avec le diagramme suivant,

Ces deux conditions sont peut-être causées par une troisième variable non-observée, telle que le génotype d’un certain gène qui incite les gens à fumer et qui les rend plus susceptible au cancer du poumon,

Selon ce deuxième schéma, fumer et mourir d’un cancer du poumon sont indépendants, étant donné le génotype (l’absence de flèche entre ces deux variables signifie qu’elles sont indépendantes étant donné le gémotype). La corrélation apparente observée dans l’analyse précédente viendrait seulement du fait que le génotype n’apparaît pas dans l’analyse. On sait aujourd’hui que le premier schéma représente une véritable relation de cause à effet.

Page 23: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

23

RELATION CAUSALE : EXPERIENCE AVEC RANDOMISATION Le schéma d’expérience classique pour démontrer une relation de causalité entre un facteur et une variable randomise l’assignation des traitements (modalités du facteur) aux unités expérimentales. Par exemple dans une étude clinique comparant deux médicaments pour traiter une maladie, on utilise souvent une urne avec des boules de 2 couleurs (disons 10 rouges et 10 noires) pour faire la randomisation. À l’arrivée d’un nouveau patient, on tire une boule et on la met de coté; sa couleur détermine le médicament donné au patient. Ainsi, parmi les 20 premiers patients admis dans l’étude 10 recevront un médicament et 10 recevront l’autre. L’assignation du médicament au patient est faite au hasard. On poursuit la randomisation en remettant les 20 boules dans l’urne et en en tirant une à l’arrivée de chaque nouveau patient. En plus de permettre d’assigner au hasard les traitements aux unités expérimentales, la randomisation permet de contrôler l’effet de variables non observables et non contrôlées liées aux traitements à l’étude. Par exemple, si le médicament 1 est plus efficace que le médicament 2 chez les personnes obèses, la randomisation devrait faire en sorte que, dans l’essai clinique, le nombre d’obèses soit semblable pour les deux médicaments. Ainsi l’obésité de certains patients ne devrait pas biaisé les résultats. Seule des questions éthiques limitent la randomisation : il n’est pas acceptable d’assigner deux médicaments par randomsiation si on sait que l’un est meilleur que l’autre.

Page 24: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

24

Dans une étude clinique, avec randomisation, on peut déterminer des relations causale du type

Les données précédentes sur la régression linéaire simple ne proviennent pas d’une expérience avec randomisation. Ce sont des données d’observations qui démontrent une association entre la consommation de cigarettes et les décès attribuables au cancer du poumon. Ce type de données est typique des études en sciences sociales où il est impossible de randomiser l’assignation des traitements aux individus. Des données observationnelles permettent-elles de démontrer une relation de causalité entre deux variables ?

Page 25: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

25

RELATION CAUSALE : R. A. FISHER (1890-1962)

R. A. Fisher est le père de la statistique moderne. C’est à lui que l’on doit la distribution F, la planification d’expérience et l’analyse de variance. Fumeur, il a longtemps mis en cause la relation entre le tabac et le cancer du poumon. Il a écrit A few days later the B.B.C. gave me the opportunity of putting forward examples of the two classes of alternative theories which any statistical association, observed without the predictions of a definite experiment, allows—namely, (1) that the supposed effect is really the cause, or in this case that incipient cancer, or a pre-cancerous condition with chronic inflammation, is a factor in inducing the smoking of cigarettes, or (2) that cigarette smoking and lung cancer, though not mutually causative, are both influenced by a common cause, in this case the

individual genotype. (British MedicalJournal, 1957). Pour en savoir plus: http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/Doc1.htm

Page 26: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

26

Dans son article, Fisher suggère que la corrélation observée entre le tabagisme et le cancer peut s’expliquer de plusieurs façons. Trois cas de figures sont possibles :

THE CURIOUS ASSOCIATIONS with lung cancer found in relation to smoking habits do not, in the minds of some of us, lend themselves easily to the simple conclusion that the products of combustion reaching the surface of the bronchus induce, though after a long interval, the development of a cancer. If, for example, it were possible to infer that inhaling cigarette smoke was a practice of considerable prophylactic (protectrice) value in preventing the disease, for the practice of inhaling is rarer among patients with cancer of the lung than with others. Such results suggest that an error has been made of an old kind, in arguing from correlation to causation, and that the possibility should be explored that the different smoking classes, cigarette smokers, cigar smokers, pipe smokers, etc., have adopted their habits partly by reason of their personal temperaments and dispositions, and are not lightly to be assumed to be equivalent in their genotypic composition. Such differences in genetic make-up between those classes would naturally be associated with differences of disease incidence without the disease being causally connected with smoking. It would then seem not so paradoxical that the stronger fumes of pipes or cigars should be so much less associated with cancer than those of cigarettes, or that the practice of drawing cigarette smoke in bulk into the lung would have apparently a protective effect. (Nature 1958)

Page 27: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

27

RELATION CAUSALE EN SCIENCES SOCIALES

(tirée du chap. 2 de Bollen) Exiger une expérience randomisée pour démontrer une relation de cause à effet est irréaliste

(il serait alors impossible de démontrer que les gaz à effet de serre causent un réchauffement de la planète ou que la couleur de la peau peut causer de la discrimination) ;

Trois critères : isolation, association et direction pour évaluer une relation causale ; Isolation : en gardant toutes les autres variables fixes un changement à x1 cause-t-il

nécessairement un changement à y1 ? En pratique on va chercher une quasi-isolation en corrigeant pour des variables intervenant simultanément à x1 et y1.

Une association pure, pas influencée par les variables du système, est nécessaire pour établir la causation (attention aux associations artificielles causées par des variables non observées)

Il faut établir une direction à l’association. En général, la cause précède l’effet. « Il n’y a pas une explication universelle du mot cause » (Nagel) « Un modèle représentant bien la réalité devrait bien s’ajuster aux données. L’inverse est faux. Un modèle qui s’ajuste bien aux données ne décrit pas nécessairement la réalité. » (Bollen p.68)

Page 28: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

28

RELATION CAUSALE : UN AUTRE EXEMPLE Durant la deuxième guerre mondiale on a observé la relation suivante :

L’interprétation du + comme indiquant une relation causale incite à commettre un crime de guerre : on prévient les allemands des bombardements à venir pour augmenter la force des tirs des défenses aériennes et ainsi augmenter la précision des bombardements. On soupçonne qu’une meilleure représentation du phénomène est

La force des tirs de défense nuit à la précision du bombardement.

Page 29: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

29

DIAGRAMME DE CHEMINEMENT Dans l’analyse de régression précédente la pente vaut 0.53 et la variance résiduelle vaut 9.42. En supposant une relation de causalité, on peut représenter ces valeurs sur le diagramme de la façon suivante :

Ces valeurs dépendent des unités dans lesquelles x et y sont mesurées. Une présentation standardisée, qui ne dépend pas de l’échelle des variables, utilise le coefficient de corrélation à la place de la pente et 1-R2 à la place de la variance résiduelle. Ceci donne

Cette représentation illustre le fait que l’ « erreur expérimentale » et le fait de fumer expliquent à part égale la mortalité par cancer du poumon (1-R2=0.51).

Page 30: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

30

REGRESSION MULTIPLE : FORMULES Les données sont (xk1, .., xkp,yi), k=1,…,n. Le modèle s’écrit

yk=+Y1xk1+Y2xk2+…+Ypxkp+k, pour k=1,…,n, où y est la variable dépendante (endogène) et Xk1, Xk2,…Xkp sont les p variables explicatives (exogène). De plus les erreurs k sont des variables aléatoires indépendantes de distribution N(0,2). Sous forme matricielle, le modèle est

Y=e + X + ,

avec 1

Y ...

n

y

y

, 11 12 1

1 2

...... ... ... ....

...X

pn p

n n np

x x x

x x x

,1

e ...1

, 11

...Yp

Yp

et 1

...

n

.

Pour estimer on utilise la méthode des moindres carrés qui minimise la somme des carrés des erreurs,

Yk - -Y1xk1-Y2xk2-…-YpxkpLes estimateurs obtenus s’écrivent à l’aide des éléments de la matrice de variances covariances

de (X,y) :

1

( 1) ( 1)

12

pp p

p p

p

xyxx

yx y

SSS

S s

.

Page 31: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

31

REGRESSION MULTIPLE

L’estimateur des moindres carrés de est 1ˆ

xx xyS S Les résidus sont donnés par, 1 1

ˆ ˆ ˆ ˆ...k k k Y Yk ke Y x x k=1,…,n. L’estimateur de la variance résiduelle est égale à

2 2 1

1

1 1ˆ1 1

n

k yy yx xx xyk

ne S S S Sn p n p

Le R2 (carré de la corrélation entre yk et ˆky ) est 2 1 2/yx xx xy yR S S S s . On utilise parfois le R2

ajusté défini par 2

2 22

ˆ 11 1 (1 )1adj

y

nR Rs n p

.

Pour évaluer et comparer les contributions relatives de chaque variable, on s’intéresse souvent aux coefficients standardisés,

2

(stan) 2ˆ ˆjYj Yj

Y

ss

.

En régression linéaire simple cette formule fait passer de la pente à la corrélation.

Page 32: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

32

Pour tester des hypothèses du type H0 : Yj=0 on utilise des statistiques t construites de la façon suivante. Notons d’abord que l’estimation de la matrice de variance covariance du vecteur est la matrice p´p suivante

1 2ˆˆ( )1

xxSvn

.

Les éléments sur la diagonale de cette matrice sont les variances échantillonales des composantes de . La statistique t à n-p-1 degrés de liberté pour H0 : Yj=0 est

2

ˆ1

ˆYj

obs jjxx

t nS

,

où jjxxS est l’élément (j,j) de 1

xxS . Le seuil observé du test bilatéral pour H0 est 2P(tn-p-1>|tobs|).

Page 33: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

33

REGRESSION MULTIPLE : EXEMPLE Dans un échantillon de taille n=60 régions métropolitaines américaines on a observé une mesure de pollution de Nitrite Oxyde et une mesure de mortalité ajustée pour l’âge. La corrélation entre les deux variables est de ˆ 0.28.YX avec une statistique t58=2.35 pour tester l’hypothèse H0 :YX=0. Le seuil observé de 2.2% et la relation entre la pollution et la mortalité est significative au seuil 5%. La pente de la droite de régression vaut 15.099 (e.t.= 6.419) de plus R2=8.7% et ˆ 59.96 . Y-a-t-il une relation de cause à effet entre la pollution et la mortalité? On va vérifier si cette relation demeure significative lorsque l’on corrige pour des variables socio-démographiques ?

Page 34: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

34

LIEN ENTRE RÉGRESSION MULTIPLE ET DIAGRAMME DE CHEMINEMENT

Si le diagramme ci contre décrit la relation entre X1, X2 et Y alors Il peut y avoir une relation significative entre Y et X2

dans la régression linéaire simple de Y sur X2. Dans la régression multiple de Y sur X1 et X2 le

coefficient de X2 n’est pas significativement non nul car Y et X2 sont conditionnellement indépendants étant donné X1.

L’ajout de X1 au modèle de régression fait passer le paramètre pour X2 à 0.

Si ce deuxième diagramme décrit la réalité, X1 et X2 contribuent simultanément au modèle de régression pour Y. Dans l’exemple précédent si Y=Mortalité et X2=Pollution à l’oxyde nitrite y a-t-il des variables confondantes X1 susceptibles d’affecter le lien entre Y et X2?

Page 35: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

35

Variables à l’étude 1. JulyTemp: Température moyenne en juillet (Farenheit) 2. JanTemp: Température moyenne en janvier (Farenheit) 3. RelHum: Humidité relative 4. Rain: Pécipitation annuelle 5. Education: Education médiane 6. PopDensity: Densité de la population 7. %NonWhite: Pourcentage de non-blancs 8. %WC: Pourcentage de cols blancs 9. pop.house: Population par ménage 10. NOxPot: Pollution à l’oxyde nitrite

La sélection d’un modèle en faisant des tests sur les paramètres individuels donn Estimate Std. Error t value Pr(>|t|) (Intercept) 938.0565 47.7769 19.634 < 2e-16 JanTemp -2.0190 0.5131 -3.935 0.000240 Rain 2.0896 0.4567 4.575 2.82e-05 %NonWhite 4.1164 0.6306 6.527 2.41e-08 %WC -2.2037 0.9275 -2.376 0.021086 log(NOxPot) 19.1780 4.1985 4.568 2.90e-05 Residual standard error: 34.29 on 54 df Multiple R-Squared: 0.722, Adjusted R-squared: 0.6962

Page 36: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

36

Le modèle s’ajuste bien. Il n’y a pas de multi colinéarité: la corrélation maximale entre 2 variables explicatives est de .45. Étude de la distribution des résidus : Calcul des coefficients d’aplatissement et d’asymétrie :

1 2.27 0.28b b

Page 37: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

37

DIAGRAMME DE CHEMINEMENT

Diagramme de cheminement standardisé pour l’analyse initiale :

Diagramme de cheminement standardisé pour l’analyse multiple (les lignes courbes représentent les corrélations entre les variables explicatives)

On note qu’introduire d’autres variables augmente la force du lien entre la pollution et

la mortalité. Le diagramme ci haut ne s’applique pas ici (a-t-on considéré toutes les variables explicatrices importantes?)

Page 38: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

38

DIAGRAMME DE CHEMINEMENT ET EQUATIONS STRUCTURELLES EXEMPLE DU MILIEU SOCIO-ECONOMIQUE

Exemple du livre de Mueller: Un échantillon de n=3094 étudiants a répondu au « 1971 UCLA Freshmen Survey », au 1979-80 « HERI Follow-up Survey » et a contribué aux données HEGIS. On veut expliquer le type de diplômes obtenus par l’étudiant (ou plus généralement son milieu socio-économique) en fonction du milieu socio-économique de ses parents, de ses résultats scolaires au high school, de ses ambitions et de la qualité du collège où il a étudié. On va d’abord construire un modèle faisant intervenir les cinq variables observées suivantes :

1. FaEd (3=High School à 6=Postgraduate Degree) 2. HSRank (quartiles de 1 à 4) 3. DegreeAsp (de 1=aucun à 5=doctorat) 4. Selctvty (moyenne du test SAT pour l’admission des nouveaux étudiants au collège) 5. Degree (diplôme obtenu de 1, high school, à 6, doctorat)

Les deux premières variables, FaEd et HSRank, sont explicatives (exogènes). Les trois dernières, DegreAsp, Selctvty et Degree, sont dépendantes (endogènes).

Page 39: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

39

EXEMPLE DU MILIEU SOCIO-ECONOMIQUE Au départ on postule les liens causaux suivants entre ces trois variables :

DegreAsp → Selctvty → Degree L’ordre 1- DegreAsp, 2-Selctvty, et 3-Degree est crucial. Il est dicté par des « considérations théoriques » relatives au phénomène étudié. Il n’existe aucun critère mathématique qui permette de dire si un ordre est meilleur qu’un autre. On ne peut donc pas démontrer que cet ordre est meilleur que 1-Selctvty, 2- DegreAsp, et 3-Degree. Les modèles qui font intervenir un ordre dans les variables dépendantes sont dits récursifs. Les deux variables explicatives sont susceptibles d’influencer les trois variables dépendantes. Pour estimer la force des liens dans le modèle sous-jacent à ce classement des variables dépendantes, on ajuste 3 modèles de régression multiple : 1-Régression de DegreeAsp sur FaEd et HS 2-Régression de Selctvty sur DegreeAsp, FaEd et HS 3-Régression de Degree sur Selctvty, DegreeAsp, FaEd et HS

Page 40: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

40

DIAGRAMME DE CHEMINEMENT

Le diagramme suivant donne une représentation graphique des 3 analyses de régression à effectuer. Il utilise la notation LISREL, un paramètre associé à une variable explicative exogène est appelé alors que celui pour une variable explicative endogène est appelé

Notez le lien qui lie les deux variables exogènes. Il souligne que ces variables sont corrélées, comme toutes les variables explicatives d’une régression!

Page 41: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

41

ECRITURE DU MODELE Notation : Yi=vecteur p1x1 (ici 3x1) des variables dépendantes ou endogènes, Xi=vecteur p2x1 (ici 2x1) des variables explicatives ou exogènes. Le modèle statistique est

i i i iY BY X , i=1,…,n où est un vecteur d’ordonnées à l’origine; B est la matrice p1xp1 des paramètres de la régression pour les variable endogènes

explicatrices, où seuls les éléments sous la diagonale sont non nuls,

21

31 32

0 0 00 0

0B

est la matrice p1xp2 des paramètres de la régression pour les variable endogènes explicatrices,

11 12

21 22

31 32

Page 42: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

42

est le vecteur p1x1 d’erreurs expérimentales dont les composantes sont indépendantes,

de distributions 2(0, )j

N , j=1,..,p1.

1

2

3

i

i i

i

et 1

2

2

2

2

2

0 0Var( ) 0 0

0 0

Dans des régressions récursives, les résidus des régressions succesives sont nécessairement indépendants. Souvent on ajoute à ces composantes la matrice de variances covariances des variables explicatives

1 1 2

1 2 2

2

2X X X

X X X

Les estimateurs des paramètres du modèle sont tous des fonctions de la matrice de variances covariances des 5 variables, S. Notons que 15 paramètres différents sont associés à S (5 variances et 10 covariances). Dans le modèle d’équations structurelles il y en a 6. Ce modèle est dit saturé car il contient le même nombre de paramètres que S. Ce modèle n’impose pas de contraintes particulières aux éléments de la matrice de variances covariances.

Page 43: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

43

ESTIMATION DES PARAMETRES

Toutes les statistiques sont calculées à partir de la matrice de variances covariances S des 5 variables (FaEd ,HSRank, DegreeAsp, Selctvty , Degree)

Par exemple les coefficients et de la régression de Selctvty sur FaEd ,HSRank, DegreeAsp sont calculés de la façon suivante :

2.283 .150 .187 .902 .1875.150 .604 .153 .576 .141.187 .153 1.028 .432 .247.902 .576 .432 3.96 .486.1875 .141 .247 .486 .925

S

Matrice de corrélations Degre

Asp Selct

vty Degree FaEd HSRank

DegreAsp 1.000 Selctvty 0.214 1.000 Degree 0.253 0.254 1.000 FaEd 0.122 0.300 0.129 1.000 HSRank 0.194 0.372 0.189 0.128 1.000

Page 44: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

44

Programme SAS pour ajuster le modèle Data D2 (type=cov) ;

input _type_ $ _name_ $ V1-V5; Paramètres estimés et leurs noms LISREL label V1='FaEd' V2='HSRank' V3='DegreAsp' V4='Selctvty' V5='Degree'; cards; N . 3094 3094 3094 3094 3094 cov V1 2.2831 . . . . cov V2 0.150 .604 . . . cov V3 0.187 .153 1.028 . . cov V4 0.902 .576 0.432 3.96 . cov V5 0.1875 .141 0.247 0.486 0.9254 ; proc print; run; ods rtf file='C:\...\resu'; proc calis data=D2 covariance stderr; lineqs V3 = PV1V3 V1 + PV2V3 V2 +E1, V4 = PV1V4 V1 + PV2V4 V2 + PV3V4 V3 + E2, V5 = PV1V5 V1 + PV2V5 V2 + PV3V5 V2 +PV4V5 V3 + E3; std E1=VARE1, E2=VARE2, E3=VARE3; var V1 V2 V3 V4 V5; run; ods rtf close;

Vector of Initial Estimates

Parameter Estimat

e Type

1 PV3V4 0.24071 Matrix Entry: _BETA_[2:1]

2 PV3V5 0.18586 Matrix Entry: _BETA_[3:1]

3 PV4V5 0.08122 Matrix Entry: _BETA_[3:2]

4 PV1V3 0.06635 Matrix Entry: _GAMMA_[1:1]

5 PV2V3 0.23683 Matrix Entry: _GAMMA_[1:2]

6 PV1V4 0.32197 Matrix Entry: _GAMMA_[2:1]

7 PV2V4 0.81271 Matrix Entry: _GAMMA_[2:2]

8 PV1V5 0.02812 Matrix Entry: _GAMMA_[3:1]

9 PV2V5 0.10192 Matrix Entry: _GAMMA_[3:2]

10 VARE1 0.97936 Matrix Entry: _PHI_[3:3]

11 VARE2 3.09748 Matrix Entry: _PHI_[4:4]

12 VARE3 0.82038 Matrix Entry: _PHI_[5:5]

Page 45: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

45

ESTIMATIONS DES PARAMETRES, ERREURS-TYPES ET TESTS D’EGALITE A 0. V3 = 0.0663 * V1 + 0.2368 * V2 + 1.0000 E1 Std Err 0.0119 PV1V3 0.0231 PV2V3 t Value 5.5876 10.2591

V4 = 0.2407 * V3 + 0.3220 * V1 + 0.8127 * V2 + 1.0000 E2 Std Err 0.0320 PV3V4 0.0212 PV1V4 0.0417 PV2V4 t Value 7.5274 15.1707 19.467

V5 = 0.1859 * V3 + 0.0812 * V4 + 0.0281 * V1 + 0.1019 * V2 + 1. E3 Std Err 0.0166 PV3V5 0.00925 PV4V5 0.0113 PV1V5 0.0228 PV2V5 t Value 11.191 8.7773 2.4836 4.477

(tous les paramètres sont significatifs au seuil 5%) ESTIMATIONS DES PARAMETRES STANDARDISEES

V3 = 0.0989 * V1 + 0.1815 * V2 + 0.9761 E1 PV1V3 PV2V3

V4 = 0.1226 * V3 + 0.2445 * V1 + 0.3174 * V2 + 0.8844 E2 PV3V4 PV1V4 PV2V4

V5 = 0.1959 * V3 + 0.1680 * V4 + 0.0442 * V1 + 0.0823 * V2 + 0.9415 E3 PV3V5 PV4V5 PV1V5 PV2V5

dans ce tableau les coefficients des erreurs sont égales à 21 R

Page 46: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

46

Notons les R2 relativement faibles (valeur maximale 22%) Le diagramme de cheminement donnant simultanément les estimations des paramètres et les estimations standardisées (entre parenthèses) est

Squared Multiple Correlations

Variable Error

Variance Total

Variance R-Square1 V3 0.97936 1.02800 0.04732 V4 3.09748 3.96000 0.21783 V5 0.82038 0.92540 0.1135

Page 47: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

47

LISREL

Le progiciel LISREL a été développé par Karl Jöreskog et ses collègues dans les années 70. Des articles de ce statisticien dans les années 60 et 70 (par exemple Jöreskog, 1970, Biometrika) sont à la base des méthodes actuelles d’ajustement des modèles d’équations structurelles. Pour mettre en œuvre ses découvertes, Jöreskog a créé une compagnie, Scientific Software International, qui a commercialisé le logiciel LISREL pour l’ajustement des modèles d’équations structurelles. LISREL a été le premier logiciel commercial permettant d’ajuster ces modèles. Aujourd’hui les modèles d’équations structurelles font partie intégrante de la méthodologie statistique standard et la plupart des logiciels permettent de les ajuster. Depuis une quinzaine d’année SAS a une procédure, PROC CALIS, pour cela. D’autres logiciels pour les sciences sociales ont vu le jour (EQS, AMOS, M-PLUS entre autres) et permettent d’ajuster ces modèles ; R a un package (SEM) pour ces modèles. LISREL conserve cependant un avantage non négligeable par rapport à plusieurs compétiteurs. Il a une interface graphique particulière qui permet de produire les diagrammes de cheminements, comme celui de la page précédente, de façon automatique. En fait son interface graphique permet de faire toutes les analyses à partir de ces diagrammes, en enlevant et en ajoutant des liens au besoin. La majorité des exemples présentés dans ces notes ont été ajustés avec LISREL

Page 48: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

48

FONCTIONNEMENT DE LISREL

Le progiciel LISREL en est aujourd’hui à sa huitième version. Il comprend maintenant 1. Le langage PRELIS (pour pré LISREL). Sa tâche principale est de faires des manipulations

de données brutes et de calculer des matrices de variances covariances et de corrélations qui sont lues par LISREL

2. LISREL lit la matrice de variances covariances et ajuste un modèle d’équations

structurelles. Plusieurs outils pour faire ce travail sont disponibles i) Le langage LISREL original qui est très technique et peu intuitif

ii) Le langage SIMPLIS (Simplified LISREL) qui traduit LISREL en un langage compréhensible pour le commun des mortels

iii) Les diagrammes de cheminements eux-mêmes qui peuvent être utilisés pour présenter graphiquement les conclusions de l’analyse et pour la modifier au besoin

iv) Un LISREL interactif qui permet d’effectuer des analyses en déroulant des menus

Pour en savoir plus voir http://www.ssicentral.com/

Page 49: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

49

Diagramme de cheminement LISREL avec les

estimations originales et les estimations standardisées

Page 50: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

50

EFFETS DIRECTS ET INDIRECTS DES VARIABLES EXPLICATIVES (ENDOGENES OU EXOGENES) SUR LES VARIABLES DEPENDANTES

Le diagramme précédent donne les effets directs, non standardisés et standardisés, des variables explicatives sur les variables dépendantes. Une variable explicative peut également avoir un effet indirect sur une variable dépendante.

Ce diagramme montre 3 cheminements indirects (#2, 3 et 4) par lesquels FaEd peut influencer le Degree. Le 1er cheminement correspond à l’effet direct.

Page 51: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

51

On veut parfois mesurer l’effet indirect d’une variables explicative et tester si cet effet indirect est nul ou non. Deux calculs d’effets indirects sont possibles, standardisés et non standardisés. Le non standardisé est utilisé pour faire des tests et le standardisé sert à quantifier l’importance relative de l’effet indirect. Les livres d’équations structurelles, comme celui de Mueller, contiennent les formules mathématiques qui permettent de faire ces calculs. Le logiciel LISREL les met en œuvre, mais pas SAS à ma connaissance. Correlation Matrix of Y and X

DegreAsp Selctvty Degree FaEd HSRank DegreAsp 1.000 Selctvty 0.214 1.000 Degree 0.253 0.254 1.000 FaEd 0.122 0.300 0.129 1.000 HSRank 0.194 0.372 0.189 0.128 1.000

Total Effects of X on Y

FaEd HSRank DegreAsp 0.066 0.237 (0.012) (0.023) 5.580 10.245 Selctvty 0.338 0.869 (0.021) (0.041) 15.849 20.949 Degree 0.068 0.217 (0.011) (0.022) 6.018 9.904

Indirect Effects of X on Y

FaEd HSRank DegreAsp - - - - Selctvty 0.016 0.057 (0.004) (0.009) 4.483 6.066 Degree 0.040 0.114 (0.004) (0.010) 9.132 11.163

Page 52: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

52

Total Effects of Y on Y

DegreAsp Selctvty Degree DegreAsp - - - - - - Selctvty 0.241 - - (0.032) 7.527 Degree 0.205 0.081 - (0.017) (0.009) 12.308 8.780 Indirect Effects of Y on Y

DegreAsp Selctvty Degree DegreAsp - - - - - - Selctvty - - - Degree 0.020 - - (0.003) 5.714

On note que tous les effets indirects et totaux sont significativement non nuls Standardized Total and Indirect Effects Standardized Total Effects of X on Y

FaEd HSRank DegreAsp 0.099 0.181 Selctvty 0.257 0.339 Degree 0.107 0.175

Standardized Indirect Effects of X on Y

FaEd HSRank DegreAsp - - - - Selctvty 0.012 0.022 Degree 0.062 0.092 Standardized Total Effects of Y on Y

DegreAsp Selctvty Degree DegreAsp - - - - - - Selctvty 0.123 - - - - Degree 0.216 0.168 - - Standardized Indirect Effects of Y on Y

DegreAsp Selctvty Degree DegreAsp - - - - - - Selctvty - - - - - - Degree 0.021 - - - -

Les effets standardisés totaux de FaEd sur DegreeAsp, Selctvty , Degree sont de 0.099, 0.257 et 0.107. Ils sont inférieurs aux coefficients de corrélation correspondant, 0.122, 0.30 et .129. C’est à cause de la corrélation (de 0.15) entre les deux variables

Page 53: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

53

exogènes qui fait en sorte que les effets de ces deux variables sont partiellement confondus. On note que l’effet de FaEd sur

Selctvty est surtout direct (.012 indirect vs .244 direct). C’est le contraire pour l’effet sur Degree (.062 indirect versus .044 direct)

Lorsqu’on on a une seule variable explicative la somme des effets directs et indirects standardisés est égale au coefficient de corrélation. Considérons

Page 54: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

54

Standardized Total and Indirect Effects Standardized Total Effects of X on Y

FaEd DegreAsp 0.12 Selctvty 0.30 Degree 0.13 Standardized Indirect Effects of X on Y

FaEd DegreAsp - - Selctvty 0.02 Degree 0.08

Standardized Total Effects of Y on Y

DegreAsp Selctvty Degree DegreAsp - - - - - - Selctvty 0.18 - - - - Degree 0.24 0.20 - - Standardized Indirect Effects of Y on Y

DegreAsp Selctvty Degree DegreAsp - - - - - - Selctvty - - - - - - Degree 0.04 - - - -

On note que les effets totaux standardisés de FaEd sur les 3 variables endogènes, 012, 0.30 et 0.13 sont égaux aux corrélations de FaEd avec ces trois variables

Page 55: STT-7620 MODELES D’EQUATIONS STRUCTURELLES

55

DISCUSSION

Les R2 des analyses des modèles de régression sont modestes, surtout en ce qui concerne Degree (11%) et DegreeAsp (5%). Peut-on faire mieux ? En fait une des variables explicatives est le milieu socio-économique des parents. On pourrait la considérer comme une variable latente possiblement explicable par plusieurs variables observées, telle que la scolarité de la mère. Parmi les variables endogènes le milieu socio-économique de l’étudiant est particulièrement intéressant. On pourrait utiliser plus d’une variable (Degree) pour le caractériser. De même on pourrait peut-être préciser la motivation académique en ayant plus d’une question sur ce thème. Comment définir le milieu socio-économique et la réussite ? Avec quelles variables ? En fait on peut voir ces concepts comme des variables latentes, non observables, qui se manifestent par l’intermédiaire de réponses à des questions associées à ces variables. De quels outils statistiques disposons-nous pour bien caractériser ces concepts latents ?