Post on 16-Oct-2021
ECO 4272 : Introduction a l’econometrieNotes sur la Regression Multiple
Steve Ambler∗
Departement des sciences economiquesEcole des sciences de la gestion
Universite du Quebec a Montrealc©2018 : Steve Ambler
Hiver 2018
∗Ces notes sont en cours de developpement. J’ai besoin de vos commentaires et de vos suggestions pourles ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message aambler.steven@uqam.ca.
1
Table des matieres1 Introduction 4
2 Biais du a une variable omise 42.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Modele de regression multiple 103.1 Specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2 Specification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Hypotheses de base du modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4.1 Differentiation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4.2 Quelques exemples simples des regles de differentiation . . . . . . . . . . 18
3.5 Approche non matricielle au probleme de minimisation . . . . . . . . . . . . . . . 20
4 Proprietes algebriques de l’estimateur MCO 234.1 Orthogonalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Somme des residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3 Valeurs predites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.4 Ecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5 Mesures d’ajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.5.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5.2 Le R2 ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5 Proprietes statistiques de l’estimateur MCO 375.1 Proprietes statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 375.2 Petite note : theoreme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.3 Proprietes statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 395.4 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 455.5 Proprietes statistiques : distribution en grand echantillon . . . . . . . . . . . . . . 46
5.5.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6 Variance echantillonnale de β 496.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2 Homoscedasticite versus Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . 53
7 Efficience de l’estimateur MCO sous l’homoscedasticite 547.1 Preuve du theoreme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 55
8 Biais du a des variables omises (bis) 57
9 Tests d’hypotheses et ensembles de confiance 659.1 Tests d’hypotheses simples par rapport a un seul coefficient . . . . . . . . . . . . . 659.2 Tests d’hypotheses simples par rapport a une combinaison lineaire de coefficients . 67
9.2.1 Methode indirecte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2
9.2.2 Methode directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699.3 Pourquoi les tests sequentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 709.4 Tests d’hypotheses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.5 Que faire lorsque Σβ n’est pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 749.6 Une seule restriction comme un cas special . . . . . . . . . . . . . . . . . . . . . 759.7 Significativite de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 799.8 Tests d’hypothese en presence d’homoscedasticite . . . . . . . . . . . . . . . . . . 809.9 Test de significativite de la regression dans le cas homoscedastique . . . . . . . . . 889.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10 Multicollinearite 9110.1 Multicollinearite parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9110.2 Multicollinearite imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9310.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11 Un Exemple 97
12 Un Autre Exemple 102
13 Concepts a retenir 119
14 References 121
3
1 Introduction
Dans ce chapitre sur le modele de regression multiple, il n’y a presque rien de fondamentalement
nouveau par rapport au modele de regression simple. Une lecture de la table des matieres de ces
notes servira a vous convaincre que ce sont les memes sujets qui reviennent. C’est comme si on
allait reapprendre la matiere sur le modele de regression simple mais en notation matricielle.
C’est donc une bonne occasion de faire de la revision, surtout en ce qui concerne les proprietes de
l’estimateur MCO. A peu pres le seul aspect novateur (a part la notation matricielle elle-meme)
sera l’idee de tester des hypotheses jointes (et une notion qui y est tres reliee, celle des ensembles
de confiance). 1
Une fois la notation matricielle apprise, toutes les derivations algebriques concernant les
proprietes algebriques de l’estimateur MCO et les proprietes statistiques de l’estimateur MCO
sont plus simples en notation matricielle qu’en notation de sommations. J’espere vous convaincre
de ce principe avant de terminer notre etude sur le modele de regression multiple.
2 Biais du a une variable omise
On peut motiver le modele de regression multiple en montrant que, si nous voulons analyser
l’impact d’une variable explicative sur une variable dependante et si nous omettons une ou des
variables qui ont un impact sur la variable dependante, notre estime de cet impact sera en general
biaise, dans la mesure ou la correlation entre cette variable omise ou ces variables omises et la
variable explicative du modele est non nulle.
Cela veut dire que, meme si nous ne nous interessons pas particulierement a l’impact de ces
variables omises, il faut neanmoins en tenir compte dans notre modele de regression afin
d’obtenir un estime non biaise de l’impact de notre variable d’interet (pour utiliser l’exemple
empirique du manuel, l’impact de la taille moyenne des classes sur le rendement scolaire).
1. Le concept de tester une hypothese simple qui porte sur une combinaison de coefficients est nouveau aussi,mais nous allons montrer comment transformer le modele de regression multiple pour traiter ce cas comme un testd’une hypothese nulle qui porte sur un seul coefficient. Voir la sous-section 9.2.
4
On sait a partir de notre etude du modele de regression simple, que l’estimateur du coefficient de
pente β1 est egal a :
β1 = β1 +1n
∑ni=1
(Xi − X
)ui
1n
∑ni=1
(Xi − X
)2 .Maintenant, on modifie nos hypotheses statistiques par rapport au modele de regression simple
etudie dans le dernier chapitre. On n’impose plus que l’esperance (conditionnelle a la valeur
observee Xi) soit egale a zero. Maintenant, on a :
1
n
n∑i=1
(Xi − X
)ui
p−→ Cov (u , X) = Corr (u , X)σuσX ,
et1
n
n∑i=1
(Xi − X
)2 p−→ σ2X .
Donc, par le theoreme de Slutsky (voir la section 5.2 ci-dessous), ce qui nous permet d’etudier
separement les proprietes en grand echantillon du numerateur et du denominateur du deuxieme
terme dans l’expression pour la valeur de notre estimateur β1, on a :
β1p−→ β1 +
Corr (u , X)σuσXσ2X
= β1 + Corr (u , X)σuσX
.
L’estimateur n’est plus convergent. Il y a un biais, meme asymptotiquement (lorsque le nombre
d’observations tend vers l’infini). Le signe du biais depend du signe de la correlation entre la
variable explicative Xi et le terme d’erreur ui.
Notez que, dans ce cas, les hypotheses de base du modele ne sont pas respectees. La variable
omise, qui est incluse dans le terme d’erreur du modele, est correlee avec la variable explicative
du modele X . Autrement dit, l’hypothese
E (ui|X = Xi) = 0
ne tient plus. Dans le cadre d’une etude empirique, il faut evaluer la plausibilite de cette
5
hypothese avec les donnees qu’on a. S’il y a une variable dans la banque de donnees qui en
principe pourrait affecter la variable dependante de l’etude et qui risque d’etre correlee avec une
variable qui est incluse comme variable explicative dans le modele, il y a probablement un
probleme de variable omise. 2
Une solution possible est d’inclure les variables omises explicitement comme variables
explicatives additionnelles dans le modele de regression. Le modele de regression simple devient
un modele de regression multiple. Nous verrons dans la section suivante la specification du
modele de regression multiple et les hypotheses standard qui permettront, comme dans le modele
de regression simple, de demontrer certaines proprietes souhaitables de l’estimateur MCO des
coefficients.
2.1 Exemple
Nous pouvons etre encore plus explicites. Supposons que le vrai modele est donne par
Yi = β0 + β1X1i + β2X2i + ui
tandis que le modele estime est
Yi = β0 + β1X1i + ui
ou
ui ≡ β2X2i + ui.
Le terme d’erreur du modele estime incorpore la variable omise X2i avec le vrai terme d’erreur
ui. Nous avons
β1 =1n
∑ni=1
(X1i − X1
) (Yi − Y
)1n
∑ni=1
(X1i − X1
)22. Dans des cours plus avances, vous allez apprendre des facons formelles de tester l’absence de correlation entre
les variables explicatives du modele et le terme d’erreur. Voir par exemple McFadden (2002). Sans ces methodologiesavancees, il faut se fier a la logique et a son intuition.
6
=1n
∑ni=1
(X1i − X1
) (β0 + β1X1i + β2X2i + ui − β0 − β1X1 − β2X2 − u
)1n
∑ni=1
(X1i − X1
)2= β1
1n
∑ni=1
(X1i − X1
)21n
∑ni=1
(X1i − X1
)2 + β2
1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2+
1n
∑ni=1
(X1i − X1
)(ui − u)
1n
∑ni=1
(X1i − X1
)2= β1 + β2
1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2 +1n
∑ni=1
(X1i − X1
)(ui − u)
1n
∑ni=1
(X1i − X1
)2 .
Calculant l’esperance de β1, nous obtenons
E(β1
)= β1 + β2E
(1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2)
+E
(+
1n
∑ni=1
(X1i − X1
)E ((ui − u) |X11, X12, . . . , X1n)
1n
∑ni=1
(X1i − X1
)2)
= β1 + β2E
(1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2)
par la loi des esperances iterees. En general,
E
(1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2)6= 0.
L’estimateur est biaise, le biais etant donne par la valeur de l’esperance dans l’equation
precedente.
Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de l’echantillon n
tend vers l’infini). L’expression
1
n
n∑i=1
(X1i − X1
) (X2i − X2
)est tout simplement la covariance echantillonnale entre X1 et X2. (C’est different par un facteur
7
de n/(n− 1) qui est presqu’egal a un si n est grand.) L’expression
1
n
n∑i=1
(X1i − X1
)2est tout simplement (ou presque) la variance echantillonnale de X1. Si les deux expressions sont
des estimateurs convergents de leurs equivalents dans la population, nous avons :
1
n
n∑i=1
(X1i − X1
) (X2i − X2
) p−→ Cov (X1 , X2)
et1
n
n∑i=1
(X1i − X1
)2 p−→ Var (X1) .
Par le theoreme de Slutsky (voir la section 5.2 ci-dessous), nous avons
β1p−→ β1 + β2
Cov (X1 , X2)
Var (X1)
La difference entre β1 et sa vraie valeur est approximativement egale a la vraie valeur de β2 fois le
ratio de la covariance entre X1 et X2 et la variance de X2. Si on connaıt au moins le signe de β2
(on pourrait avoir de l’information a priori sur le signe de β2) et de la covariance, on peut predire
le signe de cet ecart. Aussi, nous savons que
Cov (X1 , X2)
Var (X1)
est la valeur (asymptotiquement) du coefficient de pente d’une regression ou X2 est la variable
dependante et X1 est la variable explicative, cela veut dire l’estimation du modele de regression
lineaire simple suivant :
X2i = γ0 + γ1X1i + εi.
8
Dans cet encadre, j’elabore un peu sur cette interpretation alernative.
Si on remonte un peu en arriere nous constatons que nous pouvons exprimer notre estimateur
β1 comme
β1 = β1 + β2
1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2 +1n
∑ni=1
(X1i − X1
)(ui − u)
1n
∑ni=1
(X1i − X1
)2 .
Nous constatons aussi que le terme qui multiplie β2, soit
1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2ressemble a quelque chose que nous connaissons. Il est egal (presque) a la covariance
echantillonnale entre X1 et X2 divisee par la variance echantillonnale de X1. C’est
exactement ce que l’on obtiendrait si on estimait un modele de regression simple avec X2
comme variable dependante et X1 comme la seule variable explicative (a part la constante).
Autrement dit, avec ce que l’on pourrait appeler le modele � auxiliaire � suivant :
X2i = γ0 + γ1X1i + εi
on obtiendrait l’estimateur MCO suivant :
γ=
1n
∑ni=1
(X1i − X1
) (X2i − X2
)1n
∑ni=1
(X1i − X1
)2 .
Nous obtenons donc
β1 = β1 + β2γ1 +1n
∑ni=1
(X1i − X1
)(ui − u)
1n
∑ni=1
(X1i − X1
)2 .
Ainsi, si
γ1p−→ γ′1
9
nous avons
β1p−→ β1 + β2γ
′1.
On ne peut presumer que l’estimateur γ1 est un estimateur convergent, puisqu’il faudrait faire
des hypotheses statistiques maintenues (notamment concernant l’esperance conditionnelle de
l’erreur εi) afin de pouvoir montrer cette convergence. C’est pourquoi j’ai ecrit γ′1 ici et non
γ1.
Nous allons montrer une generalisation de ce resultat dans la section (8) ci-dessous, ou X1
pourrait etre un vecteur de plusieurs variables explicatives incluses et X2 pourrait etre un
vecteur de plusieurs variables omises.
3 Modele de regression multiple
A la lumiere de ce que nous venons de montrer que l’omission d’une variable qui est pertinente
pour la prediction de la variable dependante Yi peut mener a un estimateur biaise de l’influence
d’une variable d’interet X1i sur la variable dependante. Donc, si nous voulons estimer son impact
sans biais, il faut en principe inclure toutes les variables qui pourraient aider a predire Yi et qui
sont potentiellement correlees avec X1i. 3 Ceci nous mene au modele de regression multiple.
3.1 Specification
Yi = β0 +X1iβ1 +X2iβ2 + . . .+Xkiβk + ui. (1)
3. Est-il possible d’inclure toutes les variables qui peuvent aider a predire Yi ? La reponse a cette question est� non � pour des raisons que nous allons etudier plus tard. Alors, quelles variables inclure ? Le choix de va-riables a inclure dans un modele de regression multiple peut etre une question tres compliquee. Nous allons voirquelques criteres de selection dans ce chapitre. Voir le videoclip https://www.youtube.com/watch?v=HP3RhjLhRjY pour une discussion qui n’est pas trop technique. Voir aussi https://www.youtube.com/watch?v=kl4RxV37ebk.
10
Chaque variable explicative porte deux indices inferieurs. Le premier fait reference a son identite.
Le deuxieme fait reference a l’unite d’observation (ou periode dans le cas de series
chronologiques). Cette convention suit la convention du manuel. On suppose un echantillon de n
observations.
3.2 Specification matricielle
Y = Xβ + U,
ou
Y ≡[Y1 Y2 . . . Yn
]′,
X ≡
1 X11 X21 . . . Xk1
1 X12 X22 . . . Xk2
......
... . . . ...
1 X1n X2n . . . Xkn
,
β ≡[β0 β1 β2 . . . βk
]′,
U ≡[u1 u2 . . . un
]′.
donc, Y est un vecteur colonne de dimensions n× 1, X est une matrice de dimensions
n× (k + 1), β est un vecteur colonne de dimensions (k + 1)× 1, et U est un vecteur colonne de
dimensions n× 1. Le modele contient une constante β0 et par convention la premiere colonne de
X contient un vecteur de valeurs egales a un.
Notez que la convention concernant les indices inferieurs associes aux variables explicatives du
modele (qui, repetons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la
j-ieme observation de la i-ieme variable explicative, n’est pas strictement conforme avec la
notation conventionnelle de l’algebre lineaire ou des matrices. Soit X une matrice de dimensions
11
k × l. En algebre lineaire on peut faire reference a un element de la matrice X par le biais
d’indices inferieurs. La convention est que �Xij � est l’element dans l’i-ieme rangee et la j-ieme
colonne. Donc, il s’agit d’un mariage malheureux entre deux notations qui sont incompatibles.
Dans ces notes, la notation Xij fera reference par defaut a la specification du modele dans
l’equation (1). Lorsque je veux utiliser la notation conventionnelle de l’algebre lineaire, je vais
l’ecrire explicitement. 4
Relire le paragraphe precedent. Il est tres important de saisir la difference entre la notation utilisee
par Stock et Watson et la notation matricielle standard.
Pour l’instant, il ne s’agit que de la notation. L’avantage d’introduire cette notation est la
simplification de l’algebre. Nous verrons de quoi il s’agit lors de la derivation de l’estimateur
MCO. 5 Avant de deriver l’estimateur MCO, nous allons nous pencher dans la sous-section
suivante sur les hypotheses statistiques derriere le modele de regression multiple.
3.3 Hypotheses de base du modele
Les hypotheses sont les equivalents des hypotheses de base du modele de regression simple du
chapitre 4.
Voir l’encadre �Key Concept 18.1 � a la page 707 du manuel (version anglaise — la traduction
francaise omet ce chapitre).
1. E (ui|Xi) = 0. Cette hypothese est reliee a la preuve que l’estimateur MCO de β est un
estimateur non biaise.
2. (Xi , Yi) i.i.d. Cette hypothese est reliee a la preuve que l’estimateur MCO de β est un
estimateur convergent.
3. Xi et ui ont des quatriemes moments non nuls et finis. Cette hypothese est aussi reliee a la
preuve que l’estimateur MCO de β est un estimateur convergent. 6
4. Si vous soupconnez qu’il y a des incoherences de notation, je vous prie de bien vouloir me les signaler.5. Toutes les preuves que nous allons voir (absence de biais de l’estimateur MCO, proprietes echantillonnales de
l’estimateur, etc., sont beaucoup plus faciles a montrer en notation matricielle qu’en utilisant des sommations. J’espereque vous allez finir par etre convaincus de ce principe.
6. Cette hypothese reduit l’importance et l’influence d’observations aberrantes, des observations qui sont tres
12
4. X est de rang plein en colonnes. Cela revient a dire qu’il n’y a pas une colonne de la
matrice X qui peut etre exprimee comme une combinaison lineaire exacte des autres
colonnes de la matrice. Une des consequences de cette hypothese sera que la matrice
(X ′X) (qui est une matrice carree par construction) sera une matrice de rang plein (k+ 1),
et donc il sera possible de calculer son inverse (X ′X)−1. Cet inverse (voir ci-dessous) fait
partie de la definition de l’estimateur MCO de β. Donc, sans cette hypothese, l’estimateur
MCO de β ne sera meme pas bien defini.
5. Var (ui|Xi) = σ2u.
6. La distribution de ui conditionnelle a la valeur de Xi suit une loi normale.
Les quatre premieres hypotheses sont les hypotheses retenues par defaut. Nous n’aurons besoin
des deux dernieres hypotheses que pour des cas speciaux. L’avant derniere hypothese s’applique
seulement dans le cas special d’erreurs homoscedastiques. Si nous sommes prets a supposer des
erreurs homoscedastiques, nous obtiendrons une version plus simple de la matrice de
variance-covariance des estimateurs MCO. Cette simplification correspond a ce que nous avons
vu dans le cadre du modele de regression simple dans le cas homoscedastique. Cette hypothese
correspond aussi au cas ou l’estimateur MCO est l’estimateur lineaire le plus efficient, autrement
dit l’estimateur lineaire non biaise avec la plus petite variance (theoreme Gauss-Markov). Le
terme consacre en anglais est l’estimateur �BLUE � (Best Linear Unbiased Estimator). Avec
l’avant-derniere hypothese plus la derniere concernant la normalite des erreurs, on pourra
effectuer des tests d’hypothese exacts — les statistiques t pour tester des hypotheses simples
auront des distributions t de Student meme en petit echantillon, et les statistiques F de Fisher
pour tester des hypothese jointes (voir plus loin dans le chapitre) auront des distributions F meme
en petit echantillon.
loin de la moyenne (si la moyenne existe).
13
3.4 Estimateur MCO
Nous voulons choisir les valeurs des elements de β qui minimisent la somme des residus carres.
Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons deja vu des
justifications pour l’utilisation de la somme des erreurs au carre dans le chapitre sur le modele de
regression simple.
1. L’algebre est relativement simple. Le critere (la fonction a minimiser) est une expression
quadratique (du deuxieme degre), et donc les conditions du premier ordre donnent un
systeme d’equations lineaires. Il est tres facile de resoudre un systeme d’equations
lineaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes
(voir ci-dessous).
2. L’autre justification se trouve plus loin, dans la section 7 de ces notes. On peut montrer
que, sous les hypotheses de base du modele et sous l’homoscedasticite des erreurs,
l’estimateur MCO est l’estimateur le plus efficient dans la classe d’estimateurs lineaires
(une fonction lineaire des observations Yi) et non biaises. C’est le theoreme
Gauss-Markov, celebre dans l’histoire de la pensee en statistique et en econometrie.
Comme nous avons vu dans le chapitre sur le modele de regression simple, il y a d’autres
estimateurs possibles a part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des
criteres souhaitables d’un estimateur (absence de biais, convergence, etc.) meme s’ils sont moins
efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent etre robustes en presence
d’observations aberrantes. Voir la remarque ci-dessus a propos d’une de nos hypotheses
statistiques de base, l’existence de quatriemes moments finis pour Xi et ui. J’invite ceux qui
s’interessent a poursuivre plus loin ce sujet a consulter l’article �Robust Statistics � sur
Wikipedia.
Le probleme peut s’ecrire comme
minβU ′U.
14
Simple, non ? Remplacons U par sa definition. Le probleme devient :
minβ
(Y −Xβ)′ (Y −Xβ) ,
ce qui est equivalent a :
minβ
(Y ′Y − β′X ′Y − Y ′Xβ + β′X ′Xβ) .
Vous devez etre parfaitement a l’aise avec cette multiplication matricielle. On applique les memes
regles que pour la multiplication de scalaires en faisant bien attention a l’orientation (est-ce
qu’elles sont transposees ou non ?) des matrices.
Derivant par rapport a β, nous obtenons :
−X ′Y −X ′Y +X ′Xβ + (X ′X)′β = 0.
Ici, on applique les regles de differenciation matricielle auxquelles nous reviendrons dans la
sous-section suivante. Notez aussi que le � 0 � du cote droit est implicitement un vecteur de
zeros. L’expression du cote gauche est de dimensions (k + 1)× 1 et donc l’expression du cote
droit doit etre conforme. Lorsqu’il n’y a pas d’ambiguıte entre scalaire et vecteur nous allons
utiliser cette notation. Pour denoter explicitement un vecteur de zeros au lieu d’un scalaire
lorsqu’il pourrait y avoir ambiguıte, nous utiliserons 0 ou le nombre de colonnes sera defini selon
le contexte : si nous voulons etre encore plus explicites concernant les dimensions du vecteur
nous allons utiliser 0m pour denoter un vecteur de zeros de dimensions m× 1. Ceci nous donne
X ′Xβ = X ′Y.
Cet ensemble d’equations s’appelle communement les � equations normales � de l’estimation
MCO. Notez qu’il y a (k + 1) equations. Les inconnus sont les valeurs des coefficients, dont il y a
15
(k + 1). Les equations sont des fonctions lineaires des coefficients. Si la matrice (X ′X) est de
rang plein nous pouvons l’inverser afin d’obtenir
(X ′X)−1X ′Xβ = (X ′X)
−1X ′Y.
En fait, l’hypothese de la possibilite d’inverser la matrice X ′X fait partie des hypotheses de base
du modele de regression multiple. (Voir quand meme la discussion plus loin sur la
multicollinearite parfaite.) Nous avons
(X ′X)−1X ′Xβ = Iβ = β,
ou I est la matrice d’identite de dimensions (k + 1)× (k + 1),
I ≡
1 0 0 . . . 0
0 1 0 . . . 0
0 0 1 . . . 0
......
... . . . ...
0 0 0 . . . 1
,
et donc
β ≡ β = (X ′X)−1X ′Y.
J’ai ecrit un chapeau sur β pour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ?
C’est la premiere fois que nous voyons une application de la differentiation de matrices dans le
cours. Ce sera d’ailleurs presque la derniere fois.
3.4.1 Differentiation matricielle
Rappelez-vous la page D-4 du document que je vous ai donne a lire (je donne la reference exacte
encore une fois a la fin de ces notes), specifiquement l’encadre en bas de la page :
16
y ∂y∂x
Ax A′
x′A A
x′x 2x
x′Ax Ax+ A′x
Etudiez bien la condition du premier ordre pour etre sur a 100% de comprendre comment on
l’obtient en appliquant ces regles. Notez bien aussi que, pour les fins de notre differentiation, il y
a une fonction (la somme des residus carres) de k + 1 variables explicatives qui sont les elements
de β.
Notez bien que le calcul de β implique l’inversion d’une matrice de dimensions
(k + 1)× (k + 1). Dans le cas general (ou k > 3), nous savons que nous ne pouvons pas obtenir
une expression algebrique pour cette matrice inversee. Resoudre ce probleme equivaut (ou
presque) a trouver les racines d’un polynome d’ordre k + 1, et il y a un theoreme qui dit ceci est
impossible en general (algebriquement) pour des polynomes d’ordre 5 et plus. La solution
algebrique pour un polynome d’ordre 4 s’etale sur plusieurs pages, et elle n’est pas d’une grande
utilite pratique. Si nous voulions ecrire la solution pour β avec k > 3 avec une notation de
sommations, ca serait plus qu’affreux, ca serait carrement impossible. Il y a des moyens de
contourner ce probleme, mais ce sont des moyens qui datent d’avant l’epoque d’ordinateurs
personnels puissants. De nos jours, nous pouvons toujours demander a l’ordinateur d’inverser nos
matrices (X ′X), utilisant des algorithmes numeriques puissants et efficaces.
17
3.4.2 Quelques exemples simples des regles de differentiation
Pour illustrer le fonctionnement de ces regles de differentiation, prenons quelques exemples
concrets tres simples. D’abord, supposons que
y =
[A1 A2
] x1
x2
= A1x1 + A2x2.
La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la
fonction (x1 et x2) et donc deux derivees partielles distinctes. Par convention, on ecrit les derivees
partielles en colonne :
∂y
∂x≡
∂y∂x1
∂y∂x2.
Nous constatons que
∂y
∂x1= A1
et∂y
∂x2= A2.
Donc,
∂y
∂x=
A1
A2
= A′,
ce qui est conforme a la premiere regle du tableau ci-dessus.
Maintenant, supposons que
y =
A11 A12
A21 A22
x1
x2
18
=
A11x1 + A12x2
A21x1 + A22x2
≡ y1
y2
Maintenant, y est composee de deux fonctions, definies par les deux rangees de l’expression
ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2), et donc on a un total de
quatre derivees partielles. Nous avons∂y1∂x1
= A11,
∂y1∂x2
= A12,
∂y2∂x1
= A21,
et∂y2∂x2
= A22.
Par convention, on ecrit ces quatre derivees en notation matricielle comme
∂y1∂x1
∂y2∂x1
∂y1∂x2
∂y2∂x2
.Donc, la convention revient a aligner toutes les derivees de la meme fonction dans la meme
colonne, et toutes les derivees par rapport au meme argument dans la meme rangee. Dans notre
cas, nous avons ∂y1∂x1
∂y2∂x1
∂y1∂x2
∂y2∂x2
=
A11 A21
A12 A22
= A′,
et encore une fois la premiere regle du tableau est respectee.
Maintenant, supposons que
y =
[x1 x2
] A11 A12
A21 A22
x1
x2
19
=
[x1A11 + x2A21 x1A12 + x2A22
] x1
x2
= A11x1
2 + A21x1x2 + A12x1x2 + A22x22.
Cette fois-ci la fonction y est scalaire. Il y a deux derivees partielles possibles. Nous avons
∂y
∂x1= 2A11x1 + A21x2 + A12x2
et∂y
∂x2= 2A22x2 + A21x1 + A12x1.
Ecrivant ces resultats en notation matricielle nous avons ∂y∂x1
∂y∂x2
=
A11A12
A21A22
x1
x2
+
A11A21
A12A22
x1
x2
= Ax+ A′x,
ce qui est conforme a la quatrieme regle du tableau (il est important de verifier ceci).
Pour des cas plus compliques (plusieurs fonctions, plusieurs arguments), les expressions non
matricielles peuvent devenir assez longues et assez compliquees. Ces regles de differentiation
matricielle permettent de tenir compte automatiquement et systematiquement (sans oublier des
termes !) de toutes les derivees partielles possibles. Elles permettent aussi d’ecrire toutes les
derivees partielles dans une notation tres compacte.
3.5 Approche non matricielle au probleme de minimisation
Nous pouvons facilement verifier qu’une approche non matricielle au probleme de minimisation
mene a exactement les memes resultats que l’approche matricielle, comme il se doit. C’est le but
de cette sous-section des notes.
Nous avons vu que le modele de regression multiple peut s’ecrire en notation non matricielle
20
comme suit :
Yi = β0 +X1iβ1 +X2iβ2 + . . .+Xkiβk + ui.
On veut minimiser la somme des residus au carre. Le probleme peut s’ecrire comme suit :
minβ0,β1,...,βk
n∑i=1
(Yi − β0 −X1iβ1 −X2iβ2 − . . .−Xkiβk)2 .
Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sur, il y a
k + 1 conditions dur premier ordre puisqu’il y a k + 1 variables de choix pour minimiser notre
fonction (la somme des residus au carre) :
β0 : 0 = −2n∑i=1
(Yi − β0 −X1iβ1 − . . .−Xkiβk) ;
β1 : 0 = −2n∑i=1
X1i (Yi − β0 −X1iβ1 − . . .−Xkiβk) ;
β2 : 0 = −2n∑i=1
X2i (Yi − β0 −X1iβ1 − . . .−Xkiβk) ;
. . .
βk : 0 = −2n∑i=1
Xki (Yi − β0 −X1iβ1 − . . .−Xkiβk) .
Il s’agit d’un systeme de k + 1 equations en k + 1 inconnus (les βs). S’il n’y a pas de dependance
lineaire exacte entre les k + 1 equations (cette condition est l’equivalent non matriciel a notre
hypothese concernant le rang de la matrice X), il y a une solution unique pour les inconnus. Nous
pouvons reecrire le systeme comme suit :
n∑i=1
Yi =n∑i=1
(β0 +X1iβ1 + . . .+Xkiβk) ;
n∑i=1
X1iYi =n∑i=1
X1i (β0 +X1iβ1 + . . .+Xkiβk) ;
21
n∑i=1
X2iYi =n∑i=1
X2i (β0 +X1iβ1 + . . .+Xkiβk) ;
. . .
n∑i=1
XkiYi =n∑i=1
Xki (β0 +X1iβ1 + . . .+Xkiβk) .
Nous pouvons maintenant convertir ses equations en notation matricielle :
[1 . . . 1
]Y1...
Yn
=
[1 . . . 1
]Xβ;
[X11 . . . X1n
]Y1...
Yn
=
[X11 . . . X1n
]Xβ;
...
[Xk1 . . . Xkn
]Y1...
Yn
=
[Xk1 . . . Xkn
]Xβ,
ou j’ai ecrit un chapeau sur β pour indiquer qu’il s’agit d’un systeme d’equations dont la solution
nous donne nos estimateurs moindres carres ordinaires. Soyez sur de comprendre ce passage a la
notation matricielle. Maintenant, en empilant les k + 1 equations les unes pardessus les autres,
nous avons tout de suite
1 . . . 1
X11 . . . X1n
X21 . . . X2n
......
...
Xk1 . . . Xkn
Y1...
Yn
=
1 . . . 1
X11 . . . X1n
X21 . . . X2n
......
...
Xk1 . . . Xkn
Xβ
22
⇒ X ′Y = X ′Xβ
⇒ β = (X ′X)−1X ′Y.
Nous retrouvons la meme solution en notation matricielle (ce qui n’est point surprenant).
4 Proprietes algebriques de l’estimateur MCO
Comme dans le chapitre 4, nous allons montrer que l’estimateur a des proprietes algebriques qui
doivent tenir independamment des hypotheses statistiques concernant les variables (explicatives
et dependante) du modele. Ces proprietes doivent tenir pour n’importe quel echantillon de
donnees Nous utiliserons les resultats de cette section par la suite pour deriver certaines des
proprietes statistiques de l’estimateur MCO.
4.1 Orthogonalite
Nous avons, directement a partir des CPOs (ou a partir de la CPO matricielle),
X ′Xβ = X ′Y
⇒ X ′(Xβ − Y
)= 0
⇒ X ′(Y −Xβ
)= 0.
Entre parentheses, nous avons un vecteur de dimensions n× 1 qui nous donne les residus de la
regression (variable dependante moins la valeur predite de la variable dependante donnee par
X ′β). Autrement dit,
Y −Xβ ≡ U .
Donc, nous avons :
X ′U = 0,
23
ou U est le vecteur de residus de la regression. Les residus sont orthogonaux aux variables
explicatives. Par definition, deux vecteurs Z1 et Z2 de dimensions n× 1 sont orthogonaux si et
seulement si
Z1′Z2 = 0
Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale
aux residus de la regression. Ce resultat est une generalisation du resultat dans le chapitre sur la
regression simple de l’orthogonalite entre la seule variable explicative (a part la constante) et les
residus. C’est une generalisation, mais la preuve est beaucoup plus succincte que celle qu’on a
vue dans le chapitre sur la regression simple. Encore un avantage de la notation matricielle.
Nous avons vu dans le chapitre sur le modele de regression simple que l’orthogonalite est reliee a
l’interpretation geometrique de la methode de MCO. Estimer un modele par MCO revient a
projeter la variable dependante dans l’espace traverse par la variable explicative (ou les variables
explicatives dans le cas de la regression multiple). La Figure 1 ci-dessous reprend le graphique
que nous avons vu dans le chapitre precedent. C’est donc pour le cas ou il y a deux variables
explicatives. La ligne de regression est considere comme un vecteur. La ligne pointillee sur le
graphique est un vecteur dont la longueur egale la valeur de ui a ce point. Il forme un angle droit
par rapport a la ligne de regression, d’ou le terme � orthogonal �. 7
Figure 17. Pour plus de details voir Davidson et MacKinnon (1999) et Kachapova et Kachapova (2010). Les references
detaillees sont dans le chapitre de references.
24
4.2 Somme des residus
Notez que, par convention, la premiere colonne de X represente la constante et donc contient un
vecteur de valeurs egales a un. Si nous denotons cette premiere colonne par X1 (notez que nous
utilisons ici une notation d’algebre lineaire), nous avons tout de suite
X1′U = 1′U =
n∑i=1
ui = 0.
Une preuve sur une seule ligne !
Donc, la somme des residus est egale a zero, comme dans le modele de regression simple. Notez
que ce resultat decoule directement du resultat concernant l’orthogonalite.
4.3 Valeurs predites
Definissons
Y ≡ Xβ,
le vecteur de valeurs predites de la variable dependante. Nous avons
Y ′U =(X (X ′X)
−1X ′Y
)′U
= Y ′X (X ′X)−1X ′U = 0.
Les valeurs predites de la variable dependante sont orthogonales aux residus.
Finalement, nous avons
X ′(Y − Y
)= X ′
(X (X ′X)
−1X ′Y − Y
)= X ′X (X ′X)
−1X ′Y −X ′Y = X ′Y −X ′Y = 0.
Puisque la premiere colonne de X est un vecteur de valeurs unitaires, une consequence directe de
25
ce resultat est que la moyenne echantillonnale des valeurs predites est egale a la moyenne
echantillonnale de la variable dependante elle-meme. Autrement dit :
1
n
n∑i=1
Yi =1
n
n∑i=1
Y ≡ Y ,
un resultat semblable a ce que nous avons vu dans le chapitre sur la regression simple.
4.4 Ecart type de la regression
On definit
SER ≡ su,
ou
s2u ≡1
n− k − 1
n∑i=1
u2i =SSR
n− k − 1,
et donc SSR est la somme des residus au carre. On divise par (n− k − 1) afin d’obtenir un estime
non biaise de la variance de l’erreur dans l’equation de regression lorsque celle-ci est constante. 8
Je sais que j’insiste beaucoup la-dessus, mais les demonstrations algebriques dans cette section
sont beaucoup plus courtes que leurs equivalents dans le chapitre precedent. C’est dans ce sens
que je dis que l’utilisation de la notation matricielle dans le contexte du modele de regression
multiple simplifie enormement l’analyse. S’il fallait deriver les memes proprietes sans avoir
recours aux matrices, les demonstrations s’etaleraient sur plusieurs pages.
8. Ici on suppose implicitement des erreurs homoscedastiques, ou a variance constante. Sinon il n’est pas logiquede parler de � la � variance de l’erreur.
26
4.5 Mesures d’ajustement statistique
4.5.1 Le R2
La mesure R2 est definie de la meme facon que dans le cas du modele de regression simple :
R2 =ESSTSS
= 1− SSRTSS
,
ou on definit
ESS ≡n∑i=1
(Yi − Y
)2,
ou Y est la moyenne echantillonnale des Yi, et
TSS ≡n∑i=1
(Yi − Y
)2Nous avons suppose implicitement ici que
TSS = SSR + ESS.
En fait, il faut demontrer ce resultat, comme nous avons fait dans le chapitre sur le modele de
regression simple. Nous avons
Y ′Y =(Xβ + U
)′ (Xβ + U
)
= β′X ′Xβ + β′X ′U + U ′Xβ + U ′U
= β′X ′Xβ + U ′U
≡ Y ′Y + U ′U = Y ′Y + SSR.
Nous avons utilise pour passer a l’avant derniere ligne de cette sequence d’equations le resultat
27
que X ′U = 0. Nous avons presque montre le resultat voulu en quatre lignes, mais nous avons
TSS ≡ (Y − Y)′(Y − Y)
= Y ′Y − Y′Y − Y ′Y + Y′Y
ou Y est un vecteur de constantes avec chaque valeur egale a Y , et nous avons
ESS ≡(Y − Y
)′ (Y − Y
)
Y ′Y − Y′Y − Y ′Y + Y′Y.
Donc, nous devons montrer que
Y′Y = Y′Y
⇐⇒ Yn∑i=1
Yi = Yn∑i=1
Yi
⇐⇒ 1
n
n∑i=1
Yi =1
n
n∑i=1
Yi = Y ,
ce qui doit etre le cas puisque nous avons montre parmi les proprietes algebriques de l’estimateur
MCO que la moyenne echantillonnale des valeurs predites de la variable dependante doit etre
egale a la moyenne echantillonnale de la variable dependante elle-meme. Donc, nous venons de
montrer que
TSS = ESS + SSR.
Sachant que Y ≡ Y + U , une facon plus succincte de le faire est comme suit :
TSS = (Y − Y)′(Y − Y)
=(Y + U − Y
)′ (Y + U − Y
)
28
=((Y − Y
)+ U
)′ ((Y − Y
)+ U
)=(Y − Y
)′ (Y − Y
)+(Y − Y
)′U + U ′
(Y − Y
)+ U ′U
=(Y − Y
)′ (Y − Y
)+ U ′U
≡ ESS + SSR,
puisque nous avons montre auparavant que Y ′U = 0 et
Y′U =n∑i=1
Y Ui = Yn∑i=1
Ui = 0.
Dans le chapitre sur le modele de regression simple, nous avons appris que l’ajustement
statistique R2 etait egal au coefficient de correlation (echantillonalle) au carre entre la variable
dependante et la (seule) variable explicative. Il y a un resultat semblable pour le modele de
regression multiple. Nous pouvons montrer que le R2 est egale au coefficient de correlation
(echantillonnale) au carre entre Y et Y , le vecteur de valeurs predites de la variable
dependante.
La preuve de ce resultat est facile, mais il faut introduire un peu de notation pour la rendre
plus succincte. (Pour plus d’explications, voir le 3e chapitre du livre de Greene, 2011.) Soit i
le vecteur colonne ou chaque element est egal a un. La longueur du vecteur (nombre de
rangees) dependra du contexte. Definissons
M0 ≡(I − i (i′i)
−1i′).
Si on premultiplie un vecteur quelconque Y par M0 la multiplication aura pour effet de
soustraire la moyenne Y de chaque element du vecteur Y . Nous avons
M0Y =(I − i (i′i)
−1i′)Y
29
= Y − i (i′i)−1i′Y
= Y − i 1n
n∑i=1
Yi
= Y − iY ≡ Y − Y,
puisque (i′i)−1 = 1n
et i′Y =∑n
i=1 Yi. Il est aussi facile de montrer que
M0′ = M0
et
M0M0 = M0.
Une matrice qui a ces proprietes est appelee une matrice � idempotente �. De cette facon,
nous pouvons redefinir le R2 comme
R2 ≡ ESS
TSS=
(Y − Y
)′ (Y − Y
)(Y − Y)
′(Y − Y)
=Y ′M0Y
Y ′M0Y.
Nous avons aussi
M0U = U
puisque la somme des residus est zero. Donc, nous avons
Y ′M0Y = Y ′M0(Y − U
)
= Y ′M0Y − Y ′M0U
= Y ′M0Y − Y ′U
30
= Y ′M0Y − β′X ′U
(puisque Y ≡ Xβ)
= Y ′M0Y − 0 = Y M0Y
puisque X ′U = 0 (orthogonalite entre les variables expicatives et les residus).
Nous pouvons donc ecrire le R2 comme
R2 =Y ′M0Y
Y ′M0Y
=Y ′M0Y
Y ′M0Y
Y ′M0Y
Y ′M0Y
(multipliant numerateur et denominateur par la meme chose)
=
(Y ′M0Y
)(Y ′M0Y
)(Y ′M0Y )
(Y ′M0Y
)
=
(Y ′M0Y
)(Y ′M0Y
)(Y ′M0Y )
(Y ′M0Y
) .On peut reecrire ceci en notation non matricielle pour obtenir
(Y ′M0Y
)(Y ′M0Y
)(Y ′M0Y )
(Y ′M0Y
) =
(Y ′M0M0Y
)(Y ′M0M0Y
)(Y ′M0M0Y )
(Y ′M0M0Y
)
=
(∑ni=1
(Yi − Y
) (Yi − Y
))2(∑n
i=1
(Yi − Y
)2)(∑ni=1
(Yi − Y
)2)
=
(1
n−1∑n
i=1
(Yi − Y
) (Yi − Y
))2(
1n−1
∑ni=1
(Yi − Y
)2)( 1n−1
∑ni=1
(Yi − Y
)2)
31
=
1n−1
∑ni=1
(Yi − Y
) (Yi − Y
)√
1n−1
∑ni=1
(Yi − Y
)2√ 1n−1
∑ni=1
(Yi − Y
)2
2
≡(
Corr(Y, Y
))2.
Ceci permet de reinterpreter notre mesure d’ajustement statistique. Dans un contexte de
prevision, le R2 nous dit a quel point le modele de regression permet de predire les variations
de la variable dependante autour de sa moyenne, mesure par la correlation entre les valeurs
predites et les valeurs realisees.
Notez aussi que ce resultat ne depend pas du nombre de colonnes dans X . Il s’applique aussi
bien au modele de regression simple qu’au modele de regression multiple. Dans le cas du
modele de regression simple, nous avons
(Yi − Y
)=(Xi − X
)β1,
ou maintenant Xi est un scalaire. Nous avons tout de suite
1n−1
∑ni=1
(Yi − Y
) (Yi − Y
)√
1n−1
∑ni=1
(Yi − Y
)2√ 1n−1
∑ni=1
(Yi − Y
)2
2
=
1n−1
∑ni=1
((Xi − X
)β1
) (Yi − Y
)√
1n−1
∑ni=1
(Yi − Y
)2√ 1n−1
∑ni=1
((Xi − X
)β1
)2
2
=
1n−1
∑ni=1
((Xi − X
)) (Yi − Y
)√1
n−1∑n
i=1
(Yi − Y
)2√ 1n−1
∑ni=1
(Xi − X
)22
≡(Corr (Y,X)
)2.
32
On voit que le resultat trouve dans le chapitre sur le modele de regression simple n’est qu’un
cas special du resultat general developpe ici.
4.5.2 Le R2 ajuste
On peut facilement montrer mathematiquement que le fait de rajouter une variable explicative
additionnelle a un modele de regression multiple ne peut que faire augmenter son R2. Si vous etes
a l’aise avec les principes de base de l’optimisation sous contrainte, ce resultat est evident.
L’estimateur MCO est la solution a un probleme de minimisation. Si on minimise la somme des
residus carres sujet a la contrainte qu’un des coefficients est egal a zero (on enleve la variable du
modele), et puis on minimise la somme des residus carres en ne pas imposant cette contrainte, la
somme des residus carres doit etre au moins aussi petite dans le dernier cas, puisque nous
relachons une des contraintes du probleme de minimisation.
De cette facon, nous pouvons toujours � ameliorer � l’ajustement statistique d’une regression en
ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que
d’observations ((k + 1) = n), il est possible d’atteindre un ajustement statistique � parfait �. Il
faudrait trouver la solution a
0 = U = Y −Xβ
⇒ Y = Xβ.
Nous avons n equations et n inconnus. Dans la mesure ou X est de rang plein (rang n), nous
avons
β = X−1Y.
Donc, un R2 eleve n’est pas toujours et partout une bonne chose.
Puisque l’ajustement mesure par le R2 ne peut qu’augmenter quand on ajoute des variables
explicatives, il serait bien d’avoir une autre mesure qui penalise la mesure par un facteur
lorsqu’on ajoute des variables explicatives. Le R2 ajuste, denote par R2 est une telle mesure.
33
Voici sa definition :
R2 ≡ 1− n− 1
n− k − 1
SSRTSS
= 1− s2us2Y.
On peut souligner trois proprietes du R2.
1. Puisque n−1n−k−1 > 1, on sait que R2 < R2.
2. Le fait d’ajouter une variable explicative supplementaire a deux effets sur R2. D’une part,
la somme des residus carres SSR doit baisser, ce qui fait augmenter R2. D’autre part, le
facteur n−1n−k−1 augmente, ce qui fait diminuer R2.
3. Il est possible que R2 soit negatif.
La penalite pour l’ajout d’une variable explicative additionnelle peut sembler arbitraire. Par
contre, on peut montrer que la mesure R2 est reliee au concept de tests d’hypothese. Voir
Edwards (1969) ou Giles (2013b). Je presente dans cet encadre la preuve telle que presentee
par Giles. Je suggere de revenir en arriere pour relire cet encadre une fois que vous aurez lu la
section (9) sur les tests d’hypothese, puisqu’il s’agit ici de tester une hypothese jointe, un
sujet que nous n’avons pas encore couvert.
Considerez le modele de regression lineaire donne par
Y = Xβ + U.
Nous avons, comme d’habitude,
U ≡ Y −Xβ.
Nous avons aussi
R2 ≡ 1− SSR
TSS= 1− U ′U(
Y − Y)′ (
Y − Y)
et
R2 ≡ 1− SSR/(n− k − 1)
TSS/(n− 1)= 1− U ′U/(n− k − 1)(
Y − Y)′ (
Y − Y)/(n− 1)
.
34
Considerez maintenant le modele ou on laisse tomber j des variables explicatives du modele
initial. (Notez qu’au lieu de raisonner en termes de l’ajout de variables explicatives, nous
raisonnons en termes de ce qui arrive si on laisse tomber des variables explicatives.) Appelons
la mesure d’ajustement statistique de ce nouveau modele R2r ou l’indice inferieur est cense
faire penser a � restreint �. Nous avons
R2r ≡ 1− SSRr
TSS= 1− U ′rUr(
Y − Y)′ (
Y − Y)
et
R2r ≡ 1− SSRr/(n− k − 1 + j)
TSS/(n− 1)= 1− U ′rUr/(n− k − 1 + j)(
Y − Y)′ (
Y − Y)/(n− 1)
ou Ur est le vecteur de residus du modele contraint ou nous laissons tomber j des variables
explicatives et SSRr est la somme des residus au carre de ce modele contraint. Nous avons
maintenantR2
R2r
=1− SSR/(n−k−1)
TSS/(n−1)
1− SSRr/(n−k−1+j)TSS/(n−1)
=TSS/(n− 1)− SSR/(n− k − 1)
TSS/(n− 1)− SSRr/(n− k − 1 + j).
Nous pouvons voir tout de suite que R2 > R2r si
TSS/(n− 1)− SSR/(n− k − 1) > TSS/(n− 1)− SSRr/(n− k − 1 + j)
⇒ SSRr/(n− k − 1 + j) > SSR/(n− k − 1)
⇒ SSR(n− k − 1 + j) < SSRr(n− k − 1)
⇒ SSR(n− k − 1) + SSRj < SSRr(n− k − 1)
⇒ SSRr > SSR + SSRj/(n− k − 1)
35
⇒ (SSRr − SSR) /j > SSR/(n− k − 1)
⇒ (SSRr − SSR) /j
SSR/(n− k − 1)> 1.
Le bras gauche de cette derniere inegalite est a comparer avec la stastique F pour tester j
restrictions lineaires dans le cas d’erreurs homoscedastiques dans la sous-section 9.8.
(Nous n’avons pas encore introduit le concept de tester des hypotheses jointes : il fera l’objet
de la section 9).
Donc, le R2 va augmenter avec l’ajout de j variables explicatives si la statistique F pour
tester leur significativite a une valeur superieure a un. Ceci n’est pas un critere tres restrictif.
Comment peut-on savoir que ce n’est pas un critere tres restrictif ? Par exemple, pour la
distribution F avec 3 et 1000 degres de liberte, la fonction de distribution cumulee evaluee a
Fact = 1 est egale a 0.462. Donc, si on ajoute 3 variables a un modele de regression (estime
avec un echantillon d’un peu plus de 1000 observations) qui, par construction n’aident pas a
predire la variable dependante, on va rejeter l’hypothese nulle de la non-significativite de ces
trois variables plus que la moitie du temps (avec une probabilite de 1− 0.462 = 0.538) meme
si on sait qu’elle est vraie.
On montre dans la section 9 sur les tests d’hypothese que dans le cas d’une seule restriction
(j = 1), la statistique F est egale au carre de la statistique t. Donc, lorsqu’on ajoute une seule
variable explicative a un modele de regression, le R2 va augmenter si la statistique t pour
tester sa significativite a une valeur absolue superieure a un. Pour une variable aleatoire qui
suit une loi normale centree reduite, la probabilite d’obtenir une valeur superieure a un en
valeur absolue est approximativement egale a 32%. Donc, l’ajout d’une variable au modele de
regression fait augmenter le R2 si le taux de significativite marginale pour un test de sa
significativite est egal a 0.32 ou moins, ce qui n’est pas un critere tres conservateur ou tres
exigeant.
36
5 Proprietes statistiques de l’estimateur MCO
5.1 Proprietes statistiques : absence de biais
Toutes les proprietes (algebriques) de l’estimateur MCO que nous avons montrees jusqu’a
maintenant tiennent independamment des hypotheses statistiques de la section 3.3. La seule
hypothese que nous avons utilise pour deriver les proprietes algebriques est celle du rang plein en
colonnes de X et donc de la possibilite de calculer (X ′X)−1.
Pour montrer l’absence de biais, nous utilisons la strategie habituelle. Nous remplacons Y dans la
definition de l’estimateur par sa definition (Xβ + U ), nous simplifions, et finalement nous
calculons la valeur esperee de l’estimateur en utilisant la loi des esperances iterees.
Nous avons :
β = (X ′X)−1X ′Y
= (X ′X)−1X ′(Xβ + U)
= β + (X ′X)−1X ′U
→ E(β)
= β + E((X ′X)−1X ′U
)= β + E
(E((X ′X)−1X ′U |X
))= β + E
((X ′X)−1X ′E (U |X)
)= β.
L’avant-derniere egalite depend de la loi des esperances iterees.
Je ne sais pas si vous etes d’accord, mais je crois que la demonstration de l’absence de biais dans
le cas du modele de regression multiple est beaucoup plus simple que dans le cas du modele de
regression simple, a cause de l’utilisation de la notation matricielle. La preuve s’ecrit sur quelques
lignes seulement est elle est assez transparente.
37
5.2 Petite note : theoreme de Slutsky
Pour deriver la convergence de l’estimateur β et pour deriver sa distribution en grand echantillon,
nous allons devoir faire appel au theoreme de Slutsky.
L’enonce du theoreme se trouve dans le manuel a la page 685. Il est utile, sinon tres utile, sinon
archi utile. Il dit essentiellement que si une variable aleatoire converge en probabilite a quelque
chose, une fonction continue de la variable aleatoire converge a la meme fonction de ce a quoi
converge la variable aleatoire.
Un enonce un peu plus general du theoreme se trouve a Wikipedia (� Slutsky’s Theorem �). Il dit
que si
Xnp−→ X,
alors
h (Xn)p−→ h(X),
ou h(·) est une fonction quelconque (pas tout a fait quelconque, puisqu’il faut imposer certaines
restrictions techniques, quant a la continuite par exemple). Les conditions qui doivent tenir pour
que le theoreme tienne sont explicitees dans l’article chez Wikipedia.
Pourquoi est-ce que ce theoreme est si utile ? Si on veut analyser le comportement en grand
echantillon d’un estimateur, on peut analyser le comportement de ses composantes, sachant que
(sous certaines conditions techniques) si les composantes convergent en probabilite a quelque
chose, et si l’estimateur est une fonction des composantes, l’estimateur converge en probabilite a
cette fonction. De facon informelle, si
Zn = f (Xn, Yn) ,
et si Xnp−→ X et Yn
p−→ Y , alors
Znp−→ f(X, Y ).
Voir l’equation (17.9) du manuel (version anglaise) pour un enonce un peu plus general. Si
38
anp−→ a ou a est une constante et si Sn
d−→ S, alors
an + Snd−→ a+ S,
anSnd−→ aS,
et si a 6= 0,Snan
d−→ S
a.
Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite
grandement la vie. Notez que la manipulation algebrique des limites de probabilite est beaucoup
plus simple que la manipulation algebrique des esperances. Nous savons qu’en general,
E (XY ) 6= E(X)E(Y ),
sauf dans le cas de variables aleatoires independantes, et nous savons aussi qu’en general
Ef (X) 6= f (E(X)) ,
sauf dans le cas ou f est une fonction lineaire (le cas du fameux encadre 2.3 qui nous dit entre
autres que l’esperance d’une fonction lineaire de variables aleatoires est egale a la fonction
lineaire des esperances des variables aleatoires).
5.3 Proprietes statistiques : convergence
β = (X ′X)−1X ′Y
= (X ′X)−1X ′(Xβ + U)
= β + (X ′X)−1X ′U
39
→(β − β
)=
((X ′X)
n
)−1((X ′U)
n
)Nous avons divise et multiplie par le scalaire n afin de pouvoir parler de convergence en
probabilite. (X′X)n
est une matrice dont l’element i, j est donne par
Xi′Xj
n=
1
n
n∑l=1
Xi−1,lXj−1,l.
Du cote gauche on utilise la notation matricielle standard. Du cote droit, on utilise la notation du
manuel pour le modele de regression multiple. Notez encore une fois l’inversion des indices
inferieurs entre la notation matricielle standard et la notation du modele de regression multiple
utilise dans le livre. Dans l’ieme colonne de la matrice, on retrouve les observations sur la
variable explicative i− 1. Par une des hypotheses du modele de regression multiple, nous avons
limn→∞
Xi′Xj
n= E (Xi
′Xj) .
Ceci veut dire qu’il y a convergence en probabilite vers l’esperance de Xi′Xj . Donc, (X′X)
n
converge en probabilite a Qx, qui est definie comme
Qx ≡ E(X ′X
n
).
C’est donc une matrice des deuxiemes moments des variables explicatives. Notez que ce n’est pas
une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les
moyennes. 9 Une des hypotheses du modele est que la matrice (X ′X) est inversible (absence de
multicollinearite complete). Si c’est le cas, X ′X satisfait les conditions du theoreme de Slutsky, et
donc la limite de probabilite de l’inverse de la matrice est l’inverse de la limite de probabilite.
9. Comme nous avons vu dans le chapitre de rappel sur la theorie des probabilites, nous pouvons en general faireune distinction entre l’enieme moment brut d’une variable aleatoire Y donne par E (Y n) et l’enieme moment centredonne par E ((Y − E(Y ))
n). Revoir le chapitre sur la theorie des probabilites pour un rappel. La covariance entre deux
variables aleatoires X et Y , E ((Y − E(Y )) (X − E(X))), est donc un moment centre, et notre Qx est un momentbrut.
40
Donc, le premier terme converge en probabilite a
(Qx)−1
Le deuxieme terme converge en probabilite a zero. Je ne vais pas faire la preuve formelle de cet
enonce. Par contre, nous avons deja vu que son esperance est nulle :
E(
(X ′U)
n
)= E
((X ′E (U |X))
n
)= 0.
Sa variance est donnee par
Var(
(X ′U)
n
)
=
(1
n
)2
Var (X ′U) .
Il s’agit de la variance d’un vecteur de dimensions (k + 1)× 1. Si on considere l’ieme colonne de
la matrice X , nous avons
Var(
1
nXi′U
)
=
(1
n
)2
Var (Xi′U)
=
(1
n
)2
Var
(n∑l=1
Xi−1,lUl
)
=
(1
n
)2 n∑l=1
Var (Xi−1,lUl) .
Definissons Xi−1,lUl ≡ Vi,l. Nous avons
Var(
1
nXi′U
)
=
(1
n
)2 n∑l=1
Var (Vi,l)
41
=
(1
n
)2
nVar (Vi)
=
(1
n
)Var (Vi) .
Nous avons fait des hypotheses de quatrieme moments finis et d’observations i.i.d., et donc la
variance Var (Vi) est finie et constante. Nous avons
limn→∞
(1
nVar (Vi)
)= 0.
Avec une esperance de zero et une variance qui tend vers zero, on a (presque) la preuve de la
convergence :(X ′U)
n
p−→ 0.
Les hypotheses du theoreme de Slutsky sont satisfaites, donc la limite de probabilite du produit
est le produit des limites de probabilite. Donc, nous avons :
(β − β
)p−→ 0.
Interpretation alternative de l’estimateur MCO
Nous avons maintenant etudie la convergence en probabilite de l’estimateur MCO, ce qui
nous permet de mentionner une autre interpretation possible de l’estimateur. Je vous
encourage fortement a lire cet encadre et meme a retenir les etapes algebriques, qui sont
extremement simples.
Nous savons que nous pouvons ecrire le modele de regression multiple comme
Y = Xβ + U.
42
Nous pouvons premultiplier les deux membres de l’equation par X ′ pour obtenir
X ′Y = X ′Xβ +X ′U.
Maintenant, laissons tomber le dernier terme X ′U et remplacons tout de suite β par β pour
obtenir
X ′Y = X ′Xβ.
Premultipliant l’equation par (X ′X)−1 nous obtenons
β = (X ′X)−1X ′Y
Il faut avouer que ceci est une derivation ultra simple de l’estimateur. Quelle est la
justification de proceder ainsi ? Nous avons tout de suite que
X ′X(β − β
)= X ′Y −X ′Y +X ′U = X ′U.
Avec les hypotheses statistiques que nous faisons nous avons
1
nX ′U
p−→ 0
et donc1
nX ′X
(β − β
)p−→ 0
⇒(β − β
)p−→ 0.
Avec nos hypotheses de base nous avons, en quelques lignes seulement, la derivation de
l’estimateur MCO (sans meme resoudre un probleme de minimisation !) et une demonstration
de sa convergence.
43
Cette logique va aussi nous permettre de deriver facilement l’estimateur IV (variables
instrumentales) vers la fin du cours et vers la fin du chapitre sur les tests diagnostics.
Encore une interpretation alternative
Parmi nos hypotheses statistiques de base nous avons celle concernant la moyenne
conditionnelle du terme d’erreur :
E (U |X) = 0.
Par la loi des esperances iterees nous avons
E (U) = E (E (U |X)) = 0
et
E (X ′U) = E (E (X ′U |X)) = E (X ′E (U |X)) = 0.
Pour cette raison nous avons
Cov (X,U) = E (X ′U)− E (X ′) E (U) = 0.
Donc, nous avons
E (X ′Y ) = E (X ′ (Xβ + U))
= E (X ′Xβ) + E (X ′U) = E (X ′X) β
⇒ β = (E (X ′X))−1 E (X ′Y )
Les vraies valeurs des β doivent etre egales a cette fonction de matrices d’esperances
(moments). Ceci suggere que l’on pourrait trouver un estimateur convergent de β en
remplacant les esperances (moments) dans la population par leurs equivalents
44
echantillonnaux :
βIV ≡(
1
n− 1(X ′X)
)−1(1
n− 1(X ′Y )
)= (X ′X)
−1X ′Y.
Donc, selon cette interpretation, l’estimateur IV est un estimateur ou on estime des moments
dans la population par leurs equivalents echantillonnaux. En fait, c’est un exemple d’un
estimateur dans la classe d’estimateurs par la methode des moments.
5.4 Petite note sur les covariances en notation matricielle
En guise de preparation pour la sous-section suivante, on va se pencher dans cette sous-section
sur comment ecrire des covariances en notation matricielle. Prenons un vecteur de k variables
aleatoires Y de dimensions k × 1. Nous pouvons ecrire les esperances de toutes les variables
aleatoires en notation matricielle tout simplement comme :
E(Y ).
Considerons maintenant la matrice suivante :
(Y − E(Y )) (Y − E(Y ))′ .
Cette matrice est de dimensions k × k. L’element dans l’i-ieme rangee et la j-ieme colonne de
cette matrice est :
(Yi − E (Yi)) (Yj − E (Yj)) .
Par definition,
E ((Yi − E (Yi)) (Yj − E (Yj)))
45
nous donne la covariance entre les variables aleatoires Yi et Yj . Dans le cas ou i = j, nous avons
par definition la variance de Yi.
Donc, la matrice suivante :
E((Y − E(Y )) (Y − E(Y ))′
),
est une matrice qui contient toutes les variances des variables aleatoires dans Y (le long de la
diagonale) et toutes les covariances possibles entre les variables aleatoires dans Y . En fait,
puisque
Cov (Yi, Yj) = Cov (Yj, Yi) ,
la matrice est symetrique, avec l’element i, j egal a l’element j, i. Donc, nous pouvons ecrire de
facon succincte toutes les variances et covariances possibles entre les variables aleatoires
regroupes dans un vecteur Y .
5.5 Proprietes statistiques : distribution en grand echantillon
Cette section est un peu ardue. Son but est de developper une expression pour la matrice
variance-covariance de l’estimateur β, et de contraster la variance � robuste � (lorsque on ne fait
pas d’hypothese particuliere concernant l’homoscedasticite) avec la variance en presence
d’homoscedasticite. Dans votre travail pratique de tous les jours d’econometres, vos logiciels
(comme R, STATA ou GRETL) vont faire les calculs developpes dans cette sous-section
automatiquement. Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel
ou la matrice variance-covariance robuste n’est pas calculee automatiquement, vous allez pouvoir
programmer son calcul vous-memes.
Nous voulons travailler avec une expression dont la variance ne diminue pas vers zero lorsque
n→∞. Donc, au lieu de travailler avec(β − β
), qui converge vers une constante (convergence
en probabilite), nous avons :√n(β − β
)
46
=
((X ′X)
n
)−1((X ′U)√
n
).
Le dernier terme, au lieu de converger a une constante, a maintenant une variance qui ne decroıt
pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque
chose qui va converger en probabilite vers un vecteur de constantes.
Nous avons deja vu dans la sous-section sur l’absence de biais que
E(β − β
)= 0.
Donc, une expression qui nous donne la matrice de variance-covariance de√n(β − β
)est
donnee par :
E(n(β − β
)(β − β
)′)Notez bien la multiplication de
(β − β
)par√n. Dans le modele de regression simple, nous
avons vu que la variance de l’estimateur β1 decroıt au rythme 1/n et donc tend vers zero lorsque
n tend vers l’infini. Nous voulons travailler avec une variable aleatoire (plutot un vecteur de
variables aleatoires) qui reste une variable aleatoire meme lorsque la taille de l’echantillon tend
vers l’infini. Pour cette raison, nous multiplions par√n, ce qui nous laissera avec une variance
qui ne tend pas vers zero et, d’autre part, reste finie lorsque n tend vers l’infini.
Pour evaluer la matrice variance-covariance de√n(β − β
), nous devons examiner le
comportement en grand echantillon de
(((X ′X)
n
)−1((X ′U)√
n
))(((X ′X)
n
)−1((X ′U)√
n
))′
=
((X ′X)
n
)−1((X ′U)√
n
)((X ′U)√
n
)′((X ′X)
n
)−1.
Nous avons deja vu que(
(X′X)n
)−1converge en probabilite a (Qx)
−1. Donc, nous devons nous
47
pencher sur le comportement de
((X ′U)√
n
)((X ′U)√
n
)′.
(X ′U) est un vecteur de dimensions (k + 1)× 1, puisque X est de dimensions n× (k + 1) et U
est de dimensions n× 1. Nous avons :
(X ′U) =n∑i=1
ui
X1iui
X2iui...
Xkiui
≡
n∑i=1
Vi.
Par hypothese, selon le �Key Concept 18.1 �, les Vi sont i.i.d. Cela veut dire que
1
n
n∑i=1
Vi
converge en probabilite a un vecteur de zeros, et que (par une version du theoreme de la limite
centrale),1√n
n∑i=1
Vi
converge en distribution a un vecteur de variables normales dont la moyenne est zero (on sait cela
puisque nous avons montre l’absence de biais) et dont la variance est donnee par :
E (ViVi′) ≡ ΣV .
Donc, nous pouvons encore une fois invoquer le theoreme de Slutsky pour dire que
√n(β − β
)d−→ N
(0k+1 , Qx
−1ΣVQx−1) ,
48
ou nous utilisons 0k+1 pour denoter un vecteur de zeros de dimensions (k + 1)× 1.
5.5.1 Cas homoscedastique
Dans le cas homoscedastique, la variance de ui est constante et independante des Xi.
Formellement, nous pouvons ecrire :
E (UU ′|X) = E (UU ′) = σ2uIn.
Nous avons : ((X ′U)√
n
)((X ′U)√
n
)′=
(X ′UU ′X
n
)p−→ E
(1
nσ2uX′InX
)= E
(1
nσ2uX′X
)= σ2
uQx.
Donc, l’expression pour la variance de√n(β − β
)se simplifie beaucoup. Nous avons :
√n(β − β
)d−→ N
(0k+1 , σ
2uQx
−1QxQx−1) = N
(0k+1 , σ
2uQx
−1) .
6 Variance echantillonnale de β
Comme d’habitude, notre derivation de la distribution en grand echantillon de√n(β − β
)depend de quantites que nous ne connaissons pas, par exemple de
Qx ≡ E(X ′X
n
).
Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes,
variances, moments bruts – voir la note de bas de page a la page 15) de nos variables aleatoires.
Que faire alors si nous voulons developper une expression pour la variance de notre estimateur β,
49
basee sur des quantites que nous pouvons mesurer ? Nous suivons la strategie habituelle, que nous
avons deja utilisee a maintes reprises, de remplacer les moments non connus de la population par
des estimateurs convergents. Donc, nous remplacons Qx par :
Qx ≡(X ′X)
n.
Nous remplacons ΣV par :
ΣV ≡1
n− k − 1
n∑i=1
Xi′Xi (ui)
2 , (2)
ou Xi est l’ieme rangee de la matrice X . 10 Comme d’habitude, nous divisons par (n− k − 1) ici
et non par n afin d’obtenir un estime non biaise. Nous n’allons pas montrer explicitement que
cette expression est un estimateur convergent de ΣV , mais nous aurions pu le faire.
Nous pouvons dire un peu plus sur la justification d’utiliser cet estimateur de la matrice
variance-covariance ΣV . Nous avons vu que ΣV peut s’ecrire
ΣV = E (ViVi′)
= E
ui
X1iui
X2iui...
Xkiui
ui
X1iui
X2iui...
Xkiui
′10. J’utilise la notation matricielle standard ici. Stock et Watson a la page 699 du manuel definissent Xi comme un
vecteur colonne, ce qui n’est pas conforme a la notation matricielle standard. Pourquoi introduire encore une autreincoherence entre la notation standard et la leur ?
50
= E
ui2 X1iui
2 X2iui2 . . . Xkiui
2
X1iui2 X1i
2ui2 X1iX2iui
2 . . . X1iXkiui2
X2iui2 X2iX1iui
2 X2i2ui
2 . . . X2iXkiui2
......
... . . . ...
Xkiui2 XkiX1iui
2 XkiX2iui2 . . . Xki
2ui2
.
Il est maintenant possible de voir clairement que l’estimateur defini dans (2) revient a remplacer
les esperances des produits de variables aleatoires dans la matrice par leurs equivalents
echantillonnaux. Donc, c’est une application de la strategie habituelle de remplacer un moment
dans la population par le moment echantillonnal equivalent.
Nous pouvons finalement ecrire :
β ≈ N
(β ,
1
n
(Qx
)−1Σv
(Qx
)−1)≡ N
(β , Σβ
).
J’utilise ici la notation �≈ � pour capter l’idee que β suit une distribution qui est
approximativement normale. Notez que c’est encore le theoreme de Slutsky qui nous permet de
dire que si nous avons un produit de trois estimateurs convergents, la limite en probabilite (ou
dans ce cas-ci la limite en distribution) du produit est le produit de la limite en probabilite des
trois termes.
Notez que tous les elements de la matrice variance-covariance de notre estimateur β diminuent au
rythme 1/n, comme nous avons vu dans la section precedente. Ceci reflete le fait que, sous les
hypotheses statistiques utilisees, β est un estimateur convergent des vraies valeurs de β.
Tout bon logiciel de regression, comme R, STATA ou GRETL, calcule la matrice
variance-covariance de β automatiquement. Mais attention ! Nous avons developpe ici une
expression pour la matrice variance-covariance robuste (ou la variance du terme d’erreur ui n’est
pas forcement constante et independante des Xi). Il faut en general verifier dans la documentation
du logiciel s’il calcule par defaut la matrice robuste ou la matrice qui impose une hypothese
d’homoscedasticite (sous-section suivante). Si l’option par defaut est la matrice
51
variance-covariance sous l’hypothese d’homoscedasticite, il faut specifier dans le code de son
programme le calcul de la matrice robuste.
Habituellement, l’output du logiciel de regression ne donne pas la matrice variance-covariance au
complet, mais se limite plutot a donner l’ecart type robuste associe a chaque coefficient
individuel. L’ecart type de βi est la racine carree de l’i-ieme element diagonal de Σβ . Par contre,
le logiciel a besoin de la matrice variance-covariance au complet lorsqu’il s’agit d’effectuer un
test d’hypotheses jointes. Nous nous pencherons sur cette question dans la derniere section de ces
notes.
6.1 Cas homoscedastique
Encore une fois, nous suivons la strategie general de remplacer les moments inconnus par des
estimateurs convergents. Un estimateur convergent de σ2u est donne par :
s2u ≡1
n− k − 1
n∑i=1
u2i .
Il s’agit de la meme expression que nous avons vue qui mene a la definition de l’ecart type de la
regression.
Nous avons deja rencontre l’estimateur convergent de Qx :
Qx ≡(X ′X)
n.
Donc, nous avons le resultat suivant :
β ≈ N
(β ,
1
ns2u
(Qx
)−1)≡ N
(β , Σβ
),
ou j’utilise Σβ pour denoter la matrice variance-covariance dans le cas special de
l’homoscedasticite.
Cet estimateur de la matrice variance-covariance est tres facile a programmer si vous devez le
52
faire. En notation MATLAB, si �X � est la matrice contenant les observations sur les variables
explicatives et si �Uhat � est le vecteur de residus de la regression, nous avons :
Sigmahat = (Uhat′) ∗ Uhat ∗ inv(X ′X)/(n− k − 1); .
6.2 Homoscedasticite versus Heteroscedasticite
Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’ecarts
types pour nos coefficients estimes qui sont robustes a la presence d’erreurs heteroscedastiques.
J’accepte completement l’argument de Stock et Watson que les donnees que nous utilisons la
plupart du temps pour estimer nos modeles econometriques n’ont pas des erreurs
homoscedastiques.
Par contre, on peut se poser la question suivante : y a-t-il des facons de detecter la presence de
l’heteroscedasticite ? La reponse est �Oui �, mais le livre de Stock et Watson est totalement muet
a cet egard. Commencons par une methode informelle ou graphique.
Il s’agit de regarder un graphique avec les residus de l’equation estimee sur l’axe vertical et une
des variables explicatives du modele sur l’axe horizontal. Si la grandeur absolue des residus varie
systematiquement avec la variable explicative, c’est un signe de la presence de
l’heteroscedasticite. On peut aussi regarder un graphique ou on mesure les residus au carre sur
l’axe vertical. Si les points on une pente non nulle evidente (positive ou negative), c’est un signe
de la presence de l’heteroscedasticite. Si c’est le cas, il est fortement conseille d’effecteur un ou
plusieurs tests formels.
1. L’article Wikipedia qui s’intitule Heteroscedasticity est une bonne introduction au sujet.
2. Le test Goldfeld-Quandt.
3. Le test Breusch-Pagan. On regresse les residus au carre sur les variables explicatives du
modele. Il y a un bon article sur Wikipedia qui explique le test.
4. Le test de White. C’est peut-etre le test le plus frequemment utilise. L’econometre qui l’a
53
developpe a aussi propose la version robuste de la matrice variance-covariance que l’on
presente dans le manuel. Pour effectuer le test, on utilise les residus au carre comme la
variable dependante dans une regression multiple (qu’on appelle une � regression
auxiliaire �), ou les variables explicatives sont les variables explicatives du modele
original, tous les co-produits possibles des variables explicatives, et les variables
explicatives au carre. White a montre que la statistique R2 de cette regression suit (en
grand echantillon) une distribution χ2 avec un nombre de degres de liberte egal au nombre
de variables explicatives dans la regression auxiliaire moins un. Il y a un article sur ce test
chez Wikipedia, mais il est moins complet que l’article sur le test Breusch-Pagan.
5. Le test de Glesjer.
Voir l’article �Heteroscedasticity � chez Wikipedia pour plus de details sur les tests differents et
pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours
sur les tests diagnostics.
Bon nombre de logiciels econometriques modernes effectuent le test de White, ou un ou plusieurs
des autres tests lors de l’estimation d’un modele de regression multiple, soit automatiquement soit
en specifiant une option simple.
En presence d’heteroscedasticite, si sa forme est connue (si on connaıt comment depend la
variance de l’erreur en fonction des variables explicatives du modele), il y a des estimateurs plus
efficients des coefficients du modele. Il s’agit de l’estimateur moindres carres generalises
(�Generalized Least Squares � en anglais). Nous n’avons pas le temps d’etudier cet estimateur
dans ce cours. Il fait partie des sujets etudies dans le cours ECO5272.
7 Efficience de l’estimateur MCO sous l’homoscedasticite
Sous les hypotheses de base du modele de regression multiple, et dans le cas de
l’homoscedasticite, on peut montrer que l’estimateur MCO β a une variance au moins aussi petite
que n’importe quel autre estimateur lineaire (en Y ) et non biaise. C’est le theoreme
54
Gauss-Markov. Dans le cas d’un vecteur de parametres, la notion de � variance au moins aussi
petite que � est ambigue pusiqu’il y a plusieurs elements dans β. Il faut la comprendre de la
maniere suivante. Si β est n’importe quel estimateur lineaire et non biaise de β, il faut que
Var(c′β)≤ Var
(c′β)
pour toute combinaison lineaire c′β. Ici, c est un vecteur de constantes de dimensions (k + 1)× 1
et donc c′β est un scalaire. Il y a une preuve du theoreme dans l’annexe 18.5 du manuel. Notez
qu’il ne faut pas supposer la normalite du terme d’erreur pour montrer l’efficience de l’estimateur
MCO. Voir Giles (2011b) pour une discussion detaillee.
Le theoreme Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de
l’econometrie et de la statistique.
Tel qu’indique a la fin de la section precedente, il est possible, si on connaıt la forme de
l’heteroscedasticite (comment elle est reliee aux variables explicatives du modele), l’estimateur
MCG (moindres carres generalises) sera typiquement plus efficient que l’estimateur MCO.
7.1 Preuve du theoreme Gauss-Markov
Je reprends ici une preuve relativement simple tiree de l’article Wikipedia sur le Theoreme
Gauss-Markov. Il est tres important de noter que pour les fins de cette preuve, les variables
explicatives X sont considerees comme etant fixes ou non stochastiques.
Soit β = CY un autre estimateur lineaire de β. 11 On suppose que C peut etre ecrite comme
(X ′X)−1X ′ +D, ou D est une matrice non nulle de dimensions (k + 1)× n. Notre but est de
montrer que sa variance doit etre au moins aussi elevee que celle de β, l’estimateur MCO.
L’esperance de β est donnee par
E (CY ) = E((
(X ′X)−1X ′ +D)
(Xβ + U))
11. Il faut aussi prendre les elements de C comme etant fixes ou non stochastiques.
55
=((X ′X)−1X ′ +D
)Xβ + E
(((X ′X)−1X ′ +D
)U)
= β +DXβ + E((
(X ′X)−1X ′ +D)
E (U |X))
= β +DXβ,
ou nous avons utilise la loi des projections iterees. Nous voulons prouver que β a la plus petite
variance parmi tous les estimateurs lineaires non biaises. Pour que notre estimateur soit non
biaise, il faut que
DX = 0.
Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (etant donne les valeurs
de D et de X). Nous avons
Var (CY |X,D) = CVar(Y |X,D)C ′
= CVar(U |X)C ′
= σ2CC ′
= σ2 (
(X ′X)−1X ′ +D) (
(X ′X)−1X ′ +D)′
= σ2((X ′X)−1X ′X(X ′X)−1 + (X ′X)−1X ′D′ +DX(X ′X)−1 +DD′
)= σ
2 ((X ′X)−1 +DD′
)= σ2(X ′X)−1 + σ
2DD′
puisqu’il faut que DX = 0 si notre estimateur est non biaise.
La matrice DD′ est une matrice positive semi-definie. Nous avons
Var(β)− Var
(β)
= σ2DD′
56
⇒ Var(c′β)− Var
(c′β)
= σ2c′DD′c ≥ 0,
la derniere inegalite etant la definition meme d’une matrice positive semi-definie. Ce qui fut a
demontrer.
8 Biais du a des variables omises (bis)
Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle
qu’avec des sommations. Supposons que le vrai modele peut etre ecrit comme :
Y =
[X1X2
] β1
β2
+ U
≡ X1β1 + U .
Ici, X1 et X2 ont l’interpretation de sous-matrices et β1 et β2 ont l’interpetation de sous-vecteurs.
Donc, la derniere equation indique nous avons, de facon erronee, regroupe des variables
explicatives du modele avec le terme d’erreur.
Si nous estimons le modele errone, nous avons :
β1 = (X ′1X1)−1(X ′1Y ) = (X ′1X1)
−1(X ′1(Xβ + U))
= (X ′1X1)−1
X ′1( X1 X2
) β1
β2
+ U
= (X ′1X1)−1X ′1X1β1 + (X ′1X1)
−1X ′1X2β2 + (X ′1X1)−1X ′1U
= β1 + (X ′1X1)−1X ′1X2β2 + (X ′1X1)
−1X ′1U
57
Nous avons :
E(β1
)= β1 + E
((X ′1X1)
−1X ′1X2β2)
+ E((X ′1X1)
−1X ′1E (U |X))
= β1 + E((X ′1X1)
−1X ′1X2β2)
= β1 + E((X ′1X1)
−1X ′1X2
)β2.
Interpretation : le biais depend de X1′X2, la matrice de comouvements bruts entre les elements de
X1 et les elements de X2 ainsi que des vraies valeurs des coefficients β2.
Notez que
(X ′1X1)−1X ′1X2
serait tout simplement la matrice de coefficients obtenus si on regressait chaque variable dans X2
sur X1. C’est essentiellement la formule d’un estimateur MCO, mais c’est une generalisation
puisque X2 est une matrice et non un vecteur.
Vous devriez verifier que l’expression developpee pour le biais au debut du chapitre 6 du manuel
est tout simplement un cas special de cette expression.
Afin de mieux cerner le concept de biais du a des variables omises, je developpe dans l’encadre le
sujet du modele de regression partitionne qui suit.
Regression partitionnee
Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modele de regession
multiple en faisant la distinction entre le sous-ensemble de variables explicatives X1 et le
sous-ensemble X2.
Y =
[X1X2
] β1
β2
+ U
= X1β1 +X2β2 + U.
58
Au lieu de regrouper les variables X2 avec le terme d’erreur comme nous avons fait dans la
section precedente, nous allons regarder explicitement comment notre estime MCO de β1, soit
β1, est affecte par β2. Rappelons ce que nous avons appele les � equations normales � lorsque
nous avons trouve la solution pour l’estimateur MCO pour le modele de regression multiple :
X ′Xβ = X ′Y.
Nous pouvons ecrire ces equations commme deux sous-ensembles d’equations :
X ′1X1β1 +X ′1X2β2 = X ′1Y
et
X ′2X1β1 +X ′2X2β2 = X ′2Y.
Du premier de ces 2 ensembles d’equations, nous avons
X ′1X1β1 = X ′1 (Y −X2β2)
⇒ β1 = (X ′1X1)−1X ′1
(Y −X2β2
).
Nous devons maintenant trouver une solution pour β2. Multiplions le premier sous-ensemble
par X ′2X1 (X ′1X1)−1 pour obtenir
X ′2X1β1 +X ′2X1 (X ′1X1)−1X ′1X2β2 = X ′2X1 (X ′1X1)
−1X ′1Y.
Maintenant, soustrayons cette equation du deuxieme sous-ensemble d’equations, obtenant
ainsi
X ′2X2β2 −X ′2X1 (X ′1X1)−1X ′1X2β2 = X ′2Y −X ′2X1 (X ′1X1)
−1X ′1Y.
59
⇒(X ′2X2 −X ′2X1 (X ′1X1)
−1X ′1X2
)β2 =
(X ′2 −X ′2X1 (X ′1X1)
−1X ′1
)Y.
Definissons
P1 ≡ X1 (X ′1X1)−1X ′1.
Nous pouvons ecrire
(X ′2 (I − P1)X2) β2 = X ′2 (I − P1)Y
ou I est la matrice identite conformable a P1, et donc
β2 = (X ′2 (I − P1)X2)−1X ′2 (I − P1)Y.
Notez que nous avons suivi une methodologie semblable a celle dans le chapitre sur le modele
de regression simple. Nous avons trouve une solution pour β1 en fonction de β2, et ensuite
nous avons elimine β1 dans la solution pour β2 par substitution.
Ces solutions permettent de reinterpreter l’estimateur MCO comme un estimateur en deux
etapes. Considerons d’abord la regression de la variable Y sur X1 seulement. Si on appelle
les coefficients estimes β1, nous avons
β1 ≡ (X ′1X1)−1X ′1Y,
Y = X1β1 = X1 (X ′1X1)−1X ′1Y
les valeurs predites de Y sur la base de cette regression, et
U ≡ Y −X1 (X ′1X1)−1X ′1Y =
(I −X1 (X ′1X1)
−1X ′1
)Y
le vecteur de residus de cette regression. Considerons maintenant la regression des variables
60
X2 sur les X1. Appelons les coefficients γ. Nous avons
γ ≡ (X ′1X1)−1X ′1X2.
Notez qu’il s’agit d’une matrice de coefficients estimes puisqu’il y a tout un vecteur de
variables dependantes au lieu d’une seule. Appelons X2 les valeurs predites des variables X2.
Nous avons
X2 = X1γ = X1 (X ′1X1)−1X ′1X2,
et
U ≡ X2 −X1 (X ′1X1)−1X ′1X2
=(I −X1 (X ′1X1)
−1X ′1
)X2
= (I − P1)X2
la matrice de residus de ces regressions. (Il y a autant de colonnes dans U que dans X2.)
Maintenant, considerons la regression de U sur U . Appelons le vecteur de coefficients estimes
γ. Nous avons
γ =(U ′U
)−1U ′U .
Nous avons
U ′U = X ′2
(I −X1 (X ′1X1)
−1X ′1
)(I −X1 (X ′1X1)
−1X ′1
)X2
= X ′2 (I − P1) (I − P1)X2
= X ′2 (I − P1)X2
puisque
(I − P1) (I − P1)
61
= (I − P1) .
Vous pouvez verifiez cette egalite facilement. La matrice (I − P1) est une matrice
idempotente. Donc, finalement nous avons
γ = (X ′2 (I − P1)X2)−1X ′2 (I − P1)Y.
Mais ceci n’est rien d’autre que la solution que nous avions trouvee pour β2.
En regressant Y sur X1 et X2 sur X1, on purge l’effet des X1 sur la variable dependante Y et
sur les autres variables explicatives X2. Avec la regression de U sur U , on estime l’effet des
X2 (purgees de l’influence des X1) sur Y (purgee aussi de l’influence des X1). Mais c’est
exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de
variables explicatives dans le modele en meme temps. Ce resultat s’appelle le theoreme
Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).
Supposons maintenant que notre modele de regression est sans constante. Nous pouvons
toujours reecrire le modele de regression lineaire de la facon suivante :
Y = Xβ + U
Y = Xβ + U
⇒(Y − Y
)=(X − X
)β +
(U − U
).
Si, comme d’habitude, la premiere colonne contient une constante, elle va disparaıtre de ce
systeme d’equations et nous aurons
Y = Xβ + U
62
ou
Y ≡ Y − Y ,
X ≡ X − X
et
U ≡ U − U
et ou X peut etre redefinie comme une matrice n× k puisque sa premiere colonne est une
colonne de zeros. Autrement dit, il est toujours possible de reecrire le modele de regression
lineaire sans une constante en exprimant toutes les variables (explicatives et dependante)
comme des deviations par rapport a leurs moyennes echantillonnales.
Donc, supposons que notre modele est effectivement sans constante. Qu’est-ce qui arrive
lorsque la correlation echantillonnale entre X1 et X2 est zero ? Dans ce cas, nous avons
X ′1X2 = 0, puisque les variables dans X1 et X2 sont mesurees en deviations par rapport a
leurs moyennes echantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons
dans ce cas particulier
β = (X ′X)−1X ′Y
=
X ′1X1 X ′1X2
X ′2X1 X ′2X2
−1 X ′1
X ′2
Y
=
X ′1X1 0
0 X ′2X2
−1 X ′1
X ′2
Y
=
(X ′1X1)−1 0
0 (X ′2X2)−1
X ′1
X ′2
Y
=
(X ′1X1)−1X1Y
(X ′2X2)−1X2Y
.63
On aurait pu montrer le meme resultat a partir des solutions developpees ici pour β1 et β2.
Faisons-le ici. Nous avons
β1 = (X ′1X1)−1X ′1
(Y −X2β2
)
= (X ′1X1)−1X ′1Y − (X ′1X1)
−1X ′1X2β2
= (X ′1X1)−1X ′1Y
dans le cas de l’orthogonalite. Dans le cas de β2, nous avons
β2 = (X ′2 (I − P1)X2)−1X ′2 (I − P1)Y
=(X ′2X2 −X ′2X1 (X ′1X1)
−1X ′1X2
)−1 (X ′2Y −X ′2X1 (X ′1X1)
−1X ′1Y
)= (X ′2X2)
−1X ′2Y
dans le cas de l’orthogonalite. Dans le cas general (lorsque X1 et X2 ne sont pas
orthogonales), les solutions ne sont evidemment pas aussi simples.
Ceci veut dire que, dans le cas de l’orthogonalite, on peut estimer un modele de regression
(avec Y comme variable dependante) contenant seulement les variables X1, seulement les
variables X2, ou avec toutes les variables ensemble, et on va obtenir exactement les memes
valeurs pour les coefficients estimes. Le theoreme Frisch-Waugh-Lovell est assez
remarquable.
Nous pouvons aussi reinterpreter ces resultats a la lumiere de ce que nous avons trouve
concernant le biais du a des variables omises. Dans le cas de l’orthogonalite, X ′1X2 = 0 et il
n’y a pas de biais. On peut regresser Y sur seulement X1 ou sur seulement X2 et il n’y a pas
de biais. On obtient des estimateurs non biaises.
On peut aussi reinterpreter tout ceci en termes geometriques. Voir Davidson et MacKinnon
64
(1999) et Sosa Escudero (2001) pour plus de details.
Tel que note par Pollock (2007), les couts relies au biais du a des variables omises dependent des
buts de notre modelisation. Si parmi les variables X1 il y a des variables qui seront utilisees
comme des instruments de politique economique, il est tres important d’obtenir des estimes non
biaises de leur impact. Si ce qui nous interessent est surtout la prediction de l’esperance de Y
conditionnelle aux valeurs des X , l’absence de biais est sans doute moins importante.
9 Tests d’hypotheses et ensembles de confiance
Tel qu’indique dans l’introduction, le seul element vraiment novateur est le test d’hypotheses
jointes. Sinon, on peut effectuer des tests d’hypotheses simples de la meme maniere que dans le
cas de la regression simple.
9.1 Tests d’hypotheses simples par rapport a un seul coefficient
Il n’y a strictement aucun changement par rapport a la facon de tester une hypothese simple dans
le cadre du modele de regression simple. La statistique t de base, pour n’importe quel test, peut
s’ecrire :
t =βi − βH0
i
sβi,
ou βH0i est la valeur du coefficient i sous l’hypothese nulle, βi est la valeur du coefficient obtenue
lors de l’estimation, et sβi est un estime convergent de l’ecart type de l’estime du coefficient.
Dans le cas de la regression multiple, c’est la racine carree de l’i-ieme element diagonal de Σβ
(cas heteroscedastique) ou Σβ (cas homoscedastique).
Toute la discussion du chapitre 4 concernant les p-values et les taux de significativite marginaux
s’applique. La statistique t suit approximativement une loi normale centree reduite (si, bien sur,
l’echantillon est suffisamment grand).
65
Dans le cas d’une hypothese alternative a deux extremites (bilaterale), une grande valeur absolue
de la statistique t (peu importe son signe) constitue de l’evidence contre H0. Soit Φ (−|ta|) la
valeur de la distribution normale cumulee pour moins la valeur absolue de la valeur calculee de la
statistique t. Nous avons :
Φ (−|ta|) = Pr (t ≤ −|ta|)
= Pr
(t ≤ −
∣∣∣∣∣ βi − βH0i
sβi
∣∣∣∣∣)
= Pr(t sβi ≤ −
∣∣∣βi − βH0i
∣∣∣) .Dans le cas ou βi − βH0
i > 0 ceci est egal a
Pr(t sβi ≤ −
(βi − βH0
i
))
= Pr(t sβi − β
H0i ≤ −βi
)= Pr
(βi ≤ βH0
i − t sβi),
qui est donc egale a la probabilite d’obtenir une valeur au moins aussi petite qu’une valeur qui est
inferieure a βH0i par t fois son ecart type. Dans le cas ou βi − βH0
i < 0 ceci est egal a
Pr(t sβi ≤ βi − βH0
i
)
= Pr(βi ≥ βH0
i + t sβi
),
qui est donc egale a la probabilite d’obtenir une valeur au moins aussi grande qu’une valeur qui
est superieure a βH0i par t fois son ecart type.
Tout cela revient a dire que la p-value du test avec hypothese alternative bilaterale est donnee par
2× Φ (−|ta|).
Le cas de tests avec hypothese alternative unilaterale est semblable. L’analyse des tests
d’hypothese presentee dans le chapitre sur le modele de regression simple est pertinente. Dans le
66
cas ou on a
H0 : βi = βH0i
et
H1 : βi > βH0i ,
la p-value du test est donnee par
p = Pr(z > tact
)= 1− Φ
(tact).
Dans le cas ou on a
H0 : βi = βH0i
et
H1 : βi < βH0i ,
la p-value du test est donnee par
p = Pr(z < tact
)= Φ
(tact).
9.2 Tests d’hypotheses simples par rapport a une combinaison lineaire de
coefficients
9.2.1 Methode indirecte
Souvent, il est possible de tester une telle restriction en estimant une version transformee du
modele. Si on procede de cette facon, on reecrit le modele pour redefinir la combinaison lineaire
de parametres comme un parametre simple du modele transforme. De cette facon, on peut
appliquer la methodologie standard pour tester une hypothese simple avec un test t, telle que
developpee dans la sous-section precedente. Nous illustrons l’idee avec un exemple. Reprenons le
67
modele de regression multiple de base en notation non matricielle :
Yi = β0 +X1iβ1 +X2iβ2 + . . .+Xkiβk + ui.
Supposons que nous voulons tester la restriction suivante :
H0 : β1 + β2 = 1,
contre l’hypothese alternative
H1 : β1 + β2 6= 1.
Considerons la version suivante du modele, qui est equivalente a la version originale :
Yi = β0 +X1i(β1 + β2) + (X2i −X1i) β2 + . . .+Xkiβk + ui.
L’equivalence vient du fait que nous avons tout simplement ajoute et soustrait le meme terme
X1iβ2. Nous pouvons reecrire le modele de la facon suivante :
Yi = β0 +X1iγ1 + Ziβ2 + . . .+Xkiβk + ui,
ou Zi ≡ X2i −X1i et γ1 ≡ β1 + β2. Maintenant, tester l’hypothese H0 : β1 + β2 = 1 revient a
tester l’hypothese H0 : γ1 = 1. La methodologie a suivre est identique a celle etudiee dans le
cadre du modele de regression simple.
Effectuer ce test utilisant un logiciel de regression comme R, STATA ou GRETL revient a creer la
variable Z et a estimer l’equation transformee par MCO. Rien n’empeche bien sur d’utiliser les
ecarts types robustes pour effectuer le test.
68
9.2.2 Methode directe
Sans estimer une version equivalente du modele, nous pouvons tester la restriction directement.
Supposons que nous pouvons ecrire la restriction portant sur la combinaison lineaire des
parametres sous la forme suivante :
Rβ = r
ou R est un vecteur de dimensions 1× (k + 1) et r est une constante (scalaire). 12 Comme
d’habitude, nous pouvons ecrire la statistique t comme la valeur calculee de la statistique (Rβ),
moins sa valeur sous l’hypothese nulle (r), le tout divise par la racine carree de sa variance. Nous
savons deja calculer la variance d’une combinaison lineaire de variables aleatoires. Donc, nous
avons
t =Rβ − r√Var(Rβ) .
Si chaque element dans β converge en distribution vers une loi normale, la combinaison lineaire
converge en distribution vers une loi normale. Puisqu’on soustrait r (qui est egal a E(Rβ)
sous
l’hypothese nulle) et on divise par√
Var(Rβ)
, la statistique normalisee converge en distribution
vers une loi normale centree reduite :
Rβ − r√Var(Rβ) d−→ N (0, 1) .
Dans la section sur les tests d’hyotheses jointes, nous allons voir (comme des cas speciaux) un ou
deux exemples de calcul de la variance de combinaisons lineaires de coefficients.
12. Notez que nous allons generaliser cette facon d’ecrire des restrictions sur les valeurs de parametres dans lasection sur comment tester des hypotheses jointes.
69
9.3 Pourquoi les tests sequentiels ne sont pas valides
Supposons que nous voulons tester l’hypothese jointe suivante :
H0 : β1 = β2 = 0.
L’hypothese nulle dit que les deux coefficients sont nuls. L’hypothese alternative naturelle dans ce
contexte est que au moins un des deux coefficients est non nul :
H1 : ∃i, i = 1, 2 tel que βi 6= 0.
Pourquoi pas tout simplement tester les deux hypotheses de facon sequentielle, ou les statistiques
t donnees par :
t1 =β1 − βH0
1
sβ1,
et ensuite
t2 =β2 − βH0
2
sβ2.
Le probleme avec cette idee est qu’il s’agit de distributions de probabilite jointes. Supposons pour
simplifier que les deux coefficients estimes sont independamment distribues l’un par rapport a
l’autre. Dans les deux cas, on ne rejetterait pas l’hypothese nulle a un niveau de significativite
marginal de 5% si |t1| < 1.96 et |t2| < 1.96 si notre echantillon est suffisamment grand (pour que
les statistiques soient distribuees approximativement selon une loi normale). Avec ce taux de
significativite marginal et etant donnee l’independance, la probabilite d’obtenir au moins un rejet
en effectuant deux tests si les hypotheses nulles sont vraies serait egale a 1− 0.952. (Pourquoi ?
Vous devez etre capable de repondre a cette question.) Il faudrait au moins ajuster le niveau de
significativite marginal pour tenir compte de ce fait. Si les deux coefficients estimes ne sont pas
independants, cet ajustement serait encore plus complique. L’idee derriere les tests d’hypothese
jointes developpes ci-dessous est precisement de tenir compte du fait que les coefficients sont
tires d’une distribution de probabilite jointe.
70
Notez que l’annexe (7.1) du livre decrit une facon d’ajuster les niveaux de significativite
marginaux pour tenir compte de la correlation non nulle entre les coefficients. Cette methodologie
peut etre utile dans certains cas, notamment lorsqu’on lit les resultats de regressions rapportes
dans des articles publies ou des cahiers de recherche. Dans la plupart des cas on rapporte les
ecarts types associes aux coefficients individuels, mais on ne rapporte pas la matrice
variance-covariance complete des coefficients estimes (ce dont on aurait besoin pour calculer les
statistiques definies dans la sous-section suivante). En suivant cette methodologie le lecteur peut
effectuer des tests d’hypotheses jointes meme s’il n’a pas acces a la matrice variance-covariance
complete des coefficients estimes.
9.4 Tests d’hypotheses jointes
Tel qu’indique dans l’introduction a ces notes, je vais mettre l’accent ici sur l’approche
matricielle, qui est beaucoup plus generale et, je crois, plus simple a comprendre.
Pour commencer a saisir en quoi consiste cette methodologie, reprenons l’exemple de la
sous-section precedente. L’hypothese nulle a tester est :
H0 : β1 + β2 = 1,
Nous pouvons ecrire cette hypothese sous forme matricielle de la facon suivante :
[0 1 1 0 . . . 0
]
β0
β1
β2
β3...
βk
= 1
71
Ceci est de la forme :
Rβ = r,
ou R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, ou il
y a une seule restriction portant sur une combinaison lineaire de coefficients, R est en fait un
vecteur et r est un scalaire. Mais, dans le cas general, R ainsi que r auront le meme nombre de
rangees que le nombre de restrictions.
Prenons un cas plus concret, un cas ou le nombre de variables explicatives (a part la constante) est
plus grand que deux. Comment tester l’hypothese nulle jointe
H0 : β1 = β2 = 0
contre l’hypothese alternative
∃i, i = 1, 2 tel que βi 6= 0.
Sous forme matricielle, nous pouvons ecrire : H0 :
0 1 0 0 . . . 0
0 0 1 0 . . . 0
β0
β1
β2
β3...
βk
=
0
0
.
On peut montrer que la statistique suivante obeit, en grand echantillon et sous H0, a une loi Fq,∞
(revisez la sous-section sur cette distribution a la page 44 du manuel ou dans les notes de cours) :
F ≡(Rβ − r
)′ [RΣβR
′]−1 (
Rβ − r)/q,
72
ou q est le nombre de restrictions que l’on veut tester, et ou Σβ est la matrice variance-covariance
de l’estime β. Dans l’exemple que nous venons d’etudier, q = 2. Autrement dit,
Fd−→ Fq,∞.
Puisque la convergence est asymptotique (lorsque le nombre d’observations tend vers l’infini), le
deuxieme indice inferieur indique un nombre de degres de liberte infini.
L’argument pourquoi la statistique F converge en distribution a une loi Fq,∞ se trouve a la page
714 du manuel. L’argument est tres succinct (pour ne pas dire tres dense). Je vous invite a le lire
mais, bien sur, il ne faut pas le retenir pour les fins de l’examen final. Un argument plus simple,
pour le cas de 2 restrictions, se trouve a la page 228.
Comme d’habitude, le manuel met l’accent sur le cas ou l’echantillon est suffisamment grand
pour parler de convergence approximative en probabilite et/ou en distribution. Pour que nos
� statistiques F � suivent une loi F meme en petit echantillon, il faudrait pouvoir les exprimer
comme des ratios de variables aleatoires χ2 meme en petit echantillon (voir la page 44), et donc il
faudrait supposer la normalite des erreurs (il faut aussi supposer l’homoscedasticite). Dans la
mesure ou ceci est rarement plausible dans des contextes appliques, il est mieux de se tourner vers
l’inference asymptotique si nous avons suffisamment d’observations.
La loi F depend de deux parametres. Typiquement on parle d’une variable aleatoire qui obeit a
une loi Fm,n, ou le parametre m fait reference au nombre de restrictions imposees, et n fait
reference au nombre de degres de liberte (le nombre d’observations moins le nombre de
parametres estimes). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits ecarts
entre les valeurs critiques lorsque n = 120 et lorsque n→∞.
La plupart des logiciels de regression, dont R, STATA et GRETL, offrent a l’utilisateur la
possibilite de specifier les equivalents de R et r afin de tester des hypotheses jointes quelconques.
73
9.5 Que faire lorsque Σβ n’est pas disponible ?
Il y a des situations ou on n’a pas toute la matrice variance-covariance des parametres estimes a sa
disposition. Par exemple, quand on lit des articles publies qui resument les resultats de
l’estimation d’un modele de regression multiple, il est souvent le cas qu’on rapporte les ecarts
types associes aux coefficients individuels, mais non les covariances entre les coefficients estimes.
Il est possible de contourner ce probleme en utilisant la � correction de Bonferroni � , qui tient
compte de la simultaneite lorsque on fait un test d’hypotheses jointes. Notez que cette
methodologie donne des tests qui sont moins puissants (qui ont une probabilite moins elevee de
rejeter l’hypothese nulle lorsqu’elle est fausse) que si on utilise la matrice Σβ pour effectuer le
test. Ce que fait la correction est de donner la bonne p-value de tests sequentiels (la bonne
probabilite de rejeter les hypotheses nulles jointes lorsqu’elles sont vraies).
Le test de Bonferroni permet de tester des hypotheses jointes sur la base des statistiques t
pour les hypotheses individuelles. Il faut choisir la valeur critique afin d’etre sur que la
probabilite de rejeter l’hypothese nulle jointe ne depasse pas la probabilite de la rejeter si on
tient compte de la non-independance entre les hypotheses faisant partie de l’hypothese jointe.
On rejette l’hypothese nulle si on rejette au moins une des hypotheses individuelles. Dans le
cas d’une hypothese jointe qui comporte deux hypotheses simples, appelons A l’evenement
que nous rejetons la premiere des deux hypotheses, et B l’evenement que nous rejetons la
deuxieme hypothese simple. Nous savons que
Pr (A ∪B) ≤ Pr (A) + Pr (B) ,
ou le symbole ∪ indique l’union des deux evenements, autrement dit l’evenement que A se
produit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values
identiques pour les deux tests des hypotheses individuelles, on va choisir des p-values tel que
leur somme soit egale a la p-value desiree du test joint. Par exemple, si on veut etre sur de ne
74
pas rejeter l’hypothese nulle jointe plus que 5% du temps lorsqu’elle est vraie, on va choisir
des p-values de 2.5% pour chacune des tests individuels.
Le test Bonferroni est tres conservateur. Son but est de minimiser la probabilite de rejeter les
hypotheses jointes si elles sont vraies. En general, il fait augmenter la probabilite d’accepter
les hypotheses lorsqu’elles sont fausses. Ainsi, il n’a pas beaucoup de puissance (definie
comme la probabilite de rejeter une hypothese lorsqu’elle est fausse). Il y a des techniques
pour augmenter la puissance du test lorsqu’on doit tester une hypothese jointe avec une
sequence de tests d’hypotheses simples. Voir Simes (1986).
Pour de plus amples renseignements concernant cette methodologie, consultez l’annexe 7.1
au Chapitre 7 du manuel.
9.6 Une seule restriction comme un cas special
On peut montrer dans le cas d’une seule restriction portant sur un coefficient (q = 1), la statistique
F est le carre de la statistique t. Ceci revient a dire par contre que nous ne pouvons pas faire la
distinction entre une statistique t qui serait grande en valeur absolue et negative et une statistique
t grande en valeur absolue et positive. Cela veut dire qu’il n’y aurait pas de difference entre les
resultats avec une statistique F et une statistique t si l’hypothese alternative est une hypothese
alternative a deux extremites (bilaterale), mais nous ne pouvons pas vraiment tester l’hypothese
nulle contre l’hypothese alternative H1 : βi < βi ou ce ne sont que les grandes valeurs negatives
de la statistique t qui nous amenent a rejeter l’hypothese nulle.
Pour montrer l’equivalence entre la statistique F et le carre de la statistique t dans un cas simple,
prenons l’exemple de l’hypothese nulle H0 : β1 = 0. Dans ce cas, nous pouvons ecrire la
75
restriction sous forme matricielle comme
[0 1 0 . . . 0
]
β0
β1
β2...
βk
= β1 = 0.
Dans ce cas Rβ − r prend la forme de la statistique calculee (la valeur estimee de β1) moins sa
valeur sous l’hypothese nulle, ou tout simplement le numerateur de la statistique t que l’on
utiliserait pour tester l’hypothese. Nous avons dans ce cas
F =(β1 − 0
)[
0 1 0 . . . 0
]Σβ
0
1
0
...
0
−1
(β1 − 0
).
On peut facilement verifier que dans ce cas-ci (vous devriez le faire sur papier pour etre sur)
[0 1 0 . . . 0
]Σβ
0
1
0
...
0
= s2
β1,
l’element (scalaire) sur la diagonale de Σβ qui correspond a l’estimateur convergent de la
76
variance de β1. Donc, nous avons
F =
(β1 − 0
sβ1
)2
= t2.
La statistique F est effectivement le carre de la statistique t qu’on utiliserait pour effectuer le test.
On peut aussi considerer un deuxieme exemple pour montrer ce que donne la formule generale
lorsqu’il n’y a qu’une seule restriction testee. Considerons l’hypothese nulle suivante :
H0 : β1 + β2 = 1,
qui peut etre ecrite sous forme matricelle comme
[0 1 1 0 . . . 0
]
β0
β1
β2
β3...
βk
= β1 + β2 = 1.
Encore une fois, Rβ − r prend la forme de la statistique calculee (β1 + β2) moins sa valeur sous
77
l’hypothese nulle. Nous avons dans ce cas
F =(β1 + β2 − 1
)
[0 1 1 0 . . . 0
]Σβ
0
1
1
0
...
0
−1
(β1 + β2 − 1
).
On peut verifier (encore une fois ce serait un bon exercice de le faire sur papier) que
[0 1 1 0 . . . 0
]Σβ
0
1
1
0
...
0
= s2
β1+ s2
β2+ 2sβ1,β2
ou sβ1,β2 est l’element hors-diagonale de la matrice variance-covariance, qui est un estime
convergent de la covariance entre β1 et β2. Il s’agit donc de l’estimateur convergent de la variance
de β1 + β2, qui suit les regles de base pour le calcul de variances de combinaisons lineaires de
variables aleatoires. La statistique F devient
F =
(β1 + β2 − 1
)2s2β1
+ s2β2
+ 2sβ1,β2= t2.
Encore une fois, on voit l’equivalence entre la statistique F et le carre de la statistique t.
78
9.7 Significativite de la regression
Souvent, on veut tester l’hypothese nulle selon laquelle tous les coefficients de la regression sauf
la constante sont egaux a zero. Nous pouvons ecrire l’hypothese nulle de la facon suivante :
H0 : β1 = β2 = . . . = βk = 0,
avec
H1 : ∃i, i = 1 . . . k tel que βi 6= 0.
Nous pouvons ecrire cette restriction sous forme matricielle sans probleme, avec :
R =
0 1 0 0 . . . 0
0 0 1 0 . . . 0
0 0 0 1 . . . 0
......
...... . . . ...
0 0 0 0 . . . 1
,
une matrice de dimensions k × (k + 1) et
r =
0
0
0
...
0
,
un vecteur de dimensions (k + 1)× 1. Chaque fois qu’on fait reference a � tester la significativite
de la regression �, on fait reference a cette hypothese nulle.
Avec cette ecriture, tester la significativite jointe de tous les coefficients sauf la constante (β0)
n’est qu’un cas particulier de la regle generale.
79
9.8 Tests d’hypothese en presence d’homoscedasticite
Le cas de l’homoscedasticite ne presente en principe rien de different par rapport au cas general.
On peut en principe remplacer Σβ dans la formule ci-dessus pour F par Σβ qui provient de la
sous-section 6.1 ci-dessus. Donc, nous avons :
F ≡(Rβ − r
)′ [RΣβR
′]−1 (
Rβ − r)/q,
Par contre, dans le cas homoscedastique, il y a une facon plus simple d’effectuer des tests
d’hypothese. On peut estimer le modele sous l’hypothese nulle et sous l’hypothese alternative, et
utiliser la formule suivante :
F =(SSRrestricted − SSRunrestricted) /q
SSRunrestricted/ (n− kunrestricted − 1),
ou SSRrestricted est la somme des residus carres du modele estime en imposant les contraintes et
SSRunrestricted est la somme des residus carres du modele estime sans imposer les contraintes.
L’hypothese nulle que l’on veut tester revient a imposer des contraintes sur les valeurs des
coefficients. Une formule equivalente est la suivante :
F =(R2
unrestricted −R2restricted) /q
(1−R2unrestricted) / (n− kunrestricted − 1)
,
ou R2restricted est la mesure de l’ajustement statistique R2 du modele estime en imposant les
contraintes et SSRunrestricted est le R2 du modele estime sans imposer les contraintes. Vous
devriez montrer algebriquement comment passer de la premiere a la deuxieme version de ce test.
La demonstration est en fait tres simple.
Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homoscedastique
peuvent etre transformees pour etre ecrites sous cette forme. On peut trouver une demonstration
dans la plupart des manuels d’econometrie avances comme Greene (2000, section 7.2.3). Je
reproduis la preuve dans l’encadre qui suit. La lecture de cet encadre est recommande seulement a
80
ceux qui s’y interessent vraiment.
Dans cet encadre je montre l’equivalance
La preuve passe par l’estimation du modele de regression multiple sujet aux contraintes que
nous voulons tester. Le probleme peut s’ecrire
minβ
(Y −Xβ)′ (Y −Xβ)
sujet a la contrainte
Rβ = r.
Nous pouvons ecrire le probleme de minimisation a l’aide d’un vecteur de multiplicateurs de
Lagrange λ comme suit, definissant S comme l’expression lagrangienne a minimiser.
minβ,λS = (Y −Xβ)′ (Y −Xβ) + 2λ′ (Rβ − r) .
Les conditions du premier ordre du probleme sont
∂S∂β
= 0 = 2X ′ (y −Xβ) + 2R′λ;
∂S∂λ
= 0 = 2 (Rβ − r) .
Je vous invite a faire le lien entre ces conditions du premier ordre et les regles de
differentiation matricielle que nous avons vues en debut de chapitre.
Nous pouvons regrouper les CPO ensemble en notation matricielle comme suit.
X ′X R′
R 0
β
λ
=
X ′Y
r
ou j’ai ecrit des ˜ sur les inconnus du probleme pour souligner le fait que les solutions au
81
probleme constituent notre estimateur MCO sous contraintes.
La solution est donnee par
β
λ
=
X ′X R′
R 0
−1 X ′Y
r
.Je suppose ici que la matrice qu’il faut inverser est non singuliere. Pour trouver l’inverse de la
matrice, nous pouvons utiliser la formule suivante pour les matrices partitionnees.
A11 A12
A21 A22
−1
= A11−1 (I + A12F2A21A11
−1) −A11−1A12F2
−F2A21A11−1 F2
ou
F2 ≡(A22 − A21A11
−1A12
)−1.
Je vous invite a verifier qu’il s’agit bel et bien de l’inverse de la matrice originale en faisant
les multiplications matricielles appropriees pour retrouver la matrice identite. Appliquant
cette formule dans le cas qui nous preoccupe, nous obtenons
β = β − (X ′X)−1R′[R (X ′X)
−1R′]−1 (
Rβ − r)
et
λ =[R (X ′X)
−1R′]−1 (
Rβ − r)
ou β = (X ′X)−1X ′Y . Notez que la solution pour λ contient(Rβ − r
). Si l’estimateur
satisfait ces restrictions exactement (autrement dit si Rβ = r), alors nous avons λ = 0 et
82
l’estimateur des MCO sous contraintes devient egal a l’estimateur MCO sans contrainte.
Nous sommes sur le point de pouvoir montrer que la formule generale pour la statistique F se
reduit au cas special sous l’hypothese de l’homoscedasticite. Je prends a ce stade-ci un
raccourci en faisant appel a un resultat developpe dans l’article de Greene et Seaks (1991),
qui montrent que la variance de l’estimateur β (sous l’hypothese de l’homoscedasticite) est
donnee par
Var(β|X
)= σ2 (X ′X)
−1 − σ2R′[R (X ′X)
−1R′]−1
R (X ′X)−1.
ou
σ2 ≡ Var (ui|Xi) .
Notez que le premier terme est la variance de l’estimateur MCO β sous l’hypothese
d’homoscedasticite. Pour calculer la variance de β, il faut soustraire une matrice qui (on peut
montrer) est une matrice positive-definie. Cela veut dire que la variance de β est � plus petite
que � la variance de β, la difference etant une matrice positive-definie. L’interpretation, c’est
que le fait d’imposer les contraintes et donc d’imposer de l’information additionnelle
concernant les valeurs des parametres β reduit la variance de l’estimateur.
Apres cette petite parenthese, procedons maintenant a notre demonstration. Definissons
U ≡ Y −Xβ
= Y −Xβ −X(β − β
)= U −X
(β − β
).
Nous avons
U ′U =(U −X
(β − β
))′ (U −X
(β − β
))
83
= U ′U − U ′X(β − β
)−(β − β
)X ′U +
(β − β
)X ′X
(β − β
)= U ′U +
(β − β
)X ′X
(β − β
)ou les deux termes dans l’avant derniere expression sont egaux a zero puisque les residus
MCO sont orthogonaux a X . Donc
U ′U = U ′U +(β − β
)′X ′X
(β − β
)≥ U ′U .
Notez que dans ce cas U ′U et U ′U sont des scalaires, et donc l’inegalite est une inegalite
ordinaire. Le dernier terme du cote droit dans cette equation est une forme quadratique est
donc doit etre positif. A moins que β = β, il va etre strictement positif. Ceci est logique. U ′U
est une somme de residus au carre qui resulte de la solution d’un probleme de minimisation
sous contrainte, tandis que U ′U est une somme de residus au carre qui resulte de la solution
du meme probleme de minimisation, sans imposer la contrainte. Il est normal que le minimum
trouve comme solution au probleme non contraint soit inferieur au minimum trouve au
probleme sous contrainte.
Cela veut dire que U ′U − U ′U est une mesure de la deterioration de l’ajustement en imposant
les restrictions, et peut etre utilise pour construire le test F . La solution que nous avons
trouvee pour β nous donne
(β − β
)= − (X ′X)
−1R′[R (X ′X)
−1R′]−1 (
Rβ − r).
Substituant, on a
U ′U − U ′U =(β − β
)′X ′X
(β − β
)=(Rβ − r
)′ [R (X ′X)
−1R′]−1
(X ′X)−1
R (X ′X)−1X ′X (X ′X)
−1R′
84
[R (X ′X)
−1R′]−1 (
Rβ − r)
=(Rβ − r
)′ [R (X ′X)
−1R′]−1 [
R (X ′X)−1R′]
[R (X ′X)
−1R′]−1 (
Rβ − r)
=(Rβ − r
)′ [R (X ′X)
−1R′]−1 (
Rβ − r).
Notez aussi que dans ce cas,
U ′U ≡ SSRrestricted
et
U ′U ≡ SSRunrestricted.
Voici la derniere etape dans l’argument. Sous l’hypothese nulle (que Rβ = r), puisque β suit
(asymptotiquement ou approximativement) une distribution normale, alors(Rβ = r
)suit
une distribution asymptotiquement normale aussi, puisqu’il s’agit d’une combinaison lineaire
de variables aleatoires (asymptotiquement) normales. Sa variance est donnee par
Var(Rβ − r
)= R
(Varβ
)R′ = σ2R (X ′X)
−1R′
sous l’hypothese d’homoscedasticite. Pour cette raison, nous pouvons montrer que
(Rβ − r
)′ (σ2R (X ′X)
−1R′)(
Rβ − r)
suit (asymptotiquement ou approximativement en echantillon fini) une distribution chi-carre
avec q degres de liberte, ou comme d’habitude q est le nombre de restrictions. Le probleme,
c’est que σ2 n’est pas observable. La derniere etape est de convertir en une statistique que
85
nous pouvons calculer avec les donnees que nous avons. Nous pouvons montrer que
F ≡
(Rβ − r
)′ (σ2R (X ′X)−1R′
) (Rβ − r
)/q
[(n− k − 1) s2/σ2] / (n− k − 1)
est le ratio de deux variables chi-carre (encore une fois asymptotiquement ou
approximativement en echantillon fini), chacune divisee par son nombre de degres de liberte.
Les σ2 au numerateur et au denominateur s’annulent, et nous savons que notre estimateur
(convergent et non biaise) s2 est donne par
s2 ≡ U ′U
(n− k − 1)= SSRunrestricted/ (n− k − 1) .
⇒ (n− k − 1) s2 = SSRunrestricted
Donc nous avons
F =
(Rβ − r
)′ (R (X ′X)−1R′
) (Rβ − r
)/q
SSRunrestricted/ (n− kunrestricted − 1)
=(SSRrestricted − SSRunrestricted) /q
SSRunrestricted/ (n− kunrestricted − 1),
ce qui fut a montrer. Le ratio de ces variables chi-carre, les deux divisees par les degres de
liberte, suit une distribution F . Encore une fois, si nous ne sommes pas prets a faire
l’hypothese que les erreurs du modele non contraint ui sont generees par une loi normale, ce
resultat est un resultat asymptotique et ne tient que de facon approximative en echantillon fini.
Puisque nous utilisons un resultat qui tient asymptotiquement ou approximativement en grand
echantillon, nous utilisons la fonction de distribution cumulee de Fq,∞.
Ces tests sont faciles a calculer et ont une interpretation intuitive simple. Par contre, ils ne sont
valides que dans le cas d’erreurs homoscedastiques.
86
Un exemple concret pourrait aider a rendre plus clair le concept � estimer le modele en imposant
les contraintes �. Soit le modele de regression multiple standard, ecrit en notation non matricielle :
Yi = β0 +X1iβ1 +X2iβ2 + . . .+Xkiβk + ui.
Nous voulons tester l’hypothese nulle que β1 + β2 = 1. Notez que l’hypothese nulle revient a
imposer une restriction (contrainte) sur la valeur de ces deux coefficients. Isolant β2 nous donne
β2 = 1− β1.
Maintenant, substituant dans le modele, nous avons :
Yi = β0 +X1iβ1 +X2i(1− β1) + . . .+Xkiβk + ui,
que nous pouvons reecrire comme :
Yi −X2i = β0 + (X1i −X2i) β1 +X3iβ3 + . . .+Xkiβk + ui.
On peut estimer ce modele (la version contrainte) avec un logiciel comme R, STATA ou GRETL
en definissant une nouvelle variable dependante Yi ≡ Yi −X2i et une nouvelle variable
explicative Zi ≡ X1i −X2i. Le modele a estimer devient :
Yi = β0 + Ziβ1 +X3iβ3 + . . .+Xkiβk + ui.
Notez bien que ce que nous venons de faire n’est pas la meme chose que ce que nous avons fait
pour transformer le modele pour tester une seule hypothese dans le cadre d’une combinaison
lineaire de coefficients. Dans ce dernier cas, nous avons propose d’estimer un modele equivalent
au modele initial. Puisqu’il etait equivalent, l’estimation etait valide sans imposer des hypotheses
additionnelles. Dans le present contexte, le modele transforme n’est pas equivalent au modele
87
initial. Il n’est valide que sous les contraintes de H0.
Nous savons que la loi F est definie seulement pour des valeurs positives de la variable aleatoire.
Dans ce cas, les estimes MCO du modele contraint proviennent de la solution a un probleme de
minimisation contraint, ou la contrainte est l’hypothese nulle que nous voulons tester. Les estimes
MCO du modele non contraint proviennent de la solution a un probleme de minimisation ou cette
contrainte n’est pas imposee. Pour cette raison, la somme des residus carres du modele contraint
doit etre au moins aussi elevee que pour le modele non contraint, et la statistique F calculee par
une des formules ou par l’autre doit etre positive. 13
L’extension au cas d’hypotheses jointes est directe.
9.9 Test de significativite de la regression dans le cas homoscedastique
Dans ce cas, la version contrainte du modele prend une forme speciale. D’abord, nous avons
q = k. Ensuite, si tous les coefficients sauf la constante sont egaux a zero, le modele est (sous
forme non matricielle)
Yi = β0 + ui.
Nous avons deja vu (dans le chapitre de rappel sur la theorie des probabilites et la statistique) que
dans ce cas l’estimateur MCO de β0 est tout simplement la moyenne echantillonnale de Y , soit Y .
Autrement dit,
β0 = Y .
Nous savons que la somme totale des carres (TSS) est donnee par
TSS =n∑i=1
(Yi − Y
)2,
13. Ce resultat est du tout simplement aux proprietes algebriques de la minimisation sous contrainte. La valeur mi-nimale d’une fonction sous une contrainte doit etre au moins aussi elevee que la valeur minimale lorsque la contrainten’est pas imposee.
88
et dans ce cas-ci nous avons
Yi = Y + ui
⇒ TSS ≡n∑=1
(Yi − Y
)2=
n∑i=1
u2i ≡ SSR
Donc, dans ce cas nous avons forcement une statistique R2 egale a zero. Nous n’avons pas besoin
d’estimer le modele contraint, sachant que son R2 est forcement zero. La deuxieme forme de la
statistique F devient dans ce cas
F =(R2) /k
(1−R2) / (n− k − 1)
=R2
(1−R2)
(n− k − 1)
k,
ou je n’ai pas ecrit explicitement �R2unrestricted
� puisqu’il n’y a pas d’ambiguıte (on estime
seulement le modele non contraint).
9.10 Tests exacts
Tous les tests developpes dans cette section des notes sont valides en grand echantillon. Ils
reposent sur l’idee de la convergence en distribution. Si on est pret a faire les hypotheses
heroıques que les erreurs sont homoscedastiques, i.i.d., et distribuees selon une loi normale, nous
pouvons montrer que la statistique F est distribuee selon une loi Fq,n−kunrestricted−1 meme en petit
echantillon. Donc, ces hypotheses nous permettent de faire ce que j’ai appele de l’inference
� exacte � (basee sur des formes distributionnelles connues) au lieu de faire ce que j’ai appele de
l’inference � approximative � ou � asymptotique � (basee sur l’hypothese que l’echantillon est
assez grand pour penser qu’une version de la loi des grands nombres et/ou le theoreme de la
limite centrale tient approximativement). Vous devriez comparer les valeurs tablees de Fq,∞ et
Fq,n−kunrestricted−1 pour des valeurs differentes de n afin de developper une idee de la taille
d’echantillon ou les differences entre les deux deviennent negligeables.
Je partage l’opinion des auteurs du manuel qu’il est mieux de privilegier l’inference
89
approximative, surtout dans le cas de banques de donnees microeconomiques avec des milliers
sinon des dizaines de milliers d’observations.
9.11 Ensembles de confiance
Comme dans le cas du modele de regression simple, l’idee d’ensembles de confiance est une
extension naturelle de l’idee de tests d’hypothese. Il faut parler � d’ensembles � au lieu
� d’intervalles � parce qu’il s’agit de plus qu’un coefficient. Un point (des valeurs donnees des
coefficients) est dans l’ensemble de confiance de X% si nous ne pouvons rejeter ces valeurs a un
niveau de significativite marginal de (100−X)% sous l’hypothese nulle que les vraies valeurs
des coefficients sont egales a celles obtenues par l’estimation MCO.
Geometriquement, un ensemble de confiance prend la forme d’une ellipse dans le plan des
coefficients pour lesquels on le calcule (donc, si on calcule un ensemble de confiance pour plus
que deux coefficients, le � plan � aura plus que deux dimensions).
Supposons que nous voulons etablir un ensemble de confiance pour les coefficients β1, β2 et β4,
pour une regression ou le nombre de variables explicatives a part la constante est au moins egal a
quatre. Si nous voulons savoir si le point (β1,0 , β2,0 , β4,0) est dans l’ensemble de confiance
autour des valeurs estimees de ces parametres, nous testons, etant donne l’echantillon
d’observations, l’hypothese nulle jointe suivante :
H0 : β1,0 = β1 , β2,0 = β2 , β4,0 = β4.
Si H0 est acceptee a un niveau de significativite marginal de (100−X)%, le point est dans
l’ensemble de confiance.
Dans le cas d’un intervalle de confiance, il est tres facile de decrire explicitement ses bornes,
puisqu’il s’agit de 2 points. Dans le cas d’un ensemble de confiance, meme lorsqu’il s’agit d’une
ellipse en seulement deux dimensions, le nombre de points dans la borne de l’ellipse est infini.
Pour cette raison, il est beaucoup plus difficile de decrire explicitement les ensembles de
90
confiance. Nous venons de resumer tout ce qu’il est necessaire de savoir en principe pour calculer
les ensembles de confiance. Il y a des formules explicites, basees sur la formule pour la statistique
F utilisee pour tester si un point fait partie de l’ensemble de confiance, mais nous n’allons pas
etudier ces formules dans ce cours.
10 Multicollinearite
Il faut distinguer entre ce qu’on appelle la multicollinearite parfaite et la multicollinearite
imparfaite.
10.1 Multicollinearite parfaite
Dans ce cas, il existe une relation lineaire exacte qui relie un sous-ensemble des variables
explicatives. Dans la majorite des cas, il resulte d’un probleme logique dans le choix des
regresseurs. Il y a plusieurs types de situations ou cela peut arriver.
• L’exemple le plus connu de ce probleme est la soi-disant � trappe des variables
dichotomiques �, que nous pouvons illustrer avec un exemple simple. Supposons que nous
avons un echantillon avec des individus, et une des caracteristiques est le sexe de
l’individu. Nous pourrions construire deux variables dichotomiques, dont la premiere
prend la valeur de un lorsque l’individu est une femme et zero autrement, et la deuxieme
prend la valeur de un lorsque l’individu est un homme et zero autrement. Appelons ces
91
deux variables X1 et X2. Nous pourrions avoir, par exemple :
X1 =
1
0
1
1
0
...
0
, X2 =
0
1
0
0
1
...
1
.
Il est evident que
X1 +X2 =
1
1
1
1
1
...
1
.
Maintenant, si nous essayons d’estimer une regression et d’inclure une constante, X1 et
X2 comme variables explicatives, la constante sera tout simplement la somme de X1 et
X2. Donc, c’est le cas que nous pouvons exprimer une des variables explicatives comme
une combinaison lineaire des autres variables explicatives du modele de regression.
• Il y a plusieurs autres exemples classiques de multicollinearite parfaite. Voir la section 6.7
du manuel.
La multicollinearite parfaite nous empechera meme d’estimer notre regression. Il est facile de
montrer que, en presence d’un probleme de multicollinearite parfaite, la matrice X ′X n’est pas de
rang plein. Il est impossible que calculer (X ′X)−1, et l’estimateur β = (X ′X)−1X ′Y n’existe
meme pas. Un logiciel de regression comme R, STATA ou GRETL va tout simplement imprimer
92
un message d’erreur. En fait, un message d’erreur signalant que la matrice X ′X est singuliere est
presque toujours un signe de multicollinearite parfaite. Le remede est de reexaminer le choix des
variables explicatives du modele.
10.2 Multicollinearite imparfaite
Il s’agit maintenant d’une situation ou ce n’est pas le cas qu’une variable explicative est une
combinaison lineaire exacte des autres variables explicatives du modele, mais plutot une situation
ou une variable explicative est tres fortement correlee avec une autre variable explicative ou avec
une combinaison lineaire de ces variables. Dans ce cas, la matrice X ′X n’est pas singuliere, mais
elle peut souvent etre presque singuliere. Elle aura une valeur caracteristique pres de zero, et
beaucoup plus faible que les autres valeurs caracteristiques de la matrice X ′X .
La multicollinearite imparfaite n’est typiquement pas un signe d’une erreur logique dans le choix
des variables explicatives du modele, mais est due aux donnees utilisees et a la question a laquelle
on essaie de repondre en specifiant le modele de regression multiple.
Il y a une consequence de cette situation qui est strictement dans le domaine de l’analyse
numerique. Avec une matrice X ′X qui est presque singuliere, meme si l’ordinateur est capable de
calculer son inverse, le resultat du calcul sera en general sujet a des erreurs numeriques
importantes. Les coefficients estimes seront imprecis non au sens statistique mais plutot au sens
numerique. Souvent, dans ces cas, un logiciel de regression comme R, STATA ou GRETL va
calculer les resultats de la regression, mais il va indiquer parmi l’output que la matrice X ′X est
presque singuliere ou �mal conditionnee �.
L’autre consequence de la multicollinearite imparfaite est que les ecarts types des coefficients
estimes risquent d’etre plutot eleves. Par consequent, les intervalles de confiance pour les
coefficients individuels seront tres larges et les tests d’hypothese n’auront pas beaucoup de
puissance.
Il est difficile de montrer rigoureusement ce resultat (que les ecarts types des coefficients estimes
seront grands) dans le cas general. L’Annexe 6.2 du manuel presente un exemple specifique qui
93
illustre le principe. Dans le cas d’un modele de regression multiple avec deux variables
explicatives et erreurs homoscedastiques (Var (ui|X1,i , X2,i) = σ2u), nous avons
β1d−→ N
(β1 , σ
2β1
)
ou
σ2β1
=1
n
[1
1− ρ2X1,X2
]σ2u
σ2X1
,
ou ρX1,X2 est la correlation (dans la population) entre les deux variables explicatives de la
regression. On voit a partir de cette equation que, toutes choses etant egales par ailleurs, plus
elevee est la correlation entre les deux variables explicatives, plus elevee est la variance de β1.
Dans ce cas, le modele de regression n’est pas forcement mal specifie. Par contre, il peut etre tres
difficile sinon impossible d’estimer avec precision et d’etablir la significativite d’un coefficient
d’une variable dont la correlation avec au moins une autre variable explicative est tres forte.
La preuve de cette formule dans le cas ou k = 2 est relativement facile. Le modele au depart
est donne par
Yi = β0 + β1X1i + β2X2i + ui.
Nous avons
Y = β0 + β1X1 + β2X2 + u
ou, comme d’habitude, une barre indique la moyenne echantillonnale d’une variable. Ceci
nous donne
Yi − Y = β1(X1i − X1
)+ β2
(X2i − X2
)+ (ui − u)
ou
Y = X
β1
β2
+ U
ou par construction la variable dependante et les variables explicatives ont des moyennes
94
echantillonnales de zero et ou on soustrait la moyenne echantillonnale des erreurs de chaque
ui (bien sur, puisque nous n’observons pas les ui nous n’observons pas non plus u.
L’estimateur MCO est donne par la formule habituelle
β1
β2
= (X ′X)−1X ′Y
Dans ce cas, la matrice variance-covariance du vecteur de parametres estimes est donnee par
Σ2β
=σ2u
n
σ2X1
σX1,X2
σX1,X2 σ2X2
−1
.
Notez que cette formule repose sur une hypothese d’homoscedasticite de l’erreur. Puisque
nous avons soustrait les moyennes des variables X1 et X2, la matrice Q qui normalement est
une matrice de moments bruts s’avere etre aussi la matrice variance-covariance des variables
X1 et X2. Aussi, puisqu’il s’agit dans ce cas d’une matrice de dimensions 2× 2, on sait
comment ecrire une expression algebrique pour son inverse. Il est facile de verifier que dans
ce cas-ci nous avons σ2X1
σX1,X2
σX1,X2 σ2X2
−1
=1
σ2X1σ2X2− (σX1,X2)
2
σ2X2
−σX1,X2
−σX1,X2 σ2X1
,ce qui donne
σ2β1
=σ2u
n
[σ2X2
σ2X1σ2X2− (σX1,X2)
2
]
=1
n
1
σ2X1− (σX1,X2)
2
σ2X2
σ2u
95
=1
n
1
1− (σX1,X2)2
σ2X1σ2X2
σ2u
σ2X1
=1
n
[1
1− ρ2X1,X2
]σ2u
σ2X1
,
ou ρ2X1,X2est le coefficient de correlation entre X1 et X2 au carre. En regardant cette
expression, il est clair que la variance σ2β1
du parametre estime β1 va croıtre avec la valeur
absolue du coefficient de correlation entre X1 et X2. On peut aussi montrer que la variance de
β2 est donnee par
σ2β2
=1
n
[1
1− ρ2X1,X2
]σ2u
σ2X2
.
Encore une fois, sa variance augmente avec la valeur absolue du coefficient de correltation
entre X1 et X2.
La multicollinearite imparfaite traduit le fait qu’il peut etre tres difficile (sinon impossible),
statistiquement parlant, d’isoler l’impact individuel de chacune de deux variables explicatives qui
sont fortement correlees. C’est possible que chacune des deux variables soit non significative sur
la base d’un test d’hypothese simple (base sur une statistique t), tandis qu’un test de l’hypothese
nulle jointe que les deux variables sont non significatives rejette cette hypothese nulle sur la base
d’une statistique F . En interpretant les resultats d’une telle regression, il est important d’insister
sur l’importance du bloc de deux variables pour expliquer la variable dependante, tout en
soulignant l’impossibilite d’attribuer l’importance a une variable particuliere a cause du probleme
de multicollinearite imparfaite.
10.3 Trucs pratiques
96
• Si vous avez une banque de donnees avec plusieurs variables explicatives potentielles,
il pourrait etre interessant de calculer la matrice de tous les coefficients de correlation
entre toutes les paires de variables. Ceci peut faire apparaıtre des problemes potentiels
de multicollinearite.
• Lorsque vous estimez un modele de regression multiple, il pourrait etre interessant, si
votre logiciel permet de le faire facilement, de calculer la valeur du
� conditionnement � de la matrice (X ′X), donnee par le ratio de la plus grande valeur
caracteristique de la matrice sur la plus petite valeur caracteristique. Si ce chiffre est
tres elevee, on dit que la matrice est �mal conditionnee �, ce qui peut occasionner des
erreurs numeriques importantes. Une matrice mal conditionnee est presque singuliere.
11 Un Exemple
Je presente ici un autre exemple en code R pour illustrer sa puissance et le fait que (meme en
n’utilisant pas une des interfaces graphiques disponibles) il est relativement facile a utiliser. On
peut telecharger une banque de donnees, estimer un modele de regression multiple, et faire
imprimer les resultats dans un fichier en six lignes de code. Notez que les commandes
coeftest et linearHypothesis se trouvent dans les packages lmtest et car. Il faut les
charger en memoire et il faut aussi les installer si ce n’est pas deja fait. On peut les installer avec
les commandes suivantes.
R> install.packages("car")
R> install.packages("lmtest")
En Linux, il est toujours conseille d’installer les packages comme administrateur ou
super-utilisateur :
R> sudo install.packages("car")
R> sudo install.packages("lmtest")
97
Par la suite, on les charge en memoire avec les commandes suivantes.
R> library("car")
R> library("lmtest")
Voci l’exemple.
Voici un exemple d’estimation d’un modele de regression multiple avec le logiciel R. Encore
une fois, vous pouvez facilement jouer avec le code une fois que le logiciel est installe.
R> data("CPS1988", package="AER")
R> CPS lm <- lm(log(wage) ∼ experience + I(experienceˆ2) +
education + ethnicity, data=CPS1988)
R> summary(CPS lm)
R> outfile <- file("regsumm.out", "w")
R> capture.output(summary(CPS lm), file=outfile)
R> close(outfile)
Les donnees sont dans une banque de donnees qui s’appelle � CPS1988 �. Il s’agit d’une
coupe transversale de 28 155 observations recueillies par le Bureau du Recensement aux Etats
Unis dans le cadre du sondage Current Population Survey. Les donnees portent sur les
hommes ages de 18 a 70 ans avec un revenu superieur a 50 $ qui ne sont ni travailleurs
autonomes ni en train de travailler sans remuneration. Voir la description plus detaillee dans
Kleiber et Zeileis (2008, p.65).
La variable dependante du modele est le salaire reel (dollars par semaine) mesure en logs. La
variable explicative experience est l’experience de travail mesuree en annees, la variable
education est le nombre d’annees de formation mesure en annees, et la variable
ethnicity est une variable dichotomiques prenant les valeurs cauc (blanc) et afam
(afro-americain). Notez qu’il s’agit d’une variable dichotomique qui ne prend pas des valeurs
98
chiffrees (0 ou 1 par exemple) : R va pouvoir tenir compte de ceci automatiquement.
Il faut avoir installe le paquetage � AER � avec la commande suivante :
install.packages("AER")
Cette commande va telecharger et installer le paquetage automatiquement a partir d’un des
depots d’archives R. (Notez que sous Linux il est preferable d’installer le paquetage comme
administrateur du systeme, autrement dit comme super-utilisateur).
Il est possible de generer un resume des proprietes des donnees avec les commande suivante.
R> data(¨CPS1988¨)
R> summary(CPS1988)
Voir Kleiber et Zeileis (2008, p.66) pour les resultats de cette commande.
• La commande data(·) charge la banque de donnees.
• La commande lm(·) estime le modele de regression multiple par MCO, et la
commande jour lm<- place les resultats dans la variable jour lm.
• La commande summary(·) imprime les resultats de la regression a l’ecran.
• La commande outfile<- cree un fichier texte ou on peut envoyer les resultats.
• La commande capture.output(·) envoie les resultats dans le fichier qui a ete cree.
• La commande close(·) ferme le fichier.
La fonction I() dit a R d’interpreter l’operateur ˆ comme un operateur algebrique standard,
puisqu’il a aussi une interpretation speciale en R.
Les resultats de l’estimation sont comme suit :
Call:
lm(formula = log(wage) ∼ experience + I(experienceˆ2) + education +
ethnicity, data = CPS1988)
Residuals:
Min 1Q Median 3Q Max
-2.943 -0.316 0.058 0.376 4.383
99
Coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 4.321395 0.019174 225.4 <2e-16
experience 0.077473 0.000880 88.0 <2e-16
I(experienceˆ2) -0.001316 0.000019 -69.3 <2e-16
education 0.085673 0.001272 67.3 <2e-16
ethnicityafam -0.243364 0.012918 -18.8 <2e-16
Residual standard error: 0.584 on 28150 degrees of freedom
Multiple R-squared: 0.335, Adjusted R-squared: 0.335
F-statistic: 3.54e+03 on 4 and 28150 DF, p-value: <2e-16
Vous devriez etre en mesure de comprendre tous les elements de l’output, a part la
signification du coefficient ethnicityafam. Ce coefficient est cree automatiquement par
R, qui a choisi de traiter la categorie cauc comme la categorie de reference et de creer une
variable dichotomique pour la categorie afam. La section de ces notes sur la multicollinearite
parfaite nous a appris que nous ne pouvons pas inclure une constante, une variable
dichotomique pour la categorie cauc, et une variable dichotomique pour la categorie afam.
Comme dans le cas du modele de regression simple, le code ci-dessus estime le modele par
MCO utilisant les options par defaut. La fonction lm utilise par defaut une hypothese
d’homoscedasticite. Donc, les ecarts types des deux coefficients ne sont pas des ecarts types
robustes. Afin d’obtenir des ecarts types robustes a la presence de l’heteroscedasticite, il faut
utiliser la commande suivante :
R> coeftest(CPS lm, vcov=vcovHC)
Les resultats de cette commande sont comme suit :
t test of coefficients:
Estimate Std. Error t value Pr(> |t|)
(Intercept) 4.3214e+00 2.0614e-02 209.630 <2e-16
experience 7.7473e-02 1.0188e-03 76.046 <2e-16
I(experienceˆ2) -1.3161e-03 2.3486e-05 -56.035 <2e-16
education 8.5673e-02 1.3755e-03 62.283 <2e-16
ethnicityafam -2.4336e-01 1.3119e-02 -18.550 <2e-16100
Comme dans l’exemple presente dans le chapitre precedent, ce modele est un exemple d’un
modele ou il n’y a pas une grande difference entre les ecarts types robustes et non robustes.
Puisque l’ordinateur est capable de calculer les ecarts types en une fraction de seconde, il
coute presque rien de les calculer des deux facons afin de verifier si les resultats sont
semblables ou non.
Nous pouvons aussi effectuer des tests de restrictions sur le modele estime. Nous pouvons
specifier la matrice R et le vecteur r comme dans les notes de cours. La forme generale d’un
test d’hypotheses lineaires dans R est
linearHypothesis(unrestricted,bigr,littler)
Ici, � unrestricted � est le nom du modele lineaire estime, � bigr � est la matrice R,
et � littler � est le vecteur r des notes. Afin d’utiliser la matrice de variance-covariance
robuste, il faut specifier la commande de la maniere suivante :
linearHypothesis(unrestricted,bigr,littler,white.adjust=HC)
Voici un exemple de test dans le contexte du modele estime dans cet encadre. si on voulait,
par exemple, tester la significativite de l’experience, il faut test la significativite de deux
coefficients, le terme lineaire et le terme au carrre. L’hypothese nulle jointe serait
β1 = β2 = 0. Sous forme matricielle, on aurait
0 1 0 0 0
0 0 1 0 0
β0
β1
β2
β3
β4
=
0
0
D’abord, il faut definir les matrices R et r dans le langage R.
R> bigr <- rbind(c(0,1,0,0,0),c(0,0,1,0,0))
R> littler <- rbind(0,0)
101
Pour plus de precisions, on peut invoquer la commande help(rbind). Maintenant, on peut
invoquer la commande linearHypothesis telle que specifiee ci-dessus.
12 Un Autre Exemple
Je presente ici un autre exemple detaille, base sur la derniere question du dernier tp du trimestre
d’hiver 2012. Le code R est commente et donc les commandes devraient etre comprehensible au
lecteur.
D’abord, voici la question du tp.
Preambule
L’exercice est base sur l’article de Mankiw, Romer et Weil (1992). Soit la fonction de
production agregee donnee par
Yt = Ktα (AtLt)
(1−α)
ou Yt est le PIB reel, Kt le stock de capital, At le niveau du progres technique, et Lt l’emploi
total. On peut transformer cette equation de la maniere suivante :
(YtLt
)= At
(Kt
AtLt
)α
Supposons que le progres technique croıt en moyenne a un rythme constant et egal a travers
les pays differents :
Ai,t = Ai,0egt
ou g est le taux de croissance du progres technique, Ai,0 le niveau initial du progres technique
pour le pays i, et Ai,t le niveau du progres technique au pays i en periode t. Le modele de
102
Solow predit qu’a long terme le ratio du capital par travailleur effectif est donne par
(Kt
AtLt
)≡ kt = k∗ =
s
n+ g + δ
ou n est le taux de croissance de la population active et δ est le taux de depreciation du
capital. Supposons un niveau initial du progres technique qui peut dependre du pays (dotation
initiale en ressources naturelles, etc., tel que
ln (Ai,0) = a+ εi.
Donc, nous avons qu’a long terme
(Yi,tLi,t
)= Ai,tk
∗iα + εi
⇒ ln
(Yi,tLi,t
)= a+ gt+ αsi − α (ni + g + δ) + εi
ou nous supposons g et δ constants a travers les pays differents. Si on suppose t = 0 pour
simplifier nous pouvons ecrire
ln
(YiLi
)= a+ αsi − α(ni + g + δ) + εi. (3)
Si on ajoute le capital humain au modele, la fonction de production devient
Yt = KtαHt
β (AtLt)(1−α−β) ,
103
ou Ht est le capital humain. On peut montrer (voir l’article pour les details) que l’equivalent
de (3) devient
ln
(YiLi
)= a+
α
1− α− βsi +
β
1− α− βshi −
α + β
1− α− β(ni + g + δ) + εi. (4)
La variable shi est le taux d’investissement dans le capital humain.
Donnees
Telechargez le fichier de donnees (en format STATA) :
http://www.er.uqam.ca/nobel/r10735/4272/GrowthDJ.dta
Vous devriez etre capables de les importer facilement avec GRETL. Si vous utilisez R, la base
de donnees se retrouve dans la � library � AER. Les donnees sont pour un echantillon de 121
pays et sont :
• oil : pays ou l’industrie petroliere est l’industrie dominante (yes) ou non
• inter : pays avec une population au moins egale a un million en 1960 et avec des
donnees relativement fiables selon Heston et Summers (1987) (yes) ou non
• oecd : pays membre de l’OCDE (yes) ou non
• gdp60 : niveau reel du PIB par habitant en 1960
• gdp85 : niveau reel du PIB par habitant en 1985
• gdpgrowth : taux de croissance moyen du PIB reel par habitant entre 1960 et 1985
• popgrowth : taux de croissance moyen de la population entre 1960 et 1985
• invest : valeur moyenne du ratio investissement sur PIB entre 1960 et 1985
• school : ratio moyen des inscriptions a l’ecole secondaire sur la population en age de
travailler.
• literacy60 : taux d’alphabetisation en 1960
Les donnees correspondent a l’Annexe de l’article de Mankiw, Romer et Weil (1992). Pour
104
l’identite des pays, il faut referer a cette annexe.
Exercice
1. Estimez un modele de regression multiple ou gdp85 est la variable dependante et les
variables explicatives sont une constante, invest pour mesurer si et
(popgrowth+0.05) pour mesurer (ni + g + δ) (nous supposons
qu’approximativement g + δ = 0.05). Ce modele equivaut au modele de Solow sans
capital humain. Estimez en calculant des ecarts types non robustes et robustes.
Commentez ce que vous trouvez. Pour les sous-questions qui suivent, vous pouvez
vous limiter a des estimations et des tests qui utilisent la matrice de
variance-covariance robuste.
2. Le modele de Solow predit que les coefficients sur le taux d’epargne si et le taux de
croissance de la population (ni + 0.05) devraient etre de signe oppose mais egaux en
valeur absolue. Testez cette hypothese. Le modele predit aussi que ces deux
coefficients devraient etre egaux en valeur absolue a la part du capital dans le revenu
national (α), soit environ 1/3. Testez cette hypothese jointe.
3. Enlevez de l’echantillon les pays ou l’industrie petroliere est l’industrie dominante.
Refaites les estimations et tests des 2 premieres sous-parties.
4. Enlevez maintenant les pays ou l’industrie petroliere est dominante et les pays qui ont
une population inferieure a un million en 1960 ou qui ont des donnees relativement
peu fiables. Refaites les estimations et tests des 2 premieres sous-parties. Gardez cet
echantillon restreint pour le reste des sous-parties. En principe vous devriez avoir 75
observations.
5. Maintenant, supposons que les pays membres de l’OCDE ont un comportement
different des autres pays. Soit oecd la variable qui prend une valeur unitaire si le pays
est membre de l’OCDE et zero autrement. Incluez comme variables explicatives des
105
variables d’interaction entre oecd et les autres variables explicatives a part la
constante.
6. Testez significitivite (individuelle et jointe) de ces termes d’interaction.
7. Ajoutez la variable school au modele comme proxy pour sh, avec un terme
d’interaction pour les pays de l’OCDE. Le modele maintenant equivaut au modele de
Solow avec l’ajout du capital humain, avec un terme d’interaction pour les pays de
l’OCDE.
8. Testez la significativite des deux variables additionelles (school et le terme
d’interaction entre school et le fait d’etre membre de l’OCDE).
9. Le modele augmente predit que coefficient de la variable associe au taux d’epargne s
devrait maintenant etre superieur a la part du capital. Testez cette hypothese en
appliquant un test avec hypothese alternative unilaterale au coefficient associe a
school seulement.
10. Le modele augmente predit que la somme des coefficients sur school et invest
devrait etre egale a moins le coefficient sur (popgrowth+0.05). Testez cette
hypothese, pour les pays non membres de l’OCDE seulement.
11. Ajoutez le niveau du PIB par habitant en 1960 au modele mesure par gdp60, avec un
terme d’interaction entre gdp60 et le fait d’etre membre de l’OCDE. La
significatitivite du coefficient associe a cette variable nous permet de tester l’hypothese
de convergence. Testez la significativite de la variable gdp60. Testez maintenant la
significativite jointe de cette variable et du coefficient associe au terme d’interaction.
12. Revenez au modele sans le niveau du PIB par habitant en 1960. Construisez un
graphique avec les residus au carre sur l’axe vertical et la variable dependante sur
l’axe horizontal. Est-ce que vous reperez des valeurs aberrantes (outliers) ? Qu’est-ce
qui arrive si vous refaites l’analyse en enlevant les observations associees aux valeurs
aberrantes des residus au carre ?
106
13. Commentez la validite de vos tests d’hypothese. Est-ce qu’il y a assez d’observations
pour supposer la normalite approximative des statistiques calculees ? Par contre, base
sur une analyse des residus, est-ce que les erreurs du modele semblent etre normales et
homoscedastiques, ce qui permettrait d’utiliser de tests exacts en echantillon fini ?
Justifiez.
References
Mankiw, N. Gregory, David Romer et Philippe Weil (1992), “A Contribution to the Empirics
of Economic Growth.” Quarterly Journal of Economics 107, 407–437
Heston, Alan et Robert Summers (1987), “A New Set of International Comparisons of Real
Product and Price Levels : Estimates for 130 Countries 1950–85.” Review of Income and
Wealth 34, 1–26
Maintenant, voici le code en R pour estimer le modele et repondre aux questions du tp. Les
memes remarques s’appliquent que pour l’exemple precedent. Les commandes coeftest et
linearHypothesis dependent de librarys qui doivent etre installees et chargees en
memoire.
#
# Charger en memoire la bibliotheque AER.
#
library("AER")
#
# Charger en memoire les bibliotheques necessaires
# pour effectuer les tests d’hypotheses multiples.
# La bibliotheque AER requiert les autres
107
# bibliotheques, alors ces commandes ne sont pas
# strictement necessaires, mais pourraient l’etre
# pour d’autres applications.
#
library("car")
library("sandwich")
library("lmtest")
#
# Charger en memoire les donnees de la banque
# GrowthDJ.
#
data("GrowthDJ",package="AER")
#
# Imprimer un resume des donnees dans GrowthDJ.
#
attributes(GrowthDJ)
#
# Imprimer des statistique descriptives concernant
# les variables dans GrowthDJ.
#
summary(GrowthDJ)
#
# Estimer le premier modele.
#
growth_mod < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=GrowthDJ)
108
#
# Imprimer les resultats sous l’homoscedasticite.
#
summary(growth_mod)
#
# Imprimer les resultats sous l’heteroscedasticite
# pour comparaison.
#
coeftest(growth_mod,vcov=vcovHC)
#
# Tester l’hypothese que les 2 coefficients sont
# egaux mais de signe oppose.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=FALSE)
#
# Meme test, heteroscedasticite.
#
linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=TRUE)
#
# Enlever les observations de pays qui dependent du
# petrole.
#
Growth2 < − subset(GrowthDJ,GrowthDJ$oil=="no")
#
# Reestimer le modele avec l’echantillon restreint.
#
109
growth_mod2 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=Growth2)
#
# Imprimer les resultats d’estimation sous
# l’homoscedasticite.
#
summary(growth_mod2)
#
# Imprimer les resultats d’estimation avec
# ecarts types robustes.
#
coeftest(growth_mod2,vcov=vcovHC)
#
# Tester l’hypothese que les 2 coefficients sont
# egaux mais de signe oppose.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=FALSE)
#
# Meme test, matrice variance-covariance robuste.
#
linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=TRUE)
#
# Enlever les observations de pays trop petits
# et/ou avec donnees non fiables.
#
Growth3 < − subset(GrowthDJ,GrowthDJ$oil=="no")
110
Growth3 < − subset(Growth3,Growth3$inter=="yes")
#
# Estimer le nouveau modele.
#
growth_mod3 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),
data=Growth3)
#
# Imprimer les resultats sous l’homoscedasticite.
#
summary(growth_mod3)
#
# Imprimer les resultats sous l’heteroscedasticite
# pour comparaison.
#
coeftest(growth_mod3,vcov=vcovHC)
#
# Estimer le modele avec termes d’interaction pour
# les pays de l’OCDE.
#
growth_mod4 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)
+
log(invest):oecd + I(popgrowth+0.05):oecd, data=Growth3)
#
# Imprimer les resultats sous l’homoscedasticite.
#
summary(growth_mod4)
111
#
# Imprimer les resultats sous l’heteroscedasticite
# pour comparaison.
#
coeftest(growth_mod4,vcov=vcovHC)
#
# Tester la significativite jointe des 2 termes
# d’interaction.
#
bigr < − rbind(c(0,0,0,1,0),c(0,0,0,0,1))
litr < − rbind(0,0)
linearHypothesis(growth_mod4,bigr,litr,white.adjust=FALSE)
#
# Meme test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod4,bigr,litr,white.adjust=HC)
#
# Estimer le modele en ajoutant school.
#
growth_mod5 < − lm(log(gdp85) log(invest) + I(popgrowth+0.05)
+ school
+ log(invest):oecd + I(popgrowth+0.05):oecd + school:oecd,
data=Growth3)
#
# Tester la restriction sur les 3 coefficients
112
#
bigr < − c(0,1,1,-1,0,0,0)
litr < − 0
linearHypothesis(growth_mod5,bigr,litr,white.adjust=FALSE)
#
# Meme test avec matrice variance-covariance
# robuste.
#
linearHypothesis(growth_mod5,bigr,litr,white.adjust=TRUE)
#
# Estimer le modele avec gdp60.
#
growth_mod6 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)
+ school + log(gdp60) + log(invest):oecd +
I(popgrowth+0.05):oecd
+ school:oecd + log(gdp60):oecd, data=Growth3)
#
# Tester la significativite de la convergence.
#
bigr < − rbind(c(0,0,0,0,1,0,0,0,0),c(0,0,0,0,0,0,0,0,1))
litr < − rbind(0,0)
linearHypothesis(growth_mod6,bigr,litr,white.adjust-FALSE)
linearHypothesis(growth_mod6,bigr,litr,white.adjust=TRUE)
L’output de ces commandes se trouve ci-dessous. J’ai converti les tableaux R en format LATEX a
l’aide du package texreg. Pour l’instant, j’ai inclus seulement les resultats d’estimation des
modeles differents sous l’hypothese d’homoscedasticite.
113
Model 1
(Intercept) 3.95∗∗∗
(0.54)
log(invest) 1.51∗∗∗
(0.16)
I(popgrowth + 0.05) -0.01
(0.08)
R2 0.47
Adj. R2 0.46
Num. obs. 107
***p < 0.01, **p < 0.05, *p < 0.1
Model 2
(Intercept) 4.69∗∗∗
(0.49)
log(invest) 1.44∗∗∗
(0.14)
I(popgrowth + 0.05) -0.27∗∗∗
(0.08)
R2 0.59
Adj. R2 0.59
Num. obs. 98
***p < 0.01, **p < 0.05, *p < 0.1
114
Model 3
(Intercept) 5.20∗∗∗
(0.58)
log(invest) 1.33∗∗∗
(0.17)
I(popgrowth + 0.05) -0.28∗∗∗
(0.08)
R2 0.59
Adj. R2 0.58
Num. obs. 75
***p < 0.01, **p < 0.05, *p < 0.1
115
Model 4
(Intercept) 5.08∗∗∗
(0.55)
log(invest) 1.03∗∗∗
(0.18)
I(popgrowth + 0.05) 0.03
(0.13)
log(invest) :oecdyes 0.34∗∗
(0.14)
I(popgrowth + 0.05) :oecdyes -0.11
(0.24)
R2 0.66
Adj. R2 0.64
Num. obs. 75
***p < 0.01, **p < 0.05, *p < 0.1
116
Model 5
(Intercept) 5.56∗∗∗
(0.47)
log(invest) 0.55∗∗∗
(0.17)
I(popgrowth + 0.05) 0.06
(0.10)
school 0.14∗∗∗
(0.03)
log(invest) :oecdyes 0.42∗∗
(0.19)
I(popgrowth + 0.05) :oecdyes -0.21
(0.20)
school :oecdyes -0.05
(0.06)
R2 0.77
Adj. R2 0.75
Num. obs. 75
***p < 0.01, **p < 0.05, *p < 0.1
117
Model 6
(Intercept) 1.51∗∗∗
(0.54)
log(invest) 0.48∗∗∗
(0.12)
I(popgrowth + 0.05) 0.05
(0.07)
school 0.05∗∗∗
(0.02)
log(gdp60) 0.63∗∗∗
(0.07)
log(invest) :oecdyes 0.08
(0.29)
I(popgrowth + 0.05) :oecdyes -0.17
(0.13)
school :oecdyes -0.04
(0.04)
log(gdp60) :oecdyes 0.07
(0.12)
R2 0.90
Adj. R2 0.89
Num. obs. 75
***p < 0.01, **p < 0.05, *p < 0.1
118
13 Concepts a retenir
• La specification matricielle du modele de regression multiple.
• Les hypotheses de base du modele de regression multiple.
• Etre capable de suivre et comprendre le calcul de l’estimateur MCO en notation
matricielle.
• Etre capable de suivre et comprendre le calcul de l’estimateur MCO en notation non
matricielle.
• Etre capable de suivre les preuves des proprietes algebriques de l’estimateur MCO et de
retenir les proprietes elles-memes (orthogonalite entre variables explicatives et residus,
somme des residus egale a 0, orthogonalite entre valeurs predites et residus).
• Comprendre la distinction entre la mesure R2 de l’ajustement statistique et la mesure R2
de l’ajustement statistique. Comprendre pourquoi le R2 ne peut qu’augmenter si on ajoute
une ou des variables explicatives au modele de regression. Ce point est tres important. Si
vous regardez les examens passes, vous allez constater qu’il y a souvent une question
courte qui porte sur ce concept.
• Les grandes lignes des proprietes de l’estimateur MCO dans le modele de regression
multiple (absence de biais, convergence).
• Les hypotheses additionnelles qui doivent tenir pour que le theoreme Gauss-Markov soit
valide et donc pour que l’estimateur MCO soit efficient. Notez bien que l’hypothese
cruciale est celle de l’homoscedasticite du terme d’erreur du modele.
• Comprendre la distinction entre la matrice de variance-covariance robuste des coefficients
et la matrice de variance-covariance qui suppose l’homoscedasticite des erreurs.
Comprendre l’importance de savoir quelle est la version de la matrice de
variance-covariance qui est calculee par defaut par son logiciel econometrique de choix.
• Comment effectuer un test d’hypothese simple.
• Comment effectuer un test d’hypothese simple portant sur une combinaison lineaire de
coefficients par une version transformee mais equivalente du modele.
119
• Comment effectuer un test d’hypotheses jointes, et la facon generale d’exprimer les
contraintes a tester sous forme matricielle.
• L’idee que la statistique F pour tester une hypothese simple est le carre de la statistique t
pour tester la meme hypothese. L’idee que l’utilisation d’un test F pour tester une
hypothese simple suppose forcement un hypothese alternative bilaterale (puisque le signe
d’une statistique F est toujours positif).
• Comment tester une ou des restrictions en estimant le modele restreint, et les hypotheses
qui doivent etre verifiees pour que cette facon de proceder soit valide (notamment
l’homoscedasticite).
• Connaıtre la difference entre l’estimation d’un modele restreint ou contraint, et
l’estimation d’un modele equivalent.
• L’idee que les ensembles de confiance sont des ellipses, et qu’ils sont des ensembles de
valeurs pour lesquelles on ne peut rejeter l’hypothese jointe que les coefficients sont egaux
a ces valeurs, sous l’hypothese nulle des valeurs obtenues par le biais de notre regression
MCO.
• Le principe de base concernant comment etablir si des valeurs donnees de plusieurs
coefficients se retrouvent dans l’ensemble de confiance de X% pour ces coefficients.
• La distinction entre multicollinearite parfaite et multicollinearite imparfaite.
• L’idee que la multicollinearite parfaite indique un probleme logique dans la selection des
variables explicatives.
• L’idee que la multicollinearite imparfaite reflete une correlation forte entre
sous-ensembles de variables explicatives et non une erreur logique dans la selection des
variables explicatives.
• L’idee qu’un groupe de variables puisse etre significatif pour expliquer la variable
dependante sans forcement la possibilite de pouvoir attribuer cette importance a une des
variables individuelles du groupe en particulier.
• Comprendre des techniques informelles pour detecter un probleme de multicollinearite
120
imparfaite (notamment un calcul de la matrice de toutes les correlations possibles entre les
variables explicatives, et le calcul du conditionnement de la matrice (X ′X)).
14 References
Pour le calcul differentiel en notation matricielle, voir le document suivant :
“Introduction to Finite Element Methods (ASEN 5007), Appendix D.” Department of Aerospace
Engineering Sciences, University of Colorado at Boulder, 2007
Je ne retrouve plus le fichier sur le site de l’University of Colorado. Il est disponible sur mon site
a l’adresse suivante :
http://www.steveambler.uqam.ca/4272/articles/matrixcalculus.pdf
Les quatre premieres pages de cet article sont particulierement pertinentes pour les fins de ce
cours.
Pour d’autres references portant sur le modele de regression multiple, voir :
http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf
Derniere modification : 20/03/2018
121