ECO 4272 : Introduction a l’` econom´ etrie´ Notes sur la ...

ECO 4272 : Introduction a l’econometrieNotes sur la Regression Multiple

Steve Ambler∗

Departement des sciences economiquesEcole des sciences de la gestion

Hiver 2018

∗Ces notes sont en cours de developpement. J’ai besoin de vos commentaires et de vos suggestions pourles ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message aambler.steven@uqam.ca.

Table des matieres1 Introduction 4

2 Biais du a une variable omise 42.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Modele de regression multiple 103.1 Specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.2 Specification matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3 Hypotheses de base du modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4 Estimateur MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.4.1 Differentiation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4.2 Quelques exemples simples des regles de differentiation . . . . . . . . . . 18

3.5 Approche non matricielle au probleme de minimisation . . . . . . . . . . . . . . . 20

4 Proprietes algebriques de l’estimateur MCO 234.1 Orthogonalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Somme des residus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.3 Valeurs predites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.4 Ecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.5 Mesures d’ajustement statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.5.1 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.5.2 Le R2 ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5 Proprietes statistiques de l’estimateur MCO 375.1 Proprietes statistiques : absence de biais . . . . . . . . . . . . . . . . . . . . . . . 375.2 Petite note : theoreme de Slutsky . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.3 Proprietes statistiques : convergence . . . . . . . . . . . . . . . . . . . . . . . . . 395.4 Petite note sur les covariances en notation matricielle . . . . . . . . . . . . . . . . 455.5 Proprietes statistiques : distribution en grand echantillon . . . . . . . . . . . . . . 46

5.5.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Variance echantillonnale de β 496.1 Cas homoscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2 Homoscedasticite versus Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . 53

7 Efficience de l’estimateur MCO sous l’homoscedasticite 547.1 Preuve du theoreme Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 55

8 Biais du a des variables omises (bis) 57

9 Tests d’hypotheses et ensembles de confiance 659.1 Tests d’hypotheses simples par rapport a un seul coefficient . . . . . . . . . . . . . 659.2 Tests d’hypotheses simples par rapport a une combinaison lineaire de coefficients . 67

9.2.1 Methode indirecte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

9.2.2 Methode directe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699.3 Pourquoi les tests sequentiels ne sont pas valides . . . . . . . . . . . . . . . . . . 709.4 Tests d’hypotheses jointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.5 Que faire lorsque Σβ n’est pas disponible ? . . . . . . . . . . . . . . . . . . . . . . 749.6 Une seule restriction comme un cas special . . . . . . . . . . . . . . . . . . . . . 759.7 Significativite de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 799.8 Tests d’hypothese en presence d’homoscedasticite . . . . . . . . . . . . . . . . . . 809.9 Test de significativite de la regression dans le cas homoscedastique . . . . . . . . . 889.10 Tests exacts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.11 Ensembles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

10 Multicollinearite 9110.1 Multicollinearite parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9110.2 Multicollinearite imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9310.3 Trucs pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

11 Un Exemple 97

12 Un Autre Exemple 102

13 Concepts a retenir 119

14 References 121

1 Introduction

Dans ce chapitre sur le modele de regression multiple, il n’y a presque rien de fondamentalement

nouveau par rapport au modele de regression simple. Une lecture de la table des matieres de ces

notes servira a vous convaincre que ce sont les memes sujets qui reviennent. C’est comme si on

allait reapprendre la matiere sur le modele de regression simple mais en notation matricielle.

C’est donc une bonne occasion de faire de la revision, surtout en ce qui concerne les proprietes de

l’estimateur MCO. A peu pres le seul aspect novateur (a part la notation matricielle elle-meme)

sera l’idee de tester des hypotheses jointes (et une notion qui y est tres reliee, celle des ensembles

de confiance). 1

Une fois la notation matricielle apprise, toutes les derivations algebriques concernant les

proprietes algebriques de l’estimateur MCO et les proprietes statistiques de l’estimateur MCO

sont plus simples en notation matricielle qu’en notation de sommations. J’espere vous convaincre

de ce principe avant de terminer notre etude sur le modele de regression multiple.

2 Biais du a une variable omise

On peut motiver le modele de regression multiple en montrant que, si nous voulons analyser

l’impact d’une variable explicative sur une variable dependante et si nous omettons une ou des

variables qui ont un impact sur la variable dependante, notre estime de cet impact sera en general

biaise, dans la mesure ou la correlation entre cette variable omise ou ces variables omises et la

variable explicative du modele est non nulle.

Cela veut dire que, meme si nous ne nous interessons pas particulierement a l’impact de ces

variables omises, il faut neanmoins en tenir compte dans notre modele de regression afin

d’obtenir un estime non biaise de l’impact de notre variable d’interet (pour utiliser l’exemple

empirique du manuel, l’impact de la taille moyenne des classes sur le rendement scolaire).

1. Le concept de tester une hypothese simple qui porte sur une combinaison de coefficients est nouveau aussi,mais nous allons montrer comment transformer le modele de regression multiple pour traiter ce cas comme un testd’une hypothese nulle qui porte sur un seul coefficient. Voir la sous-section 9.2.

On sait a partir de notre etude du modele de regression simple, que l’estimateur du coefficient de

pente β1 est egal a :

β1 = β1 +1n

∑ni=1

(Xi − X

∑ni=1

(Xi − X

)2 .Maintenant, on modifie nos hypotheses statistiques par rapport au modele de regression simple

etudie dans le dernier chapitre. On n’impose plus que l’esperance (conditionnelle a la valeur

observee Xi) soit egale a zero. Maintenant, on a :

n∑i=1

(Xi − X

p−→ Cov (u , X) = Corr (u , X)σuσX ,

n∑i=1

(Xi − X

)2 p−→ σ2X .

Donc, par le theoreme de Slutsky (voir la section 5.2 ci-dessous), ce qui nous permet d’etudier

separement les proprietes en grand echantillon du numerateur et du denominateur du deuxieme

terme dans l’expression pour la valeur de notre estimateur β1, on a :

β1p−→ β1 +

Corr (u , X)σuσXσ2X

= β1 + Corr (u , X)σuσX

L’estimateur n’est plus convergent. Il y a un biais, meme asymptotiquement (lorsque le nombre

d’observations tend vers l’infini). Le signe du biais depend du signe de la correlation entre la

variable explicative Xi et le terme d’erreur ui.

Notez que, dans ce cas, les hypotheses de base du modele ne sont pas respectees. La variable

omise, qui est incluse dans le terme d’erreur du modele, est correlee avec la variable explicative

du modele X . Autrement dit, l’hypothese

E (ui|X = Xi) = 0

ne tient plus. Dans le cadre d’une etude empirique, il faut evaluer la plausibilite de cette

hypothese avec les donnees qu’on a. S’il y a une variable dans la banque de donnees qui en

principe pourrait affecter la variable dependante de l’etude et qui risque d’etre correlee avec une

variable qui est incluse comme variable explicative dans le modele, il y a probablement un

probleme de variable omise. 2

Une solution possible est d’inclure les variables omises explicitement comme variables

explicatives additionnelles dans le modele de regression. Le modele de regression simple devient

un modele de regression multiple. Nous verrons dans la section suivante la specification du

modele de regression multiple et les hypotheses standard qui permettront, comme dans le modele

de regression simple, de demontrer certaines proprietes souhaitables de l’estimateur MCO des

coefficients.

2.1 Exemple

Nous pouvons etre encore plus explicites. Supposons que le vrai modele est donne par

Yi = β0 + β1X1i + β2X2i + ui

tandis que le modele estime est

Yi = β0 + β1X1i + ui

ui ≡ β2X2i + ui.

Le terme d’erreur du modele estime incorpore la variable omise X2i avec le vrai terme d’erreur

ui. Nous avons

β1 =1n

∑ni=1

(X1i − X1

) (Yi − Y

∑ni=1

(X1i − X1

)22. Dans des cours plus avances, vous allez apprendre des facons formelles de tester l’absence de correlation entre

les variables explicatives du modele et le terme d’erreur. Voir par exemple McFadden (2002). Sans ces methodologiesavancees, il faut se fier a la logique et a son intuition.

∑ni=1

(X1i − X1

) (β0 + β1X1i + β2X2i + ui − β0 − β1X1 − β2X2 − u

∑ni=1

(X1i − X1

)2= β1

∑ni=1

(X1i − X1

∑ni=1

(X1i − X1

)2 + β2

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

∑ni=1

(X1i − X1

)(ui − u)

∑ni=1

(X1i − X1

)2= β1 + β2

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

)2 +1n

∑ni=1

(X1i − X1

)(ui − u)

∑ni=1

(X1i − X1

Calculant l’esperance de β1, nous obtenons

)= β1 + β2E

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

∑ni=1

(X1i − X1

)E ((ui − u) |X11, X12, . . . , X1n)

∑ni=1

(X1i − X1

= β1 + β2E

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

par la loi des esperances iterees. En general,

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

)2)6= 0.

L’estimateur est biaise, le biais etant donne par la valeur de l’esperance dans l’equation

precedente.

Nous pouvons dire plus que cela, au moins asymptotiquement (lorsque la taille de l’echantillon n

tend vers l’infini). L’expression

n∑i=1

(X1i − X1

) (X2i − X2

)est tout simplement la covariance echantillonnale entre X1 et X2. (C’est different par un facteur

de n/(n− 1) qui est presqu’egal a un si n est grand.) L’expression

n∑i=1

(X1i − X1

)2est tout simplement (ou presque) la variance echantillonnale de X1. Si les deux expressions sont

des estimateurs convergents de leurs equivalents dans la population, nous avons :

n∑i=1

(X1i − X1

) (X2i − X2

) p−→ Cov (X1 , X2)

n∑i=1

(X1i − X1

)2 p−→ Var (X1) .

Par le theoreme de Slutsky (voir la section 5.2 ci-dessous), nous avons

β1p−→ β1 + β2

Cov (X1 , X2)

Var (X1)

La difference entre β1 et sa vraie valeur est approximativement egale a la vraie valeur de β2 fois le

ratio de la covariance entre X1 et X2 et la variance de X2. Si on connaıt au moins le signe de β2

(on pourrait avoir de l’information a priori sur le signe de β2) et de la covariance, on peut predire

le signe de cet ecart. Aussi, nous savons que

Cov (X1 , X2)

Var (X1)

est la valeur (asymptotiquement) du coefficient de pente d’une regression ou X2 est la variable

dependante et X1 est la variable explicative, cela veut dire l’estimation du modele de regression

lineaire simple suivant :

X2i = γ0 + γ1X1i + εi.

Dans cet encadre, j’elabore un peu sur cette interpretation alernative.

Si on remonte un peu en arriere nous constatons que nous pouvons exprimer notre estimateur

β1 comme

β1 = β1 + β2

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

)2 +1n

∑ni=1

(X1i − X1

)(ui − u)

∑ni=1

(X1i − X1

Nous constatons aussi que le terme qui multiplie β2, soit

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

)2ressemble a quelque chose que nous connaissons. Il est egal (presque) a la covariance

echantillonnale entre X1 et X2 divisee par la variance echantillonnale de X1. C’est

exactement ce que l’on obtiendrait si on estimait un modele de regression simple avec X2

comme variable dependante et X1 comme la seule variable explicative (a part la constante).

Autrement dit, avec ce que l’on pourrait appeler le modele � auxiliaire � suivant :

X2i = γ0 + γ1X1i + εi

on obtiendrait l’estimateur MCO suivant :

∑ni=1

(X1i − X1

) (X2i − X2

∑ni=1

(X1i − X1

Nous obtenons donc

β1 = β1 + β2γ1 +1n

∑ni=1

(X1i − X1

)(ui − u)

∑ni=1

(X1i − X1

Ainsi, si

γ1p−→ γ′1

nous avons

β1p−→ β1 + β2γ

On ne peut presumer que l’estimateur γ1 est un estimateur convergent, puisqu’il faudrait faire

des hypotheses statistiques maintenues (notamment concernant l’esperance conditionnelle de

l’erreur εi) afin de pouvoir montrer cette convergence. C’est pourquoi j’ai ecrit γ′1 ici et non

Nous allons montrer une generalisation de ce resultat dans la section (8) ci-dessous, ou X1

pourrait etre un vecteur de plusieurs variables explicatives incluses et X2 pourrait etre un

vecteur de plusieurs variables omises.

3 Modele de regression multiple

A la lumiere de ce que nous venons de montrer que l’omission d’une variable qui est pertinente

pour la prediction de la variable dependante Yi peut mener a un estimateur biaise de l’influence

d’une variable d’interet X1i sur la variable dependante. Donc, si nous voulons estimer son impact

sans biais, il faut en principe inclure toutes les variables qui pourraient aider a predire Yi et qui

sont potentiellement correlees avec X1i. 3 Ceci nous mene au modele de regression multiple.

3.1 Specification

Yi = β0 +X1iβ1 +X2iβ2 + . . .+Xkiβk + ui. (1)

3. Est-il possible d’inclure toutes les variables qui peuvent aider a predire Yi ? La reponse a cette question est� non � pour des raisons que nous allons etudier plus tard. Alors, quelles variables inclure ? Le choix de va-riables a inclure dans un modele de regression multiple peut etre une question tres compliquee. Nous allons voirquelques criteres de selection dans ce chapitre. Voir le videoclip https://www.youtube.com/watch?v=HP3RhjLhRjY pour une discussion qui n’est pas trop technique. Voir aussi https://www.youtube.com/watch?v=kl4RxV37ebk.

Chaque variable explicative porte deux indices inferieurs. Le premier fait reference a son identite.

Le deuxieme fait reference a l’unite d’observation (ou periode dans le cas de series

chronologiques). Cette convention suit la convention du manuel. On suppose un echantillon de n

observations.

3.2 Specification matricielle

Y = Xβ + U,

Y ≡[Y1 Y2 . . . Yn

1 X11 X21 . . . Xk1

1 X12 X22 . . . Xk2

......

... . . . ...

1 X1n X2n . . . Xkn

β ≡[β0 β1 β2 . . . βk

U ≡[u1 u2 . . . un

donc, Y est un vecteur colonne de dimensions n× 1, X est une matrice de dimensions

n× (k + 1), β est un vecteur colonne de dimensions (k + 1)× 1, et U est un vecteur colonne de

dimensions n× 1. Le modele contient une constante β0 et par convention la premiere colonne de

X contient un vecteur de valeurs egales a un.

Notez que la convention concernant les indices inferieurs associes aux variables explicatives du

modele (qui, repetons-le, suit la notation du chapitre 6 du manuel), qui stipule que Xij est la

j-ieme observation de la i-ieme variable explicative, n’est pas strictement conforme avec la

notation conventionnelle de l’algebre lineaire ou des matrices. Soit X une matrice de dimensions

k × l. En algebre lineaire on peut faire reference a un element de la matrice X par le biais

d’indices inferieurs. La convention est que �Xij � est l’element dans l’i-ieme rangee et la j-ieme

colonne. Donc, il s’agit d’un mariage malheureux entre deux notations qui sont incompatibles.

Dans ces notes, la notation Xij fera reference par defaut a la specification du modele dans

l’equation (1). Lorsque je veux utiliser la notation conventionnelle de l’algebre lineaire, je vais

l’ecrire explicitement. 4

Relire le paragraphe precedent. Il est tres important de saisir la difference entre la notation utilisee

par Stock et Watson et la notation matricielle standard.

Pour l’instant, il ne s’agit que de la notation. L’avantage d’introduire cette notation est la

simplification de l’algebre. Nous verrons de quoi il s’agit lors de la derivation de l’estimateur

MCO. 5 Avant de deriver l’estimateur MCO, nous allons nous pencher dans la sous-section

suivante sur les hypotheses statistiques derriere le modele de regression multiple.

3.3 Hypotheses de base du modele

Les hypotheses sont les equivalents des hypotheses de base du modele de regression simple du

chapitre 4.

Voir l’encadre �Key Concept 18.1 � a la page 707 du manuel (version anglaise — la traduction

francaise omet ce chapitre).

1. E (ui|Xi) = 0. Cette hypothese est reliee a la preuve que l’estimateur MCO de β est un

estimateur non biaise.

2. (Xi , Yi) i.i.d. Cette hypothese est reliee a la preuve que l’estimateur MCO de β est un

estimateur convergent.

3. Xi et ui ont des quatriemes moments non nuls et finis. Cette hypothese est aussi reliee a la

preuve que l’estimateur MCO de β est un estimateur convergent. 6

4. Si vous soupconnez qu’il y a des incoherences de notation, je vous prie de bien vouloir me les signaler.5. Toutes les preuves que nous allons voir (absence de biais de l’estimateur MCO, proprietes echantillonnales de

l’estimateur, etc., sont beaucoup plus faciles a montrer en notation matricielle qu’en utilisant des sommations. J’espereque vous allez finir par etre convaincus de ce principe.

6. Cette hypothese reduit l’importance et l’influence d’observations aberrantes, des observations qui sont tres

4. X est de rang plein en colonnes. Cela revient a dire qu’il n’y a pas une colonne de la

matrice X qui peut etre exprimee comme une combinaison lineaire exacte des autres

colonnes de la matrice. Une des consequences de cette hypothese sera que la matrice

(X ′X) (qui est une matrice carree par construction) sera une matrice de rang plein (k+ 1),

et donc il sera possible de calculer son inverse (X ′X)−1. Cet inverse (voir ci-dessous) fait

partie de la definition de l’estimateur MCO de β. Donc, sans cette hypothese, l’estimateur

MCO de β ne sera meme pas bien defini.

5. Var (ui|Xi) = σ2u.

6. La distribution de ui conditionnelle a la valeur de Xi suit une loi normale.

Les quatre premieres hypotheses sont les hypotheses retenues par defaut. Nous n’aurons besoin

des deux dernieres hypotheses que pour des cas speciaux. L’avant derniere hypothese s’applique

seulement dans le cas special d’erreurs homoscedastiques. Si nous sommes prets a supposer des

erreurs homoscedastiques, nous obtiendrons une version plus simple de la matrice de

variance-covariance des estimateurs MCO. Cette simplification correspond a ce que nous avons

vu dans le cadre du modele de regression simple dans le cas homoscedastique. Cette hypothese

correspond aussi au cas ou l’estimateur MCO est l’estimateur lineaire le plus efficient, autrement

dit l’estimateur lineaire non biaise avec la plus petite variance (theoreme Gauss-Markov). Le

terme consacre en anglais est l’estimateur �BLUE � (Best Linear Unbiased Estimator). Avec

l’avant-derniere hypothese plus la derniere concernant la normalite des erreurs, on pourra

effectuer des tests d’hypothese exacts — les statistiques t pour tester des hypotheses simples

auront des distributions t de Student meme en petit echantillon, et les statistiques F de Fisher

pour tester des hypothese jointes (voir plus loin dans le chapitre) auront des distributions F meme

en petit echantillon.

loin de la moyenne (si la moyenne existe).

3.4 Estimateur MCO

Nous voulons choisir les valeurs des elements de β qui minimisent la somme des residus carres.

Pourquoi l’estimateur MCO et non un autre type d’estimateur ? Nous avons deja vu des

justifications pour l’utilisation de la somme des erreurs au carre dans le chapitre sur le modele de

regression simple.

1. L’algebre est relativement simple. Le critere (la fonction a minimiser) est une expression

quadratique (du deuxieme degre), et donc les conditions du premier ordre donnent un

systeme d’equations lineaires. Il est tres facile de resoudre un systeme d’equations

lineaires, soit par substitution soit par le calcul de l’inverse d’une matrice de constantes

(voir ci-dessous).

2. L’autre justification se trouve plus loin, dans la section 7 de ces notes. On peut montrer

que, sous les hypotheses de base du modele et sous l’homoscedasticite des erreurs,

l’estimateur MCO est l’estimateur le plus efficient dans la classe d’estimateurs lineaires

(une fonction lineaire des observations Yi) et non biaises. C’est le theoreme

Gauss-Markov, celebre dans l’histoire de la pensee en statistique et en econometrie.

Comme nous avons vu dans le chapitre sur le modele de regression simple, il y a d’autres

estimateurs possibles a part l’estimateur MCO. Il y en a aussi qui satisfont un ou plusieurs des

criteres souhaitables d’un estimateur (absence de biais, convergence, etc.) meme s’ils sont moins

efficients. Il faut aussi signaler l’existence d’estimateurs qui peuvent etre robustes en presence

d’observations aberrantes. Voir la remarque ci-dessus a propos d’une de nos hypotheses

statistiques de base, l’existence de quatriemes moments finis pour Xi et ui. J’invite ceux qui

s’interessent a poursuivre plus loin ce sujet a consulter l’article �Robust Statistics � sur

Wikipedia.

Le probleme peut s’ecrire comme

minβU ′U.

Simple, non ? Remplacons U par sa definition. Le probleme devient :

(Y −Xβ)′ (Y −Xβ) ,

ce qui est equivalent a :

(Y ′Y − β′X ′Y − Y ′Xβ + β′X ′Xβ) .

Vous devez etre parfaitement a l’aise avec cette multiplication matricielle. On applique les memes

regles que pour la multiplication de scalaires en faisant bien attention a l’orientation (est-ce

qu’elles sont transposees ou non ?) des matrices.

Derivant par rapport a β, nous obtenons :

−X ′Y −X ′Y +X ′Xβ + (X ′X)′β = 0.

Ici, on applique les regles de differenciation matricielle auxquelles nous reviendrons dans la

sous-section suivante. Notez aussi que le � 0 � du cote droit est implicitement un vecteur de

zeros. L’expression du cote gauche est de dimensions (k + 1)× 1 et donc l’expression du cote

droit doit etre conforme. Lorsqu’il n’y a pas d’ambiguıte entre scalaire et vecteur nous allons

utiliser cette notation. Pour denoter explicitement un vecteur de zeros au lieu d’un scalaire

lorsqu’il pourrait y avoir ambiguıte, nous utiliserons 0 ou le nombre de colonnes sera defini selon

le contexte : si nous voulons etre encore plus explicites concernant les dimensions du vecteur

nous allons utiliser 0m pour denoter un vecteur de zeros de dimensions m× 1. Ceci nous donne

X ′Xβ = X ′Y.

Cet ensemble d’equations s’appelle communement les � equations normales � de l’estimation

MCO. Notez qu’il y a (k + 1) equations. Les inconnus sont les valeurs des coefficients, dont il y a

(k + 1). Les equations sont des fonctions lineaires des coefficients. Si la matrice (X ′X) est de

rang plein nous pouvons l’inverser afin d’obtenir

(X ′X)−1X ′Xβ = (X ′X)

−1X ′Y.

En fait, l’hypothese de la possibilite d’inverser la matrice X ′X fait partie des hypotheses de base

du modele de regression multiple. (Voir quand meme la discussion plus loin sur la

multicollinearite parfaite.) Nous avons

(X ′X)−1X ′Xβ = Iβ = β,

ou I est la matrice d’identite de dimensions (k + 1)× (k + 1),

1 0 0 . . . 0

0 1 0 . . . 0

0 0 1 . . . 0

......

... . . . ...

0 0 0 . . . 1

et donc

β ≡ β = (X ′X)−1X ′Y.

J’ai ecrit un chapeau sur β pour indiquer qu’il s’agit de notre estimateur MCO. Simple, non ?

C’est la premiere fois que nous voyons une application de la differentiation de matrices dans le

cours. Ce sera d’ailleurs presque la derniere fois.

3.4.1 Differentiation matricielle

Rappelez-vous la page D-4 du document que je vous ai donne a lire (je donne la reference exacte

encore une fois a la fin de ces notes), specifiquement l’encadre en bas de la page :

y ∂y∂x

Ax A′

x′A A

x′x 2x

x′Ax Ax+ A′x

Etudiez bien la condition du premier ordre pour etre sur a 100% de comprendre comment on

l’obtient en appliquant ces regles. Notez bien aussi que, pour les fins de notre differentiation, il y

a une fonction (la somme des residus carres) de k + 1 variables explicatives qui sont les elements

de β.

Notez bien que le calcul de β implique l’inversion d’une matrice de dimensions

(k + 1)× (k + 1). Dans le cas general (ou k > 3), nous savons que nous ne pouvons pas obtenir

une expression algebrique pour cette matrice inversee. Resoudre ce probleme equivaut (ou

presque) a trouver les racines d’un polynome d’ordre k + 1, et il y a un theoreme qui dit ceci est

impossible en general (algebriquement) pour des polynomes d’ordre 5 et plus. La solution

algebrique pour un polynome d’ordre 4 s’etale sur plusieurs pages, et elle n’est pas d’une grande

utilite pratique. Si nous voulions ecrire la solution pour β avec k > 3 avec une notation de

sommations, ca serait plus qu’affreux, ca serait carrement impossible. Il y a des moyens de

contourner ce probleme, mais ce sont des moyens qui datent d’avant l’epoque d’ordinateurs

personnels puissants. De nos jours, nous pouvons toujours demander a l’ordinateur d’inverser nos

matrices (X ′X), utilisant des algorithmes numeriques puissants et efficaces.

3.4.2 Quelques exemples simples des regles de differentiation

Pour illustrer le fonctionnement de ces regles de differentiation, prenons quelques exemples

concrets tres simples. D’abord, supposons que

[A1 A2

= A1x1 + A2x2.

La fonction y dans ce cas-ci est une seule fonction (un scalaire donc). Il y a deux arguments de la

fonction (x1 et x2) et donc deux derivees partielles distinctes. Par convention, on ecrit les derivees

partielles en colonne :

∂x≡

∂y∂x1

∂y∂x2.

Nous constatons que

∂x1= A1

et∂y

∂x2= A2.

= A′,

ce qui est conforme a la premiere regle du tableau ci-dessus.

Maintenant, supposons que

A11 A12

A21 A22

A11x1 + A12x2

A21x1 + A22x2

≡ y1

Maintenant, y est composee de deux fonctions, definies par les deux rangees de l’expression

ci-dessus. Il y a deux fonctions avec deux arguments chacune (x1 et x2), et donc on a un total de

quatre derivees partielles. Nous avons∂y1∂x1

= A11,

∂y1∂x2

= A12,

∂y2∂x1

= A21,

et∂y2∂x2

= A22.

Par convention, on ecrit ces quatre derivees en notation matricielle comme

∂y1∂x1

∂y2∂x1

∂y1∂x2

∂y2∂x2

.Donc, la convention revient a aligner toutes les derivees de la meme fonction dans la meme

colonne, et toutes les derivees par rapport au meme argument dans la meme rangee. Dans notre

cas, nous avons ∂y1∂x1

∂y2∂x1

∂y1∂x2

∂y2∂x2

A11 A21

A12 A22

= A′,

et encore une fois la premiere regle du tableau est respectee.

Maintenant, supposons que

[x1 x2

] A11 A12

A21 A22

[x1A11 + x2A21 x1A12 + x2A22

= A11x1

2 + A21x1x2 + A12x1x2 + A22x22.

Cette fois-ci la fonction y est scalaire. Il y a deux derivees partielles possibles. Nous avons

∂x1= 2A11x1 + A21x2 + A12x2

et∂y

∂x2= 2A22x2 + A21x1 + A12x1.

Ecrivant ces resultats en notation matricielle nous avons ∂y∂x1

∂y∂x2

A11A12

A21A22

A11A21

A12A22

= Ax+ A′x,

ce qui est conforme a la quatrieme regle du tableau (il est important de verifier ceci).

Pour des cas plus compliques (plusieurs fonctions, plusieurs arguments), les expressions non

matricielles peuvent devenir assez longues et assez compliquees. Ces regles de differentiation

matricielle permettent de tenir compte automatiquement et systematiquement (sans oublier des

termes !) de toutes les derivees partielles possibles. Elles permettent aussi d’ecrire toutes les

derivees partielles dans une notation tres compacte.

3.5 Approche non matricielle au probleme de minimisation

Nous pouvons facilement verifier qu’une approche non matricielle au probleme de minimisation

mene a exactement les memes resultats que l’approche matricielle, comme il se doit. C’est le but

de cette sous-section des notes.

Nous avons vu que le modele de regression multiple peut s’ecrire en notation non matricielle

comme suit :

Yi = β0 +X1iβ1 +X2iβ2 + . . .+Xkiβk + ui.

On veut minimiser la somme des residus au carre. Le probleme peut s’ecrire comme suit :

minβ0,β1,...,βk

n∑i=1

(Yi − β0 −X1iβ1 −X2iβ2 − . . .−Xkiβk)2 .

Les conditions du premier ordre pour minimiser cette fonction sont les suivantes (bien sur, il y a

k + 1 conditions dur premier ordre puisqu’il y a k + 1 variables de choix pour minimiser notre

fonction (la somme des residus au carre) :

β0 : 0 = −2n∑i=1

(Yi − β0 −X1iβ1 − . . .−Xkiβk) ;

β1 : 0 = −2n∑i=1

X1i (Yi − β0 −X1iβ1 − . . .−Xkiβk) ;

β2 : 0 = −2n∑i=1

X2i (Yi − β0 −X1iβ1 − . . .−Xkiβk) ;

βk : 0 = −2n∑i=1

Xki (Yi − β0 −X1iβ1 − . . .−Xkiβk) .

Il s’agit d’un systeme de k + 1 equations en k + 1 inconnus (les βs). S’il n’y a pas de dependance

lineaire exacte entre les k + 1 equations (cette condition est l’equivalent non matriciel a notre

hypothese concernant le rang de la matrice X), il y a une solution unique pour les inconnus. Nous

pouvons reecrire le systeme comme suit :

n∑i=1

Yi =n∑i=1

(β0 +X1iβ1 + . . .+Xkiβk) ;

n∑i=1

X1iYi =n∑i=1

X1i (β0 +X1iβ1 + . . .+Xkiβk) ;

n∑i=1

X2iYi =n∑i=1

X2i (β0 +X1iβ1 + . . .+Xkiβk) ;

n∑i=1

XkiYi =n∑i=1

Xki (β0 +X1iβ1 + . . .+Xkiβk) .

Nous pouvons maintenant convertir ses equations en notation matricielle :

[1 . . . 1

]Y1...

[1 . . . 1

[X11 . . . X1n

]Y1...

[X11 . . . X1n

[Xk1 . . . Xkn

]Y1...

[Xk1 . . . Xkn

ou j’ai ecrit un chapeau sur β pour indiquer qu’il s’agit d’un systeme d’equations dont la solution

nous donne nos estimateurs moindres carres ordinaires. Soyez sur de comprendre ce passage a la

notation matricielle. Maintenant, en empilant les k + 1 equations les unes pardessus les autres,

nous avons tout de suite

1 . . . 1

X11 . . . X1n

X21 . . . X2n

......

Xk1 . . . Xkn

1 . . . 1

X11 . . . X1n

X21 . . . X2n

......

Xk1 . . . Xkn

⇒ X ′Y = X ′Xβ

⇒ β = (X ′X)−1X ′Y.

Nous retrouvons la meme solution en notation matricielle (ce qui n’est point surprenant).

4 Proprietes algebriques de l’estimateur MCO

Comme dans le chapitre 4, nous allons montrer que l’estimateur a des proprietes algebriques qui

doivent tenir independamment des hypotheses statistiques concernant les variables (explicatives

et dependante) du modele. Ces proprietes doivent tenir pour n’importe quel echantillon de

donnees Nous utiliserons les resultats de cette section par la suite pour deriver certaines des

proprietes statistiques de l’estimateur MCO.

4.1 Orthogonalite

Nous avons, directement a partir des CPOs (ou a partir de la CPO matricielle),

X ′Xβ = X ′Y

⇒ X ′(Xβ − Y

⇒ X ′(Y −Xβ

Entre parentheses, nous avons un vecteur de dimensions n× 1 qui nous donne les residus de la

regression (variable dependante moins la valeur predite de la variable dependante donnee par

X ′β). Autrement dit,

Y −Xβ ≡ U .

Donc, nous avons :

X ′U = 0,

ou U est le vecteur de residus de la regression. Les residus sont orthogonaux aux variables

explicatives. Par definition, deux vecteurs Z1 et Z2 de dimensions n× 1 sont orthogonaux si et

seulement si

Z1′Z2 = 0

Cela veut dire que chaque variable explicative (chaque colonne de la matrice X) est orthogonale

aux residus de la regression. Ce resultat est une generalisation du resultat dans le chapitre sur la

regression simple de l’orthogonalite entre la seule variable explicative (a part la constante) et les

residus. C’est une generalisation, mais la preuve est beaucoup plus succincte que celle qu’on a

vue dans le chapitre sur la regression simple. Encore un avantage de la notation matricielle.

Nous avons vu dans le chapitre sur le modele de regression simple que l’orthogonalite est reliee a

l’interpretation geometrique de la methode de MCO. Estimer un modele par MCO revient a

projeter la variable dependante dans l’espace traverse par la variable explicative (ou les variables

explicatives dans le cas de la regression multiple). La Figure 1 ci-dessous reprend le graphique

que nous avons vu dans le chapitre precedent. C’est donc pour le cas ou il y a deux variables

explicatives. La ligne de regression est considere comme un vecteur. La ligne pointillee sur le

graphique est un vecteur dont la longueur egale la valeur de ui a ce point. Il forme un angle droit

par rapport a la ligne de regression, d’ou le terme � orthogonal �. 7

Figure 17. Pour plus de details voir Davidson et MacKinnon (1999) et Kachapova et Kachapova (2010). Les references

detaillees sont dans le chapitre de references.

4.2 Somme des residus

Notez que, par convention, la premiere colonne de X represente la constante et donc contient un

vecteur de valeurs egales a un. Si nous denotons cette premiere colonne par X1 (notez que nous

utilisons ici une notation d’algebre lineaire), nous avons tout de suite

X1′U = 1′U =

n∑i=1

ui = 0.

Une preuve sur une seule ligne !

Donc, la somme des residus est egale a zero, comme dans le modele de regression simple. Notez

que ce resultat decoule directement du resultat concernant l’orthogonalite.

4.3 Valeurs predites

Definissons

Y ≡ Xβ,

le vecteur de valeurs predites de la variable dependante. Nous avons

Y ′U =(X (X ′X)

−1X ′Y

= Y ′X (X ′X)−1X ′U = 0.

Les valeurs predites de la variable dependante sont orthogonales aux residus.

Finalement, nous avons

X ′(Y − Y

)= X ′

(X (X ′X)

−1X ′Y − Y

)= X ′X (X ′X)

−1X ′Y −X ′Y = X ′Y −X ′Y = 0.

Puisque la premiere colonne de X est un vecteur de valeurs unitaires, une consequence directe de

ce resultat est que la moyenne echantillonnale des valeurs predites est egale a la moyenne

echantillonnale de la variable dependante elle-meme. Autrement dit :

n∑i=1

Y ≡ Y ,

un resultat semblable a ce que nous avons vu dans le chapitre sur la regression simple.

4.4 Ecart type de la regression

On definit

SER ≡ su,

s2u ≡1

n− k − 1

n∑i=1

u2i =SSR

n− k − 1,

et donc SSR est la somme des residus au carre. On divise par (n− k − 1) afin d’obtenir un estime

non biaise de la variance de l’erreur dans l’equation de regression lorsque celle-ci est constante. 8

Je sais que j’insiste beaucoup la-dessus, mais les demonstrations algebriques dans cette section

sont beaucoup plus courtes que leurs equivalents dans le chapitre precedent. C’est dans ce sens

que je dis que l’utilisation de la notation matricielle dans le contexte du modele de regression

multiple simplifie enormement l’analyse. S’il fallait deriver les memes proprietes sans avoir

recours aux matrices, les demonstrations s’etaleraient sur plusieurs pages.

8. Ici on suppose implicitement des erreurs homoscedastiques, ou a variance constante. Sinon il n’est pas logiquede parler de � la � variance de l’erreur.

4.5 Mesures d’ajustement statistique

4.5.1 Le R2

La mesure R2 est definie de la meme facon que dans le cas du modele de regression simple :

R2 =ESSTSS

= 1− SSRTSS

ou on definit

ESS ≡n∑i=1

(Yi − Y

ou Y est la moyenne echantillonnale des Yi, et

TSS ≡n∑i=1

(Yi − Y

)2Nous avons suppose implicitement ici que

TSS = SSR + ESS.

En fait, il faut demontrer ce resultat, comme nous avons fait dans le chapitre sur le modele de

regression simple. Nous avons

Y ′Y =(Xβ + U

)′ (Xβ + U

= β′X ′Xβ + β′X ′U + U ′Xβ + U ′U

= β′X ′Xβ + U ′U

≡ Y ′Y + U ′U = Y ′Y + SSR.

Nous avons utilise pour passer a l’avant derniere ligne de cette sequence d’equations le resultat

que X ′U = 0. Nous avons presque montre le resultat voulu en quatre lignes, mais nous avons

TSS ≡ (Y − Y)′(Y − Y)

= Y ′Y − Y′Y − Y ′Y + Y′Y

ou Y est un vecteur de constantes avec chaque valeur egale a Y , et nous avons

ESS ≡(Y − Y

)′ (Y − Y

Y ′Y − Y′Y − Y ′Y + Y′Y.

Donc, nous devons montrer que

Y′Y = Y′Y

⇐⇒ Yn∑i=1

Yi = Yn∑i=1

⇐⇒ 1

n∑i=1

Yi = Y ,

ce qui doit etre le cas puisque nous avons montre parmi les proprietes algebriques de l’estimateur

MCO que la moyenne echantillonnale des valeurs predites de la variable dependante doit etre

egale a la moyenne echantillonnale de la variable dependante elle-meme. Donc, nous venons de

montrer que

TSS = ESS + SSR.

Sachant que Y ≡ Y + U , une facon plus succincte de le faire est comme suit :

TSS = (Y − Y)′(Y − Y)

=(Y + U − Y

)′ (Y + U − Y

=((Y − Y

)′ ((Y − Y

)=(Y − Y

)′ (Y − Y

)+(Y − Y

)′U + U ′

(Y − Y

)+ U ′U

=(Y − Y

)′ (Y − Y

)+ U ′U

≡ ESS + SSR,

puisque nous avons montre auparavant que Y ′U = 0 et

Y′U =n∑i=1

Y Ui = Yn∑i=1

Ui = 0.

Dans le chapitre sur le modele de regression simple, nous avons appris que l’ajustement

statistique R2 etait egal au coefficient de correlation (echantillonalle) au carre entre la variable

dependante et la (seule) variable explicative. Il y a un resultat semblable pour le modele de

regression multiple. Nous pouvons montrer que le R2 est egale au coefficient de correlation

(echantillonnale) au carre entre Y et Y , le vecteur de valeurs predites de la variable

dependante.

La preuve de ce resultat est facile, mais il faut introduire un peu de notation pour la rendre

plus succincte. (Pour plus d’explications, voir le 3e chapitre du livre de Greene, 2011.) Soit i

le vecteur colonne ou chaque element est egal a un. La longueur du vecteur (nombre de

rangees) dependra du contexte. Definissons

M0 ≡(I − i (i′i)

−1i′).

Si on premultiplie un vecteur quelconque Y par M0 la multiplication aura pour effet de

soustraire la moyenne Y de chaque element du vecteur Y . Nous avons

M0Y =(I − i (i′i)

−1i′)Y

= Y − i (i′i)−1i′Y

= Y − i 1n

n∑i=1

= Y − iY ≡ Y − Y,

puisque (i′i)−1 = 1n

et i′Y =∑n

i=1 Yi. Il est aussi facile de montrer que

M0′ = M0

M0M0 = M0.

Une matrice qui a ces proprietes est appelee une matrice � idempotente �. De cette facon,

nous pouvons redefinir le R2 comme

R2 ≡ ESS

(Y − Y

)′ (Y − Y

)(Y − Y)

′(Y − Y)

=Y ′M0Y

Y ′M0Y.

Nous avons aussi

M0U = U

puisque la somme des residus est zero. Donc, nous avons

Y ′M0Y = Y ′M0(Y − U

= Y ′M0Y − Y ′M0U

= Y ′M0Y − Y ′U

= Y ′M0Y − β′X ′U

(puisque Y ≡ Xβ)

= Y ′M0Y − 0 = Y M0Y

puisque X ′U = 0 (orthogonalite entre les variables expicatives et les residus).

Nous pouvons donc ecrire le R2 comme

R2 =Y ′M0Y

Y ′M0Y

=Y ′M0Y

Y ′M0Y

(multipliant numerateur et denominateur par la meme chose)

(Y ′M0Y

)(Y ′M0Y

)(Y ′M0Y )

(Y ′M0Y

)(Y ′M0Y

)(Y ′M0Y )

(Y ′M0Y

) .On peut reecrire ceci en notation non matricielle pour obtenir

(Y ′M0Y

)(Y ′M0Y

)(Y ′M0Y )

(Y ′M0Y

(Y ′M0M0Y

)(Y ′M0M0Y

)(Y ′M0M0Y )

(Y ′M0M0Y

(∑ni=1

(Yi − Y

) (Yi − Y

))2(∑n

(Yi − Y

)2)(∑ni=1

(Yi − Y

n−1∑n

(Yi − Y

) (Yi − Y

1n−1

∑ni=1

(Yi − Y

)2)( 1n−1

∑ni=1

(Yi − Y

1n−1

∑ni=1

(Yi − Y

) (Yi − Y

1n−1

∑ni=1

(Yi − Y

)2√ 1n−1

∑ni=1

(Yi − Y

Corr(Y, Y

Ceci permet de reinterpreter notre mesure d’ajustement statistique. Dans un contexte de

prevision, le R2 nous dit a quel point le modele de regression permet de predire les variations

de la variable dependante autour de sa moyenne, mesure par la correlation entre les valeurs

predites et les valeurs realisees.

Notez aussi que ce resultat ne depend pas du nombre de colonnes dans X . Il s’applique aussi

bien au modele de regression simple qu’au modele de regression multiple. Dans le cas du

modele de regression simple, nous avons

(Yi − Y

)=(Xi − X

ou maintenant Xi est un scalaire. Nous avons tout de suite

1n−1

∑ni=1

(Yi − Y

) (Yi − Y

1n−1

∑ni=1

(Yi − Y

)2√ 1n−1

∑ni=1

(Yi − Y

1n−1

∑ni=1

((Xi − X

) (Yi − Y

1n−1

∑ni=1

(Yi − Y

)2√ 1n−1

∑ni=1

((Xi − X

1n−1

∑ni=1

((Xi − X

)) (Yi − Y

n−1∑n

(Yi − Y

)2√ 1n−1

∑ni=1

(Xi − X

≡(Corr (Y,X)

On voit que le resultat trouve dans le chapitre sur le modele de regression simple n’est qu’un

cas special du resultat general developpe ici.

4.5.2 Le R2 ajuste

On peut facilement montrer mathematiquement que le fait de rajouter une variable explicative

additionnelle a un modele de regression multiple ne peut que faire augmenter son R2. Si vous etes

a l’aise avec les principes de base de l’optimisation sous contrainte, ce resultat est evident.

L’estimateur MCO est la solution a un probleme de minimisation. Si on minimise la somme des

residus carres sujet a la contrainte qu’un des coefficients est egal a zero (on enleve la variable du

modele), et puis on minimise la somme des residus carres en ne pas imposant cette contrainte, la

somme des residus carres doit etre au moins aussi petite dans le dernier cas, puisque nous

relachons une des contraintes du probleme de minimisation.

De cette facon, nous pouvons toujours � ameliorer � l’ajustement statistique d’une regression en

ajoutant des variables explicatives. En fait, si nous avons autant de variables explicatives que

d’observations ((k + 1) = n), il est possible d’atteindre un ajustement statistique � parfait �. Il

faudrait trouver la solution a

0 = U = Y −Xβ

⇒ Y = Xβ.

Nous avons n equations et n inconnus. Dans la mesure ou X est de rang plein (rang n), nous

β = X−1Y.

Donc, un R2 eleve n’est pas toujours et partout une bonne chose.

Puisque l’ajustement mesure par le R2 ne peut qu’augmenter quand on ajoute des variables

explicatives, il serait bien d’avoir une autre mesure qui penalise la mesure par un facteur

lorsqu’on ajoute des variables explicatives. Le R2 ajuste, denote par R2 est une telle mesure.

Voici sa definition :

R2 ≡ 1− n− 1

n− k − 1

SSRTSS

= 1− s2us2Y.

On peut souligner trois proprietes du R2.

1. Puisque n−1n−k−1 > 1, on sait que R2 < R2.

2. Le fait d’ajouter une variable explicative supplementaire a deux effets sur R2. D’une part,

la somme des residus carres SSR doit baisser, ce qui fait augmenter R2. D’autre part, le

facteur n−1n−k−1 augmente, ce qui fait diminuer R2.

3. Il est possible que R2 soit negatif.

La penalite pour l’ajout d’une variable explicative additionnelle peut sembler arbitraire. Par

contre, on peut montrer que la mesure R2 est reliee au concept de tests d’hypothese. Voir

Edwards (1969) ou Giles (2013b). Je presente dans cet encadre la preuve telle que presentee

par Giles. Je suggere de revenir en arriere pour relire cet encadre une fois que vous aurez lu la

section (9) sur les tests d’hypothese, puisqu’il s’agit ici de tester une hypothese jointe, un

sujet que nous n’avons pas encore couvert.

Considerez le modele de regression lineaire donne par

Y = Xβ + U.

Nous avons, comme d’habitude,

U ≡ Y −Xβ.

Nous avons aussi

R2 ≡ 1− SSR

TSS= 1− U ′U(

Y − Y)′ (

Y − Y)

R2 ≡ 1− SSR/(n− k − 1)

TSS/(n− 1)= 1− U ′U/(n− k − 1)(

Y − Y)′ (

Y − Y)/(n− 1)

Considerez maintenant le modele ou on laisse tomber j des variables explicatives du modele

initial. (Notez qu’au lieu de raisonner en termes de l’ajout de variables explicatives, nous

raisonnons en termes de ce qui arrive si on laisse tomber des variables explicatives.) Appelons

la mesure d’ajustement statistique de ce nouveau modele R2r ou l’indice inferieur est cense

faire penser a � restreint �. Nous avons

R2r ≡ 1− SSRr

TSS= 1− U ′rUr(

Y − Y)′ (

Y − Y)

R2r ≡ 1− SSRr/(n− k − 1 + j)

TSS/(n− 1)= 1− U ′rUr/(n− k − 1 + j)(

Y − Y)′ (

Y − Y)/(n− 1)

ou Ur est le vecteur de residus du modele contraint ou nous laissons tomber j des variables

explicatives et SSRr est la somme des residus au carre de ce modele contraint. Nous avons

maintenantR2

=1− SSR/(n−k−1)

TSS/(n−1)

1− SSRr/(n−k−1+j)TSS/(n−1)

=TSS/(n− 1)− SSR/(n− k − 1)

TSS/(n− 1)− SSRr/(n− k − 1 + j).

Nous pouvons voir tout de suite que R2 > R2r si

TSS/(n− 1)− SSR/(n− k − 1) > TSS/(n− 1)− SSRr/(n− k − 1 + j)

⇒ SSRr/(n− k − 1 + j) > SSR/(n− k − 1)

⇒ SSR(n− k − 1 + j) < SSRr(n− k − 1)

⇒ SSR(n− k − 1) + SSRj < SSRr(n− k − 1)

⇒ SSRr > SSR + SSRj/(n− k − 1)

⇒ (SSRr − SSR) /j > SSR/(n− k − 1)

⇒ (SSRr − SSR) /j

SSR/(n− k − 1)> 1.

Le bras gauche de cette derniere inegalite est a comparer avec la stastique F pour tester j

restrictions lineaires dans le cas d’erreurs homoscedastiques dans la sous-section 9.8.

(Nous n’avons pas encore introduit le concept de tester des hypotheses jointes : il fera l’objet

de la section 9).

Donc, le R2 va augmenter avec l’ajout de j variables explicatives si la statistique F pour

tester leur significativite a une valeur superieure a un. Ceci n’est pas un critere tres restrictif.

Comment peut-on savoir que ce n’est pas un critere tres restrictif ? Par exemple, pour la

distribution F avec 3 et 1000 degres de liberte, la fonction de distribution cumulee evaluee a

Fact = 1 est egale a 0.462. Donc, si on ajoute 3 variables a un modele de regression (estime

avec un echantillon d’un peu plus de 1000 observations) qui, par construction n’aident pas a

predire la variable dependante, on va rejeter l’hypothese nulle de la non-significativite de ces

trois variables plus que la moitie du temps (avec une probabilite de 1− 0.462 = 0.538) meme

si on sait qu’elle est vraie.

On montre dans la section 9 sur les tests d’hypothese que dans le cas d’une seule restriction

(j = 1), la statistique F est egale au carre de la statistique t. Donc, lorsqu’on ajoute une seule

variable explicative a un modele de regression, le R2 va augmenter si la statistique t pour

tester sa significativite a une valeur absolue superieure a un. Pour une variable aleatoire qui

suit une loi normale centree reduite, la probabilite d’obtenir une valeur superieure a un en

valeur absolue est approximativement egale a 32%. Donc, l’ajout d’une variable au modele de

regression fait augmenter le R2 si le taux de significativite marginale pour un test de sa

significativite est egal a 0.32 ou moins, ce qui n’est pas un critere tres conservateur ou tres

exigeant.

5 Proprietes statistiques de l’estimateur MCO

5.1 Proprietes statistiques : absence de biais

Toutes les proprietes (algebriques) de l’estimateur MCO que nous avons montrees jusqu’a

maintenant tiennent independamment des hypotheses statistiques de la section 3.3. La seule

hypothese que nous avons utilise pour deriver les proprietes algebriques est celle du rang plein en

colonnes de X et donc de la possibilite de calculer (X ′X)−1.

Pour montrer l’absence de biais, nous utilisons la strategie habituelle. Nous remplacons Y dans la

definition de l’estimateur par sa definition (Xβ + U ), nous simplifions, et finalement nous

calculons la valeur esperee de l’estimateur en utilisant la loi des esperances iterees.

Nous avons :

β = (X ′X)−1X ′Y

= (X ′X)−1X ′(Xβ + U)

= β + (X ′X)−1X ′U

→ E(β)

= β + E((X ′X)−1X ′U

)= β + E

(E((X ′X)−1X ′U |X

))= β + E

((X ′X)−1X ′E (U |X)

)= β.

L’avant-derniere egalite depend de la loi des esperances iterees.

Je ne sais pas si vous etes d’accord, mais je crois que la demonstration de l’absence de biais dans

le cas du modele de regression multiple est beaucoup plus simple que dans le cas du modele de

regression simple, a cause de l’utilisation de la notation matricielle. La preuve s’ecrit sur quelques

lignes seulement est elle est assez transparente.

5.2 Petite note : theoreme de Slutsky

Pour deriver la convergence de l’estimateur β et pour deriver sa distribution en grand echantillon,

nous allons devoir faire appel au theoreme de Slutsky.

L’enonce du theoreme se trouve dans le manuel a la page 685. Il est utile, sinon tres utile, sinon

archi utile. Il dit essentiellement que si une variable aleatoire converge en probabilite a quelque

chose, une fonction continue de la variable aleatoire converge a la meme fonction de ce a quoi

converge la variable aleatoire.

Un enonce un peu plus general du theoreme se trouve a Wikipedia (� Slutsky’s Theorem �). Il dit

que si

Xnp−→ X,

h (Xn)p−→ h(X),

ou h(·) est une fonction quelconque (pas tout a fait quelconque, puisqu’il faut imposer certaines

restrictions techniques, quant a la continuite par exemple). Les conditions qui doivent tenir pour

que le theoreme tienne sont explicitees dans l’article chez Wikipedia.

Pourquoi est-ce que ce theoreme est si utile ? Si on veut analyser le comportement en grand

echantillon d’un estimateur, on peut analyser le comportement de ses composantes, sachant que

(sous certaines conditions techniques) si les composantes convergent en probabilite a quelque

chose, et si l’estimateur est une fonction des composantes, l’estimateur converge en probabilite a

cette fonction. De facon informelle, si

Zn = f (Xn, Yn) ,

et si Xnp−→ X et Yn

p−→ Y , alors

Znp−→ f(X, Y ).

Voir l’equation (17.9) du manuel (version anglaise) pour un enonce un peu plus general. Si

anp−→ a ou a est une constante et si Sn

d−→ S, alors

an + Snd−→ a+ S,

anSnd−→ aS,

et si a 6= 0,Snan

d−→ S

Le fait de pouvoir travailler avec des morceaux individuels de nos estimateurs nous facilite

grandement la vie. Notez que la manipulation algebrique des limites de probabilite est beaucoup

plus simple que la manipulation algebrique des esperances. Nous savons qu’en general,

E (XY ) 6= E(X)E(Y ),

sauf dans le cas de variables aleatoires independantes, et nous savons aussi qu’en general

Ef (X) 6= f (E(X)) ,

sauf dans le cas ou f est une fonction lineaire (le cas du fameux encadre 2.3 qui nous dit entre

autres que l’esperance d’une fonction lineaire de variables aleatoires est egale a la fonction

lineaire des esperances des variables aleatoires).

5.3 Proprietes statistiques : convergence

β = (X ′X)−1X ′Y

= (X ′X)−1X ′(Xβ + U)

= β + (X ′X)−1X ′U

→(β − β

((X ′X)

)−1((X ′U)

)Nous avons divise et multiplie par le scalaire n afin de pouvoir parler de convergence en

probabilite. (X′X)n

est une matrice dont l’element i, j est donne par

Xi′Xj

n∑l=1

Xi−1,lXj−1,l.

Du cote gauche on utilise la notation matricielle standard. Du cote droit, on utilise la notation du

manuel pour le modele de regression multiple. Notez encore une fois l’inversion des indices

inferieurs entre la notation matricielle standard et la notation du modele de regression multiple

utilise dans le livre. Dans l’ieme colonne de la matrice, on retrouve les observations sur la

variable explicative i− 1. Par une des hypotheses du modele de regression multiple, nous avons

limn→∞

Xi′Xj

n= E (Xi

′Xj) .

Ceci veut dire qu’il y a convergence en probabilite vers l’esperance de Xi′Xj . Donc, (X′X)

converge en probabilite a Qx, qui est definie comme

Qx ≡ E(X ′X

C’est donc une matrice des deuxiemes moments des variables explicatives. Notez que ce n’est pas

une matrice variance-covariance des variables explicatives puisque nous ne soustrayons pas les

moyennes. 9 Une des hypotheses du modele est que la matrice (X ′X) est inversible (absence de

multicollinearite complete). Si c’est le cas, X ′X satisfait les conditions du theoreme de Slutsky, et

donc la limite de probabilite de l’inverse de la matrice est l’inverse de la limite de probabilite.

9. Comme nous avons vu dans le chapitre de rappel sur la theorie des probabilites, nous pouvons en general faireune distinction entre l’enieme moment brut d’une variable aleatoire Y donne par E (Y n) et l’enieme moment centredonne par E ((Y − E(Y ))

n). Revoir le chapitre sur la theorie des probabilites pour un rappel. La covariance entre deux

variables aleatoires X et Y , E ((Y − E(Y )) (X − E(X))), est donc un moment centre, et notre Qx est un momentbrut.

Donc, le premier terme converge en probabilite a

(Qx)−1

Le deuxieme terme converge en probabilite a zero. Je ne vais pas faire la preuve formelle de cet

enonce. Par contre, nous avons deja vu que son esperance est nulle :

(X ′U)

((X ′E (U |X))

Sa variance est donnee par

(X ′U)

Var (X ′U) .

Il s’agit de la variance d’un vecteur de dimensions (k + 1)× 1. Si on considere l’ieme colonne de

la matrice X , nous avons

nXi′U

Var (Xi′U)

(n∑l=1

Xi−1,lUl

)2 n∑l=1

Var (Xi−1,lUl) .

Definissons Xi−1,lUl ≡ Vi,l. Nous avons

nXi′U

)2 n∑l=1

Var (Vi,l)

nVar (Vi)

)Var (Vi) .

Nous avons fait des hypotheses de quatrieme moments finis et d’observations i.i.d., et donc la

variance Var (Vi) est finie et constante. Nous avons

limn→∞

nVar (Vi)

Avec une esperance de zero et une variance qui tend vers zero, on a (presque) la preuve de la

convergence :(X ′U)

p−→ 0.

Les hypotheses du theoreme de Slutsky sont satisfaites, donc la limite de probabilite du produit

est le produit des limites de probabilite. Donc, nous avons :

(β − β

)p−→ 0.

Interpretation alternative de l’estimateur MCO

Nous avons maintenant etudie la convergence en probabilite de l’estimateur MCO, ce qui

nous permet de mentionner une autre interpretation possible de l’estimateur. Je vous

encourage fortement a lire cet encadre et meme a retenir les etapes algebriques, qui sont

extremement simples.

Nous savons que nous pouvons ecrire le modele de regression multiple comme

Y = Xβ + U.

Nous pouvons premultiplier les deux membres de l’equation par X ′ pour obtenir

X ′Y = X ′Xβ +X ′U.

Maintenant, laissons tomber le dernier terme X ′U et remplacons tout de suite β par β pour

obtenir

X ′Y = X ′Xβ.

Premultipliant l’equation par (X ′X)−1 nous obtenons

β = (X ′X)−1X ′Y

Il faut avouer que ceci est une derivation ultra simple de l’estimateur. Quelle est la

justification de proceder ainsi ? Nous avons tout de suite que

X ′X(β − β

)= X ′Y −X ′Y +X ′U = X ′U.

Avec les hypotheses statistiques que nous faisons nous avons

nX ′U

p−→ 0

et donc1

nX ′X

(β − β

)p−→ 0

⇒(β − β

)p−→ 0.

Avec nos hypotheses de base nous avons, en quelques lignes seulement, la derivation de

l’estimateur MCO (sans meme resoudre un probleme de minimisation !) et une demonstration

de sa convergence.

Cette logique va aussi nous permettre de deriver facilement l’estimateur IV (variables

instrumentales) vers la fin du cours et vers la fin du chapitre sur les tests diagnostics.

Encore une interpretation alternative

Parmi nos hypotheses statistiques de base nous avons celle concernant la moyenne

conditionnelle du terme d’erreur :

E (U |X) = 0.

Par la loi des esperances iterees nous avons

E (U) = E (E (U |X)) = 0

E (X ′U) = E (E (X ′U |X)) = E (X ′E (U |X)) = 0.

Pour cette raison nous avons

Cov (X,U) = E (X ′U)− E (X ′) E (U) = 0.

Donc, nous avons

E (X ′Y ) = E (X ′ (Xβ + U))

= E (X ′Xβ) + E (X ′U) = E (X ′X) β

⇒ β = (E (X ′X))−1 E (X ′Y )

Les vraies valeurs des β doivent etre egales a cette fonction de matrices d’esperances

(moments). Ceci suggere que l’on pourrait trouver un estimateur convergent de β en

remplacant les esperances (moments) dans la population par leurs equivalents

echantillonnaux :

βIV ≡(

n− 1(X ′X)

)−1(1

n− 1(X ′Y )

)= (X ′X)

−1X ′Y.

Donc, selon cette interpretation, l’estimateur IV est un estimateur ou on estime des moments

dans la population par leurs equivalents echantillonnaux. En fait, c’est un exemple d’un

estimateur dans la classe d’estimateurs par la methode des moments.

5.4 Petite note sur les covariances en notation matricielle

En guise de preparation pour la sous-section suivante, on va se pencher dans cette sous-section

sur comment ecrire des covariances en notation matricielle. Prenons un vecteur de k variables

aleatoires Y de dimensions k × 1. Nous pouvons ecrire les esperances de toutes les variables

aleatoires en notation matricielle tout simplement comme :

E(Y ).

Considerons maintenant la matrice suivante :

(Y − E(Y )) (Y − E(Y ))′ .

Cette matrice est de dimensions k × k. L’element dans l’i-ieme rangee et la j-ieme colonne de

cette matrice est :

(Yi − E (Yi)) (Yj − E (Yj)) .

Par definition,

E ((Yi − E (Yi)) (Yj − E (Yj)))

nous donne la covariance entre les variables aleatoires Yi et Yj . Dans le cas ou i = j, nous avons

par definition la variance de Yi.

Donc, la matrice suivante :

E((Y − E(Y )) (Y − E(Y ))′

est une matrice qui contient toutes les variances des variables aleatoires dans Y (le long de la

diagonale) et toutes les covariances possibles entre les variables aleatoires dans Y . En fait,

puisque

Cov (Yi, Yj) = Cov (Yj, Yi) ,

la matrice est symetrique, avec l’element i, j egal a l’element j, i. Donc, nous pouvons ecrire de

facon succincte toutes les variances et covariances possibles entre les variables aleatoires

regroupes dans un vecteur Y .

5.5 Proprietes statistiques : distribution en grand echantillon

Cette section est un peu ardue. Son but est de developper une expression pour la matrice

variance-covariance de l’estimateur β, et de contraster la variance � robuste � (lorsque on ne fait

pas d’hypothese particuliere concernant l’homoscedasticite) avec la variance en presence

d’homoscedasticite. Dans votre travail pratique de tous les jours d’econometres, vos logiciels

(comme R, STATA ou GRETL) vont faire les calculs developpes dans cette sous-section

automatiquement. Par contre, si jamais vous voulez utiliser un logiciel comme MATLAB ou Excel

ou la matrice variance-covariance robuste n’est pas calculee automatiquement, vous allez pouvoir

programmer son calcul vous-memes.

Nous voulons travailler avec une expression dont la variance ne diminue pas vers zero lorsque

n→∞. Donc, au lieu de travailler avec(β − β

), qui converge vers une constante (convergence

en probabilite), nous avons :√n(β − β

((X ′X)

)−1((X ′U)√

Le dernier terme, au lieu de converger a une constante, a maintenant une variance qui ne decroıt

pas avec n. Nous avons donc quelque chose qui va converger en distribution, et non quelque

chose qui va converger en probabilite vers un vecteur de constantes.

Nous avons deja vu dans la sous-section sur l’absence de biais que

E(β − β

Donc, une expression qui nous donne la matrice de variance-covariance de√n(β − β

donnee par :

E(n(β − β

)(β − β

)′)Notez bien la multiplication de

(β − β

)par√n. Dans le modele de regression simple, nous

avons vu que la variance de l’estimateur β1 decroıt au rythme 1/n et donc tend vers zero lorsque

n tend vers l’infini. Nous voulons travailler avec une variable aleatoire (plutot un vecteur de

variables aleatoires) qui reste une variable aleatoire meme lorsque la taille de l’echantillon tend

vers l’infini. Pour cette raison, nous multiplions par√n, ce qui nous laissera avec une variance

qui ne tend pas vers zero et, d’autre part, reste finie lorsque n tend vers l’infini.

Pour evaluer la matrice variance-covariance de√n(β − β

), nous devons examiner le

comportement en grand echantillon de

(((X ′X)

)−1((X ′U)√

))(((X ′X)

)−1((X ′U)√

((X ′X)

)−1((X ′U)√

)((X ′U)√

)′((X ′X)

)−1.

Nous avons deja vu que(

(X′X)n

)−1converge en probabilite a (Qx)

−1. Donc, nous devons nous

pencher sur le comportement de

((X ′U)√

)((X ′U)√

(X ′U) est un vecteur de dimensions (k + 1)× 1, puisque X est de dimensions n× (k + 1) et U

est de dimensions n× 1. Nous avons :

(X ′U) =n∑i=1

X2iui...

n∑i=1

Par hypothese, selon le �Key Concept 18.1 �, les Vi sont i.i.d. Cela veut dire que

n∑i=1

converge en probabilite a un vecteur de zeros, et que (par une version du theoreme de la limite

centrale),1√n

n∑i=1

converge en distribution a un vecteur de variables normales dont la moyenne est zero (on sait cela

puisque nous avons montre l’absence de biais) et dont la variance est donnee par :

E (ViVi′) ≡ ΣV .

Donc, nous pouvons encore une fois invoquer le theoreme de Slutsky pour dire que

√n(β − β

)d−→ N

(0k+1 , Qx

−1ΣVQx−1) ,

ou nous utilisons 0k+1 pour denoter un vecteur de zeros de dimensions (k + 1)× 1.

5.5.1 Cas homoscedastique

Dans le cas homoscedastique, la variance de ui est constante et independante des Xi.

Formellement, nous pouvons ecrire :

E (UU ′|X) = E (UU ′) = σ2uIn.

Nous avons : ((X ′U)√

)((X ′U)√

(X ′UU ′X

)p−→ E

nσ2uX′InX

nσ2uX′X

)= σ2

Donc, l’expression pour la variance de√n(β − β

)se simplifie beaucoup. Nous avons :

√n(β − β

)d−→ N

(0k+1 , σ

−1QxQx−1) = N

(0k+1 , σ

−1) .

6 Variance echantillonnale de β

Comme d’habitude, notre derivation de la distribution en grand echantillon de√n(β − β

)depend de quantites que nous ne connaissons pas, par exemple de

Qx ≡ E(X ′X

Il est (presque) toujours le cas que nous ne connaissons pas les vrais moments (moyennes,

variances, moments bruts – voir la note de bas de page a la page 15) de nos variables aleatoires.

Que faire alors si nous voulons developper une expression pour la variance de notre estimateur β,

basee sur des quantites que nous pouvons mesurer ? Nous suivons la strategie habituelle, que nous

avons deja utilisee a maintes reprises, de remplacer les moments non connus de la population par

des estimateurs convergents. Donc, nous remplacons Qx par :

Qx ≡(X ′X)

Nous remplacons ΣV par :

ΣV ≡1

n− k − 1

n∑i=1

Xi′Xi (ui)

2 , (2)

ou Xi est l’ieme rangee de la matrice X . 10 Comme d’habitude, nous divisons par (n− k − 1) ici

et non par n afin d’obtenir un estime non biaise. Nous n’allons pas montrer explicitement que

cette expression est un estimateur convergent de ΣV , mais nous aurions pu le faire.

Nous pouvons dire un peu plus sur la justification d’utiliser cet estimateur de la matrice

variance-covariance ΣV . Nous avons vu que ΣV peut s’ecrire

ΣV = E (ViVi′)

X2iui...

′10. J’utilise la notation matricielle standard ici. Stock et Watson a la page 699 du manuel definissent Xi comme un

vecteur colonne, ce qui n’est pas conforme a la notation matricielle standard. Pourquoi introduire encore une autreincoherence entre la notation standard et la leur ?

ui2 X1iui

2 X2iui2 . . . Xkiui

X1iui2 X1i

2ui2 X1iX2iui

2 . . . X1iXkiui2

X2iui2 X2iX1iui

2 X2i2ui

2 . . . X2iXkiui2

......

... . . . ...

Xkiui2 XkiX1iui

2 XkiX2iui2 . . . Xki

Il est maintenant possible de voir clairement que l’estimateur defini dans (2) revient a remplacer

les esperances des produits de variables aleatoires dans la matrice par leurs equivalents

echantillonnaux. Donc, c’est une application de la strategie habituelle de remplacer un moment

dans la population par le moment echantillonnal equivalent.

Nous pouvons finalement ecrire :

β ≈ N

)−1Σv

)−1)≡ N

(β , Σβ

J’utilise ici la notation �≈ � pour capter l’idee que β suit une distribution qui est

approximativement normale. Notez que c’est encore le theoreme de Slutsky qui nous permet de

dire que si nous avons un produit de trois estimateurs convergents, la limite en probabilite (ou

dans ce cas-ci la limite en distribution) du produit est le produit de la limite en probabilite des

trois termes.

Notez que tous les elements de la matrice variance-covariance de notre estimateur β diminuent au

rythme 1/n, comme nous avons vu dans la section precedente. Ceci reflete le fait que, sous les

hypotheses statistiques utilisees, β est un estimateur convergent des vraies valeurs de β.

Tout bon logiciel de regression, comme R, STATA ou GRETL, calcule la matrice

variance-covariance de β automatiquement. Mais attention ! Nous avons developpe ici une

expression pour la matrice variance-covariance robuste (ou la variance du terme d’erreur ui n’est

pas forcement constante et independante des Xi). Il faut en general verifier dans la documentation

du logiciel s’il calcule par defaut la matrice robuste ou la matrice qui impose une hypothese

d’homoscedasticite (sous-section suivante). Si l’option par defaut est la matrice

variance-covariance sous l’hypothese d’homoscedasticite, il faut specifier dans le code de son

programme le calcul de la matrice robuste.

Habituellement, l’output du logiciel de regression ne donne pas la matrice variance-covariance au

complet, mais se limite plutot a donner l’ecart type robuste associe a chaque coefficient

individuel. L’ecart type de βi est la racine carree de l’i-ieme element diagonal de Σβ . Par contre,

le logiciel a besoin de la matrice variance-covariance au complet lorsqu’il s’agit d’effectuer un

test d’hypotheses jointes. Nous nous pencherons sur cette question dans la derniere section de ces

notes.

6.1 Cas homoscedastique

Encore une fois, nous suivons la strategie general de remplacer les moments inconnus par des

estimateurs convergents. Un estimateur convergent de σ2u est donne par :

s2u ≡1

n− k − 1

n∑i=1

Il s’agit de la meme expression que nous avons vue qui mene a la definition de l’ecart type de la

regression.

Nous avons deja rencontre l’estimateur convergent de Qx :

Qx ≡(X ′X)

Donc, nous avons le resultat suivant :

β ≈ N

)−1)≡ N

(β , Σβ

ou j’utilise Σβ pour denoter la matrice variance-covariance dans le cas special de

l’homoscedasticite.

Cet estimateur de la matrice variance-covariance est tres facile a programmer si vous devez le

faire. En notation MATLAB, si �X � est la matrice contenant les observations sur les variables

explicatives et si �Uhat � est le vecteur de residus de la regression, nous avons :

Sigmahat = (Uhat′) ∗ Uhat ∗ inv(X ′X)/(n− k − 1); .

6.2 Homoscedasticite versus Heteroscedasticite

Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’ecarts

types pour nos coefficients estimes qui sont robustes a la presence d’erreurs heteroscedastiques.

J’accepte completement l’argument de Stock et Watson que les donnees que nous utilisons la

plupart du temps pour estimer nos modeles econometriques n’ont pas des erreurs

homoscedastiques.

Par contre, on peut se poser la question suivante : y a-t-il des facons de detecter la presence de

l’heteroscedasticite ? La reponse est �Oui �, mais le livre de Stock et Watson est totalement muet

a cet egard. Commencons par une methode informelle ou graphique.

Il s’agit de regarder un graphique avec les residus de l’equation estimee sur l’axe vertical et une

des variables explicatives du modele sur l’axe horizontal. Si la grandeur absolue des residus varie

systematiquement avec la variable explicative, c’est un signe de la presence de

l’heteroscedasticite. On peut aussi regarder un graphique ou on mesure les residus au carre sur

l’axe vertical. Si les points on une pente non nulle evidente (positive ou negative), c’est un signe

de la presence de l’heteroscedasticite. Si c’est le cas, il est fortement conseille d’effecteur un ou

plusieurs tests formels.

1. L’article Wikipedia qui s’intitule Heteroscedasticity est une bonne introduction au sujet.

2. Le test Goldfeld-Quandt.

3. Le test Breusch-Pagan. On regresse les residus au carre sur les variables explicatives du

modele. Il y a un bon article sur Wikipedia qui explique le test.

4. Le test de White. C’est peut-etre le test le plus frequemment utilise. L’econometre qui l’a

developpe a aussi propose la version robuste de la matrice variance-covariance que l’on

presente dans le manuel. Pour effectuer le test, on utilise les residus au carre comme la

variable dependante dans une regression multiple (qu’on appelle une � regression

auxiliaire �), ou les variables explicatives sont les variables explicatives du modele

original, tous les co-produits possibles des variables explicatives, et les variables

explicatives au carre. White a montre que la statistique R2 de cette regression suit (en

grand echantillon) une distribution χ2 avec un nombre de degres de liberte egal au nombre

de variables explicatives dans la regression auxiliaire moins un. Il y a un article sur ce test

chez Wikipedia, mais il est moins complet que l’article sur le test Breusch-Pagan.

5. Le test de Glesjer.

Voir l’article �Heteroscedasticity � chez Wikipedia pour plus de details sur les tests differents et

pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours

sur les tests diagnostics.

Bon nombre de logiciels econometriques modernes effectuent le test de White, ou un ou plusieurs

des autres tests lors de l’estimation d’un modele de regression multiple, soit automatiquement soit

en specifiant une option simple.

En presence d’heteroscedasticite, si sa forme est connue (si on connaıt comment depend la

variance de l’erreur en fonction des variables explicatives du modele), il y a des estimateurs plus

efficients des coefficients du modele. Il s’agit de l’estimateur moindres carres generalises

(�Generalized Least Squares � en anglais). Nous n’avons pas le temps d’etudier cet estimateur

dans ce cours. Il fait partie des sujets etudies dans le cours ECO5272.

7 Efficience de l’estimateur MCO sous l’homoscedasticite

Sous les hypotheses de base du modele de regression multiple, et dans le cas de

l’homoscedasticite, on peut montrer que l’estimateur MCO β a une variance au moins aussi petite

que n’importe quel autre estimateur lineaire (en Y ) et non biaise. C’est le theoreme

Gauss-Markov. Dans le cas d’un vecteur de parametres, la notion de � variance au moins aussi

petite que � est ambigue pusiqu’il y a plusieurs elements dans β. Il faut la comprendre de la

maniere suivante. Si β est n’importe quel estimateur lineaire et non biaise de β, il faut que

Var(c′β)≤ Var

(c′β)

pour toute combinaison lineaire c′β. Ici, c est un vecteur de constantes de dimensions (k + 1)× 1

et donc c′β est un scalaire. Il y a une preuve du theoreme dans l’annexe 18.5 du manuel. Notez

qu’il ne faut pas supposer la normalite du terme d’erreur pour montrer l’efficience de l’estimateur

MCO. Voir Giles (2011b) pour une discussion detaillee.

Le theoreme Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de

l’econometrie et de la statistique.

Tel qu’indique a la fin de la section precedente, il est possible, si on connaıt la forme de

l’heteroscedasticite (comment elle est reliee aux variables explicatives du modele), l’estimateur

MCG (moindres carres generalises) sera typiquement plus efficient que l’estimateur MCO.

7.1 Preuve du theoreme Gauss-Markov

Je reprends ici une preuve relativement simple tiree de l’article Wikipedia sur le Theoreme

Gauss-Markov. Il est tres important de noter que pour les fins de cette preuve, les variables

explicatives X sont considerees comme etant fixes ou non stochastiques.

Soit β = CY un autre estimateur lineaire de β. 11 On suppose que C peut etre ecrite comme

(X ′X)−1X ′ +D, ou D est une matrice non nulle de dimensions (k + 1)× n. Notre but est de

montrer que sa variance doit etre au moins aussi elevee que celle de β, l’estimateur MCO.

L’esperance de β est donnee par

E (CY ) = E((

(X ′X)−1X ′ +D)

(Xβ + U))

11. Il faut aussi prendre les elements de C comme etant fixes ou non stochastiques.

=((X ′X)−1X ′ +D

)Xβ + E

(((X ′X)−1X ′ +D

= β +DXβ + E((

(X ′X)−1X ′ +D)

E (U |X))

= β +DXβ,

ou nous avons utilise la loi des projections iterees. Nous voulons prouver que β a la plus petite

variance parmi tous les estimateurs lineaires non biaises. Pour que notre estimateur soit non

biaise, il faut que

DX = 0.

Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (etant donne les valeurs

de D et de X). Nous avons

Var (CY |X,D) = CVar(Y |X,D)C ′

= CVar(U |X)C ′

= σ2CC ′

= σ2 (

(X ′X)−1X ′ +D) (

(X ′X)−1X ′ +D)′

= σ2((X ′X)−1X ′X(X ′X)−1 + (X ′X)−1X ′D′ +DX(X ′X)−1 +DD′

2 ((X ′X)−1 +DD′

)= σ2(X ′X)−1 + σ

2DD′

puisqu’il faut que DX = 0 si notre estimateur est non biaise.

La matrice DD′ est une matrice positive semi-definie. Nous avons

Var(β)− Var

= σ2DD′

⇒ Var(c′β)− Var

(c′β)

= σ2c′DD′c ≥ 0,

la derniere inegalite etant la definition meme d’une matrice positive semi-definie. Ce qui fut a

demontrer.

8 Biais du a des variables omises (bis)

Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle

qu’avec des sommations. Supposons que le vrai modele peut etre ecrit comme :

≡ X1β1 + U .

Ici, X1 et X2 ont l’interpretation de sous-matrices et β1 et β2 ont l’interpetation de sous-vecteurs.

Donc, la derniere equation indique nous avons, de facon erronee, regroupe des variables

explicatives du modele avec le terme d’erreur.

Si nous estimons le modele errone, nous avons :

β1 = (X ′1X1)−1(X ′1Y ) = (X ′1X1)

−1(X ′1(Xβ + U))

= (X ′1X1)−1

X ′1( X1 X2

= (X ′1X1)−1X ′1X1β1 + (X ′1X1)

−1X ′1X2β2 + (X ′1X1)−1X ′1U

= β1 + (X ′1X1)−1X ′1X2β2 + (X ′1X1)

−1X ′1U

Nous avons :

)= β1 + E

((X ′1X1)

−1X ′1X2β2)

+ E((X ′1X1)

−1X ′1E (U |X))

= β1 + E((X ′1X1)

−1X ′1X2β2)

= β1 + E((X ′1X1)

−1X ′1X2

Interpretation : le biais depend de X1′X2, la matrice de comouvements bruts entre les elements de

X1 et les elements de X2 ainsi que des vraies valeurs des coefficients β2.

Notez que

(X ′1X1)−1X ′1X2

serait tout simplement la matrice de coefficients obtenus si on regressait chaque variable dans X2

sur X1. C’est essentiellement la formule d’un estimateur MCO, mais c’est une generalisation

puisque X2 est une matrice et non un vecteur.

Vous devriez verifier que l’expression developpee pour le biais au debut du chapitre 6 du manuel

est tout simplement un cas special de cette expression.

Afin de mieux cerner le concept de biais du a des variables omises, je developpe dans l’encadre le

sujet du modele de regression partitionne qui suit.

Regression partitionnee

Pour de plus amples renseignements, voir Pollock (2007). Reprenons le modele de regession

multiple en faisant la distinction entre le sous-ensemble de variables explicatives X1 et le

sous-ensemble X2.

= X1β1 +X2β2 + U.

Au lieu de regrouper les variables X2 avec le terme d’erreur comme nous avons fait dans la

section precedente, nous allons regarder explicitement comment notre estime MCO de β1, soit

β1, est affecte par β2. Rappelons ce que nous avons appele les � equations normales � lorsque

nous avons trouve la solution pour l’estimateur MCO pour le modele de regression multiple :

X ′Xβ = X ′Y.

Nous pouvons ecrire ces equations commme deux sous-ensembles d’equations :

X ′1X1β1 +X ′1X2β2 = X ′1Y

X ′2X1β1 +X ′2X2β2 = X ′2Y.

Du premier de ces 2 ensembles d’equations, nous avons

X ′1X1β1 = X ′1 (Y −X2β2)

⇒ β1 = (X ′1X1)−1X ′1

(Y −X2β2

Nous devons maintenant trouver une solution pour β2. Multiplions le premier sous-ensemble

par X ′2X1 (X ′1X1)−1 pour obtenir

X ′2X1β1 +X ′2X1 (X ′1X1)−1X ′1X2β2 = X ′2X1 (X ′1X1)

−1X ′1Y.

Maintenant, soustrayons cette equation du deuxieme sous-ensemble d’equations, obtenant

X ′2X2β2 −X ′2X1 (X ′1X1)−1X ′1X2β2 = X ′2Y −X ′2X1 (X ′1X1)

−1X ′1Y.

⇒(X ′2X2 −X ′2X1 (X ′1X1)

−1X ′1X2

)β2 =

(X ′2 −X ′2X1 (X ′1X1)

−1X ′1

Definissons

P1 ≡ X1 (X ′1X1)−1X ′1.

Nous pouvons ecrire

(X ′2 (I − P1)X2) β2 = X ′2 (I − P1)Y

ou I est la matrice identite conformable a P1, et donc

β2 = (X ′2 (I − P1)X2)−1X ′2 (I − P1)Y.

Notez que nous avons suivi une methodologie semblable a celle dans le chapitre sur le modele

de regression simple. Nous avons trouve une solution pour β1 en fonction de β2, et ensuite

nous avons elimine β1 dans la solution pour β2 par substitution.

Ces solutions permettent de reinterpreter l’estimateur MCO comme un estimateur en deux

etapes. Considerons d’abord la regression de la variable Y sur X1 seulement. Si on appelle

les coefficients estimes β1, nous avons

β1 ≡ (X ′1X1)−1X ′1Y,

Y = X1β1 = X1 (X ′1X1)−1X ′1Y

les valeurs predites de Y sur la base de cette regression, et

U ≡ Y −X1 (X ′1X1)−1X ′1Y =

(I −X1 (X ′1X1)

−1X ′1

le vecteur de residus de cette regression. Considerons maintenant la regression des variables

X2 sur les X1. Appelons les coefficients γ. Nous avons

γ ≡ (X ′1X1)−1X ′1X2.

Notez qu’il s’agit d’une matrice de coefficients estimes puisqu’il y a tout un vecteur de

variables dependantes au lieu d’une seule. Appelons X2 les valeurs predites des variables X2.

Nous avons

X2 = X1γ = X1 (X ′1X1)−1X ′1X2,

U ≡ X2 −X1 (X ′1X1)−1X ′1X2

=(I −X1 (X ′1X1)

−1X ′1

= (I − P1)X2

la matrice de residus de ces regressions. (Il y a autant de colonnes dans U que dans X2.)

Maintenant, considerons la regression de U sur U . Appelons le vecteur de coefficients estimes

γ. Nous avons

γ =(U ′U

)−1U ′U .

Nous avons

U ′U = X ′2

(I −X1 (X ′1X1)

−1X ′1

)(I −X1 (X ′1X1)

−1X ′1

= X ′2 (I − P1) (I − P1)X2

= X ′2 (I − P1)X2

puisque

(I − P1) (I − P1)

= (I − P1) .

Vous pouvez verifiez cette egalite facilement. La matrice (I − P1) est une matrice

idempotente. Donc, finalement nous avons

γ = (X ′2 (I − P1)X2)−1X ′2 (I − P1)Y.

Mais ceci n’est rien d’autre que la solution que nous avions trouvee pour β2.

En regressant Y sur X1 et X2 sur X1, on purge l’effet des X1 sur la variable dependante Y et

sur les autres variables explicatives X2. Avec la regression de U sur U , on estime l’effet des

X2 (purgees de l’influence des X1) sur Y (purgee aussi de l’influence des X1). Mais c’est

exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de

variables explicatives dans le modele en meme temps. Ce resultat s’appelle le theoreme

Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).

Supposons maintenant que notre modele de regression est sans constante. Nous pouvons

toujours reecrire le modele de regression lineaire de la facon suivante :

Y = Xβ + U

⇒(Y − Y

)=(X − X

(U − U

Si, comme d’habitude, la premiere colonne contient une constante, elle va disparaıtre de ce

systeme d’equations et nous aurons

Y = Xβ + U

Y ≡ Y − Y ,

X ≡ X − X

U ≡ U − U

et ou X peut etre redefinie comme une matrice n× k puisque sa premiere colonne est une

colonne de zeros. Autrement dit, il est toujours possible de reecrire le modele de regression

lineaire sans une constante en exprimant toutes les variables (explicatives et dependante)

comme des deviations par rapport a leurs moyennes echantillonnales.

Donc, supposons que notre modele est effectivement sans constante. Qu’est-ce qui arrive

lorsque la correlation echantillonnale entre X1 et X2 est zero ? Dans ce cas, nous avons

X ′1X2 = 0, puisque les variables dans X1 et X2 sont mesurees en deviations par rapport a

leurs moyennes echantillonnales. Autrement dit, X1 et X2 sont orthogonales. Nous avons

dans ce cas particulier

β = (X ′X)−1X ′Y

X ′1X1 X ′1X2

X ′2X1 X ′2X2

−1 X ′1

X ′2

X ′1X1 0

0 X ′2X2

−1 X ′1

X ′2

(X ′1X1)−1 0

0 (X ′2X2)−1

X ′1

X ′2

(X ′1X1)−1X1Y

(X ′2X2)−1X2Y

On aurait pu montrer le meme resultat a partir des solutions developpees ici pour β1 et β2.

Faisons-le ici. Nous avons

β1 = (X ′1X1)−1X ′1

(Y −X2β2

= (X ′1X1)−1X ′1Y − (X ′1X1)

−1X ′1X2β2

= (X ′1X1)−1X ′1Y

dans le cas de l’orthogonalite. Dans le cas de β2, nous avons

β2 = (X ′2 (I − P1)X2)−1X ′2 (I − P1)Y

=(X ′2X2 −X ′2X1 (X ′1X1)

−1X ′1X2

)−1 (X ′2Y −X ′2X1 (X ′1X1)

−1X ′1Y

)= (X ′2X2)

−1X ′2Y

dans le cas de l’orthogonalite. Dans le cas general (lorsque X1 et X2 ne sont pas

orthogonales), les solutions ne sont evidemment pas aussi simples.

Ceci veut dire que, dans le cas de l’orthogonalite, on peut estimer un modele de regression

(avec Y comme variable dependante) contenant seulement les variables X1, seulement les

variables X2, ou avec toutes les variables ensemble, et on va obtenir exactement les memes

valeurs pour les coefficients estimes. Le theoreme Frisch-Waugh-Lovell est assez

remarquable.

Nous pouvons aussi reinterpreter ces resultats a la lumiere de ce que nous avons trouve

concernant le biais du a des variables omises. Dans le cas de l’orthogonalite, X ′1X2 = 0 et il

n’y a pas de biais. On peut regresser Y sur seulement X1 ou sur seulement X2 et il n’y a pas

de biais. On obtient des estimateurs non biaises.

On peut aussi reinterpreter tout ceci en termes geometriques. Voir Davidson et MacKinnon

(1999) et Sosa Escudero (2001) pour plus de details.

Tel que note par Pollock (2007), les couts relies au biais du a des variables omises dependent des

buts de notre modelisation. Si parmi les variables X1 il y a des variables qui seront utilisees

comme des instruments de politique economique, il est tres important d’obtenir des estimes non

biaises de leur impact. Si ce qui nous interessent est surtout la prediction de l’esperance de Y

conditionnelle aux valeurs des X , l’absence de biais est sans doute moins importante.

9 Tests d’hypotheses et ensembles de confiance

Tel qu’indique dans l’introduction, le seul element vraiment novateur est le test d’hypotheses

jointes. Sinon, on peut effectuer des tests d’hypotheses simples de la meme maniere que dans le

cas de la regression simple.

9.1 Tests d’hypotheses simples par rapport a un seul coefficient

Il n’y a strictement aucun changement par rapport a la facon de tester une hypothese simple dans

le cadre du modele de regression simple. La statistique t de base, pour n’importe quel test, peut

s’ecrire :

t =βi − βH0

ou βH0i est la valeur du coefficient i sous l’hypothese nulle, βi est la valeur du coefficient obtenue

lors de l’estimation, et sβi est un estime convergent de l’ecart type de l’estime du coefficient.

Dans le cas de la regression multiple, c’est la racine carree de l’i-ieme element diagonal de Σβ

(cas heteroscedastique) ou Σβ (cas homoscedastique).

Toute la discussion du chapitre 4 concernant les p-values et les taux de significativite marginaux

s’applique. La statistique t suit approximativement une loi normale centree reduite (si, bien sur,

l’echantillon est suffisamment grand).

Dans le cas d’une hypothese alternative a deux extremites (bilaterale), une grande valeur absolue

de la statistique t (peu importe son signe) constitue de l’evidence contre H0. Soit Φ (−|ta|) la

valeur de la distribution normale cumulee pour moins la valeur absolue de la valeur calculee de la

statistique t. Nous avons :

Φ (−|ta|) = Pr (t ≤ −|ta|)

(t ≤ −

∣∣∣∣∣ βi − βH0i

∣∣∣∣∣)

= Pr(t sβi ≤ −

∣∣∣βi − βH0i

∣∣∣) .Dans le cas ou βi − βH0

i > 0 ceci est egal a

Pr(t sβi ≤ −

(βi − βH0

= Pr(t sβi − β

H0i ≤ −βi

(βi ≤ βH0

i − t sβi),

qui est donc egale a la probabilite d’obtenir une valeur au moins aussi petite qu’une valeur qui est

inferieure a βH0i par t fois son ecart type. Dans le cas ou βi − βH0

i < 0 ceci est egal a

Pr(t sβi ≤ βi − βH0

= Pr(βi ≥ βH0

i + t sβi

qui est donc egale a la probabilite d’obtenir une valeur au moins aussi grande qu’une valeur qui

est superieure a βH0i par t fois son ecart type.

Tout cela revient a dire que la p-value du test avec hypothese alternative bilaterale est donnee par

2× Φ (−|ta|).

Le cas de tests avec hypothese alternative unilaterale est semblable. L’analyse des tests

d’hypothese presentee dans le chapitre sur le modele de regression simple est pertinente. Dans le

cas ou on a

H0 : βi = βH0i

H1 : βi > βH0i ,

la p-value du test est donnee par

p = Pr(z > tact

)= 1− Φ

(tact).

Dans le cas ou on a

H0 : βi = βH0i

H1 : βi < βH0i ,

la p-value du test est donnee par

p = Pr(z < tact

(tact).

9.2 Tests d’hypotheses simples par rapport a une combinaison lineaire de

coefficients

9.2.1 Methode indirecte

Souvent, il est possible de tester une telle restriction en estimant une version transformee du

modele. Si on procede de cette facon, on reecrit le modele pour redefinir la combinaison lineaire

de parametres comme un parametre simple du modele transforme. De cette facon, on peut

appliquer la methodologie standard pour tester une hypothese simple avec un test t, telle que

developpee dans la sous-section precedente. Nous illustrons l’idee avec un exemple. Reprenons le

modele de regression multiple de base en notation non matricielle :

Supposons que nous voulons tester la restriction suivante :

H0 : β1 + β2 = 1,

contre l’hypothese alternative

H1 : β1 + β2 6= 1.

Considerons la version suivante du modele, qui est equivalente a la version originale :

Yi = β0 +X1i(β1 + β2) + (X2i −X1i) β2 + . . .+Xkiβk + ui.

L’equivalence vient du fait que nous avons tout simplement ajoute et soustrait le meme terme

X1iβ2. Nous pouvons reecrire le modele de la facon suivante :

Yi = β0 +X1iγ1 + Ziβ2 + . . .+Xkiβk + ui,

ou Zi ≡ X2i −X1i et γ1 ≡ β1 + β2. Maintenant, tester l’hypothese H0 : β1 + β2 = 1 revient a

tester l’hypothese H0 : γ1 = 1. La methodologie a suivre est identique a celle etudiee dans le

cadre du modele de regression simple.

Effectuer ce test utilisant un logiciel de regression comme R, STATA ou GRETL revient a creer la

variable Z et a estimer l’equation transformee par MCO. Rien n’empeche bien sur d’utiliser les

ecarts types robustes pour effectuer le test.

9.2.2 Methode directe

Sans estimer une version equivalente du modele, nous pouvons tester la restriction directement.

Supposons que nous pouvons ecrire la restriction portant sur la combinaison lineaire des

parametres sous la forme suivante :

Rβ = r

ou R est un vecteur de dimensions 1× (k + 1) et r est une constante (scalaire). 12 Comme

d’habitude, nous pouvons ecrire la statistique t comme la valeur calculee de la statistique (Rβ),

moins sa valeur sous l’hypothese nulle (r), le tout divise par la racine carree de sa variance. Nous

savons deja calculer la variance d’une combinaison lineaire de variables aleatoires. Donc, nous

t =Rβ − r√Var(Rβ) .

Si chaque element dans β converge en distribution vers une loi normale, la combinaison lineaire

converge en distribution vers une loi normale. Puisqu’on soustrait r (qui est egal a E(Rβ)

l’hypothese nulle) et on divise par√

Var(Rβ)

, la statistique normalisee converge en distribution

vers une loi normale centree reduite :

Rβ − r√Var(Rβ) d−→ N (0, 1) .

Dans la section sur les tests d’hyotheses jointes, nous allons voir (comme des cas speciaux) un ou

deux exemples de calcul de la variance de combinaisons lineaires de coefficients.

12. Notez que nous allons generaliser cette facon d’ecrire des restrictions sur les valeurs de parametres dans lasection sur comment tester des hypotheses jointes.

9.3 Pourquoi les tests sequentiels ne sont pas valides

Supposons que nous voulons tester l’hypothese jointe suivante :

H0 : β1 = β2 = 0.

L’hypothese nulle dit que les deux coefficients sont nuls. L’hypothese alternative naturelle dans ce

contexte est que au moins un des deux coefficients est non nul :

H1 : ∃i, i = 1, 2 tel que βi 6= 0.

Pourquoi pas tout simplement tester les deux hypotheses de facon sequentielle, ou les statistiques

t donnees par :

t1 =β1 − βH0

et ensuite

t2 =β2 − βH0

Le probleme avec cette idee est qu’il s’agit de distributions de probabilite jointes. Supposons pour

simplifier que les deux coefficients estimes sont independamment distribues l’un par rapport a

l’autre. Dans les deux cas, on ne rejetterait pas l’hypothese nulle a un niveau de significativite

marginal de 5% si |t1| < 1.96 et |t2| < 1.96 si notre echantillon est suffisamment grand (pour que

les statistiques soient distribuees approximativement selon une loi normale). Avec ce taux de

significativite marginal et etant donnee l’independance, la probabilite d’obtenir au moins un rejet

en effectuant deux tests si les hypotheses nulles sont vraies serait egale a 1− 0.952. (Pourquoi ?

Vous devez etre capable de repondre a cette question.) Il faudrait au moins ajuster le niveau de

significativite marginal pour tenir compte de ce fait. Si les deux coefficients estimes ne sont pas

independants, cet ajustement serait encore plus complique. L’idee derriere les tests d’hypothese

jointes developpes ci-dessous est precisement de tenir compte du fait que les coefficients sont

tires d’une distribution de probabilite jointe.

Notez que l’annexe (7.1) du livre decrit une facon d’ajuster les niveaux de significativite

marginaux pour tenir compte de la correlation non nulle entre les coefficients. Cette methodologie

peut etre utile dans certains cas, notamment lorsqu’on lit les resultats de regressions rapportes

dans des articles publies ou des cahiers de recherche. Dans la plupart des cas on rapporte les

ecarts types associes aux coefficients individuels, mais on ne rapporte pas la matrice

variance-covariance complete des coefficients estimes (ce dont on aurait besoin pour calculer les

statistiques definies dans la sous-section suivante). En suivant cette methodologie le lecteur peut

effectuer des tests d’hypotheses jointes meme s’il n’a pas acces a la matrice variance-covariance

complete des coefficients estimes.

9.4 Tests d’hypotheses jointes

Tel qu’indique dans l’introduction a ces notes, je vais mettre l’accent ici sur l’approche

matricielle, qui est beaucoup plus generale et, je crois, plus simple a comprendre.

Pour commencer a saisir en quoi consiste cette methodologie, reprenons l’exemple de la

sous-section precedente. L’hypothese nulle a tester est :

H0 : β1 + β2 = 1,

Nous pouvons ecrire cette hypothese sous forme matricielle de la facon suivante :

[0 1 1 0 . . . 0

β3...

Ceci est de la forme :

Rβ = r,

ou R est une matrice de constantes et r est un vecteur de constantes. Dans ce cas particulier, ou il

y a une seule restriction portant sur une combinaison lineaire de coefficients, R est en fait un

vecteur et r est un scalaire. Mais, dans le cas general, R ainsi que r auront le meme nombre de

rangees que le nombre de restrictions.

Prenons un cas plus concret, un cas ou le nombre de variables explicatives (a part la constante) est

plus grand que deux. Comment tester l’hypothese nulle jointe

H0 : β1 = β2 = 0

contre l’hypothese alternative

∃i, i = 1, 2 tel que βi 6= 0.

Sous forme matricielle, nous pouvons ecrire : H0 :

0 1 0 0 . . . 0

0 0 1 0 . . . 0

β3...

On peut montrer que la statistique suivante obeit, en grand echantillon et sous H0, a une loi Fq,∞

(revisez la sous-section sur cette distribution a la page 44 du manuel ou dans les notes de cours) :

F ≡(Rβ − r

)′ [RΣβR

′]−1 (

Rβ − r)/q,

ou q est le nombre de restrictions que l’on veut tester, et ou Σβ est la matrice variance-covariance

de l’estime β. Dans l’exemple que nous venons d’etudier, q = 2. Autrement dit,

Fd−→ Fq,∞.

Puisque la convergence est asymptotique (lorsque le nombre d’observations tend vers l’infini), le

deuxieme indice inferieur indique un nombre de degres de liberte infini.

L’argument pourquoi la statistique F converge en distribution a une loi Fq,∞ se trouve a la page

714 du manuel. L’argument est tres succinct (pour ne pas dire tres dense). Je vous invite a le lire

mais, bien sur, il ne faut pas le retenir pour les fins de l’examen final. Un argument plus simple,

pour le cas de 2 restrictions, se trouve a la page 228.

Comme d’habitude, le manuel met l’accent sur le cas ou l’echantillon est suffisamment grand

pour parler de convergence approximative en probabilite et/ou en distribution. Pour que nos

� statistiques F � suivent une loi F meme en petit echantillon, il faudrait pouvoir les exprimer

comme des ratios de variables aleatoires χ2 meme en petit echantillon (voir la page 44), et donc il

faudrait supposer la normalite des erreurs (il faut aussi supposer l’homoscedasticite). Dans la

mesure ou ceci est rarement plausible dans des contextes appliques, il est mieux de se tourner vers

l’inference asymptotique si nous avons suffisamment d’observations.

La loi F depend de deux parametres. Typiquement on parle d’une variable aleatoire qui obeit a

une loi Fm,n, ou le parametre m fait reference au nombre de restrictions imposees, et n fait

reference au nombre de degres de liberte (le nombre d’observations moins le nombre de

parametres estimes). Notez en consultant les Tables 5A, 5B et 5C dans le manuel les petits ecarts

entre les valeurs critiques lorsque n = 120 et lorsque n→∞.

La plupart des logiciels de regression, dont R, STATA et GRETL, offrent a l’utilisateur la

possibilite de specifier les equivalents de R et r afin de tester des hypotheses jointes quelconques.

9.5 Que faire lorsque Σβ n’est pas disponible ?

Il y a des situations ou on n’a pas toute la matrice variance-covariance des parametres estimes a sa

disposition. Par exemple, quand on lit des articles publies qui resument les resultats de

l’estimation d’un modele de regression multiple, il est souvent le cas qu’on rapporte les ecarts

types associes aux coefficients individuels, mais non les covariances entre les coefficients estimes.

Il est possible de contourner ce probleme en utilisant la � correction de Bonferroni � , qui tient

compte de la simultaneite lorsque on fait un test d’hypotheses jointes. Notez que cette

methodologie donne des tests qui sont moins puissants (qui ont une probabilite moins elevee de

rejeter l’hypothese nulle lorsqu’elle est fausse) que si on utilise la matrice Σβ pour effectuer le

test. Ce que fait la correction est de donner la bonne p-value de tests sequentiels (la bonne

probabilite de rejeter les hypotheses nulles jointes lorsqu’elles sont vraies).

Le test de Bonferroni permet de tester des hypotheses jointes sur la base des statistiques t

pour les hypotheses individuelles. Il faut choisir la valeur critique afin d’etre sur que la

probabilite de rejeter l’hypothese nulle jointe ne depasse pas la probabilite de la rejeter si on

tient compte de la non-independance entre les hypotheses faisant partie de l’hypothese jointe.

On rejette l’hypothese nulle si on rejette au moins une des hypotheses individuelles. Dans le

cas d’une hypothese jointe qui comporte deux hypotheses simples, appelons A l’evenement

que nous rejetons la premiere des deux hypotheses, et B l’evenement que nous rejetons la

deuxieme hypothese simple. Nous savons que

Pr (A ∪B) ≤ Pr (A) + Pr (B) ,

ou le symbole ∪ indique l’union des deux evenements, autrement dit l’evenement que A se

produit, ou que B se produit, ou que les deux se produisent. Si on choisit des p-values

identiques pour les deux tests des hypotheses individuelles, on va choisir des p-values tel que

leur somme soit egale a la p-value desiree du test joint. Par exemple, si on veut etre sur de ne

pas rejeter l’hypothese nulle jointe plus que 5% du temps lorsqu’elle est vraie, on va choisir

des p-values de 2.5% pour chacune des tests individuels.

Le test Bonferroni est tres conservateur. Son but est de minimiser la probabilite de rejeter les

hypotheses jointes si elles sont vraies. En general, il fait augmenter la probabilite d’accepter

les hypotheses lorsqu’elles sont fausses. Ainsi, il n’a pas beaucoup de puissance (definie

comme la probabilite de rejeter une hypothese lorsqu’elle est fausse). Il y a des techniques

pour augmenter la puissance du test lorsqu’on doit tester une hypothese jointe avec une

sequence de tests d’hypotheses simples. Voir Simes (1986).

Pour de plus amples renseignements concernant cette methodologie, consultez l’annexe 7.1

au Chapitre 7 du manuel.

9.6 Une seule restriction comme un cas special

On peut montrer dans le cas d’une seule restriction portant sur un coefficient (q = 1), la statistique

F est le carre de la statistique t. Ceci revient a dire par contre que nous ne pouvons pas faire la

distinction entre une statistique t qui serait grande en valeur absolue et negative et une statistique

t grande en valeur absolue et positive. Cela veut dire qu’il n’y aurait pas de difference entre les

resultats avec une statistique F et une statistique t si l’hypothese alternative est une hypothese

alternative a deux extremites (bilaterale), mais nous ne pouvons pas vraiment tester l’hypothese

nulle contre l’hypothese alternative H1 : βi < βi ou ce ne sont que les grandes valeurs negatives

de la statistique t qui nous amenent a rejeter l’hypothese nulle.

Pour montrer l’equivalence entre la statistique F et le carre de la statistique t dans un cas simple,

prenons l’exemple de l’hypothese nulle H0 : β1 = 0. Dans ce cas, nous pouvons ecrire la

restriction sous forme matricielle comme

[0 1 0 . . . 0

β2...

= β1 = 0.

Dans ce cas Rβ − r prend la forme de la statistique calculee (la valeur estimee de β1) moins sa

valeur sous l’hypothese nulle, ou tout simplement le numerateur de la statistique t que l’on

utiliserait pour tester l’hypothese. Nous avons dans ce cas

F =(β1 − 0

0 1 0 . . . 0

(β1 − 0

On peut facilement verifier que dans ce cas-ci (vous devriez le faire sur papier pour etre sur)

[0 1 0 . . . 0

l’element (scalaire) sur la diagonale de Σβ qui correspond a l’estimateur convergent de la

variance de β1. Donc, nous avons

(β1 − 0

La statistique F est effectivement le carre de la statistique t qu’on utiliserait pour effectuer le test.

On peut aussi considerer un deuxieme exemple pour montrer ce que donne la formule generale

lorsqu’il n’y a qu’une seule restriction testee. Considerons l’hypothese nulle suivante :

H0 : β1 + β2 = 1,

qui peut etre ecrite sous forme matricelle comme

[0 1 1 0 . . . 0

β3...

= β1 + β2 = 1.

Encore une fois, Rβ − r prend la forme de la statistique calculee (β1 + β2) moins sa valeur sous

l’hypothese nulle. Nous avons dans ce cas

F =(β1 + β2 − 1

[0 1 1 0 . . . 0

(β1 + β2 − 1

On peut verifier (encore une fois ce serait un bon exercice de le faire sur papier) que

[0 1 1 0 . . . 0

β1+ s2

β2+ 2sβ1,β2

ou sβ1,β2 est l’element hors-diagonale de la matrice variance-covariance, qui est un estime

convergent de la covariance entre β1 et β2. Il s’agit donc de l’estimateur convergent de la variance

de β1 + β2, qui suit les regles de base pour le calcul de variances de combinaisons lineaires de

variables aleatoires. La statistique F devient

(β1 + β2 − 1

)2s2β1

+ s2β2

+ 2sβ1,β2= t2.

Encore une fois, on voit l’equivalence entre la statistique F et le carre de la statistique t.

9.7 Significativite de la regression

Souvent, on veut tester l’hypothese nulle selon laquelle tous les coefficients de la regression sauf

la constante sont egaux a zero. Nous pouvons ecrire l’hypothese nulle de la facon suivante :

H0 : β1 = β2 = . . . = βk = 0,

H1 : ∃i, i = 1 . . . k tel que βi 6= 0.

Nous pouvons ecrire cette restriction sous forme matricielle sans probleme, avec :

0 1 0 0 . . . 0

0 0 1 0 . . . 0

0 0 0 1 . . . 0

......

...... . . . ...

0 0 0 0 . . . 1

une matrice de dimensions k × (k + 1) et

un vecteur de dimensions (k + 1)× 1. Chaque fois qu’on fait reference a � tester la significativite

de la regression �, on fait reference a cette hypothese nulle.

Avec cette ecriture, tester la significativite jointe de tous les coefficients sauf la constante (β0)

n’est qu’un cas particulier de la regle generale.

9.8 Tests d’hypothese en presence d’homoscedasticite

Le cas de l’homoscedasticite ne presente en principe rien de different par rapport au cas general.

On peut en principe remplacer Σβ dans la formule ci-dessus pour F par Σβ qui provient de la

sous-section 6.1 ci-dessus. Donc, nous avons :

F ≡(Rβ − r

)′ [RΣβR

′]−1 (

Rβ − r)/q,

Par contre, dans le cas homoscedastique, il y a une facon plus simple d’effectuer des tests

d’hypothese. On peut estimer le modele sous l’hypothese nulle et sous l’hypothese alternative, et

utiliser la formule suivante :

F =(SSRrestricted − SSRunrestricted) /q

SSRunrestricted/ (n− kunrestricted − 1),

ou SSRrestricted est la somme des residus carres du modele estime en imposant les contraintes et

SSRunrestricted est la somme des residus carres du modele estime sans imposer les contraintes.

L’hypothese nulle que l’on veut tester revient a imposer des contraintes sur les valeurs des

coefficients. Une formule equivalente est la suivante :

F =(R2

unrestricted −R2restricted) /q

(1−R2unrestricted) / (n− kunrestricted − 1)

ou R2restricted est la mesure de l’ajustement statistique R2 du modele estime en imposant les

contraintes et SSRunrestricted est le R2 du modele estime sans imposer les contraintes. Vous

devriez montrer algebriquement comment passer de la premiere a la deuxieme version de ce test.

La demonstration est en fait tres simple.

Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homoscedastique

peuvent etre transformees pour etre ecrites sous cette forme. On peut trouver une demonstration

dans la plupart des manuels d’econometrie avances comme Greene (2000, section 7.2.3). Je

reproduis la preuve dans l’encadre qui suit. La lecture de cet encadre est recommande seulement a

ceux qui s’y interessent vraiment.

Dans cet encadre je montre l’equivalance

La preuve passe par l’estimation du modele de regression multiple sujet aux contraintes que

nous voulons tester. Le probleme peut s’ecrire

(Y −Xβ)′ (Y −Xβ)

sujet a la contrainte

Rβ = r.

Nous pouvons ecrire le probleme de minimisation a l’aide d’un vecteur de multiplicateurs de

Lagrange λ comme suit, definissant S comme l’expression lagrangienne a minimiser.

minβ,λS = (Y −Xβ)′ (Y −Xβ) + 2λ′ (Rβ − r) .

Les conditions du premier ordre du probleme sont

∂S∂β

= 0 = 2X ′ (y −Xβ) + 2R′λ;

∂S∂λ

= 0 = 2 (Rβ − r) .

Je vous invite a faire le lien entre ces conditions du premier ordre et les regles de

differentiation matricielle que nous avons vues en debut de chapitre.

Nous pouvons regrouper les CPO ensemble en notation matricielle comme suit.

X ′X R′

X ′Y

ou j’ai ecrit des ˜ sur les inconnus du probleme pour souligner le fait que les solutions au

probleme constituent notre estimateur MCO sous contraintes.

La solution est donnee par

X ′X R′

−1 X ′Y

.Je suppose ici que la matrice qu’il faut inverser est non singuliere. Pour trouver l’inverse de la

matrice, nous pouvons utiliser la formule suivante pour les matrices partitionnees.

A11 A12

A21 A22

= A11−1 (I + A12F2A21A11

−1) −A11−1A12F2

−F2A21A11−1 F2

F2 ≡(A22 − A21A11

−1A12

)−1.

Je vous invite a verifier qu’il s’agit bel et bien de l’inverse de la matrice originale en faisant

les multiplications matricielles appropriees pour retrouver la matrice identite. Appliquant

cette formule dans le cas qui nous preoccupe, nous obtenons

β = β − (X ′X)−1R′[R (X ′X)

−1R′]−1 (

Rβ − r)

λ =[R (X ′X)

−1R′]−1 (

Rβ − r)

ou β = (X ′X)−1X ′Y . Notez que la solution pour λ contient(Rβ − r

). Si l’estimateur

satisfait ces restrictions exactement (autrement dit si Rβ = r), alors nous avons λ = 0 et

l’estimateur des MCO sous contraintes devient egal a l’estimateur MCO sans contrainte.

Nous sommes sur le point de pouvoir montrer que la formule generale pour la statistique F se

reduit au cas special sous l’hypothese de l’homoscedasticite. Je prends a ce stade-ci un

raccourci en faisant appel a un resultat developpe dans l’article de Greene et Seaks (1991),

qui montrent que la variance de l’estimateur β (sous l’hypothese de l’homoscedasticite) est

donnee par

Var(β|X

)= σ2 (X ′X)

−1 − σ2R′[R (X ′X)

−1R′]−1

R (X ′X)−1.

σ2 ≡ Var (ui|Xi) .

Notez que le premier terme est la variance de l’estimateur MCO β sous l’hypothese

d’homoscedasticite. Pour calculer la variance de β, il faut soustraire une matrice qui (on peut

montrer) est une matrice positive-definie. Cela veut dire que la variance de β est � plus petite

que � la variance de β, la difference etant une matrice positive-definie. L’interpretation, c’est

que le fait d’imposer les contraintes et donc d’imposer de l’information additionnelle

concernant les valeurs des parametres β reduit la variance de l’estimateur.

Apres cette petite parenthese, procedons maintenant a notre demonstration. Definissons

U ≡ Y −Xβ

= Y −Xβ −X(β − β

)= U −X

(β − β

Nous avons

U ′U =(U −X

(β − β

))′ (U −X

(β − β

= U ′U − U ′X(β − β

)−(β − β

)X ′U +

(β − β

)X ′X

(β − β

)= U ′U +

(β − β

)X ′X

(β − β

)ou les deux termes dans l’avant derniere expression sont egaux a zero puisque les residus

MCO sont orthogonaux a X . Donc

U ′U = U ′U +(β − β

)′X ′X

(β − β

)≥ U ′U .

Notez que dans ce cas U ′U et U ′U sont des scalaires, et donc l’inegalite est une inegalite

ordinaire. Le dernier terme du cote droit dans cette equation est une forme quadratique est

donc doit etre positif. A moins que β = β, il va etre strictement positif. Ceci est logique. U ′U

est une somme de residus au carre qui resulte de la solution d’un probleme de minimisation

sous contrainte, tandis que U ′U est une somme de residus au carre qui resulte de la solution

du meme probleme de minimisation, sans imposer la contrainte. Il est normal que le minimum

trouve comme solution au probleme non contraint soit inferieur au minimum trouve au

probleme sous contrainte.

Cela veut dire que U ′U − U ′U est une mesure de la deterioration de l’ajustement en imposant

les restrictions, et peut etre utilise pour construire le test F . La solution que nous avons

trouvee pour β nous donne

(β − β

)= − (X ′X)

−1R′[R (X ′X)

−1R′]−1 (

Rβ − r).

Substituant, on a

U ′U − U ′U =(β − β

)′X ′X

(β − β

)=(Rβ − r

)′ [R (X ′X)

−1R′]−1

(X ′X)−1

R (X ′X)−1X ′X (X ′X)

−1R′

[R (X ′X)

−1R′]−1 (

Rβ − r)

=(Rβ − r

)′ [R (X ′X)

−1R′]−1 [

R (X ′X)−1R′]

[R (X ′X)

−1R′]−1 (

Rβ − r)

=(Rβ − r

)′ [R (X ′X)

−1R′]−1 (

Rβ − r).

Notez aussi que dans ce cas,

U ′U ≡ SSRrestricted

U ′U ≡ SSRunrestricted.

Voici la derniere etape dans l’argument. Sous l’hypothese nulle (que Rβ = r), puisque β suit

(asymptotiquement ou approximativement) une distribution normale, alors(Rβ = r

une distribution asymptotiquement normale aussi, puisqu’il s’agit d’une combinaison lineaire

de variables aleatoires (asymptotiquement) normales. Sa variance est donnee par

Var(Rβ − r

(Varβ

)R′ = σ2R (X ′X)

−1R′

sous l’hypothese d’homoscedasticite. Pour cette raison, nous pouvons montrer que

(Rβ − r

)′ (σ2R (X ′X)

−1R′)(

Rβ − r)

suit (asymptotiquement ou approximativement en echantillon fini) une distribution chi-carre

avec q degres de liberte, ou comme d’habitude q est le nombre de restrictions. Le probleme,

c’est que σ2 n’est pas observable. La derniere etape est de convertir en une statistique que

nous pouvons calculer avec les donnees que nous avons. Nous pouvons montrer que

(Rβ − r

)′ (σ2R (X ′X)−1R′

) (Rβ − r

[(n− k − 1) s2/σ2] / (n− k − 1)

est le ratio de deux variables chi-carre (encore une fois asymptotiquement ou

approximativement en echantillon fini), chacune divisee par son nombre de degres de liberte.

Les σ2 au numerateur et au denominateur s’annulent, et nous savons que notre estimateur

(convergent et non biaise) s2 est donne par

s2 ≡ U ′U

(n− k − 1)= SSRunrestricted/ (n− k − 1) .

⇒ (n− k − 1) s2 = SSRunrestricted

Donc nous avons

(Rβ − r

)′ (R (X ′X)−1R′

) (Rβ − r

SSRunrestricted/ (n− kunrestricted − 1)

=(SSRrestricted − SSRunrestricted) /q

SSRunrestricted/ (n− kunrestricted − 1),

ce qui fut a montrer. Le ratio de ces variables chi-carre, les deux divisees par les degres de

liberte, suit une distribution F . Encore une fois, si nous ne sommes pas prets a faire

l’hypothese que les erreurs du modele non contraint ui sont generees par une loi normale, ce

resultat est un resultat asymptotique et ne tient que de facon approximative en echantillon fini.

Puisque nous utilisons un resultat qui tient asymptotiquement ou approximativement en grand

echantillon, nous utilisons la fonction de distribution cumulee de Fq,∞.

Ces tests sont faciles a calculer et ont une interpretation intuitive simple. Par contre, ils ne sont

valides que dans le cas d’erreurs homoscedastiques.

Un exemple concret pourrait aider a rendre plus clair le concept � estimer le modele en imposant

les contraintes �. Soit le modele de regression multiple standard, ecrit en notation non matricielle :

Nous voulons tester l’hypothese nulle que β1 + β2 = 1. Notez que l’hypothese nulle revient a

imposer une restriction (contrainte) sur la valeur de ces deux coefficients. Isolant β2 nous donne

β2 = 1− β1.

Maintenant, substituant dans le modele, nous avons :

Yi = β0 +X1iβ1 +X2i(1− β1) + . . .+Xkiβk + ui,

que nous pouvons reecrire comme :

Yi −X2i = β0 + (X1i −X2i) β1 +X3iβ3 + . . .+Xkiβk + ui.

On peut estimer ce modele (la version contrainte) avec un logiciel comme R, STATA ou GRETL

en definissant une nouvelle variable dependante Yi ≡ Yi −X2i et une nouvelle variable

explicative Zi ≡ X1i −X2i. Le modele a estimer devient :

Yi = β0 + Ziβ1 +X3iβ3 + . . .+Xkiβk + ui.

Notez bien que ce que nous venons de faire n’est pas la meme chose que ce que nous avons fait

pour transformer le modele pour tester une seule hypothese dans le cadre d’une combinaison

lineaire de coefficients. Dans ce dernier cas, nous avons propose d’estimer un modele equivalent

au modele initial. Puisqu’il etait equivalent, l’estimation etait valide sans imposer des hypotheses

additionnelles. Dans le present contexte, le modele transforme n’est pas equivalent au modele

initial. Il n’est valide que sous les contraintes de H0.

Nous savons que la loi F est definie seulement pour des valeurs positives de la variable aleatoire.

Dans ce cas, les estimes MCO du modele contraint proviennent de la solution a un probleme de

minimisation contraint, ou la contrainte est l’hypothese nulle que nous voulons tester. Les estimes

MCO du modele non contraint proviennent de la solution a un probleme de minimisation ou cette

contrainte n’est pas imposee. Pour cette raison, la somme des residus carres du modele contraint

doit etre au moins aussi elevee que pour le modele non contraint, et la statistique F calculee par

une des formules ou par l’autre doit etre positive. 13

L’extension au cas d’hypotheses jointes est directe.

9.9 Test de significativite de la regression dans le cas homoscedastique

Dans ce cas, la version contrainte du modele prend une forme speciale. D’abord, nous avons

q = k. Ensuite, si tous les coefficients sauf la constante sont egaux a zero, le modele est (sous

forme non matricielle)

Yi = β0 + ui.

Nous avons deja vu (dans le chapitre de rappel sur la theorie des probabilites et la statistique) que

dans ce cas l’estimateur MCO de β0 est tout simplement la moyenne echantillonnale de Y , soit Y .

Autrement dit,

β0 = Y .

Nous savons que la somme totale des carres (TSS) est donnee par

TSS =n∑i=1

(Yi − Y

13. Ce resultat est du tout simplement aux proprietes algebriques de la minimisation sous contrainte. La valeur mi-nimale d’une fonction sous une contrainte doit etre au moins aussi elevee que la valeur minimale lorsque la contrainten’est pas imposee.

et dans ce cas-ci nous avons

Yi = Y + ui

⇒ TSS ≡n∑=1

(Yi − Y

n∑i=1

u2i ≡ SSR

Donc, dans ce cas nous avons forcement une statistique R2 egale a zero. Nous n’avons pas besoin

d’estimer le modele contraint, sachant que son R2 est forcement zero. La deuxieme forme de la

statistique F devient dans ce cas

F =(R2) /k

(1−R2) / (n− k − 1)

(1−R2)

(n− k − 1)

ou je n’ai pas ecrit explicitement �R2unrestricted

� puisqu’il n’y a pas d’ambiguıte (on estime

seulement le modele non contraint).

9.10 Tests exacts

Tous les tests developpes dans cette section des notes sont valides en grand echantillon. Ils

reposent sur l’idee de la convergence en distribution. Si on est pret a faire les hypotheses

heroıques que les erreurs sont homoscedastiques, i.i.d., et distribuees selon une loi normale, nous

pouvons montrer que la statistique F est distribuee selon une loi Fq,n−kunrestricted−1 meme en petit

echantillon. Donc, ces hypotheses nous permettent de faire ce que j’ai appele de l’inference

� exacte � (basee sur des formes distributionnelles connues) au lieu de faire ce que j’ai appele de

l’inference � approximative � ou � asymptotique � (basee sur l’hypothese que l’echantillon est

assez grand pour penser qu’une version de la loi des grands nombres et/ou le theoreme de la

limite centrale tient approximativement). Vous devriez comparer les valeurs tablees de Fq,∞ et

Fq,n−kunrestricted−1 pour des valeurs differentes de n afin de developper une idee de la taille

d’echantillon ou les differences entre les deux deviennent negligeables.

Je partage l’opinion des auteurs du manuel qu’il est mieux de privilegier l’inference

approximative, surtout dans le cas de banques de donnees microeconomiques avec des milliers

sinon des dizaines de milliers d’observations.

9.11 Ensembles de confiance

Comme dans le cas du modele de regression simple, l’idee d’ensembles de confiance est une

extension naturelle de l’idee de tests d’hypothese. Il faut parler � d’ensembles � au lieu

� d’intervalles � parce qu’il s’agit de plus qu’un coefficient. Un point (des valeurs donnees des

coefficients) est dans l’ensemble de confiance de X% si nous ne pouvons rejeter ces valeurs a un

niveau de significativite marginal de (100−X)% sous l’hypothese nulle que les vraies valeurs

des coefficients sont egales a celles obtenues par l’estimation MCO.

Geometriquement, un ensemble de confiance prend la forme d’une ellipse dans le plan des

coefficients pour lesquels on le calcule (donc, si on calcule un ensemble de confiance pour plus

que deux coefficients, le � plan � aura plus que deux dimensions).

Supposons que nous voulons etablir un ensemble de confiance pour les coefficients β1, β2 et β4,

pour une regression ou le nombre de variables explicatives a part la constante est au moins egal a

quatre. Si nous voulons savoir si le point (β1,0 , β2,0 , β4,0) est dans l’ensemble de confiance

autour des valeurs estimees de ces parametres, nous testons, etant donne l’echantillon

d’observations, l’hypothese nulle jointe suivante :

H0 : β1,0 = β1 , β2,0 = β2 , β4,0 = β4.

Si H0 est acceptee a un niveau de significativite marginal de (100−X)%, le point est dans

l’ensemble de confiance.

Dans le cas d’un intervalle de confiance, il est tres facile de decrire explicitement ses bornes,

puisqu’il s’agit de 2 points. Dans le cas d’un ensemble de confiance, meme lorsqu’il s’agit d’une

ellipse en seulement deux dimensions, le nombre de points dans la borne de l’ellipse est infini.

Pour cette raison, il est beaucoup plus difficile de decrire explicitement les ensembles de

confiance. Nous venons de resumer tout ce qu’il est necessaire de savoir en principe pour calculer

les ensembles de confiance. Il y a des formules explicites, basees sur la formule pour la statistique

F utilisee pour tester si un point fait partie de l’ensemble de confiance, mais nous n’allons pas

etudier ces formules dans ce cours.

10 Multicollinearite

Il faut distinguer entre ce qu’on appelle la multicollinearite parfaite et la multicollinearite

imparfaite.

10.1 Multicollinearite parfaite

Dans ce cas, il existe une relation lineaire exacte qui relie un sous-ensemble des variables

explicatives. Dans la majorite des cas, il resulte d’un probleme logique dans le choix des

regresseurs. Il y a plusieurs types de situations ou cela peut arriver.

• L’exemple le plus connu de ce probleme est la soi-disant � trappe des variables

dichotomiques �, que nous pouvons illustrer avec un exemple simple. Supposons que nous

avons un echantillon avec des individus, et une des caracteristiques est le sexe de

l’individu. Nous pourrions construire deux variables dichotomiques, dont la premiere

prend la valeur de un lorsque l’individu est une femme et zero autrement, et la deuxieme

prend la valeur de un lorsque l’individu est un homme et zero autrement. Appelons ces

deux variables X1 et X2. Nous pourrions avoir, par exemple :

, X2 =

Il est evident que

X1 +X2 =

Maintenant, si nous essayons d’estimer une regression et d’inclure une constante, X1 et

X2 comme variables explicatives, la constante sera tout simplement la somme de X1 et

X2. Donc, c’est le cas que nous pouvons exprimer une des variables explicatives comme

une combinaison lineaire des autres variables explicatives du modele de regression.

• Il y a plusieurs autres exemples classiques de multicollinearite parfaite. Voir la section 6.7

du manuel.

La multicollinearite parfaite nous empechera meme d’estimer notre regression. Il est facile de

montrer que, en presence d’un probleme de multicollinearite parfaite, la matrice X ′X n’est pas de

rang plein. Il est impossible que calculer (X ′X)−1, et l’estimateur β = (X ′X)−1X ′Y n’existe

meme pas. Un logiciel de regression comme R, STATA ou GRETL va tout simplement imprimer

un message d’erreur. En fait, un message d’erreur signalant que la matrice X ′X est singuliere est

presque toujours un signe de multicollinearite parfaite. Le remede est de reexaminer le choix des

variables explicatives du modele.

10.2 Multicollinearite imparfaite

Il s’agit maintenant d’une situation ou ce n’est pas le cas qu’une variable explicative est une

combinaison lineaire exacte des autres variables explicatives du modele, mais plutot une situation

ou une variable explicative est tres fortement correlee avec une autre variable explicative ou avec

une combinaison lineaire de ces variables. Dans ce cas, la matrice X ′X n’est pas singuliere, mais

elle peut souvent etre presque singuliere. Elle aura une valeur caracteristique pres de zero, et

beaucoup plus faible que les autres valeurs caracteristiques de la matrice X ′X .

La multicollinearite imparfaite n’est typiquement pas un signe d’une erreur logique dans le choix

des variables explicatives du modele, mais est due aux donnees utilisees et a la question a laquelle

on essaie de repondre en specifiant le modele de regression multiple.

Il y a une consequence de cette situation qui est strictement dans le domaine de l’analyse

numerique. Avec une matrice X ′X qui est presque singuliere, meme si l’ordinateur est capable de

calculer son inverse, le resultat du calcul sera en general sujet a des erreurs numeriques

importantes. Les coefficients estimes seront imprecis non au sens statistique mais plutot au sens

numerique. Souvent, dans ces cas, un logiciel de regression comme R, STATA ou GRETL va

calculer les resultats de la regression, mais il va indiquer parmi l’output que la matrice X ′X est

presque singuliere ou �mal conditionnee �.

L’autre consequence de la multicollinearite imparfaite est que les ecarts types des coefficients

estimes risquent d’etre plutot eleves. Par consequent, les intervalles de confiance pour les

coefficients individuels seront tres larges et les tests d’hypothese n’auront pas beaucoup de

puissance.

Il est difficile de montrer rigoureusement ce resultat (que les ecarts types des coefficients estimes

seront grands) dans le cas general. L’Annexe 6.2 du manuel presente un exemple specifique qui

illustre le principe. Dans le cas d’un modele de regression multiple avec deux variables

explicatives et erreurs homoscedastiques (Var (ui|X1,i , X2,i) = σ2u), nous avons

β1d−→ N

(β1 , σ

σ2β1

1− ρ2X1,X2

ou ρX1,X2 est la correlation (dans la population) entre les deux variables explicatives de la

regression. On voit a partir de cette equation que, toutes choses etant egales par ailleurs, plus

elevee est la correlation entre les deux variables explicatives, plus elevee est la variance de β1.

Dans ce cas, le modele de regression n’est pas forcement mal specifie. Par contre, il peut etre tres

difficile sinon impossible d’estimer avec precision et d’etablir la significativite d’un coefficient

d’une variable dont la correlation avec au moins une autre variable explicative est tres forte.

La preuve de cette formule dans le cas ou k = 2 est relativement facile. Le modele au depart

est donne par

Yi = β0 + β1X1i + β2X2i + ui.

Nous avons

Y = β0 + β1X1 + β2X2 + u

ou, comme d’habitude, une barre indique la moyenne echantillonnale d’une variable. Ceci

nous donne

Yi − Y = β1(X1i − X1

)+ β2

(X2i − X2

)+ (ui − u)

ou par construction la variable dependante et les variables explicatives ont des moyennes

echantillonnales de zero et ou on soustrait la moyenne echantillonnale des erreurs de chaque

ui (bien sur, puisque nous n’observons pas les ui nous n’observons pas non plus u.

L’estimateur MCO est donne par la formule habituelle

= (X ′X)−1X ′Y

Dans ce cas, la matrice variance-covariance du vecteur de parametres estimes est donnee par

σX1,X2

σX1,X2 σ2X2

Notez que cette formule repose sur une hypothese d’homoscedasticite de l’erreur. Puisque

nous avons soustrait les moyennes des variables X1 et X2, la matrice Q qui normalement est

une matrice de moments bruts s’avere etre aussi la matrice variance-covariance des variables

X1 et X2. Aussi, puisqu’il s’agit dans ce cas d’une matrice de dimensions 2× 2, on sait

comment ecrire une expression algebrique pour son inverse. Il est facile de verifier que dans

ce cas-ci nous avons σ2X1

σX1,X2

σX1,X2 σ2X2

σ2X1σ2X2− (σX1,X2)

−σX1,X2

−σX1,X2 σ2X1

,ce qui donne

σ2β1

[σ2X2

σ2X1σ2X2− (σX1,X2)

σ2X1− (σX1,X2)

1− (σX1,X2)2

σ2X1σ2X2

1− ρ2X1,X2

ou ρ2X1,X2est le coefficient de correlation entre X1 et X2 au carre. En regardant cette

expression, il est clair que la variance σ2β1

du parametre estime β1 va croıtre avec la valeur

absolue du coefficient de correlation entre X1 et X2. On peut aussi montrer que la variance de

β2 est donnee par

σ2β2

1− ρ2X1,X2

Encore une fois, sa variance augmente avec la valeur absolue du coefficient de correltation

entre X1 et X2.

La multicollinearite imparfaite traduit le fait qu’il peut etre tres difficile (sinon impossible),

statistiquement parlant, d’isoler l’impact individuel de chacune de deux variables explicatives qui

sont fortement correlees. C’est possible que chacune des deux variables soit non significative sur

la base d’un test d’hypothese simple (base sur une statistique t), tandis qu’un test de l’hypothese

nulle jointe que les deux variables sont non significatives rejette cette hypothese nulle sur la base

d’une statistique F . En interpretant les resultats d’une telle regression, il est important d’insister

sur l’importance du bloc de deux variables pour expliquer la variable dependante, tout en

soulignant l’impossibilite d’attribuer l’importance a une variable particuliere a cause du probleme

de multicollinearite imparfaite.

10.3 Trucs pratiques

• Si vous avez une banque de donnees avec plusieurs variables explicatives potentielles,

il pourrait etre interessant de calculer la matrice de tous les coefficients de correlation

entre toutes les paires de variables. Ceci peut faire apparaıtre des problemes potentiels

de multicollinearite.

• Lorsque vous estimez un modele de regression multiple, il pourrait etre interessant, si

votre logiciel permet de le faire facilement, de calculer la valeur du

� conditionnement � de la matrice (X ′X), donnee par le ratio de la plus grande valeur

caracteristique de la matrice sur la plus petite valeur caracteristique. Si ce chiffre est

tres elevee, on dit que la matrice est �mal conditionnee �, ce qui peut occasionner des

erreurs numeriques importantes. Une matrice mal conditionnee est presque singuliere.

11 Un Exemple

Je presente ici un autre exemple en code R pour illustrer sa puissance et le fait que (meme en

n’utilisant pas une des interfaces graphiques disponibles) il est relativement facile a utiliser. On

peut telecharger une banque de donnees, estimer un modele de regression multiple, et faire

imprimer les resultats dans un fichier en six lignes de code. Notez que les commandes

coeftest et linearHypothesis se trouvent dans les packages lmtest et car. Il faut les

charger en memoire et il faut aussi les installer si ce n’est pas deja fait. On peut les installer avec

les commandes suivantes.

R> install.packages("car")

R> install.packages("lmtest")

En Linux, il est toujours conseille d’installer les packages comme administrateur ou

super-utilisateur :

R> sudo install.packages("car")

R> sudo install.packages("lmtest")

Par la suite, on les charge en memoire avec les commandes suivantes.

R> library("car")

R> library("lmtest")

Voci l’exemple.

Voici un exemple d’estimation d’un modele de regression multiple avec le logiciel R. Encore

une fois, vous pouvez facilement jouer avec le code une fois que le logiciel est installe.

R> data("CPS1988", package="AER")

R> CPS lm <- lm(log(wage) ∼ experience + I(experienceˆ2) +

education + ethnicity, data=CPS1988)

R> summary(CPS lm)

R> outfile <- file("regsumm.out", "w")

R> capture.output(summary(CPS lm), file=outfile)

R> close(outfile)

Les donnees sont dans une banque de donnees qui s’appelle � CPS1988 �. Il s’agit d’une

coupe transversale de 28 155 observations recueillies par le Bureau du Recensement aux Etats

Unis dans le cadre du sondage Current Population Survey. Les donnees portent sur les

hommes ages de 18 a 70 ans avec un revenu superieur a 50 $ qui ne sont ni travailleurs

autonomes ni en train de travailler sans remuneration. Voir la description plus detaillee dans

Kleiber et Zeileis (2008, p.65).

La variable dependante du modele est le salaire reel (dollars par semaine) mesure en logs. La

variable explicative experience est l’experience de travail mesuree en annees, la variable

education est le nombre d’annees de formation mesure en annees, et la variable

ethnicity est une variable dichotomiques prenant les valeurs cauc (blanc) et afam

(afro-americain). Notez qu’il s’agit d’une variable dichotomique qui ne prend pas des valeurs

chiffrees (0 ou 1 par exemple) : R va pouvoir tenir compte de ceci automatiquement.

Il faut avoir installe le paquetage � AER � avec la commande suivante :

install.packages("AER")

Cette commande va telecharger et installer le paquetage automatiquement a partir d’un des

depots d’archives R. (Notez que sous Linux il est preferable d’installer le paquetage comme

administrateur du systeme, autrement dit comme super-utilisateur).

Il est possible de generer un resume des proprietes des donnees avec les commande suivante.

R> data(¨CPS1988¨)

R> summary(CPS1988)

Voir Kleiber et Zeileis (2008, p.66) pour les resultats de cette commande.

• La commande data(·) charge la banque de donnees.

• La commande lm(·) estime le modele de regression multiple par MCO, et la

commande jour lm<- place les resultats dans la variable jour lm.

• La commande summary(·) imprime les resultats de la regression a l’ecran.

• La commande outfile<- cree un fichier texte ou on peut envoyer les resultats.

• La commande capture.output(·) envoie les resultats dans le fichier qui a ete cree.

• La commande close(·) ferme le fichier.

La fonction I() dit a R d’interpreter l’operateur ˆ comme un operateur algebrique standard,

puisqu’il a aussi une interpretation speciale en R.

Les resultats de l’estimation sont comme suit :

lm(formula = log(wage) ∼ experience + I(experienceˆ2) + education +

ethnicity, data = CPS1988)

Residuals:

Min 1Q Median 3Q Max

-2.943 -0.316 0.058 0.376 4.383

Coefficients:

Estimate Std. Error t value Pr(> |t|)

(Intercept) 4.321395 0.019174 225.4 <2e-16

experience 0.077473 0.000880 88.0 <2e-16

I(experienceˆ2) -0.001316 0.000019 -69.3 <2e-16

education 0.085673 0.001272 67.3 <2e-16

ethnicityafam -0.243364 0.012918 -18.8 <2e-16

Residual standard error: 0.584 on 28150 degrees of freedom

Multiple R-squared: 0.335, Adjusted R-squared: 0.335

F-statistic: 3.54e+03 on 4 and 28150 DF, p-value: <2e-16

Vous devriez etre en mesure de comprendre tous les elements de l’output, a part la

signification du coefficient ethnicityafam. Ce coefficient est cree automatiquement par

R, qui a choisi de traiter la categorie cauc comme la categorie de reference et de creer une

variable dichotomique pour la categorie afam. La section de ces notes sur la multicollinearite

parfaite nous a appris que nous ne pouvons pas inclure une constante, une variable

dichotomique pour la categorie cauc, et une variable dichotomique pour la categorie afam.

Comme dans le cas du modele de regression simple, le code ci-dessus estime le modele par

MCO utilisant les options par defaut. La fonction lm utilise par defaut une hypothese

d’homoscedasticite. Donc, les ecarts types des deux coefficients ne sont pas des ecarts types

robustes. Afin d’obtenir des ecarts types robustes a la presence de l’heteroscedasticite, il faut

utiliser la commande suivante :

R> coeftest(CPS lm, vcov=vcovHC)

Les resultats de cette commande sont comme suit :

t test of coefficients:

Estimate Std. Error t value Pr(> |t|)

(Intercept) 4.3214e+00 2.0614e-02 209.630 <2e-16

experience 7.7473e-02 1.0188e-03 76.046 <2e-16

I(experienceˆ2) -1.3161e-03 2.3486e-05 -56.035 <2e-16

education 8.5673e-02 1.3755e-03 62.283 <2e-16

ethnicityafam -2.4336e-01 1.3119e-02 -18.550 <2e-16100

Comme dans l’exemple presente dans le chapitre precedent, ce modele est un exemple d’un

modele ou il n’y a pas une grande difference entre les ecarts types robustes et non robustes.

Puisque l’ordinateur est capable de calculer les ecarts types en une fraction de seconde, il

coute presque rien de les calculer des deux facons afin de verifier si les resultats sont

semblables ou non.

Nous pouvons aussi effectuer des tests de restrictions sur le modele estime. Nous pouvons

specifier la matrice R et le vecteur r comme dans les notes de cours. La forme generale d’un

test d’hypotheses lineaires dans R est

linearHypothesis(unrestricted,bigr,littler)

Ici, � unrestricted � est le nom du modele lineaire estime, � bigr � est la matrice R,

et � littler � est le vecteur r des notes. Afin d’utiliser la matrice de variance-covariance

robuste, il faut specifier la commande de la maniere suivante :

linearHypothesis(unrestricted,bigr,littler,white.adjust=HC)

Voici un exemple de test dans le contexte du modele estime dans cet encadre. si on voulait,

par exemple, tester la significativite de l’experience, il faut test la significativite de deux

coefficients, le terme lineaire et le terme au carrre. L’hypothese nulle jointe serait

β1 = β2 = 0. Sous forme matricielle, on aurait

0 1 0 0 0

0 0 1 0 0

D’abord, il faut definir les matrices R et r dans le langage R.

R> bigr <- rbind(c(0,1,0,0,0),c(0,0,1,0,0))

R> littler <- rbind(0,0)

Pour plus de precisions, on peut invoquer la commande help(rbind). Maintenant, on peut

invoquer la commande linearHypothesis telle que specifiee ci-dessus.

12 Un Autre Exemple

Je presente ici un autre exemple detaille, base sur la derniere question du dernier tp du trimestre

d’hiver 2012. Le code R est commente et donc les commandes devraient etre comprehensible au

lecteur.

D’abord, voici la question du tp.

Preambule

L’exercice est base sur l’article de Mankiw, Romer et Weil (1992). Soit la fonction de

production agregee donnee par

Yt = Ktα (AtLt)

(1−α)

ou Yt est le PIB reel, Kt le stock de capital, At le niveau du progres technique, et Lt l’emploi

total. On peut transformer cette equation de la maniere suivante :

Supposons que le progres technique croıt en moyenne a un rythme constant et egal a travers

les pays differents :

Ai,t = Ai,0egt

ou g est le taux de croissance du progres technique, Ai,0 le niveau initial du progres technique

pour le pays i, et Ai,t le niveau du progres technique au pays i en periode t. Le modele de

Solow predit qu’a long terme le ratio du capital par travailleur effectif est donne par

)≡ kt = k∗ =

n+ g + δ

ou n est le taux de croissance de la population active et δ est le taux de depreciation du

capital. Supposons un niveau initial du progres technique qui peut dependre du pays (dotation

initiale en ressources naturelles, etc., tel que

ln (Ai,0) = a+ εi.

Donc, nous avons qu’a long terme

(Yi,tLi,t

)= Ai,tk

∗iα + εi

⇒ ln

(Yi,tLi,t

)= a+ gt+ αsi − α (ni + g + δ) + εi

ou nous supposons g et δ constants a travers les pays differents. Si on suppose t = 0 pour

simplifier nous pouvons ecrire

)= a+ αsi − α(ni + g + δ) + εi. (3)

Si on ajoute le capital humain au modele, la fonction de production devient

Yt = KtαHt

β (AtLt)(1−α−β) ,

ou Ht est le capital humain. On peut montrer (voir l’article pour les details) que l’equivalent

de (3) devient

1− α− βsi +

1− α− βshi −

α + β

1− α− β(ni + g + δ) + εi. (4)

La variable shi est le taux d’investissement dans le capital humain.

Donnees

Telechargez le fichier de donnees (en format STATA) :

http://www.er.uqam.ca/nobel/r10735/4272/GrowthDJ.dta

Vous devriez etre capables de les importer facilement avec GRETL. Si vous utilisez R, la base

de donnees se retrouve dans la � library � AER. Les donnees sont pour un echantillon de 121

pays et sont :

• oil : pays ou l’industrie petroliere est l’industrie dominante (yes) ou non

• inter : pays avec une population au moins egale a un million en 1960 et avec des

donnees relativement fiables selon Heston et Summers (1987) (yes) ou non

• oecd : pays membre de l’OCDE (yes) ou non

• gdp60 : niveau reel du PIB par habitant en 1960

• gdp85 : niveau reel du PIB par habitant en 1985

• gdpgrowth : taux de croissance moyen du PIB reel par habitant entre 1960 et 1985

• popgrowth : taux de croissance moyen de la population entre 1960 et 1985

• invest : valeur moyenne du ratio investissement sur PIB entre 1960 et 1985

• school : ratio moyen des inscriptions a l’ecole secondaire sur la population en age de

travailler.

• literacy60 : taux d’alphabetisation en 1960

Les donnees correspondent a l’Annexe de l’article de Mankiw, Romer et Weil (1992). Pour

l’identite des pays, il faut referer a cette annexe.

Exercice

1. Estimez un modele de regression multiple ou gdp85 est la variable dependante et les

variables explicatives sont une constante, invest pour mesurer si et

(popgrowth+0.05) pour mesurer (ni + g + δ) (nous supposons

qu’approximativement g + δ = 0.05). Ce modele equivaut au modele de Solow sans

capital humain. Estimez en calculant des ecarts types non robustes et robustes.

Commentez ce que vous trouvez. Pour les sous-questions qui suivent, vous pouvez

vous limiter a des estimations et des tests qui utilisent la matrice de

variance-covariance robuste.

2. Le modele de Solow predit que les coefficients sur le taux d’epargne si et le taux de

croissance de la population (ni + 0.05) devraient etre de signe oppose mais egaux en

valeur absolue. Testez cette hypothese. Le modele predit aussi que ces deux

coefficients devraient etre egaux en valeur absolue a la part du capital dans le revenu

national (α), soit environ 1/3. Testez cette hypothese jointe.

3. Enlevez de l’echantillon les pays ou l’industrie petroliere est l’industrie dominante.

Refaites les estimations et tests des 2 premieres sous-parties.

4. Enlevez maintenant les pays ou l’industrie petroliere est dominante et les pays qui ont

une population inferieure a un million en 1960 ou qui ont des donnees relativement

peu fiables. Refaites les estimations et tests des 2 premieres sous-parties. Gardez cet

echantillon restreint pour le reste des sous-parties. En principe vous devriez avoir 75

observations.

5. Maintenant, supposons que les pays membres de l’OCDE ont un comportement

different des autres pays. Soit oecd la variable qui prend une valeur unitaire si le pays

est membre de l’OCDE et zero autrement. Incluez comme variables explicatives des

variables d’interaction entre oecd et les autres variables explicatives a part la

constante.

6. Testez significitivite (individuelle et jointe) de ces termes d’interaction.

7. Ajoutez la variable school au modele comme proxy pour sh, avec un terme

d’interaction pour les pays de l’OCDE. Le modele maintenant equivaut au modele de

Solow avec l’ajout du capital humain, avec un terme d’interaction pour les pays de

l’OCDE.

8. Testez la significativite des deux variables additionelles (school et le terme

d’interaction entre school et le fait d’etre membre de l’OCDE).

9. Le modele augmente predit que coefficient de la variable associe au taux d’epargne s

devrait maintenant etre superieur a la part du capital. Testez cette hypothese en

appliquant un test avec hypothese alternative unilaterale au coefficient associe a

school seulement.

10. Le modele augmente predit que la somme des coefficients sur school et invest

devrait etre egale a moins le coefficient sur (popgrowth+0.05). Testez cette

hypothese, pour les pays non membres de l’OCDE seulement.

11. Ajoutez le niveau du PIB par habitant en 1960 au modele mesure par gdp60, avec un

terme d’interaction entre gdp60 et le fait d’etre membre de l’OCDE. La

significatitivite du coefficient associe a cette variable nous permet de tester l’hypothese

de convergence. Testez la significativite de la variable gdp60. Testez maintenant la

significativite jointe de cette variable et du coefficient associe au terme d’interaction.

12. Revenez au modele sans le niveau du PIB par habitant en 1960. Construisez un

graphique avec les residus au carre sur l’axe vertical et la variable dependante sur

l’axe horizontal. Est-ce que vous reperez des valeurs aberrantes (outliers) ? Qu’est-ce

qui arrive si vous refaites l’analyse en enlevant les observations associees aux valeurs

aberrantes des residus au carre ?

13. Commentez la validite de vos tests d’hypothese. Est-ce qu’il y a assez d’observations

pour supposer la normalite approximative des statistiques calculees ? Par contre, base

sur une analyse des residus, est-ce que les erreurs du modele semblent etre normales et

homoscedastiques, ce qui permettrait d’utiliser de tests exacts en echantillon fini ?

Justifiez.

References

Mankiw, N. Gregory, David Romer et Philippe Weil (1992), “A Contribution to the Empirics

of Economic Growth.” Quarterly Journal of Economics 107, 407–437

Heston, Alan et Robert Summers (1987), “A New Set of International Comparisons of Real

Product and Price Levels : Estimates for 130 Countries 1950–85.” Review of Income and

Wealth 34, 1–26

Maintenant, voici le code en R pour estimer le modele et repondre aux questions du tp. Les

memes remarques s’appliquent que pour l’exemple precedent. Les commandes coeftest et

linearHypothesis dependent de librarys qui doivent etre installees et chargees en

memoire.

# Charger en memoire la bibliotheque AER.

library("AER")

# Charger en memoire les bibliotheques necessaires

# pour effectuer les tests d’hypotheses multiples.

# La bibliotheque AER requiert les autres

# bibliotheques, alors ces commandes ne sont pas

# strictement necessaires, mais pourraient l’etre

# pour d’autres applications.

library("car")

library("sandwich")

library("lmtest")

# Charger en memoire les donnees de la banque

# GrowthDJ.

data("GrowthDJ",package="AER")

# Imprimer un resume des donnees dans GrowthDJ.

attributes(GrowthDJ)

# Imprimer des statistique descriptives concernant

# les variables dans GrowthDJ.

summary(GrowthDJ)

# Estimer le premier modele.

growth_mod < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),

data=GrowthDJ)

# Imprimer les resultats sous l’homoscedasticite.

summary(growth_mod)

# Imprimer les resultats sous l’heteroscedasticite

# pour comparaison.

coeftest(growth_mod,vcov=vcovHC)

# Tester l’hypothese que les 2 coefficients sont

# egaux mais de signe oppose.

linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=FALSE)

# Meme test, heteroscedasticite.

linearHypothesis(growth_mod,c(0,1,-1),0,white.adjust=TRUE)

# Enlever les observations de pays qui dependent du

# petrole.

Growth2 < − subset(GrowthDJ,GrowthDJ$oil=="no")

# Reestimer le modele avec l’echantillon restreint.

growth_mod2 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),

data=Growth2)

# Imprimer les resultats d’estimation sous

# l’homoscedasticite.

summary(growth_mod2)

# Imprimer les resultats d’estimation avec

# ecarts types robustes.

coeftest(growth_mod2,vcov=vcovHC)

# Tester l’hypothese que les 2 coefficients sont

# egaux mais de signe oppose.

linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=FALSE)

# Meme test, matrice variance-covariance robuste.

linearHypothesis(growth_mod2,c(0,1,-1),0,white.adjust=TRUE)

# Enlever les observations de pays trop petits

# et/ou avec donnees non fiables.

Growth3 < − subset(GrowthDJ,GrowthDJ$oil=="no")

Growth3 < − subset(Growth3,Growth3$inter=="yes")

# Estimer le nouveau modele.

growth_mod3 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05),

data=Growth3)

# pour comparaison.

# Estimer le modele avec termes d’interaction pour

# les pays de l’OCDE.

growth_mod4 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)

log(invest):oecd + I(popgrowth+0.05):oecd, data=Growth3)

# pour comparaison.

# Tester la significativite jointe des 2 termes

# d’interaction.

bigr < − rbind(c(0,0,0,1,0),c(0,0,0,0,1))

litr < − rbind(0,0)

linearHypothesis(growth_mod4,bigr,litr,white.adjust=FALSE)

# Meme test avec matrice variance-covariance

# robuste.

linearHypothesis(growth_mod4,bigr,litr,white.adjust=HC)

# Estimer le modele en ajoutant school.

growth_mod5 < − lm(log(gdp85) log(invest) + I(popgrowth+0.05)

+ school

+ log(invest):oecd + I(popgrowth+0.05):oecd + school:oecd,

data=Growth3)

# Tester la restriction sur les 3 coefficients

bigr < − c(0,1,1,-1,0,0,0)

litr < − 0

linearHypothesis(growth_mod5,bigr,litr,white.adjust=FALSE)

# Meme test avec matrice variance-covariance

# robuste.

linearHypothesis(growth_mod5,bigr,litr,white.adjust=TRUE)

# Estimer le modele avec gdp60.

growth_mod6 < − lm(log(gdp85) ∼ log(invest) + I(popgrowth+0.05)

+ school + log(gdp60) + log(invest):oecd +

I(popgrowth+0.05):oecd

+ school:oecd + log(gdp60):oecd, data=Growth3)

# Tester la significativite de la convergence.

bigr < − rbind(c(0,0,0,0,1,0,0,0,0),c(0,0,0,0,0,0,0,0,1))

litr < − rbind(0,0)

linearHypothesis(growth_mod6,bigr,litr,white.adjust-FALSE)

linearHypothesis(growth_mod6,bigr,litr,white.adjust=TRUE)

L’output de ces commandes se trouve ci-dessous. J’ai converti les tableaux R en format LATEX a

l’aide du package texreg. Pour l’instant, j’ai inclus seulement les resultats d’estimation des

modeles differents sous l’hypothese d’homoscedasticite.

Model 1

(Intercept) 3.95∗∗∗

(0.54)

log(invest) 1.51∗∗∗

(0.16)

I(popgrowth + 0.05) -0.01

(0.08)

R2 0.47

Adj. R2 0.46

Num. obs. 107

***p < 0.01, **p < 0.05, *p < 0.1

Model 2

(0.49)

(0.14)

I(popgrowth + 0.05) -0.27∗∗∗

(0.08)

R2 0.59

Adj. R2 0.59

Num. obs. 98

***p < 0.01, **p < 0.05, *p < 0.1

Model 3

(0.58)

(0.17)

I(popgrowth + 0.05) -0.28∗∗∗

(0.08)

R2 0.59

Adj. R2 0.58

Num. obs. 75

***p < 0.01, **p < 0.05, *p < 0.1

Model 4

(0.55)

(0.18)

I(popgrowth + 0.05) 0.03

(0.13)

log(invest) :oecdyes 0.34∗∗

(0.14)

I(popgrowth + 0.05) :oecdyes -0.11

(0.24)

R2 0.66

Adj. R2 0.64

Num. obs. 75

***p < 0.01, **p < 0.05, *p < 0.1

Model 5

(0.47)

(0.17)

(0.10)

school 0.14∗∗∗

(0.03)

log(invest) :oecdyes 0.42∗∗

(0.19)

(0.20)

school :oecdyes -0.05

(0.06)

R2 0.77

Adj. R2 0.75

Num. obs. 75

***p < 0.01, **p < 0.05, *p < 0.1

Model 6

(0.54)

(0.12)

(0.07)

school 0.05∗∗∗

(0.02)

log(gdp60) 0.63∗∗∗

(0.07)

log(invest) :oecdyes 0.08

(0.29)

(0.13)

school :oecdyes -0.04

(0.04)

log(gdp60) :oecdyes 0.07

(0.12)

R2 0.90

Adj. R2 0.89

Num. obs. 75

***p < 0.01, **p < 0.05, *p < 0.1

13 Concepts a retenir

• La specification matricielle du modele de regression multiple.

• Les hypotheses de base du modele de regression multiple.

• Etre capable de suivre et comprendre le calcul de l’estimateur MCO en notation

matricielle.

• Etre capable de suivre et comprendre le calcul de l’estimateur MCO en notation non

matricielle.

• Etre capable de suivre les preuves des proprietes algebriques de l’estimateur MCO et de

retenir les proprietes elles-memes (orthogonalite entre variables explicatives et residus,

somme des residus egale a 0, orthogonalite entre valeurs predites et residus).

• Comprendre la distinction entre la mesure R2 de l’ajustement statistique et la mesure R2

de l’ajustement statistique. Comprendre pourquoi le R2 ne peut qu’augmenter si on ajoute

une ou des variables explicatives au modele de regression. Ce point est tres important. Si

vous regardez les examens passes, vous allez constater qu’il y a souvent une question

courte qui porte sur ce concept.

• Les grandes lignes des proprietes de l’estimateur MCO dans le modele de regression

multiple (absence de biais, convergence).

• Les hypotheses additionnelles qui doivent tenir pour que le theoreme Gauss-Markov soit

valide et donc pour que l’estimateur MCO soit efficient. Notez bien que l’hypothese

cruciale est celle de l’homoscedasticite du terme d’erreur du modele.

• Comprendre la distinction entre la matrice de variance-covariance robuste des coefficients

et la matrice de variance-covariance qui suppose l’homoscedasticite des erreurs.

Comprendre l’importance de savoir quelle est la version de la matrice de

variance-covariance qui est calculee par defaut par son logiciel econometrique de choix.

• Comment effectuer un test d’hypothese simple.

• Comment effectuer un test d’hypothese simple portant sur une combinaison lineaire de

coefficients par une version transformee mais equivalente du modele.

• Comment effectuer un test d’hypotheses jointes, et la facon generale d’exprimer les

contraintes a tester sous forme matricielle.

• L’idee que la statistique F pour tester une hypothese simple est le carre de la statistique t

pour tester la meme hypothese. L’idee que l’utilisation d’un test F pour tester une

hypothese simple suppose forcement un hypothese alternative bilaterale (puisque le signe

d’une statistique F est toujours positif).

• Comment tester une ou des restrictions en estimant le modele restreint, et les hypotheses

qui doivent etre verifiees pour que cette facon de proceder soit valide (notamment

l’homoscedasticite).

• Connaıtre la difference entre l’estimation d’un modele restreint ou contraint, et

l’estimation d’un modele equivalent.

• L’idee que les ensembles de confiance sont des ellipses, et qu’ils sont des ensembles de

valeurs pour lesquelles on ne peut rejeter l’hypothese jointe que les coefficients sont egaux

a ces valeurs, sous l’hypothese nulle des valeurs obtenues par le biais de notre regression

• Le principe de base concernant comment etablir si des valeurs donnees de plusieurs

coefficients se retrouvent dans l’ensemble de confiance de X% pour ces coefficients.

• La distinction entre multicollinearite parfaite et multicollinearite imparfaite.

• L’idee que la multicollinearite parfaite indique un probleme logique dans la selection des

variables explicatives.

• L’idee que la multicollinearite imparfaite reflete une correlation forte entre

sous-ensembles de variables explicatives et non une erreur logique dans la selection des

variables explicatives.

• L’idee qu’un groupe de variables puisse etre significatif pour expliquer la variable

dependante sans forcement la possibilite de pouvoir attribuer cette importance a une des

variables individuelles du groupe en particulier.

• Comprendre des techniques informelles pour detecter un probleme de multicollinearite

imparfaite (notamment un calcul de la matrice de toutes les correlations possibles entre les

variables explicatives, et le calcul du conditionnement de la matrice (X ′X)).

14 References

Pour le calcul differentiel en notation matricielle, voir le document suivant :

“Introduction to Finite Element Methods (ASEN 5007), Appendix D.” Department of Aerospace

Engineering Sciences, University of Colorado at Boulder, 2007

Je ne retrouve plus le fichier sur le site de l’University of Colorado. Il est disponible sur mon site

a l’adresse suivante :

http://www.steveambler.uqam.ca/4272/articles/matrixcalculus.pdf

Les quatre premieres pages de cet article sont particulierement pertinentes pour les fins de ce

cours.

Pour d’autres references portant sur le modele de regression multiple, voir :

http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

Derniere modification : 20/03/2018

ECO 4272 : Introduction a l’` econom´ etrie´ Notes sur la ...

Documents

Transcript of ECO 4272 : Introduction a l’` econom´ etrie´ Notes sur la ...

Aesculap Econom CL Schafschur - Premier1Supplies

G¶eom¶etrie alg¶ebrique et g¶eom¶etrie complexe · 2007. 3. 12. · G¶eom¶etrie alg¶ebrique et g¶eom¶etrie complexe Claire Voisin Institut de math¶ematiques de Jussieu,

LA LUTTE CONTRE LES CHANGEMENTS CLIMATIQUES EN TANT … · 10 C ouncil of Econom ic Advis rs ( 2 02), U.S. Econom c Report of the President, Chapitre 6: “Build ng Better Institutions

Introduction a la Simulation - Math et infomath.et.info.free.fr/ProgrammerLeWeb/bdd/presentationB.pdf · Page d’un Navigateur Internet Simulation : Points, Vecteurs, Sym etrie,

Géométrie vectorielle et analytique planeddo.supports-de-cours.ch/geometrie/cours/geom_vect_2D_c1.pdf · Géométrie vectorielle et analytique plane 1. Chapitre 1 Vecteurs dans

G eom etrie alg ebrique el ementairemath.univ-lyon1.fr/~tchoudjem/ENSEIGNEMENT/M1/GEO/cours-geo.pdf · G eom etrie alg ebrique el ementaire Alexis TCHOUDJEM Institut Camille Jordan

El ements de g eom etrie di erentielle - …hosting.umons.ac.be/php/mecagrav/english/files/geometrie_different... · El ements de g eom etrie di erentielle pour la m ecanique analytique

G´eom´etrie : deux ou trois choses que je sais d’elle

Guide d’économétrie appliquée - CIRANO Webmail ...mccauslw/ECN3949/GuideEconometrie.pdfGuide d’économétrie appliquée Simon Leblond1 Université de Montréal simon.leblond@umontreal.ca

Lexique Anlgais-Fran¸cais de Termes Econom´etriques´mccauslw/ECN3949/Lexique_Angl-Franc...Lexique Anlgais-Fran¸cais de Termes Econom´etriques´ Simon Leblond1 simon.leblond@umontreal.ca

L’AIRE DES TRIANGLES IDEAUX´ EN GEOM´ ETRIE DE ...constantin.vernicos.org/Articles/tideal-ensmath.pdfDans toute geom´ ´etrie de Hilbert ( C,d C), le segment de droite reliant

Econom i Edel Afrique

1 2.2. Les application linéaires en géométrie...1 2.2. Les application linéaires en géométrie Dans l’exemple 2.1.5, on a vu que la matrice 0 −1 1 0 représente une

ECO 4272 : Introduction a l’` econom´ etrie´ Tests diagnostics · ECO 4272 : Introduction a l’` econom´ etrie´ Tests diagnostics Steve Ambler Departement des sciences´ ´economiques

Econométrie 2 - CREST · 1 Introduction Dans le cours d’économétrie 1, on a considéré des modèles de la forme : Y = X0β 0 +ε, (1) ou` Y est une variable continue. On

METHODES ECONOM ETRIQUES DE THEORIE A LA PRATIQUEjms-insee.fr/2018/S02_1_ACTE_MAILLARD_JMS2018.pdf · 2018. 6. 7. · METHODES ECONOM ETRIQUES DE DECOMPOSITION DES IN EGALIT ES -

Facu Lda Dede Econom i A

Geom´ etrie diff´ erentielle´imagine.inrialpes.fr/.../cours2_geometrie_differentielle.pdfGeom´ etrie diff´ ´erentielle Notion de variet´ e´ Une surface Γ est une 2-variet´

Espaces euclidiens, g´eom´etrie euclidienne

Cours de Geom´ etrie´ Afﬁne et Euclidienne pour la Licence ...pedon.perso.math.cnrs.fr/fichiers/enseignement/CoursGeoLicence.pdf · 1 Rappels de geom´ etrie´ vectorielle euclidienne