Download - Econometrie Applique Cours

8/3/2019 Econometrie Applique Cours

1/253

Econometrie lineaire appliquee

Bruno Crepon Nicolas Jacquemet

Septembre 2006


2/253

2


3/253

Sommaire

Sommaire 3

1 Introduction 1

1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3

1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Lestimateur des moindres carres ordinaires 11

2.1 Definition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Modele et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3 Les MCO sous lhypothese de normalite des perturbations 21

3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 Ecart-types estimes, tests et intervalles de confiance . . . . . . . . . . . . . . . . 23

3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29

3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Estimation sous contraintes lineaires 31

4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 344.3 Esperance et variance de bmcc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.4 Estimateur de la variance des residus 2 . . . . . . . . . . . . . . . . . . . . . . . 36

4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37

4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39

4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40

4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5 Proprietes asymptotiques de lestimateur des MCO 47

5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49

5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3


4/253

4 Sommaire

Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6 Evaluation : Les estimateurs de difference 61

6.1 Le Modele causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.2 Lestimateur des Differences de Differences . . . . . . . . . . . . . . . . . . . . . . 66

7 Le modele lineaire sans lhypothese dhomoscedasticite 71

7.1 Le modele heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77

7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82

Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

8 Le modele heteroscedastique en coupe 85

8.1 Inference robuste a lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 868.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89

8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95

Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

9 Correlation des observations 99

9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99

9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104

9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 1069.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111

Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

10 Evaluation : Regressions a variables de controle 123

10.1 Independance conditionnelles a des observables . . . . . . . . . . . . . . . . . . . 123

10.2 Le modele de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134

11 Variables instrumentales 143

11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 14411.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146

11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152

11.4 Interpretation de la condition : lim rangE(zixi) = K + 1 . . . . . . . . . . . . . . 15511.5 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161

11.7 I llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

12 La Methode des moments generalisee 169

12.1 Modele structurel et contrainte identifiante : restriction sur les moments . . . . . 169

12.2 Definir un modele par le biais de conditions dorthogonalite . . . . . . . . . . . . 171

12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176


5/253

Sommaire 5

12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178

12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181

12.7 Test de specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

12.8 I llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190

12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

13 Variables dependantes limitees 197

13.1 Modele dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

13.3 Estimation des modeles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202

13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206

13.5 Selectivite : le modele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

13.6 Estimation du modele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

13.7 Modeles de choix discrets : le Modele Logit Multinomial . . . . . . . . . . . . . . 224

13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

A Rappels de statistiques 229

A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229

A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

Liste des Graphiques 235

Liste des Tableaux 237

Liste des Applications 239

Table des Matieres 241


6/253

6 Sommaire


7/253

Chapitre 1

Introduction

A la difference de la statistique, qui est une branche des mathematiques, leconometrie estune branche de leconomie, destinee a developper des outils danalyse des donnees permettant de

nourrir la reflexion theorique. Au dela de la terminologie, cette difference distingue de facon fon-

damentale les elements qui seront traites ici de lanalyse statistique des donnees. Cette difference

se traduit, notamment, par le fait que lanalyse econometrique repose sur une modelisation du

probleme auquel on sinteresse et qui servira au traitement des donnees dont on dispose.

1.1 Analyse econometrique : presentation

Lanalyse econometrique dun ensemble de donnees a, dans la grande majorite des cas,

pour objectif de tester la validite et devaluer lampleur des explications fournies par lanalyseeconomique. A ce titre, elle sinteresse donc a leffet dun ensemble de variables dites va-

riables explicatives et notees x sur une ou plusieurs autres appelees variables expliquees,

y. Le choix de ces variables et leur role dans le modele econometrique est deduit de lanalyse

economique du probleme auquel on sinteresse. Une meme variable peut ainsi jouer le role de va-

riable expliquee dans un modele econometrique donne par exemple, leducation dans un modele

dinvestissement en capital humain et le role de variable explicative dans un modele different

leducation dans un modele de formation des salaires. La theorie suggere ainsi une relation

de causalite specifique au probleme considere entre les variables auxquelles on sinteresse. Pour

cette raison, la variable expliquee est egalement souvent qualifiee de dependante ou endogene,

au sens ou une relation causale la lie aux variables explicatives considerees ; et les variables ex-plicatives qualifiees de variables independantes ou exogenes, au sens ou leur niveau peut etre

considere comme une donnee dans le cadre du probleme auquel on sinteresse.

1.1.1 Modele econometrique

Un modele econometrique est constitue de plusieurs ingredients. Lanalyse empirique de

la relation qui lie les variables explicatives a la (aux) variable(s) expliquee(s) passe dabord

par la specification dune fonction telle que : y = f(x). Cette fonction reflete la relation cau-

sale quentretiennent les variables. Il est cependant impossible pour un observateur exterieur

de connatre et dobserver parfaitement lensemble des determinants dun phenomene social. Lemoral des menages est ainsi souvent presente comme un determinant important du compor-

tement de consommation. Dans le cadre dune analyse empirique du comportement individuel

1


8/253

2 Chapitre 1. Introduction

de consommation, il est cependant inimaginable de pouvoir observer de fa con certaine cette va-

riable (chaque lecteur de ce manuel constitue ou appartient a un menage : pouvez-vous mesurer

votre moral ?). Il convient donc de distinguer dans lanalyse lensemble des elements observables,

contenus dans la liste des variables explicatives, des determinants qui echappent a lobservation ;

soit par meconnaissance du probleme, soit, le plus souvent, en raison des difficultes a les mesurer.

Ces elements inobservables ecartent la variable y du niveau que laissent attendre les variables

observees x. Lampleur de cette erreur ne peut pas, par definition, etre caracterisee. Elle est

donc consideree comme une variable aleatoire, notee u, qui sajoute au modele : y = f(x, u).

Les variations de u ainsi que la fonction f elle meme se combinent pour expliquer les va-

riations de la (les) variable(s) expliquee(s). Un certain nombre de parametres inconnus inter-

viennent dans cette combinaison. Le multiplicateur dinvestissement keynesien relie par exemple

linvestissement I et le PIB, Y, selon une relation lineaire telle que : Y = I. Lintensite de cette

relation, mesuree par , est inconnue et nest pas observable directement dans la vie economique.

Les parametres qui definissent la fonction f, notes b, doivent donc etre estimes, cest a dire etre

deduits des observations disponibles dans les donnees en sappuyant sur le modele. Pour ce faire,

il est necessaire dimposer un certain nombre dhypotheses sur la fonction f et sur le terme

derreur u. Comme nous le verrons plus bas (Section ??), les hypotheses retenues determient

de facon importante les outils qui pourront etre mobilises ainsi que les proprietes de lanalyse.

Au total, un modele econometrique se definit ainsi comme (i) une relation causale

entre des variables, (ii) perturbee par un ensemble delements inobservables, (iii)

determinee par des parametres inobservables (iv) et (v) sur laquelle sont imposees

un certain nombre dhypotheses necessaires a lestimation.

1.1.2 Le modele lineaire

Une hypothese particulierement concerne la forme imposee a la fonction f. Bien quil soit

possible de definir un modele econometrique en conservant une forme generale a la fonction on

parle alors de modele non parametrique le procede le plus courant consiste a imposer une

forme fonctionnelle pour f. On defini alors un modele parametrique. Lensemble des choix pos-

sibles est extremement vaste. On pourrait ainsi utiliser une forme exponentielle, logarithmique,

un ratio de polynomes ou toute combinaison imaginable de ces fonctions. Le modele a la fois

le plus simple et le plus etudie est le modele qui impose une forme lineaire a cette relation. Le

modele econometrique considere secrit alors :

y = + 1x1 + + KxK + u = xb + uOn retrouve ici les elements qui definissent un modele econometrique : une variable ex-

pliquee, K variables explicatives (qui sont toutes observees), K + 1 parametres (a estimer) et

un terme derreur (inobservable). Il convient detre tres vigilant quant au critere qui caracterise

la linearite du modele. La forme fonctionnelle utilisee est en effet qualifiee en fonction de la

position quoccupent les parametres et non les variables dans le modele.

Definition 1.1 Un modele econometrique est dit lineaire si la relation entre les variables

explicatives et la (les) variable(s) expliquee(s) est lineaire dans les parametres.

Le modele econometrique qui consiste a expliquer le salaire par une fonction lineaire de lage

pris au carre (ou toute autre transformation non lineiare de cette variable) sera ainsi considere


9/253

1.2. Principales etap es de lanalyse econometrique 3

comme un modele lineaire. A lexception du dernier chapitre, les resultats presentes dans cet

ouvrage se concentrent sur ce modele. Plusieurs facteurs expliquent son succes et la quantite des

travaux qui lui sont consacres.

En raison de sa simplicite, dabord, le modele lineaire est historiquement a lorigine de

lanalyse econometrique. Les developpements ulterieurs de lanalyse et notamment lanalyse non

lineaire qui sera introduite a la fin de cet ouvrage sappuient donc naturellement sur les

resultats obtenus dans le cadre du modele lineaire. Leur connaissance est ainsi indispensable a

une bonne comprehension de themes plus avances, et toute formation a leconometrie commence

dailleurs, pour cette raison, par une presentation de leconometrie lineaire. Cette simplicite

explique egalement le succes de ce modele parmi les praticiens (professionnels, chercheurs, . . . )

de leconomie appliquee. Comme nous le verrons au cours de louvrage, une part tres importante

des travaux realises dans ce domaine repose en effet sur lanalyse lineaire, et peut par consequence

etre comprise en se limitant au elements presentes dans cet ouvrage. Une derniere raison, plus

fondamentale, tient a ce que de tres nombreux modeles peuvent etre exprimes sous forme lineaire.

Il sagit de la premiere etape de lanalyse econometrique, dont un certain nombre dexemples

sont presentes ci-dessous.

1.2 Principales etapes de lanalyse econometrique

Le passage de la theorie economique a un modele econometrique consistue en effet la premiere

etape de lanalyse. Le modele peut ensuite etre mis en uvre a condition de disposer dobsevation

sur le phenomene considere et ses determinants. Il sagit alors de proceder a lestimation du

modele, et ce a des fins de validation, devaluation ou de prevision.

1.2.1 Dou vient le modele ? - 1 de la theorie economique

Comme nous lavons vu, cest la theorie economique qui suggere une relation de causalite

entre la (les) variable(s) expliquee(s) et les variables explicatives. Il faut cependant entendre le

terme theorie economique au sens large. Bien que preferable, il nest pas indispensable, en

effet, de disposer dun modele economique au sens propre du terme pour mettre en uvre un

modele econometrique. Les quelques exemples proposes ci-dessous illustrent les divers degres

dintimite qui peuvent exister entre la theorie et la specification dun modele econometrique.1

(i) Fonction de production

Dans sa variation la plus simple, lanalyse economique du processus de production considere

le niveau du produit, Y, qomme le resultat de la combinaison de deux facteurs : le capital, K,

et le travail, L :

Y = F (K, L)

Un modele non parametrique de production consisterait a conserver la forme generale de

F(). Seuls sont consideres dans cet ouvrage les modeles parametriques qui imposent une forme

particuliere a la fonction dinteret. On se restreint alors a un ensemble de fonctions de productions

ne dependant que dun nombre fini de parametres. Une specification frequemment retenue est la

fonction de production Cobb-Douglas. Imposer une forme fonctionnelle nest jamais neutre sur le

1Certains de ces exemples seront developpes au cours de louvrage.


10/253


phenomene etudie. La fonction de production Cobb-Douglas impose par exemple une restriction

forte sur les possibilites de substitution entre facteurs :

Y = AKL

et sont des parametres a estimer. On remarque immediatement que le modele ainsi

specifie nest pas lineaire au sens de la Definition 1.1. Une simple operation algebrique permet

cependant de se ramener a ce cadre :

log(Y) = log(AKL)

y = a + k + l

La seconde equation definit ainsi un modele lineaire dans les parametres. Loperation a

necessitre un changement de variables : on sinteresse desormais au logarithme du produity = log(Y) comme des facteurs (k = log(K) et l = log(L)). La quantite a correspond a une

quantite inobservee, qui sinterprete comme le logarithem du parametre dechelle de la fonction

de production. Suivant les cas, on pourrra donc la considerer comme un parametre a estimer

(constant) ou comme le terme derreur du modele. Lorsque lon sinteresse a la fonction d epro-

duction de differentes entrprises, le niveau de la technologie est ainsi susceptible de varier dune

entrprise a lautre et il paratra alors naturelle de considerer cette quantite comme lerreur du

modele. Pour les autres coefficients, en revacnhe, le modele specifie impose une homogeneite du

processus de production dans la population dentreprises.

(ii) Demande de facteursLa theorie economique a montre que la demande de facteurs qui emane des entreprises

se deduit directement de la fonction de cout associee au processus de production. En toute

generalite, cette fonction secrit : C(Q, pX , u), ou Q est le niveau de production, pX le vecteur

des prix des facteurs X et u le niveau de la technologie. La demande pour un facteur donne Xdoest donnee par le Lemme de Shephard :

Xd0 =C(Q, pX , u)

pX0

Comme dans le cas precedent on se restreint en general a une forme parametrique de la

fonction de cout. Une specification standard est la fonction de cout translog avec deux facteurs :le capital de cout exp(c) et travail de cout exp(w) :

log(C) = a + c + w + 0.5c c2 + w,c cw + 0.5w w

2 + log(Q) log(u)

Par application du lemme de Shephard, ce type de specification conduit a des fonctions de

demande specifiant la part optimal de chaque facteur dans le cout global. Pour la demande de

travail, on a par exemple :wL

Q= + w,cc + ww

Dans cette specification, la perturbation na pas dinterpretation aussi naturelle que dans lecas precedent. Il faut considerer que soit le parametre est heterogene, soit la part observee

secarte de la part theorique pour des raisons non expliquees.


11/253


Le modele peut aussi provenir dune relation moins structurelle entre les variables. Par

exemple un type dequations tres souvent estime est lequation de Mincer qui fait dependre le

salaire du nombre dannees detude et de lexperience. Par exemple :

log(wi) = a0 + assi + aeei + ui

ou as represente le gain lie a une annee detude supplementaire et ae le gain lie a une annee

dexperience supplementaire. Les parametres economiques auxquels on sinteresse alors sont le

rendement de leducation ou le rendement de lexperience. La modelisation sous-jacente est

celle du capital humain : le capital humain saccumule dabord durant la periode des etudes

puis durant la vie active par lexperience, en apprenant sur le tas. Si on fait lhypothese dun

marche du travail concurrentiel, les differences de remunerations entre les agents traduiront des

differences dans le capital humain. On peut remarquer concernant cette equation que lon ne

sinteresse pas seulement a expliquer les differences moyennes de revenus entre les agents maisque lon souhaite aussi parvenir a une estimation plus ambitieuse qui puisse conduire a une

interpretation causale : si on augmente la duree des etudes de un an dun individu quel sera son

gain en terme de remuneration ?

Un autre exemple dans lequel le modele entretient des rapports encore plus tenus avec des

parametres structurels mais possede une interpretation causale est celui de lincidence de la

taille dune classe sur le taux de reussite des eleves de la classe. On peut legitimement se poser

la question de savoir si la reduction de la taille des classes conduit a une amelioration du taux

de reussite scolaire. On peut ainsi considerer un modele du type :

i = a0 + attaillei + xiax + ui

ou i represente le taux de reussite dune classe. Dans cette specification que lon pourrait appeler

fonction de production scolaire, on introduit un ensemble dautres variables. En effet on se doute

bien que de nombreux facteurs affectent la reussite dune classe. Par exemple lenvironnement

scolaire est certainement un facteur important. On pourrait se dire que comme on ne sinteresse

pas a la variable denvironnement on ne la met pas dans la regression. Dun cote on y gagne car

on na pas a faire leffort de mesurer cette variable, mais dun autre cote cette variable contribue

aussi a determiner la taille de la classe. Il est possible que dans certains milieux defavorises la

taille des classes soit plus petites. Si on ignore le role de lenvironnement scolaire et quon ne

lintegre pas dans la regression, on risque de mesurer un effet de la taille de la classe qui soit unmixte de leffet propre de la taille et de leffet de lenvironnement. Il donc important dans ce type

de modele, entretenant des rapports larges avec la theorie, dintroduire des facteurs annexes qui

permettront disoler leffet propre de la taille de la classe. On cherche a controler pour un certain

nombre de facteurs exterieurs.

Enfin, on peut avoir une approche descriptive des donnees. Il est important de remarquer

que dans ce cas les parametres nont pas dinterpretation structurelle.

1.2.2 Les donnees

Les donnees constituent le cur de leconometrie. Leur recueil et leur examen descriptifconstituent aussi en general une part importante de tout travail econometrique. Il y a principa-

lement trois grands types de donnees :


12/253


1. Donnees temporelles ou longitudinales. Elles sont indicees par le temps t. On dispose ainsi

de series dites temporelles : yt, xt, par exemple les series trimestrielles de la consommation

et du revenu, de linflation... En general le nombre dobservation T est assez reduit, de

lordre de la cinquantaine. On note en general y le vecteur T1 (y1, . . . , yT) et x la matriceT (K+ 1) : (x1, . . . , xT) ou xt est le vecteur ligne forme des valeurs des differentesvariables explicatives (dont la constante) a la date t.

2. Donnees en coupe. yi, xi. Leur indice correspond a lidentifiant dun individu ou dune

entreprise. Ces donnees peuvent representer par exemple le salaire dun individu pour y

et son diplome, son experience... pour les variables explicatives. Les echantillons dont on

dispose sont en general de beaucoup plus grande taille : le nombre dobservation N depasse

le plus souvent la centaine et peut aller jusqua plusieurs dizaines de milliers. On note la

encore en general y le vecteur N1 (y1, . . . , yN) et x la matrice N(K + 1) : (x1, . . . , xN)

ou xi est le vecteur ligne forme des valeurs des differentes variables explicatives (dont laconstante) pour lindividu i.

3. Donnees a double indice, dites de panel : yit, xit. On dispose dinformations sur des indivi-

dus i = 1, . . . , N que lon suit sur plusieurs periodes, t = 1, . . . , T . Les N T observations zitcorrespondent a N observations vectorielles individuelles zi1, . . . ziT. On note en general

yi

le vecteur T1 (yi1, . . . , yiT) et xi la matrice T(K+ 1) : (xi1, . . . , xiT) et y le vecteurN T 1

y

1, . . . , y

N

et x la matrice N T (K+ 1) : (x1, . . . , xN) ou xi est la matrice

formee des valeurs des differentes variables explicatives (dont la constante) pour lindividu

i aux differentes dates.

1.2.3 Lestimation

Estimer le modele cest trouver une fonction des observations y et x

b = b y, xdont on souhaite quelle verifie certaines conditions. Par exemple lestimateur peut etre choisi

tel

quil soit sans biais Eb = b y, x fy, x dydx = b

quil satisfasse un critere : minimisation de la somme des carres des residusb = arg min (y xb)2 ;

maximisation de la log-vraisemblance b = arg max log l (y, x) quil soit de variance minimale

quil soit convergent, cest a dire quil se rapproche de la vraie valeur du parametre lorsque

le nombre dobservations devient grand.

1.2.4 Pourquoi estimer le modele ?

tester lexistence dun effet, i.e. verifier quune variable x a un effet specifique sur une va-

riable y. Par exemple on peut sinterroger sur leffet des taux dinteret sur linvestissement,

cest a dire sur lexistence dun canal monetaire de la politique monetaire. Dans le cadre

dun modele accelerateur profit standard, I = Qt + + r + v, on peut sinterrogersur le fait que le coefficient du taux dinteret soit nul ou non. On sinteresse donc a

lhypothese H0 : = 0, et on souhaite que les donnees permettent de repondre a cette


13/253


question. De facon similaire, dans le cas de la fonction de production scolaire on peut

sinterroger sur lexistence dun effet de la taille de la classe sur le taux de reussite. On

va alors sinteresser a lhypothese H0 : at = 0, et la aussi on souhaite que les donnees

nous permettent de choisir entre oui ou non. Lestimation du modele et la confrontation

du parametre a zero est la voie la plus naturelle pour prendre cette decision. La question

est ici de savoir si le parametre est significatif au sens statistique du terme.

quantifier cet effet, ce qui est utile a des fins de simulations. Par exemple dans les deux

cas precedents on est aussi interesse par donner un ordre de grandeur de leffet a attendre

dune variation de la variable. Si on voulait par exemple prendre une decision de politique

economique consistant a baisser la taille des classes, ce qui est tres couteux, on est interesse

certes a savoir si cela aura un effet non nul mais aussi a savoir lordre de grandeur de cet

effet. Sil est tres faible on ne prendra pas alors aussi facilement la decision de reduire la

taille des classes. Lordre de grandeur du parametre est aussi important. La question est

ici de savoir si le parametre est significatif au sens economique du terme.

prevoir. Dans le modele yt = xt+ ut, le parametre peut etre estime sur les observations

t = 1, . . . , T : . Connaissant xT+1 on calcule la prevision de y a la date T + 1 : yT+1 =xT+1

1.2.5 Dou vient le modele ? - 2 de relations stochastiques

Le modele provient aussi de relations stochastiques entre les variables. Lecriture de la relation

y = xb + u

ne constitue pas en fait un modele econometrique. Comme on la vu il sagit dune relation plus

ou moins fondee. Si on ladmet fondee, le parametre b a un sens en lui-meme. Il a une definition

economique, par exemple lelasticite de la production au capital. Pour que ce modele soit un

modele econometrique il faut lui adjoindre une restriction stochastique. Une facon naturelle de

proceder est de specifier la loi jointe des observations l (y, x; b) . Ceci revient a specifier la loi du

residu sachant les variables explicatives : l (u |x ) . La situation de base est celle dans laquellecette loi est choisie comme une loi normale ne dependant pas des variables x. On impose donc

dans ce cas une restriction stochastique essentielle pour lanalyse econometrique

l (u

|x ) = l (u) = (u/) /

ou est la densite de la loi normale. Imposer cette restriction permet de definir la densite des

observations

l (y, x; b) = l (y |x; b ) l (x) = ((y xb) /) l (x) /et donc destimer les parametres en appliquant par exemple la methode du maximum de vraisem-

blance. Lestimateur auquel on parvient est alors celui des moindres carres ordinaires. On peut

aussi faire des hypotheses sur la loi de u sachant x qui soient moins fortes que la specification

de la loi complete. Par exemple on peut se contenter de specifier :

E(u |x ) = E(u) = 0

Cette propriete est satisfaite si on specifie la loi conditionnelle de u sachant x comme une loi

normale independante de x. Linverse est faux et cette specification est donc moins exigeante que


14/253


la precedente. Elle permet, elle aussi, destimer le modele. Elle implique en effet des restrictions

du type E(x (y xb)) = 0 appelees intuitivement conditions dorthogonalite dont on verraquelles sont suffisantes pour estimer les parametres du modele. On remarque a ce stade que

dans cette specification il y a dores et deja un parametre de moins : la variance des residus

nintervient plus.

Ces restrictions stochastiques definissent un parametre statistique. On pourrait ainsi definir

autant de parametres b quil y a de restrictions stochastiques envisageables, cest a dire une

infinite. On pourrait par exemple considerer le parametre bZ associe a des restrictions stochas-

tiques E(z (y xbZ)) = 0 dont on verra quelles aussi peuvent etre utilisees souvent pourconduire a une estimation du parametre. Il nest pas certain que le parametre statistique associe

a une restriction stochastique concide avec le parametre economique. Lestimation peut ainsi

etre non convergente, cest a dire que la valeur du parametre estimee ne se rapprochera pas

de la vraie valeur (economique) du parametre lorsque le nombre dobservation augmente, ouetre biaisee, cest a dire que lesperance du parametre nest pas la vraie valeur (economique) du

parametre. Une partie importante de leconometrie, qui passe par une reflexion sur le modele,

les donnees et les methodes consiste a rechercher des conditions dans lesquelles le parametre

statistique concide avec le parametre economique. La question est-ce que p limb = b0, la vraievaleur economique du parametre, est en dernier ressort la question la plus centrale et la plus

importante de leconometrie, et assez naturelle : est-ce que jai bien mesure ce que je voulais ?

Cest beaucoup moins facile quil ny parat, car de nombreux facteurs affectent les decisions

individuelles et il est difficile disoler leffet dune unique cause.

1.3 Plan de louvrage

Le cours debute dans le chapitre 2 par lestimateur des moindres carres, cest a dire le vecteur

des coefficients de la projection orthogonale de y sur lespace vectoriel engendre par les variables

explicatives. On presente dabord les proprietes algebriques de cet estimateur et ses proprietes

statistiques sous des hypotheses minimales telles que lindependance et lequidistribution des ob-

servations (Theoreme de Frish-Waugh, Theoreme de Gauss-Markov, estimation des parametres

du second ordre, le R2 et lanalyse de la variance). On montre ensuite dans le chapitre 3 comment

la specification de la loi des residus comme une loi normale permet de completer lanalyse en

particulier en permettant dobtenir la loi des estimateurs, etape incontournable pour proceder a

des tests dhypotheses simples (test de Student) ou definir des intervalles de confiance pour les

parametres. On examine ensuite dans le chapitre 4 et dans le meme cadre ou la loi des residus

est supposee normale, le cas important des estimations sous contraintes lineaires (dans les pa-

rametres). On presente alors les tests dhypotheses lineaires sur les parametres par le biais des

tests de Fisher. Ces resultats sont obtenus sous des hypotheses fortes :

Independance des residus et des variables explicatives : l (u |x ) = l (u) Homoscedasticite V (u |x ) = 2I Specification de la loi des residus : l (u) normale.

Les chapitres suivants vont progressivement revenir sur chacune de ces hypotheses. On va

dabord examiner dans un cadre tres proche la loi asymptotique des estimateurs, cest a direlorsque le nombre dobservations devient grand. On va chercher a developper le meme genre de

proprietes permettant de faire de linference mais sans specifier la loi des residus. Les resultats


15/253

1.3. Plan de louvrage 9

seront obtenus sous les hypotheses :

Absence de correlation entre les residus et les variables explicatives E(ux) = 0 Homoscedasticite V (u

|x ) = 2I

Le comportement asymptotique des estimateurs est examine dans le chapitre 5.

Dans le chapitre 6 on revient sur les hypotheses dindependance et dequidistribution des

parametres. On presente lestimateur des moindres carres generalisee ainsi que differentes facons

de traiter la situation dite dheteroscedasticite, i.e. situation dans laquelle la variance des residus

depend des variables explicatives. On aborde aussi succinctement la question des donnees de

panel et de lestimation de modeles faisant intervenir des systemes dequations. Le cadre dans

lequel on se situe est juste base sur

Absence de correlation entre les residus et les variables explicatives E(ux) = 0Les chapitres 7, 8 et 9 utilisent la methode des moindres carres generalises en sappuyant sur

une connaissance a priori de la structure de correlation des residus. Le chapitre 7 sinteresse plusparticulierement au cas des regressions empilees. Dans le chapitre 8, on considere le cas dune

regression en coupe dans laquelle on a heteroscedascticite du residu, ce qui peut etre le cas par

exemple pour une equation de salaire, la variance du residu etant generalement croissante avec

le revenu. Dans le chapitre 9, on considere le cas destimations ou le residu peut etre modelise

comme une serie temporelle de comportement connu. On construit lestimateur les moindres

carres quasi-generalises en sappuyant sur la connaissance de la forme de lautocorrelation du

residu.

Dans le chapitre 10, on considere la situation dans laquelle E(ux) = 0. On aborde la ques-tion de lidentification, fondamentale en econometrie. On montre comment a laide de variables

exterieures z, dites instrumentales, il est possible destimer le parametre dinteret. On revientdonc en partie sur certains aspects des generalisations precedentes pour mieux se concentrer sur

lhypothese didentification. Les resultats sont obtenus sous les hypotheses

Absence de correlation entre les residus et des variables z : E(uz) = 0, Rg (zx) = dim x Homoscedasticite V (u |x, z ) = 2IOn presente aussi deux tests importants : le test dexogeneite et le test de suridentification

qui sont des guides importants dans le choix des variables instrumentales.

Dans le chapitre 11 on presente une generalisation importante de la methode a variable

instrumentale et qui englobe la plupart des methodes econometriques standards. Il sagit de la

methode des moments generalisee et on montre en particulier comment elle permet detendre lamethode a variables instrumentales au cas dans lequel les perturbations sont heteroscedastiques

et a dautres cas tels que celui de leconometrie des donnees de panel ou lestimation de systemes

dequations. Les hypotheses secrivent un peu differemment ce qui souligne le caractere general

de cette methode

E(g (z, )) = 0

ou z represente lensemble des variables du modele, cest a dire inclus les y et les x.

Dans le chapitre 12, on presente succinctement certains modeles non lineaires proches des

modele lineaires. On sinteresse ainsi au modeles dits probit pour lesquels la variable a expliquer

na plus un support continu sur R mais prend ses valeurs dans {0, 1} . La modelisation sous-jacente consiste a introduire une variable latente, i.e. non observee completement

I = zc + u


16/253

10 Chapitre 1.

et dont les realisations gouvernent lobservation de la variable I :

I = 1

I > 0

On aborde egalement dautres situations importantes permettant daborder la questions de

la selectivite des echantillons, cest a dire la situation dans laquelle on nobserve la variable

dependante que sous une condition liee par ailleurs a la variable dependante elle-meme :

y = xb + u

I = zc + u

les realisations de I gouvernent lobservation de la variable I et de la variable y :

I > 0 I = 1y = yI 0 I = 0

Ce type de modele appele modele Tobit est souvent utilise, en particulier pour aborder len-

dogeneite de variables explicatives prenant la valeur 0 ou 1 dans des modeles a coefficients

variables

yi = iIi + vi

Ce type de modele est souvent utilise pour aborder levaluation des effets microeconomiques des

politiques de lemploi comme les stages de formations.

Dans le chapitre 13, on sinteresse a levaluation des politiques publiques. On introduit no-tamment lestimateur par difference de differences qui sapplique a une experience naturelle. On

parle dexperience naturelle lorsquune partie de la population a fait lobjet dune nouvelle poli-

tique, tandis quune autre partie de la population na pas fait lobjet de cette politique et donc

peut servir de population temoin. On ne peut observer le comportement des individus touches

par une mesure sils navaient pas ete touches, on verra comment on peut neanmoins construire

des estimateurs evaluant limpact dune nouvelle politique.

Exercices

1. Linearite. Pour chacune des relations suivantes, proposer une transformation qui rendele modele lineaire.

Yi =1

1 + 2.Xi(1.1)

Yi =Xi

1 + 2.Xi(1.2)

Yi =1

1 + e1+2.Xi(1.3)


17/253

Chapitre 2

Lestimateur des moindres carres

ordinaires

Lestimateur des moindres carres ordinaires reste lun des estimateurs les plus frequemment

utilises. Il a de nombreux usage. On peut lutiliser par exemple pour proceder a une descrip-

tion des donnees : quelles sont les variables rendant compte le mieux de la variabilite dune

variable dinteret. On peut aussi lutiliser dans de nombreuses autres situations pour estimer un

parametre auquel on donne un sens causal : que se passerait-il si on faisait varier une variable

donnee dun montant donne. Il est base sur lhypothese essentielle que les residus et les variables

explicatives sont orthogonaux. Il faut dautres hypotheses pour deriver les principales proprietes

de lestimateur. On verra dabord les proprietes algebriques puis les proprietes statistiques. Une

partie du cours correspondra a lextension et la reformulation des proprietes de lestimateur desmco lorsque lon remet en cause ces hypotheses. On generalise ou adapte le plus souvent les

proprietes de lestimateur a la condition que lhypothese centrale dabsence de correlation entre

perturbations et variables explicatives soit maintenue.

On va voir dans ce chapitre la definition de lestimateur des mco et son interpretation

algebrique comme vecteur des coefficients de la pro jection orthogonale de la variable dependante

sur les variables explicatives. On va egalement obtenir deux proprietes importantes de cet esti-

mateur qui sont : la propriete de sans biais et une propriete doptimalite concernant la variance

de lestimateur, connue sous le nom de Theoreme de Gauss-Markov.

2.1 Definition et proprietes algebriques

2.1.1 Definition

On considere une variable dinteret y appelee variable dependante et un ensemble de K

variables dites explicatives auquel on adjoint une constante. On dispose de N observations. On

note y = (y1, . . . , yN) lempilement des N observations de la variable dependante. On definit

de meme les vecteurs x1, . . . , xK et x la matrice des variables explicatives a laquelle on adjoint

le vecteur constant e = (1, . . . , 1) : x =

e, x1, . . . , xK

est donc une matrice de dimension

N (K+ 1).

Definition 2.1 Lestimateur des moindres carres ordinaires est defini comme le vecteur b de

dimension K + 1, b = (b0, . . . , bK) , des coefficients de la combinaison lineaire de e, x1, . . . , xK

11


18/253

12 Chapitre 2. Lestimateur des moindres carres ordinaires

realisant le minimum de la distance de y a lespace vectoriel de RN engendre par e, x1, . . . , xK,

pour la norme euclidienne :

bmco = arg min

y xb

2

Proposition 2.1 Sous lhypotheseH1 : les vecteurs e, x1, . . . , xK sont independants,

lestimateur des moindres carres existe, est unique et a pour expressionbmco = xx1 xyDemonstration Lobjectif a minimiser est Ob (b) =

y xb2 = y xb y xb . La condition du premierordre secrit

dOb

db= 2x y xb = 0

et la condition du second ordred2Ob

dbdb= 2xx definie positive

Lhypothese dindependance de e, x1, . . . , xK revient a faire lhypothese que xx est definie positive. La condition

du second ordre est ainsi satisfaite et la condition du premier ordre admet une solution

2.1.2 Interpretation geometrique

On associe deux grandeurs importantes a lestimateur des moindres carres :

1. Le vecteur predit y = xb2. Le vecteur residuel u = y yOn voit immediatement compte tenu de la definition de lestimateur des moindres carres

ordinaires que le vecteur residuel est orthogonal aux variables explicatives et donc aussi au

vecteur predit :

xu = 0yu = 0y sinterprete donc comme la projection orthogonale de y sur lespace engendre par e, x1, . . . , xK

et lestimateur des moindres carres ordinaires comme le vecteur des coefficients de cette projec-

tion.

Remarque 2.1 Comme la constante appartient a lensemble des regresseurs, on a immediatement

e

u = 0, soit

u = 1N

ui = 0 : la moyenne du vecteur residuel est nulle.

Les vecteurs predits et residuels peuvent secrire directement a partir du vecteur y. On a en

effet

y = xb = x xx1 xy = Pxyu = y y = IN Px y = MxyLes matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivement lespace

engendre par

e, x1, . . . , xK

et son orthogonal. Comme on le verifie directement on a en effet

P2x = Px

M2x = Mx

Px + Mx = IN

et en outre

Pxv = v tq v = x


19/253

2.1. Definition et proprietes algebriques 13

2.1.3 Theoreme de Frish-Waugh

Le theoreme de Frish-Waugh est une propriete algebrique de lestimateur des moindres carres

qui explicite linterdependance des coefficients de differentes variables dans une regression. Ilpermet de repondre a la question : dans quel cas est-il necessaire dintroduire toutes les variables

dun modele dans la liste des regresseurs ?

Proposition 2.2 (Theoreme de Frish-Waugh). Dans la regression de y sur un ensemble de

variables explicatives x, si x se decomposent en deux sous-ensembles x1 et x2 : x =

x1, x2

, les

coefficients des variables x1 peuvent etre obtenus indirectement en regressant les residus Mx2y

de la regression de la variable dependante y sur les variables explicatives x2, sur les residus

Mx2x1 des regressions des variables x1 sur les variables explicatives x2 :

b1 = Mx2x1 Mx2x11 Mx2x1 Mx2yon peut alors retrouver les coefficients des variables x2 en regressant la partie inexpliquee yx1b1sur x2 : b2 = x2x21 x2 y x1b1avec Mx2 = IN x2

x2x21

x2

Demonstration Les coefficients de la regression de y sur x =

x1, x2

satisfont

x1

y x1

b1 x2

b2

= 0

x2 y x1b1 x2b2 = 0De la deuxieme equation on tire directement la deuxieme partie du theoreme

b2 = x2x21 x2 y x1b1Lorsque lon reintroduit cette expression dans la premiere equation il vient

x1

y x1b1 x2 x2x21 x2 y x1b1 = 0soit

x1Mx2

y x1

b1

= 0

x1

Mx2 Mx2y Mx2x1b1 = 0compte tenu de M2x2 = Mx2 . Dou lexpression de

b1 Remarque 2.2 La caracteristique importante est dutiliser les residus des regressions de x1sur x2. Il nest pas necessaire dutiliser aussi les residus de la regression de y sur x2.

Applications du Theoreme de Frish-Waugh

1. Dans la regression de y sur x1 et x2 on peut regresser separement y sur x1 et y sur x2lorsque x1 et x2 sont orthogonaux.

2. Donnees de panel. Lorsque la regression introduit des indicatrices specifiques a chaqueindividu (donc N variables, specification dite a effets fixes) en plus dun ensemble de

regresseurs dinteret x1, on peut dabord regresser les variables dinteret et la variable


20/253


dependante sur les variables indicatrices puis utiliser les residus des regressions correspon-

dantes. Dans ces operations puisque les variables indicatrices sont orthogonales les unes

aux autres on peut effectuer les regressions sur les indicatrices separement. On verifie

aisement que le coefficient de la regression dune variable sur une variable indicatrice din-

dividu est la moyenne des observations pour cet individu. Les residus des regressions sont

donc les ecarts aux moyennes individuelles des differentes variables dinteret. Lestimateur

obtenu en regressant les ecarts des variables explicatives aux moyennes individuelles sur

la quantite analogue pour la variable dependante est tres populaire et connu sous le nom

destimateur Within (ou Intra).

3. Pour obtenir les coefficients de x1 dans la regression de y sur x1 et x2, on peut regresser

y sur x1 et la prevision de x1 par x2 : Px2x1.

2.2 Modele et proprietes statistiques

Lestimateur des moindres carres ordinaires a une definition mathematique. Il sagit du vec-

teur des coefficients de la pro jection orthogonale de la variable dependante sur les variables ex-

plicatives. Dans le cadre de leconometrie on sinteresse neanmoins a lestimation des parametres

dun modele econometrique. On considere ainsi le modele lineaire suivant :

y = b0 + b1x1 + + bKxK + u

Pour lequel on dispose de N observations. Le modele secrit aussi sous forme matricielle :

y = xb + u

On sinteresse aux proprietes statistiques de lestimateur des mco : quelle est son esperance,

sa variance... Comme lestimateur est une fonction des observations, ses proprietes statistiques

dependent de la loi des observations l (y, x). On les caracterise a partir dhypotheses sur la

loi conditionnelle de y sachant x, cest a dire dans le cadre du modele precedent comme des

hypotheses concernant la loi de la perturbation u conditionnellement aux variables explicatives.

2.2.1 Quand lestimateur des mco est-il sans biais ?

On sinteresse dabord aux conditions sous lesquelles lesperance de lestimateur des mco

concide avec la vraie valeur du parametre. On dit alors que lestimateur est sans biais.

Definition 2.2 On dit quun estimateurb y, x est sans biais lorsque : Eb y, x = b.Dans cette definition E

b y, x = b y, x fy, x dydx ou fy, x represente la densite jointe des variables explicatives et dependantes.

Proposition 2.3 Sous lhypothese

H2 : E(un |x ) = 0 nlestimateur des mco est sans biais.


21/253

2.2. Modele et proprietes statistiques 15

Demonstration Lestimateur des mco secrit

bmco =

xx

1

xy

= xx1 x (xb + u)= b +

xx1

xu

on sinteresse a Eb y, x |x . On a clairement Eb y, x |x = b + (xx)1 xE(u |x ) . Comme E(u |x ) = 0

par hypothese on a bien Eb y, x |x = b. On en deduit immediatement Eb y, x = EEb y, x |x = b

Lhypothese H2 est extemement forte, puisquelle signifie que lorsque les residus changent,

les variables explicatives ne changent pas. Dans de nombreuses situations cette hypotheses ne

peut pas etre tenu. Cest par exemple le cas si on prend un modele offre-demande dans lequel

on observe les prix et les quantites. Si on considere lequation de demande par exemple, elle

correspond a lexistence dune relation decroissante entre la variable dependante, la quantite, etla variable explicative, le prix. Si il y a un choc de demande, le desequilibre sur le marche va

se resoudre par une hausse de la quantite echangee et une hausse du prix. Dans ce modele on

ne peut donc pas tenir lhypothese H2 par nature meme du modele auquel on sinteresse. Dans

dautres cas la situation peut etre plus favorable. Par exemple dans le cas de la taille de la classe

et du taux de reussite scolaire, il est vrai que lon peut contester le fait que E(u |taille ) = 0,mais il est possible quil existe un ensemble de variables explicatives x tel que lon ait u =

xc + v et E(v |taille, x ) = 0. Autrement dit, on peut identifier, mesurer et introduire dansla regression les sources de variabilite communes a la taille et au residu. Le modele devient

tx = a0 + attaille + xb + v.

2.2.2 Quelle est la precision de lestimateur des mco ?

Le fait que la propriete dabsence de biais soit satisfaite est tres interessant mais on a be-

soin dinformations plus precises. On souhaite savoir si la vraie valeur peut se trouver loin de

lestimateur. Une telle information est donnee par la precision de lestimateur et on letudie en

considerant la variance :

Proposition 2.4 sous les hypotheses H1, H2,

H3 : V (un |x ) = 2 nH4 : E(unum

|x ) = 0

n, m

la variance de lestimateur des mco conditionnellement au variables explicatives est donnee

par

Vbmco |x = 2 xx1

La variance non conditionnelle est donnee par

Vbmco = 2Exx1

Demonstration La variance conditionnelle est definie comme

V

bmco |x

= E

bmco E

bmco |x

bmco E

bmco |x |x

Comme Ebmco |x = b et bmco b = (xx)1 xu,Vbmco |x = xx1 xEuu |x x xx1


22/253


La matrice E(uu |x ) a pour elements n,m E(unum |x ) . On deduit directement des hypotheses que E(uu |x ) =2IN

La matrice de variance a deux composantes : 2 et E(xx)1 . Plus 2, i.e. la varianceresiduelle, est grande, moins lestimateur est precis. Ceci implique que lon peut accrotre la

precision des estimateurs de variables dinteret en introduisant des variables additionnelles, sa-

tisfaisant les hypotheses du modele lineaire H1 H4, des lors quelles contribuent a reduirela variance residuelle. La matrice xx joue un role central dans la variance de lestimateur. Onpeut lecrire a partir des observations individuelles comme xx =

n x

nxn. On voit quune

ecriture plus adaptee est xx = N

1N

n x

nxn

. Dans le cas du modele lineaire simple avec une

unique variable explicative centree la matrice

1N

n x

nxn

1secrit simplement comme 1/x2 =

1/V (x). On voit que dans ce cas la variance de lestimateur secrit V

b

= 2/ (N V (x)) . Les-

timateur est donc dautant plus precis que le nombre dobservations est grand. On sinteresse en

general a lecart-type des parametres estimes. La formule precedente implique que lecart type

decrot comme

N. Lorsque la taille de lechantillon est multipliee par 4 lecart-type nest divise

que par 2. On imagine donc bien que dans un echantillon de petite taille la precision de lesti-

mateur est un probleme important. On voit aussi que dans de grands echantillons de plusieurs

centaines de milliers dobservations, la precision des estimations sera tres grande. La formule

precedente montre aussi que lestimateur est dautant plus precis que la variance de la variable

explicative est importante. Cest parce que lon observe des situations differentes au regard des

variables explicatives qui ne soient pas correlees avec les residus du modele economique que lon

peut identifier leffet de ces variables. Enfin un dernier cas permettant dillustrer les implications

de la formule precedente est le cas dans lequel il y a deux variables explicatives par exemple de

meme variance 2 et ayant un coefficient de correlation . Dans ce cas on calcule simplement1

N

n

xnxn

1=

1

2x (1 2)

1

1

On voit que dans ce cas la precision de lestimateur est dautant plus faible que les variables

sont correlees. Au total, on voit que si les variables sont presque colineaires la precision de

lestimateur sera faible.

2.2.3 Lestimateur des mco est-il le plus precis : le theoreme de Gauss-

Markov

On sinteresse naturellement a la question de loptimalite de lestimation du parametre b. Ce

parametre, comme on la vu, est sans biais et il est en outre defini comme une fonction lineaire

des observations. Ceci forme une classe destimateurs. La question a laquelle repond le theoreme

de Gauss-Markov est celle de loptimalite (au sens de la precision) de lestimateur dans la classe

des estimateurs lineaires sans biais.

Definition 2.3 Un estimateur b1 est optimal dans une classe destimateurs b si toute esti-mation dune combinaison lineaire du parametre est estimee plus precisement avec

b1 quavec

nimporte quel estimateur de la classe consideree :

, V

b1 V b


23/253


24/253


On a donc

E

u

u |x

= E

T r

Mxuu

|x

= T r

E

Mxuu

|x

= T r MxEuu |x = 2T r (Mx)et Mx = IN x (xx)1 x dou

T r (Mx) = T r

IN x

xx1

x

= N T r

x

xx1

x

= N T r

xx1

xx

= N K 1

Exemple 1 Application a la prevision. On considere le modele yn = xnb + un pour lequel on a

n = 1, . . . , N observations et satisfaisant les hypotheses H1 a H5. Connaissant xN+1 et faisant

lhypothese que le modele reste valide pour cette observation, on souhaite estimer yN+1.

Dire que le modele reste valide signifie que non seulement la relation entre yn et xn peutetre etendue a lobservation N + 1 : yN+1 = xN+1b + uN+1 mais encore que les hypotheses

stochastiques peuvent etre etendues a linclusion de lobservationN+1 en particulier ceci impose

E(uN+1 |x, xN+1 ) = 0, V (uN+1 |x, xN+1 ) = 2, E(uN+1un |x, xN+1 ) = 0.La prevision de yN+1 est yN+1 = xN+1bmco

Conditionnellement aux variables explicatives la prevision est sans biais :

E(

yN+1 yN+1 |x, xN+1 ) = E

xN+1

bmco b

uN+1 |x, xN+1

= 0

yN+1 est le meilleur estimateur sans biais de yN+1, lineaire dans les observations y1, . . . , yN. Ceciconstitue une application directe du Theoreme de Gauss Markov : si on considere un estimateur

lineaire sans biais yN+1 de yN+1. La variance de lerreur de prevision secrit E(yN+1 yN+1 |x, xN+1 )2 =E(xN+1b + uN+1 yN+1 |x, xN+1 )2 = E(xN+1b yN+1 |x, xN+1 )2 + Eu2N+1 |x, xN+1 puisquelestimateur est lineaire en y et que y nest pas correle a uN+1 conditionnellement aux observa-

tions de x. Le probleme se resume donc a chercher lestimateur lineaire sans biais de variance

minimale de la combinaison lineaire xN+1b du parametre b. Le theoreme de Gauss-Markov in-

dique quil sagit de xN+1bmcoLa variance de lerreur de prevision est

E(yN+1 yN+1)2 = 2 xN+1 xx1

xN+1 + 12.2.5 Analyse de la variance

Lanalyse de la variance est fondee sur lorthogonalite entre le vecteur des residus estimes et

de la variable predite.

y = y +uLes regressions que lon considere ayant un terme constant on a y = y dont on tire :

y ye =

y

ye +

u

compte tenu de lorthogonalite on peut donc ecrire lequation dite equation danalyse de la

variance n

(yn y)2 =

n

yn y2 +nun2


25/253

2.2. Modele et proprietes statistiques 19

ou encore

V (y) = V (

y) + V (

u)

La variance totale est la somme de la variance expliquee et de la variance residuelle. On introduitune quantite tres couramment utilisee qui mesure la part de la variance expliquee par le modele.

R2 =

y ye2y ye2 = 1

u2y ye2

0 1

Le R2 est frequemment utilise pour mesurer la qualite de lajustement. Neanmoins deux precautions

doivent etre prises :

Le R2 depend du calibrage des observations. Par exemple si on considere une fonction de

production

y = + l + k + ulestimation va fournir un R2 beaucoup plus important que celui obtenu avec le modele

identique mais expliquant la productivite

y l = + ( 1) l + k + u

On montre facilement que plus on etend lensemble des variables explicatives plus le R2

est grand. Ce nest donc pas necessairement un bon critere de choix de modele. Pour cette

raison on a introduit une quantite proche mais pas directement reliee qui est le R2 ajuste.

Il est defini dune facon tres voisine du R2

R2a = 1 2V (y) = 1 u2 / (N K 1)y ye2 /N 1 = 1 1 R2 N 1N K 1Remarque 2.3 Cette equation danalyse de la variance permet de preciser lexpression de la

variance de chacune des composantes de lestimateur. Dans la formule generale Vbmco |x =

2 (xx)1 , la variance de la kieme composante de lestimateur des mco correspond au kiemeelements diagonal. Si on utilise les formules dinversion par bloc

A =

A11 A12A21 A22

, A1 =

A11 A12

A21 A22

, A11 =

A11 A12A122 A21

1

Si on considere une variable xk particuliere, alors, quitte a reorganiser lordre des variables

explicatives : x = (xk, xk), ou xk represente lensemble des variables explicatives autres quela kieme,

xx =

xk

xk xkxkxkxk x

kxk

et on a donc (xx)111 = xkxk xkxk

xkxk

1xkxk = xk

Mxkxk = (N.V (xk |xk ))1 .V (xk |xk ) est la variance residuelle de la variable xk une fois pris en compte la part de lavariance de la variable xk expliquee par les autres variables explicatives du modele. La variance

de chacune des composante de lestimation du parametre secrit donc

Vbk = 2/ (N V (xk |xk )) = 2/NVk|k


26/253


2.3 Variable omise et regresseur additionnel

2.4 Resume1. On a vu dans ce chapitre la definition algebrique de lestimateur des mco comme vecteur des

coefficients de la projection orthogonale de la variables dependante sur lespace engendre

par les variables explicatives.

2. Cet estimateur existe est unique sous lhypothese H1 que les vecteurs des variables expli-

catives soient lineairement independant.

3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du pa-

rametre economique b dans le modele lineaire y = xb + u. : Il sagit de lhypothese H2 que

lesperance des residus conditionnellement aux variables observables est nulle.

4. Sous les hypotheses H3 et H4 que dans ce modele les perturbations sont conditionnelle-ment aux variables explicatives des variances identiques et sont non correlees les unes avec

les autres, on peut donner lexpression classique de la matrice de variance de lestimateur

Vb |x = 2 (xx)1 .

5. Sous ces meme hypotheses lestimateur des mco est le meilleur estimateur lineaire sans

biais, au sens de la minimisation de la variance.

6. Linterpretation de cette formule conduit a la conclusion que plus le nombre dobservations

est grand, plus la variance residuelle 2 est faible, plus les variables explicatives presentent

de variabilite propre, plus lestimateur est precis.

7. Le parametre du second ordre 2 peut etre estime sans biais comme la moyenne des carres

des residus tenant compte des degres de liberte : 2 = u2n (N K 1) .8. Le R2 est une mesure de la qualite de lajustement du modele aux donnees : il mesure la

part de la variance totale expliquee par le modele.

Ces resultats sont importants : ils etablissent les conditions sous lesquelles les estimateurs

sont sans biais et ils permettent de determiner la precision des estimations. Ils sont neanmoins

insuffisants pour donner des intervalles de confiance sur les parametres estimes et realiser des

tests dhypothese. Pour aller plus loin il faut faire des hypotheses supplementaires. On peut

proceder de deux facons :

1. Lorsque le nombre dobservations est faible, on peut specifier la loi des observations condi-

tionnellement aux variables explicatives. Ceci est fait dans la majeure partie des cas enspecifiant les residus comme suivant une loi normale. On peut alors caracteriser la loi de

lestimateur. On peut aussi dans ce cas estimer le modele par maximum de vraisemblance.

On peut alors tester des hypotheses dites simples (nullite dun parametre). Ces tests sont

appeles test de Student. Ce cas est examine dans le chapitre 3. On peut aussi sur la base de

cette hypothese estimer le modele en imposant des contraintes lineaires sur les parametres

et tester lhypothese que ces contraintes sont acceptees. Les tests mis en oeuvres sont alors

des test dits de Fisher. Ces aspects sont presentes dans le chapitre 4.

2. La deuxieme facon est detudier les proprietes asymptotiques de lestimateur, cest a dire

lorsque le nombre dobservations devient grand. On montre dans le chapitre 5 que sans

specifier la loi des residus mais en faisant des hypotheses suffisamment fortes sur lepaisseurdes queues de distribution des residus, on peut specifier la loi asymptotique de lestimateur.


27/253

Chapitre 3

Les MCO sous lhypothese de

normalite des perturbations

Dans ce chapitre on examine les proprietes de lestimateur des mco lorsque lon fait lhy-

pothese de normalite des perturbations. Plus precisement on fait lhypothese Hn suivante.

Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de

moyenne nulle et de matrice de variance 2IN.

l (u |x ) = 1

2Nu2n/22

u |x N

0, 2INRemarque 3.1 Cette hypothese est plus forte que les hypotheses H2 H4 puisquelle impliqueque le moment dordre 1 de u conditionnellement a x est nul. cest a dire lesperance

On va voir que dans ce cas on peut preciser la loi de lestimateur du parametre ainsi que celle

de lestimateur de la variance des residus. On va aussi obtenir un resultat central, le theoreme

de Cochrane, a la base de tous les tests effectues a partir de lestimateur des mco.

3.1 Normalite de lestimateur des mco

Proposition 3.1Sous lhypothese H

n, on peut specifier la loi jointe de lestimateur des mco et

de lestimateur de la variance des residus conditionnellement aux variables explicatives :

1. Lestimateur du parametre des mcobmco est distribue comme une loi normale de moyenneb, la vraie valeur du parametre, et de matrice de variance 2 (xx)1 :bmco Nb, 2 (xx)1

2. Lestimateur2, convenablement normalise, est distribue suivant une loi du 2[N (K+ 1)] 2

2 2 (N (K+ 1))

3.

bmco et

2 sont independants (Theoreme de Cochran)

Demonstration Le resultat concernant la normalite de lestimateur est immediat. Il provient du fait que les-timateur des mco est lineaire dans les observations de la variable dependante. Comme conditionnellement a x la

variable dependante est normale, lestimateur des mco est une combinaison lineaire de variables normales et est

21


28/253

22 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations

donc lui meme un vecteur normal, caracterise par ces deux premiers moments : son esperance dont on a vu quelle

etait egale a la vraie valeur du parametre, et sa matrice de variance dont on a donne lexpression au chapitre

precedent, sous des hypotheses plus generales que celle de la loi normale.

De meme, les residus estimes sont eux memes normaux. On a en effet u = Mxy = Mxu. Par ailleurs, on a aussidirectement b b = (xx)1 xu. Finalement on peut specifier la loi jointe des residus estimes et de lestimateurdes mco : b bu

=

(xx)

1x

Mx

u

On en deduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne visiblement nulle et dont on

peut preciser la variance :

V

b bu x

=

(xx)

1x

Mx

V

b bu x

(xx)1

x

Mx

= 2

(xx)1

x

Mx

x (xx)1

Mx

= 2

(xx)

1xx (xx)

1x (xx)

1Mx

Mxx (xx)

1Mx

Comme Mxx = 0, on en deduit

V

b bu x

= 2

(xx)1

0

0 Mx

Dont on deduit

1. lexpression de la variance de lestimateur des mco

2. lestimateur des mco et les residus estimes sont independants (car etant tous les deux normaux et non

correles). Lestimateur des mco et lestimateur de la variance2 = u

u/ (N K 1) sont donc independants.3. Les residus estimes suivent une loi normale de matrice de variance 2Mx.Rappel :

Si Z N(0, IL) , alors par definitionZ2 = ZZ = Ll=1 Z2l 2 (L)

Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z

P Z 2 (L1) (Voir annexe)On applique ce resultat a Z = u/ N(0, IN) et P = Mx. On a : (u/) (u/) = (u/) MxMx (u/) =

(u/) Mx (u/) . On en deduit que uu/2 2 (N K 1) , puisque Mx est le projecteur orthogonal surlorthogonal de lespace vectoriel engendre par les x donc de dimension N K 1. Finalement, comme uu =(N K 1)2, [N (K+ 1)] 2

2 2 (N (K+ 1))

On rappelle quune loi du 2 (L) a L degres de libertes a pour premier et second moments

E2 (L) = L, V 2 (L) = 2L. On verifie donc que E[N (K+ 1)] 2

2 = N K 1.On verifie donc que lon a bien E2 = 2 : lestimateur de la variance est sans biais. Onapprend maintenant, grace a la specification normale la distribution de lestimateur de la variance

des residus et donc sa variance : on a V

[N (K + 1)] 22

= 2 (N K 1), soit V 2 =

24/ (N K 1) . On voit donc que comme pour lestimateur des mco, lorsque le nombredobservations devient grand la variance de lestimateur tend vers zero. Le rythme de convergence

est en outre identique a celui de lestimateur des mco. On remarque en revanche une specificite

de lestimateur de la variance : plus la dispersion des residus est importante, plus lestimateur

est imprecis.

Lestimation de la variance des residus peut etre interessante pour elle-meme, mais elle nous

interesse en premier lieu car cest un parametre important de la matrice de variance de lesti-mateur du parametre de premier interet b. En effet, on a vu que bmco |x Nb, 2 (xx)1 ,mais ce resultat reste insuffisant dans la mesure ou on ne connat pas la variance des residus.


29/253

3.2. Ecart-types estimes, tests et intervalles de confiance 23

3.2 Ecart-types estimes, tests et intervalles de confiance

3.2.1 Ecart-type

La formule de la matrice de variance de lestimateur est utile Vbmco |x = 2 (xx)1 ,

mais elle nest pas directement exploitable car on ne connat pas la variance des residus 2.

Un estimateur naturel de cette matrice consiste a remplacer la quantite inconnue 2 par un

estimateur. V bmco |x = 2 xx1On a immediatement le resultat que V bmco |x est un estimateur sans biais de la matrice devariance de lestimateur mco du parametre.

On sinteresse en fait plus specifiquement a la variance de chaque composante de lestimateur

2

k = V bk = 2 (xx)1kk = 2xkk ou dans cette notation xkk est le kieme element diagonalde (xx)1 . Dans le chapitre precedent on a vu que ce kieme element etait en fait linverse de lavariance residuelle de la projection de xk sur les autres variables du modele (la variance propre

de la kieme variable) divisee par le nombre dobservations. Un estimateur naturel de 2k est

2k = 2xkkLa quantite k = 2k est systematiquement associe a nimporte quelle estimation par les mco.Grace aux resultats portant sur la loi de

2 on peut directement donner la loi de

2k :

Proposition 3.2 Sous lhypothese Hn lestimateur de la variance de la kieme composante du

vecteur des parametre suit, convenablement normalisee une loi du 2 (N K 1) :

[N (K + 1)] 2k2k

2 (N (K+ 1))

et est independant de lestimateur des mco bmco.3.2.2 Un resultat central

On sinteresse a lobtention dintervalles de confiance et a des tests dhypothese simple du

type H0 : bk = b0k pour une valeur donnee de b

0k. Un cas tres frequemment examine est par

exemple celui de la nullite dun parametre (b0k = 0). Pour obtenir des intervalles de confiance oupour effectuer des tests, on a besoin dobtenir une fonction des estimateurs qui ne depende pas

des parametres.

Proposition 3.3 Sous lhypothese de normalite des perturbations Hn, pour une composante

donnee k du parametre on a

bk bk

k

Student (N K 1)

Demonstration Ce resultat decoule directement de la definition des lois de Student : Si X1 suit une loi normale

N(0, 1) et X2 suit une loi du 2

(H) a H degres de liberte, et si X1 et X2 sont independants alors

S =X1

X2/H Student (H)


30/253


Ici bk Nbk, 2k . On en deduit donc que bk bk /k N(0, 1) . En outre le resultat precedent etablitque [N (K+ 1)] 2k

2k

2 (N (K + 1)) et est independant de

bk. On a donc par application directe de la

definition bk bk /k[N (K+ 1)] 2k

2k

/ [N (K+ 1)]

=bk bkk Student (N K 1)

Les lois de Student sont des lois symetriques de moyenne nulle et de variance H/ (H 2)ou H est le nombre de degres de liberte. Plus H est faible, plus les queues de distribution sont

epaisses. On voit quil y a un nombre minimal de degres de liberte pour que le moment dordre

2 existe : H > 2.

3.2.3 Intervalle de confianceDefinition 3.1 Un intervalle de confiance pour le parametre bk au niveau est un intervalle

[a, a] tq P (bk [a, a]) = 1 .

Lemme 1 Soit z une variable aleatoire dont la distribution f est symetrique autour de zero,

croissante pour z < 0, continue et de fonction de repartition F, tout intervalle [z, z] tel que

P (z [z, z]) = p0 donne, de longueur minimale est symetrique.Demonstration Ce resultat se montre tres facilement. La symetrie de la distribution secrit f(z) = f(z)et implique F (z) = 1 F (z). On a F(z) F (z) = p0, donc la longueur de lintervalle est L = z z =F1 (F (z) +p0) z. La derivee de la longueur de lintervalle par rapport a z est dL/dz = f(z) /f(z) 1. Sif(z) < f(z) , alors dL/dz < 0. On pourra diminuer la longueur de lintervalle en augmentant z. Comme f estcroissante dans le domaine negatif accrotre z conduit a accrotre f(z) /f(z) 1. Lextremum de la longueur,obtenu pour f(z) /f(z) 1 = 0 est donc bien un minimum.

Pour trouver un intervalle de confiance pour le parametre bk on applique directement les

resultats du lemme :

Proposition 3.4 Sous les hypotheses Hn, soitbk la kieme composante de lestimateur des mcoetk = 2k lestimateur de son ecart-type, alors lintervalle de confiance de longueur minimaledu parametre bk au niveau est

bk k tNK1 (1 /2) , bk +k tNK1 (1 /2)ou tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student a N K 1 degres deliberte.

Le quantile dordre 1 /2 dune loi de Student a NK1 degres de liberte est la quantitet telle que pour une variable S suivant une loi de Student a N K 1 degres de liberte,P (S < t) = 1 /2, et de facon similaire P (S > t) = /2Demonstration Par application des resultats precedents, on a immediatement que S =

bkbkk Student (N K 1).Comme la loi de Student est symetrique, on en deduit que lintervalle de longueur minimale auquel S appartienne

avec probabilite 1 estP (S [tNK1 (1 /2) , tNK1 (1 /2)]) = 1

dont on deduit immediatement lexpression des bornes de lintervalle de confiance.


31/253

3.2. Ecart-types estimes, tests et intervalles de confiance 25

Remarque 3.2 Ce resultat setend directement au cas dans lequel on cherche un intervalle de

confiance pour une combinaison lineaire donnee des parametres : b. En effet, on trouve directe-ment la loi de lestimateur de la combinaison lineaire bmco : bmco Nb, 2 (xx)1 .En notant b =

2 (xx)1 et b = 2 (xx)1 , on verifie aisement que lintervalle

de confiance pour la combinaison lineaire donnee des parametres est

bmco b tNK1 (1 /2) ,bmco +3.2.4 Tests de la forme b =

On rappelle dabord des elements basiques concernant les tests. On se refere pour cela a

Gourieroux-Monfort. Les notions importantes sont celles dhypothese nulle, notee H0, et dhy-

pothese alternative, notee H1. Elles correspondent a une partition de lensemble des lois possibles

des observations. Ici compte tenu du fait quon se situe dans un cadre parametrique (la loi des

observations est specifiee integralement), lensemble des lois possibles est decrit par lensemble

des valeurs possibles de tous les parametres : b, 2. Les hypotheses que lon va considerer ici

portent sur la valeur dune composante du parametre ou dune combinaison lineaire du pa-

rametre : bk = b0k pour une valeur donnee de b

0k, un cas tres frequent etant celui de la nullite,

b0k = 0. On examinera dans le chapitre suivant des hypotheses portant sur plusieurs parametres,

mais les rappels que lon effectue ici valent pour lune et lautre situation. Dune fa con generale,

elles vont secrire sous la forme H0 : 0 et H1 : 1.Un test pur est une regle de decision pure cest a dire une fonction des observations conduisant

a choisir entre la decision d0 : H0 est vraie, et d1 : H1 est vraie. A un test pur est associe une

region critique, en general notee W definie comme lensemble des realisations des observations

conduisant a prendre la decision d1. Les tests peuvent aussi en theorie etre mixtes. Dans ce cas la

regle de decision est mixte. Il sagit alors dune fonction des observations associant a la decision d1une probabilite : compte tenu des observations y on accepte lhypothese H1 avec une probabilite

(y). Il y a trois grandeurs essentielles associees a un test : le risque de premiere espece, le

risque de deuxieme espece et la puissance du test. Le risque de premiere espece correspond a

la probabilite de de rejeter H0 alors que H0 est vraie (i.e. rejeter H0 a tort). Pour un test pur

caracterise par une region critique W, il sagit de la fonction P (W) definie sur 0 Pour un test

aleatoire, elle est definie par E ( (y)). On la note (, ) . Dans cette notation, represente

le test et la valeur du parametre. Le risque de deuxieme espece est a linverse la probabilite

daccepter a tort lhypothese nulle (i.e. la probabilite de rejeter H1

alors que H1

est vraie. Il est

defini comme 1 E ( (y)) pour 1 et dans le cas dun test pur par 1 P (W). On noteen general cette quantite (, ) Enfin la puissance du test represente la probabilite de rejeter

a raison lhypothese nulle. On la note (, ). Cette fonction est definie sur 1 et etroitement

liee a la fonction de risque de deuxieme espece (, ) = 1 (, ). On prefererait des testspour lesquels les risques de premieres et seconde espece soient les plus faibles possibles. Cest a

dire quun test est prefere a un autre si les fonctions de risque de premiere et seconde espece

sont plus faibles. Il existe clairement des tests minimisant separement chacun des risques (le test

correspondant au rejet systematique de H1 minimise le risque de premiere espece). Neanmoins

on montre facilement quil ny a pas de test annulant simultanement les deux risques : il est

donc necessaire de se referer a un principe permettant de selectionner un test. Le principe retenuest celui de Neyman qui consiste a privilegier la minimisation du risque de seconde espece. On

considere des classes de tests caracterises par un seuil (ou encore niveau) donne . Ces tests


32/253


sont tels que le risque de premiere espece soit uniformement inferieur a . Parmi ces tests,

on souhaiterait selectionne ceux maximisant la puissance. Cest ce que lon appelle des tests

uniformement plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la

puissance pour toute valeur du parametre correspondant a lhypothese alternative. De tels tests

nexiste en general pas et on adjoint dautres proprietes : tests sans biais, tests invariants... qui

permettent de restreindre encore la classe des tests examines. La propriete de tests sans biais

au niveaux correspond pour les tests de niveau au fait que la puissance du test pour toute

valeur du parametre sous lhypothese alternative soit superieure a . On considere le test de

lhypothese nulle

H0 : bk = b0k

contre lhypothese

H1 : bk = b0kOn a alors le resultat suivant

Proposition 3.5 Considerant la statistique

S =bk b0kkle test defini par la region critique

W = SS < tNK1 (1 /2) SS > tNK1 (1 /2)ou tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student a N K 1 degres deliberte est un test uniformement plus puissant sans biais au niveau de lhypothese H0 contre

H1.

On verifie aisement que ce test est un test au niveau . En effet sous lhypothese nulle on a

vu quebkb0kk suit une loi de Student a N K 1 degres de liberte. La probabilite de rejeter

lhypothese nulle (la probabilite de la region critique) dans ce cas est donc bien . Montrer

la propriete de sans biais et la propriete concernant la puissance est plus complique (voir les

resultats dans Gourieroux et Monfort sur le modele exponentiel). On peut aussi definir la region

critique par W = SS > tNK1 (1 /2)Mise en oeuvre du test : on calcule la statistique de Student

bkb0kk . Suivant les valeurs prisespar cette statistique, on accepte ou rejette lhypothese nulle. Si la statistique prend des valeurs

extremes on rejette lhypothese, sinon on laccepte. Le seuil de rejet dependent du niveau du

test. On considere en general des tests au seuil de 5%. Le quantile dordre 97, 5% = 1 2, 5%dune loi de Student depend du nombre de degres de liberte. lorsque ce nombre devient grand,

ce quantile est 1.96. On sera donc amene a rejeter au seuil de 5% une hypothese des lors que la

statistique de Student en valeur absolue est superieur a 1.96. Lorsque le nombre de degres de

liberte est plus faible, cest a dire lorsque le nombre de variables explicatives est plus important

ou lorsque le nombre dobservations est plus faible, le seuil augmente. Par exemple pour 5 degresde liberte, le seuil de la region critique est de 2,56 ; pour 500 degres de liberte de 1,96 (voire

figure 3.1)


33/253

3.3. Un exemple 27

Fig.3.1 Distribution de Student pour 5 et 500 degr es de liberte

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-5 -3 -1 1 3 5

Ce test est parfois caracterise par ce que lon appelle la p-value. Il sagit a contrario du

niveau du test pour lequel la statistique observee serait le seuil. Elle est donc definie par la

quantite p value = P|S| > S = 21 FS lorsque S suit une loi de Student a N-K-1 degres de liberte. On acceptera lhypothese nulle pour un test au niveau si la p valueest superieure a . En effet compte tenu du fait que F (tNK1 (1 /2)) = 1 /2, on a2 (1

F (tN

K

1 (1

/2))) =

p value > S < tNK1 (1 /2)Un test systematiquement mis en oeuvre est le test dit de significativite des parametres. Il

correspond a lhypothese nulle bk = 0. La statistique de Student associee a ce test, nommee t

de Student est definie par bk/k. En general nimporte quelle estimation dun modele lineairefait par defaut lhypothese de normalite des residus. Elle produit la valeur estimee du parametre

la valeur estimee de lecart-type, la valeur du t de Student (correspondant a lhypothese de

significativite du parametre) et la p-value correspondant a ce test.

3.3 Un exemple

Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du test

lorsque la vraie valeur du parametre varie. On va considerer un modele a une unique variable

y = 1 + xb0 + u

et on va simuler ce modele pour differente vraie valeur du parametre, allant de 0 a 2. On va

sinteresser au test de lhypothese H0 : b = 1. Pour calculer la fonction de puissance en un point

donne b0, on utilise des simulations. On titre un echantillon Ech1 avec b0 comme vraie valeur

du parametre. Sur cet echantillon on applique le test. On retient la decision d1 = 1 si on rejetteet d1 = 0 sinon. On replique cette operation avec la meme vraie valeur sur M echantillons, avec

M grand. On a ainsi un ensemble de valeur (di)iM . On approxime la valeur de la fonction de


34/253


puissance par (b0) = di. Cest bien un estimateur du nombre de fois ou on a rejete a raison

lhypothese. Bien sur, lorsque b0 = 1, la quantite calculee nest pas la puissance mais le risque

de premiere espece. On peut proceder ainsi pour differentes taille dechantillons. On considere

le cas dans lequel il ny a que 20 observations, puis on augmente progressivement ce nombre.

On considere respectivement N = 50, 100, 500, 2000. La figure 3.2 montre le resultat de ces

estimations. On voit que le graphe de la fonction de puissance a une forme de vasque. Si on

se situe au niveau de la valeur testee b0 = 1, on trouve bien que la proportion de rejet est de

5%, correspondant au risque de premiere espece, et ce quelque soit le nombre dobservations.

Lorsque lon secarte de la vraie valeur on voit que la courbe crot : on rejette de plus en plus

souvent le parametre. La croissance est tres vive lorsque le nombre dobservation est grand : si

la vraie valeur est de 0.95, on va rejeter lhypothese dans 60% des cas. Par contre, dans le cas

de 20 observations, il faut que la vraie valeur secarte de plus de 0.5 pour que lon atteigne des

taux de rejet similaire. Ce resultat merite detre note : avec un petit nombre dobservations,

on est amene a accepter a tort lhypothese dans 40% des cas meme lorsque la vraie valeur est

assez eloignee. Lorsque lecart a la valeur testee augmente, la probabilite de rejet tend vers 1.

Cette valeur est tres rapidement atteinte lorsque le nombre dobservations est grand, pour des

nombres plus petits il faut des ecarts plus importants.

Remarque 3.3 Dans le cas ou la variance des residu