8/3/2019 Econometrie Applique Cours
1/253
Econometrie lineaire appliquee
Bruno Crepon Nicolas Jacquemet
Septembre 2006
8/3/2019 Econometrie Applique Cours
2/253
2
8/3/2019 Econometrie Applique Cours
3/253
Sommaire
Sommaire 3
1 Introduction 1
1.1 Analyse econometrique : presentation . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Principales etapes de lanalyse econometrique . . . . . . . . . . . . . . . . . . . . 3
1.3 Plan de louvrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Lestimateur des moindres carres ordinaires 11
2.1 Definition et proprietes algebriques . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Modele et proprietes statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Variable omise et regresseur additionnel . . . . . . . . . . . . . . . . . . . . . . . 20
2.4 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 Les MCO sous lhypothese de normalite des perturbations 21
3.1 Normalite de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Ecart-types estimes, tests et intervalles de confiance . . . . . . . . . . . . . . . . 23
3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . . . . 29
3.5 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Estimation sous contraintes lineaires 31
4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 LEstimateur des Moindres Carres Contraints (MCC) . . . . . . . . . . . . . . . 344.3 Esperance et variance de bmcc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.4 Estimateur de la variance des residus 2 . . . . . . . . . . . . . . . . . . . . . . . 36
4.5 Loi de lestimateur des moindres carres contraints . . . . . . . . . . . . . . . . . . 37
4.6 Estimation par integration des contraintes . . . . . . . . . . . . . . . . . . . . . . 39
4.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 40
4.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5 Proprietes asymptotiques de lestimateur des MCO 47
5.1 Proprietes asymptotiques de lestimateur des MCO . . . . . . . . . . . . . . . . . 49
5.2 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
8/3/2019 Econometrie Applique Cours
4/253
4 Sommaire
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6 Evaluation : Les estimateurs de difference 61
6.1 Le Modele causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Lestimateur des Differences de Differences . . . . . . . . . . . . . . . . . . . . . . 66
7 Le modele lineaire sans lhypothese dhomoscedasticite 71
7.1 Le modele heteroscedastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2 Estimation en presence dheteroscedasticite . . . . . . . . . . . . . . . . . . . . . 77
7.3 Lestimateur des Moindres Carres Quasi-Generalises . . . . . . . . . . . . . . . . 82
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8 Le modele heteroscedastique en coupe 85
8.1 Inference robuste a lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . 868.2 Test dheteroscedasticite de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . 89
8.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.4 Illustration : Estimation dune equation de salaire . . . . . . . . . . . . . . . . . 95
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9 Correlation des observations 99
9.1 Estimation en presence de correlations entre observations . . . . . . . . . . . . . 99
9.2 Illustration : estimation dune fonction de production sur donnees individuelles . 104
9.3 Processus dautocorrelation des perturbations . . . . . . . . . . . . . . . . . . . . 1069.4 Autocorrelation des residus dans les series temporelles . . . . . . . . . . . . . . . 111
Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
10 Evaluation : Regressions a variables de controle 123
10.1 Independance conditionnelles a des observables . . . . . . . . . . . . . . . . . . . 123
10.2 Le modele de selectivite sur inobservables . . . . . . . . . . . . . . . . . . . . . . 134
11 Variables instrumentales 143
11.1 Trois exemples types dendogeneite des regresseurs . . . . . . . . . . . . . . . . . 14411.2 La methode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . 146
11.3 Lestimateur des doubles moindres carres . . . . . . . . . . . . . . . . . . . . . . 152
11.4 Interpretation de la condition : lim rangE(zixi) = K + 1 . . . . . . . . . . . . . . 15511.5 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
11.6 Test dexogeneite des variables explicatives . . . . . . . . . . . . . . . . . . . . . 161
11.7 I llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
11.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
12 La Methode des moments generalisee 169
12.1 Modele structurel et contrainte identifiante : restriction sur les moments . . . . . 169
12.2 Definir un modele par le biais de conditions dorthogonalite . . . . . . . . . . . . 171
12.3 Principe de la methode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
8/3/2019 Econometrie Applique Cours
5/253
Sommaire 5
12.4 Convergence et proprietes asymptotiques . . . . . . . . . . . . . . . . . . . . . . . 178
12.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
12.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 181
12.7 Test de specification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
12.8 I llustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
12.9 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
13 Variables dependantes limitees 197
13.1 Modele dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
13.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
13.3 Estimation des modeles dichotomiques . . . . . . . . . . . . . . . . . . . . . . . . 202
13.4 Illustration : participation des femmes sur le marche du travail . . . . . . . . . . 206
13.5 Selectivite : le modele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13.6 Estimation du modele Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
13.7 Modeles de choix discrets : le Modele Logit Multinomial . . . . . . . . . . . . . . 224
13.8 Resume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
A Rappels de statistiques 229
A.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
A.2 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Liste des Graphiques 235
Liste des Tableaux 237
Liste des Applications 239
Table des Matieres 241
8/3/2019 Econometrie Applique Cours
6/253
6 Sommaire
8/3/2019 Econometrie Applique Cours
7/253
Chapitre 1
Introduction
A la difference de la statistique, qui est une branche des mathematiques, leconometrie estune branche de leconomie, destinee a developper des outils danalyse des donnees permettant de
nourrir la reflexion theorique. Au dela de la terminologie, cette difference distingue de facon fon-
damentale les elements qui seront traites ici de lanalyse statistique des donnees. Cette difference
se traduit, notamment, par le fait que lanalyse econometrique repose sur une modelisation du
probleme auquel on sinteresse et qui servira au traitement des donnees dont on dispose.
1.1 Analyse econometrique : presentation
Lanalyse econometrique dun ensemble de donnees a, dans la grande majorite des cas,
pour objectif de tester la validite et devaluer lampleur des explications fournies par lanalyseeconomique. A ce titre, elle sinteresse donc a leffet dun ensemble de variables dites va-
riables explicatives et notees x sur une ou plusieurs autres appelees variables expliquees,
y. Le choix de ces variables et leur role dans le modele econometrique est deduit de lanalyse
economique du probleme auquel on sinteresse. Une meme variable peut ainsi jouer le role de va-
riable expliquee dans un modele econometrique donne par exemple, leducation dans un modele
dinvestissement en capital humain et le role de variable explicative dans un modele different
leducation dans un modele de formation des salaires. La theorie suggere ainsi une relation
de causalite specifique au probleme considere entre les variables auxquelles on sinteresse. Pour
cette raison, la variable expliquee est egalement souvent qualifiee de dependante ou endogene,
au sens ou une relation causale la lie aux variables explicatives considerees ; et les variables ex-plicatives qualifiees de variables independantes ou exogenes, au sens ou leur niveau peut etre
considere comme une donnee dans le cadre du probleme auquel on sinteresse.
1.1.1 Modele econometrique
Un modele econometrique est constitue de plusieurs ingredients. Lanalyse empirique de
la relation qui lie les variables explicatives a la (aux) variable(s) expliquee(s) passe dabord
par la specification dune fonction telle que : y = f(x). Cette fonction reflete la relation cau-
sale quentretiennent les variables. Il est cependant impossible pour un observateur exterieur
de connatre et dobserver parfaitement lensemble des determinants dun phenomene social. Lemoral des menages est ainsi souvent presente comme un determinant important du compor-
tement de consommation. Dans le cadre dune analyse empirique du comportement individuel
1
8/3/2019 Econometrie Applique Cours
8/253
2 Chapitre 1. Introduction
de consommation, il est cependant inimaginable de pouvoir observer de fa con certaine cette va-
riable (chaque lecteur de ce manuel constitue ou appartient a un menage : pouvez-vous mesurer
votre moral ?). Il convient donc de distinguer dans lanalyse lensemble des elements observables,
contenus dans la liste des variables explicatives, des determinants qui echappent a lobservation ;
soit par meconnaissance du probleme, soit, le plus souvent, en raison des difficultes a les mesurer.
Ces elements inobservables ecartent la variable y du niveau que laissent attendre les variables
observees x. Lampleur de cette erreur ne peut pas, par definition, etre caracterisee. Elle est
donc consideree comme une variable aleatoire, notee u, qui sajoute au modele : y = f(x, u).
Les variations de u ainsi que la fonction f elle meme se combinent pour expliquer les va-
riations de la (les) variable(s) expliquee(s). Un certain nombre de parametres inconnus inter-
viennent dans cette combinaison. Le multiplicateur dinvestissement keynesien relie par exemple
linvestissement I et le PIB, Y, selon une relation lineaire telle que : Y = I. Lintensite de cette
relation, mesuree par , est inconnue et nest pas observable directement dans la vie economique.
Les parametres qui definissent la fonction f, notes b, doivent donc etre estimes, cest a dire etre
deduits des observations disponibles dans les donnees en sappuyant sur le modele. Pour ce faire,
il est necessaire dimposer un certain nombre dhypotheses sur la fonction f et sur le terme
derreur u. Comme nous le verrons plus bas (Section ??), les hypotheses retenues determient
de facon importante les outils qui pourront etre mobilises ainsi que les proprietes de lanalyse.
Au total, un modele econometrique se definit ainsi comme (i) une relation causale
entre des variables, (ii) perturbee par un ensemble delements inobservables, (iii)
determinee par des parametres inobservables (iv) et (v) sur laquelle sont imposees
un certain nombre dhypotheses necessaires a lestimation.
1.1.2 Le modele lineaire
Une hypothese particulierement concerne la forme imposee a la fonction f. Bien quil soit
possible de definir un modele econometrique en conservant une forme generale a la fonction on
parle alors de modele non parametrique le procede le plus courant consiste a imposer une
forme fonctionnelle pour f. On defini alors un modele parametrique. Lensemble des choix pos-
sibles est extremement vaste. On pourrait ainsi utiliser une forme exponentielle, logarithmique,
un ratio de polynomes ou toute combinaison imaginable de ces fonctions. Le modele a la fois
le plus simple et le plus etudie est le modele qui impose une forme lineaire a cette relation. Le
modele econometrique considere secrit alors :
y = + 1x1 + + KxK + u = xb + uOn retrouve ici les elements qui definissent un modele econometrique : une variable ex-
pliquee, K variables explicatives (qui sont toutes observees), K + 1 parametres (a estimer) et
un terme derreur (inobservable). Il convient detre tres vigilant quant au critere qui caracterise
la linearite du modele. La forme fonctionnelle utilisee est en effet qualifiee en fonction de la
position quoccupent les parametres et non les variables dans le modele.
Definition 1.1 Un modele econometrique est dit lineaire si la relation entre les variables
explicatives et la (les) variable(s) expliquee(s) est lineaire dans les parametres.
Le modele econometrique qui consiste a expliquer le salaire par une fonction lineaire de lage
pris au carre (ou toute autre transformation non lineiare de cette variable) sera ainsi considere
8/3/2019 Econometrie Applique Cours
9/253
1.2. Principales etap es de lanalyse econometrique 3
comme un modele lineaire. A lexception du dernier chapitre, les resultats presentes dans cet
ouvrage se concentrent sur ce modele. Plusieurs facteurs expliquent son succes et la quantite des
travaux qui lui sont consacres.
En raison de sa simplicite, dabord, le modele lineaire est historiquement a lorigine de
lanalyse econometrique. Les developpements ulterieurs de lanalyse et notamment lanalyse non
lineaire qui sera introduite a la fin de cet ouvrage sappuient donc naturellement sur les
resultats obtenus dans le cadre du modele lineaire. Leur connaissance est ainsi indispensable a
une bonne comprehension de themes plus avances, et toute formation a leconometrie commence
dailleurs, pour cette raison, par une presentation de leconometrie lineaire. Cette simplicite
explique egalement le succes de ce modele parmi les praticiens (professionnels, chercheurs, . . . )
de leconomie appliquee. Comme nous le verrons au cours de louvrage, une part tres importante
des travaux realises dans ce domaine repose en effet sur lanalyse lineaire, et peut par consequence
etre comprise en se limitant au elements presentes dans cet ouvrage. Une derniere raison, plus
fondamentale, tient a ce que de tres nombreux modeles peuvent etre exprimes sous forme lineaire.
Il sagit de la premiere etape de lanalyse econometrique, dont un certain nombre dexemples
sont presentes ci-dessous.
1.2 Principales etapes de lanalyse econometrique
Le passage de la theorie economique a un modele econometrique consistue en effet la premiere
etape de lanalyse. Le modele peut ensuite etre mis en uvre a condition de disposer dobsevation
sur le phenomene considere et ses determinants. Il sagit alors de proceder a lestimation du
modele, et ce a des fins de validation, devaluation ou de prevision.
1.2.1 Dou vient le modele ? - 1 de la theorie economique
Comme nous lavons vu, cest la theorie economique qui suggere une relation de causalite
entre la (les) variable(s) expliquee(s) et les variables explicatives. Il faut cependant entendre le
terme theorie economique au sens large. Bien que preferable, il nest pas indispensable, en
effet, de disposer dun modele economique au sens propre du terme pour mettre en uvre un
modele econometrique. Les quelques exemples proposes ci-dessous illustrent les divers degres
dintimite qui peuvent exister entre la theorie et la specification dun modele econometrique.1
(i) Fonction de production
Dans sa variation la plus simple, lanalyse economique du processus de production considere
le niveau du produit, Y, qomme le resultat de la combinaison de deux facteurs : le capital, K,
et le travail, L :
Y = F (K, L)
Un modele non parametrique de production consisterait a conserver la forme generale de
F(). Seuls sont consideres dans cet ouvrage les modeles parametriques qui imposent une forme
particuliere a la fonction dinteret. On se restreint alors a un ensemble de fonctions de productions
ne dependant que dun nombre fini de parametres. Une specification frequemment retenue est la
fonction de production Cobb-Douglas. Imposer une forme fonctionnelle nest jamais neutre sur le
1Certains de ces exemples seront developpes au cours de louvrage.
8/3/2019 Econometrie Applique Cours
10/253
4 Chapitre 1. Introduction
phenomene etudie. La fonction de production Cobb-Douglas impose par exemple une restriction
forte sur les possibilites de substitution entre facteurs :
Y = AKL
et sont des parametres a estimer. On remarque immediatement que le modele ainsi
specifie nest pas lineaire au sens de la Definition 1.1. Une simple operation algebrique permet
cependant de se ramener a ce cadre :
log(Y) = log(AKL)
y = a + k + l
La seconde equation definit ainsi un modele lineaire dans les parametres. Loperation a
necessitre un changement de variables : on sinteresse desormais au logarithme du produity = log(Y) comme des facteurs (k = log(K) et l = log(L)). La quantite a correspond a une
quantite inobservee, qui sinterprete comme le logarithem du parametre dechelle de la fonction
de production. Suivant les cas, on pourrra donc la considerer comme un parametre a estimer
(constant) ou comme le terme derreur du modele. Lorsque lon sinteresse a la fonction d epro-
duction de differentes entrprises, le niveau de la technologie est ainsi susceptible de varier dune
entrprise a lautre et il paratra alors naturelle de considerer cette quantite comme lerreur du
modele. Pour les autres coefficients, en revacnhe, le modele specifie impose une homogeneite du
processus de production dans la population dentreprises.
(ii) Demande de facteursLa theorie economique a montre que la demande de facteurs qui emane des entreprises
se deduit directement de la fonction de cout associee au processus de production. En toute
generalite, cette fonction secrit : C(Q, pX , u), ou Q est le niveau de production, pX le vecteur
des prix des facteurs X et u le niveau de la technologie. La demande pour un facteur donne Xdoest donnee par le Lemme de Shephard :
Xd0 =C(Q, pX , u)
pX0
Comme dans le cas precedent on se restreint en general a une forme parametrique de la
fonction de cout. Une specification standard est la fonction de cout translog avec deux facteurs :le capital de cout exp(c) et travail de cout exp(w) :
log(C) = a + c + w + 0.5c c2 + w,c cw + 0.5w w
2 + log(Q) log(u)
Par application du lemme de Shephard, ce type de specification conduit a des fonctions de
demande specifiant la part optimal de chaque facteur dans le cout global. Pour la demande de
travail, on a par exemple :wL
Q= + w,cc + ww
Dans cette specification, la perturbation na pas dinterpretation aussi naturelle que dans lecas precedent. Il faut considerer que soit le parametre est heterogene, soit la part observee
secarte de la part theorique pour des raisons non expliquees.
8/3/2019 Econometrie Applique Cours
11/253
1.2. Principales etap es de lanalyse econometrique 5
Le modele peut aussi provenir dune relation moins structurelle entre les variables. Par
exemple un type dequations tres souvent estime est lequation de Mincer qui fait dependre le
salaire du nombre dannees detude et de lexperience. Par exemple :
log(wi) = a0 + assi + aeei + ui
ou as represente le gain lie a une annee detude supplementaire et ae le gain lie a une annee
dexperience supplementaire. Les parametres economiques auxquels on sinteresse alors sont le
rendement de leducation ou le rendement de lexperience. La modelisation sous-jacente est
celle du capital humain : le capital humain saccumule dabord durant la periode des etudes
puis durant la vie active par lexperience, en apprenant sur le tas. Si on fait lhypothese dun
marche du travail concurrentiel, les differences de remunerations entre les agents traduiront des
differences dans le capital humain. On peut remarquer concernant cette equation que lon ne
sinteresse pas seulement a expliquer les differences moyennes de revenus entre les agents maisque lon souhaite aussi parvenir a une estimation plus ambitieuse qui puisse conduire a une
interpretation causale : si on augmente la duree des etudes de un an dun individu quel sera son
gain en terme de remuneration ?
Un autre exemple dans lequel le modele entretient des rapports encore plus tenus avec des
parametres structurels mais possede une interpretation causale est celui de lincidence de la
taille dune classe sur le taux de reussite des eleves de la classe. On peut legitimement se poser
la question de savoir si la reduction de la taille des classes conduit a une amelioration du taux
de reussite scolaire. On peut ainsi considerer un modele du type :
i = a0 + attaillei + xiax + ui
ou i represente le taux de reussite dune classe. Dans cette specification que lon pourrait appeler
fonction de production scolaire, on introduit un ensemble dautres variables. En effet on se doute
bien que de nombreux facteurs affectent la reussite dune classe. Par exemple lenvironnement
scolaire est certainement un facteur important. On pourrait se dire que comme on ne sinteresse
pas a la variable denvironnement on ne la met pas dans la regression. Dun cote on y gagne car
on na pas a faire leffort de mesurer cette variable, mais dun autre cote cette variable contribue
aussi a determiner la taille de la classe. Il est possible que dans certains milieux defavorises la
taille des classes soit plus petites. Si on ignore le role de lenvironnement scolaire et quon ne
lintegre pas dans la regression, on risque de mesurer un effet de la taille de la classe qui soit unmixte de leffet propre de la taille et de leffet de lenvironnement. Il donc important dans ce type
de modele, entretenant des rapports larges avec la theorie, dintroduire des facteurs annexes qui
permettront disoler leffet propre de la taille de la classe. On cherche a controler pour un certain
nombre de facteurs exterieurs.
Enfin, on peut avoir une approche descriptive des donnees. Il est important de remarquer
que dans ce cas les parametres nont pas dinterpretation structurelle.
1.2.2 Les donnees
Les donnees constituent le cur de leconometrie. Leur recueil et leur examen descriptifconstituent aussi en general une part importante de tout travail econometrique. Il y a principa-
lement trois grands types de donnees :
8/3/2019 Econometrie Applique Cours
12/253
6 Chapitre 1. Introduction
1. Donnees temporelles ou longitudinales. Elles sont indicees par le temps t. On dispose ainsi
de series dites temporelles : yt, xt, par exemple les series trimestrielles de la consommation
et du revenu, de linflation... En general le nombre dobservation T est assez reduit, de
lordre de la cinquantaine. On note en general y le vecteur T1 (y1, . . . , yT) et x la matriceT (K+ 1) : (x1, . . . , xT) ou xt est le vecteur ligne forme des valeurs des differentesvariables explicatives (dont la constante) a la date t.
2. Donnees en coupe. yi, xi. Leur indice correspond a lidentifiant dun individu ou dune
entreprise. Ces donnees peuvent representer par exemple le salaire dun individu pour y
et son diplome, son experience... pour les variables explicatives. Les echantillons dont on
dispose sont en general de beaucoup plus grande taille : le nombre dobservation N depasse
le plus souvent la centaine et peut aller jusqua plusieurs dizaines de milliers. On note la
encore en general y le vecteur N1 (y1, . . . , yN) et x la matrice N(K + 1) : (x1, . . . , xN)
ou xi est le vecteur ligne forme des valeurs des differentes variables explicatives (dont laconstante) pour lindividu i.
3. Donnees a double indice, dites de panel : yit, xit. On dispose dinformations sur des indivi-
dus i = 1, . . . , N que lon suit sur plusieurs periodes, t = 1, . . . , T . Les N T observations zitcorrespondent a N observations vectorielles individuelles zi1, . . . ziT. On note en general
yi
le vecteur T1 (yi1, . . . , yiT) et xi la matrice T(K+ 1) : (xi1, . . . , xiT) et y le vecteurN T 1
y
1, . . . , y
N
et x la matrice N T (K+ 1) : (x1, . . . , xN) ou xi est la matrice
formee des valeurs des differentes variables explicatives (dont la constante) pour lindividu
i aux differentes dates.
1.2.3 Lestimation
Estimer le modele cest trouver une fonction des observations y et x
b = b y, xdont on souhaite quelle verifie certaines conditions. Par exemple lestimateur peut etre choisi
tel
quil soit sans biais Eb = b y, x fy, x dydx = b
quil satisfasse un critere : minimisation de la somme des carres des residusb = arg min (y xb)2 ;
maximisation de la log-vraisemblance b = arg max log l (y, x) quil soit de variance minimale
quil soit convergent, cest a dire quil se rapproche de la vraie valeur du parametre lorsque
le nombre dobservations devient grand.
1.2.4 Pourquoi estimer le modele ?
tester lexistence dun effet, i.e. verifier quune variable x a un effet specifique sur une va-
riable y. Par exemple on peut sinterroger sur leffet des taux dinteret sur linvestissement,
cest a dire sur lexistence dun canal monetaire de la politique monetaire. Dans le cadre
dun modele accelerateur profit standard, I = Qt + + r + v, on peut sinterrogersur le fait que le coefficient du taux dinteret soit nul ou non. On sinteresse donc a
lhypothese H0 : = 0, et on souhaite que les donnees permettent de repondre a cette
8/3/2019 Econometrie Applique Cours
13/253
1.2. Principales etap es de lanalyse econometrique 7
question. De facon similaire, dans le cas de la fonction de production scolaire on peut
sinterroger sur lexistence dun effet de la taille de la classe sur le taux de reussite. On
va alors sinteresser a lhypothese H0 : at = 0, et la aussi on souhaite que les donnees
nous permettent de choisir entre oui ou non. Lestimation du modele et la confrontation
du parametre a zero est la voie la plus naturelle pour prendre cette decision. La question
est ici de savoir si le parametre est significatif au sens statistique du terme.
quantifier cet effet, ce qui est utile a des fins de simulations. Par exemple dans les deux
cas precedents on est aussi interesse par donner un ordre de grandeur de leffet a attendre
dune variation de la variable. Si on voulait par exemple prendre une decision de politique
economique consistant a baisser la taille des classes, ce qui est tres couteux, on est interesse
certes a savoir si cela aura un effet non nul mais aussi a savoir lordre de grandeur de cet
effet. Sil est tres faible on ne prendra pas alors aussi facilement la decision de reduire la
taille des classes. Lordre de grandeur du parametre est aussi important. La question est
ici de savoir si le parametre est significatif au sens economique du terme.
prevoir. Dans le modele yt = xt+ ut, le parametre peut etre estime sur les observations
t = 1, . . . , T : . Connaissant xT+1 on calcule la prevision de y a la date T + 1 : yT+1 =xT+1
1.2.5 Dou vient le modele ? - 2 de relations stochastiques
Le modele provient aussi de relations stochastiques entre les variables. Lecriture de la relation
y = xb + u
ne constitue pas en fait un modele econometrique. Comme on la vu il sagit dune relation plus
ou moins fondee. Si on ladmet fondee, le parametre b a un sens en lui-meme. Il a une definition
economique, par exemple lelasticite de la production au capital. Pour que ce modele soit un
modele econometrique il faut lui adjoindre une restriction stochastique. Une facon naturelle de
proceder est de specifier la loi jointe des observations l (y, x; b) . Ceci revient a specifier la loi du
residu sachant les variables explicatives : l (u |x ) . La situation de base est celle dans laquellecette loi est choisie comme une loi normale ne dependant pas des variables x. On impose donc
dans ce cas une restriction stochastique essentielle pour lanalyse econometrique
l (u
|x ) = l (u) = (u/) /
ou est la densite de la loi normale. Imposer cette restriction permet de definir la densite des
observations
l (y, x; b) = l (y |x; b ) l (x) = ((y xb) /) l (x) /et donc destimer les parametres en appliquant par exemple la methode du maximum de vraisem-
blance. Lestimateur auquel on parvient est alors celui des moindres carres ordinaires. On peut
aussi faire des hypotheses sur la loi de u sachant x qui soient moins fortes que la specification
de la loi complete. Par exemple on peut se contenter de specifier :
E(u |x ) = E(u) = 0
Cette propriete est satisfaite si on specifie la loi conditionnelle de u sachant x comme une loi
normale independante de x. Linverse est faux et cette specification est donc moins exigeante que
8/3/2019 Econometrie Applique Cours
14/253
8 Chapitre 1. Introduction
la precedente. Elle permet, elle aussi, destimer le modele. Elle implique en effet des restrictions
du type E(x (y xb)) = 0 appelees intuitivement conditions dorthogonalite dont on verraquelles sont suffisantes pour estimer les parametres du modele. On remarque a ce stade que
dans cette specification il y a dores et deja un parametre de moins : la variance des residus
nintervient plus.
Ces restrictions stochastiques definissent un parametre statistique. On pourrait ainsi definir
autant de parametres b quil y a de restrictions stochastiques envisageables, cest a dire une
infinite. On pourrait par exemple considerer le parametre bZ associe a des restrictions stochas-
tiques E(z (y xbZ)) = 0 dont on verra quelles aussi peuvent etre utilisees souvent pourconduire a une estimation du parametre. Il nest pas certain que le parametre statistique associe
a une restriction stochastique concide avec le parametre economique. Lestimation peut ainsi
etre non convergente, cest a dire que la valeur du parametre estimee ne se rapprochera pas
de la vraie valeur (economique) du parametre lorsque le nombre dobservation augmente, ouetre biaisee, cest a dire que lesperance du parametre nest pas la vraie valeur (economique) du
parametre. Une partie importante de leconometrie, qui passe par une reflexion sur le modele,
les donnees et les methodes consiste a rechercher des conditions dans lesquelles le parametre
statistique concide avec le parametre economique. La question est-ce que p limb = b0, la vraievaleur economique du parametre, est en dernier ressort la question la plus centrale et la plus
importante de leconometrie, et assez naturelle : est-ce que jai bien mesure ce que je voulais ?
Cest beaucoup moins facile quil ny parat, car de nombreux facteurs affectent les decisions
individuelles et il est difficile disoler leffet dune unique cause.
1.3 Plan de louvrage
Le cours debute dans le chapitre 2 par lestimateur des moindres carres, cest a dire le vecteur
des coefficients de la projection orthogonale de y sur lespace vectoriel engendre par les variables
explicatives. On presente dabord les proprietes algebriques de cet estimateur et ses proprietes
statistiques sous des hypotheses minimales telles que lindependance et lequidistribution des ob-
servations (Theoreme de Frish-Waugh, Theoreme de Gauss-Markov, estimation des parametres
du second ordre, le R2 et lanalyse de la variance). On montre ensuite dans le chapitre 3 comment
la specification de la loi des residus comme une loi normale permet de completer lanalyse en
particulier en permettant dobtenir la loi des estimateurs, etape incontournable pour proceder a
des tests dhypotheses simples (test de Student) ou definir des intervalles de confiance pour les
parametres. On examine ensuite dans le chapitre 4 et dans le meme cadre ou la loi des residus
est supposee normale, le cas important des estimations sous contraintes lineaires (dans les pa-
rametres). On presente alors les tests dhypotheses lineaires sur les parametres par le biais des
tests de Fisher. Ces resultats sont obtenus sous des hypotheses fortes :
Independance des residus et des variables explicatives : l (u |x ) = l (u) Homoscedasticite V (u |x ) = 2I Specification de la loi des residus : l (u) normale.
Les chapitres suivants vont progressivement revenir sur chacune de ces hypotheses. On va
dabord examiner dans un cadre tres proche la loi asymptotique des estimateurs, cest a direlorsque le nombre dobservations devient grand. On va chercher a developper le meme genre de
proprietes permettant de faire de linference mais sans specifier la loi des residus. Les resultats
8/3/2019 Econometrie Applique Cours
15/253
1.3. Plan de louvrage 9
seront obtenus sous les hypotheses :
Absence de correlation entre les residus et les variables explicatives E(ux) = 0 Homoscedasticite V (u
|x ) = 2I
Le comportement asymptotique des estimateurs est examine dans le chapitre 5.
Dans le chapitre 6 on revient sur les hypotheses dindependance et dequidistribution des
parametres. On presente lestimateur des moindres carres generalisee ainsi que differentes facons
de traiter la situation dite dheteroscedasticite, i.e. situation dans laquelle la variance des residus
depend des variables explicatives. On aborde aussi succinctement la question des donnees de
panel et de lestimation de modeles faisant intervenir des systemes dequations. Le cadre dans
lequel on se situe est juste base sur
Absence de correlation entre les residus et les variables explicatives E(ux) = 0Les chapitres 7, 8 et 9 utilisent la methode des moindres carres generalises en sappuyant sur
une connaissance a priori de la structure de correlation des residus. Le chapitre 7 sinteresse plusparticulierement au cas des regressions empilees. Dans le chapitre 8, on considere le cas dune
regression en coupe dans laquelle on a heteroscedascticite du residu, ce qui peut etre le cas par
exemple pour une equation de salaire, la variance du residu etant generalement croissante avec
le revenu. Dans le chapitre 9, on considere le cas destimations ou le residu peut etre modelise
comme une serie temporelle de comportement connu. On construit lestimateur les moindres
carres quasi-generalises en sappuyant sur la connaissance de la forme de lautocorrelation du
residu.
Dans le chapitre 10, on considere la situation dans laquelle E(ux) = 0. On aborde la ques-tion de lidentification, fondamentale en econometrie. On montre comment a laide de variables
exterieures z, dites instrumentales, il est possible destimer le parametre dinteret. On revientdonc en partie sur certains aspects des generalisations precedentes pour mieux se concentrer sur
lhypothese didentification. Les resultats sont obtenus sous les hypotheses
Absence de correlation entre les residus et des variables z : E(uz) = 0, Rg (zx) = dim x Homoscedasticite V (u |x, z ) = 2IOn presente aussi deux tests importants : le test dexogeneite et le test de suridentification
qui sont des guides importants dans le choix des variables instrumentales.
Dans le chapitre 11 on presente une generalisation importante de la methode a variable
instrumentale et qui englobe la plupart des methodes econometriques standards. Il sagit de la
methode des moments generalisee et on montre en particulier comment elle permet detendre lamethode a variables instrumentales au cas dans lequel les perturbations sont heteroscedastiques
et a dautres cas tels que celui de leconometrie des donnees de panel ou lestimation de systemes
dequations. Les hypotheses secrivent un peu differemment ce qui souligne le caractere general
de cette methode
E(g (z, )) = 0
ou z represente lensemble des variables du modele, cest a dire inclus les y et les x.
Dans le chapitre 12, on presente succinctement certains modeles non lineaires proches des
modele lineaires. On sinteresse ainsi au modeles dits probit pour lesquels la variable a expliquer
na plus un support continu sur R mais prend ses valeurs dans {0, 1} . La modelisation sous-jacente consiste a introduire une variable latente, i.e. non observee completement
I = zc + u
8/3/2019 Econometrie Applique Cours
16/253
10 Chapitre 1.
et dont les realisations gouvernent lobservation de la variable I :
I = 1
I > 0
On aborde egalement dautres situations importantes permettant daborder la questions de
la selectivite des echantillons, cest a dire la situation dans laquelle on nobserve la variable
dependante que sous une condition liee par ailleurs a la variable dependante elle-meme :
y = xb + u
I = zc + u
les realisations de I gouvernent lobservation de la variable I et de la variable y :
I > 0 I = 1y = yI 0 I = 0
Ce type de modele appele modele Tobit est souvent utilise, en particulier pour aborder len-
dogeneite de variables explicatives prenant la valeur 0 ou 1 dans des modeles a coefficients
variables
yi = iIi + vi
Ce type de modele est souvent utilise pour aborder levaluation des effets microeconomiques des
politiques de lemploi comme les stages de formations.
Dans le chapitre 13, on sinteresse a levaluation des politiques publiques. On introduit no-tamment lestimateur par difference de differences qui sapplique a une experience naturelle. On
parle dexperience naturelle lorsquune partie de la population a fait lobjet dune nouvelle poli-
tique, tandis quune autre partie de la population na pas fait lobjet de cette politique et donc
peut servir de population temoin. On ne peut observer le comportement des individus touches
par une mesure sils navaient pas ete touches, on verra comment on peut neanmoins construire
des estimateurs evaluant limpact dune nouvelle politique.
Exercices
1. Linearite. Pour chacune des relations suivantes, proposer une transformation qui rendele modele lineaire.
Yi =1
1 + 2.Xi(1.1)
Yi =Xi
1 + 2.Xi(1.2)
Yi =1
1 + e1+2.Xi(1.3)
8/3/2019 Econometrie Applique Cours
17/253
Chapitre 2
Lestimateur des moindres carres
ordinaires
Lestimateur des moindres carres ordinaires reste lun des estimateurs les plus frequemment
utilises. Il a de nombreux usage. On peut lutiliser par exemple pour proceder a une descrip-
tion des donnees : quelles sont les variables rendant compte le mieux de la variabilite dune
variable dinteret. On peut aussi lutiliser dans de nombreuses autres situations pour estimer un
parametre auquel on donne un sens causal : que se passerait-il si on faisait varier une variable
donnee dun montant donne. Il est base sur lhypothese essentielle que les residus et les variables
explicatives sont orthogonaux. Il faut dautres hypotheses pour deriver les principales proprietes
de lestimateur. On verra dabord les proprietes algebriques puis les proprietes statistiques. Une
partie du cours correspondra a lextension et la reformulation des proprietes de lestimateur desmco lorsque lon remet en cause ces hypotheses. On generalise ou adapte le plus souvent les
proprietes de lestimateur a la condition que lhypothese centrale dabsence de correlation entre
perturbations et variables explicatives soit maintenue.
On va voir dans ce chapitre la definition de lestimateur des mco et son interpretation
algebrique comme vecteur des coefficients de la pro jection orthogonale de la variable dependante
sur les variables explicatives. On va egalement obtenir deux proprietes importantes de cet esti-
mateur qui sont : la propriete de sans biais et une propriete doptimalite concernant la variance
de lestimateur, connue sous le nom de Theoreme de Gauss-Markov.
2.1 Definition et proprietes algebriques
2.1.1 Definition
On considere une variable dinteret y appelee variable dependante et un ensemble de K
variables dites explicatives auquel on adjoint une constante. On dispose de N observations. On
note y = (y1, . . . , yN) lempilement des N observations de la variable dependante. On definit
de meme les vecteurs x1, . . . , xK et x la matrice des variables explicatives a laquelle on adjoint
le vecteur constant e = (1, . . . , 1) : x =
e, x1, . . . , xK
est donc une matrice de dimension
N (K+ 1).
Definition 2.1 Lestimateur des moindres carres ordinaires est defini comme le vecteur b de
dimension K + 1, b = (b0, . . . , bK) , des coefficients de la combinaison lineaire de e, x1, . . . , xK
11
8/3/2019 Econometrie Applique Cours
18/253
12 Chapitre 2. Lestimateur des moindres carres ordinaires
realisant le minimum de la distance de y a lespace vectoriel de RN engendre par e, x1, . . . , xK,
pour la norme euclidienne :
bmco = arg min
y xb
2
Proposition 2.1 Sous lhypotheseH1 : les vecteurs e, x1, . . . , xK sont independants,
lestimateur des moindres carres existe, est unique et a pour expressionbmco = xx1 xyDemonstration Lobjectif a minimiser est Ob (b) =
y xb2 = y xb y xb . La condition du premierordre secrit
dOb
db= 2x y xb = 0
et la condition du second ordred2Ob
dbdb= 2xx definie positive
Lhypothese dindependance de e, x1, . . . , xK revient a faire lhypothese que xx est definie positive. La condition
du second ordre est ainsi satisfaite et la condition du premier ordre admet une solution
2.1.2 Interpretation geometrique
On associe deux grandeurs importantes a lestimateur des moindres carres :
1. Le vecteur predit y = xb2. Le vecteur residuel u = y yOn voit immediatement compte tenu de la definition de lestimateur des moindres carres
ordinaires que le vecteur residuel est orthogonal aux variables explicatives et donc aussi au
vecteur predit :
xu = 0yu = 0y sinterprete donc comme la projection orthogonale de y sur lespace engendre par e, x1, . . . , xK
et lestimateur des moindres carres ordinaires comme le vecteur des coefficients de cette projec-
tion.
Remarque 2.1 Comme la constante appartient a lensemble des regresseurs, on a immediatement
e
u = 0, soit
u = 1N
ui = 0 : la moyenne du vecteur residuel est nulle.
Les vecteurs predits et residuels peuvent secrire directement a partir du vecteur y. On a en
effet
y = xb = x xx1 xy = Pxyu = y y = IN Px y = MxyLes matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivement lespace
engendre par
e, x1, . . . , xK
et son orthogonal. Comme on le verifie directement on a en effet
P2x = Px
M2x = Mx
Px + Mx = IN
et en outre
Pxv = v tq v = x
8/3/2019 Econometrie Applique Cours
19/253
2.1. Definition et proprietes algebriques 13
2.1.3 Theoreme de Frish-Waugh
Le theoreme de Frish-Waugh est une propriete algebrique de lestimateur des moindres carres
qui explicite linterdependance des coefficients de differentes variables dans une regression. Ilpermet de repondre a la question : dans quel cas est-il necessaire dintroduire toutes les variables
dun modele dans la liste des regresseurs ?
Proposition 2.2 (Theoreme de Frish-Waugh). Dans la regression de y sur un ensemble de
variables explicatives x, si x se decomposent en deux sous-ensembles x1 et x2 : x =
x1, x2
, les
coefficients des variables x1 peuvent etre obtenus indirectement en regressant les residus Mx2y
de la regression de la variable dependante y sur les variables explicatives x2, sur les residus
Mx2x1 des regressions des variables x1 sur les variables explicatives x2 :
b1 = Mx2x1 Mx2x11 Mx2x1 Mx2yon peut alors retrouver les coefficients des variables x2 en regressant la partie inexpliquee yx1b1sur x2 : b2 = x2x21 x2 y x1b1avec Mx2 = IN x2
x2x21
x2
Demonstration Les coefficients de la regression de y sur x =
x1, x2
satisfont
x1
y x1
b1 x2
b2
= 0
x2 y x1b1 x2b2 = 0De la deuxieme equation on tire directement la deuxieme partie du theoreme
b2 = x2x21 x2 y x1b1Lorsque lon reintroduit cette expression dans la premiere equation il vient
x1
y x1b1 x2 x2x21 x2 y x1b1 = 0soit
x1Mx2
y x1
b1
= 0
x1
Mx2 Mx2y Mx2x1b1 = 0compte tenu de M2x2 = Mx2 . Dou lexpression de
b1 Remarque 2.2 La caracteristique importante est dutiliser les residus des regressions de x1sur x2. Il nest pas necessaire dutiliser aussi les residus de la regression de y sur x2.
Applications du Theoreme de Frish-Waugh
1. Dans la regression de y sur x1 et x2 on peut regresser separement y sur x1 et y sur x2lorsque x1 et x2 sont orthogonaux.
2. Donnees de panel. Lorsque la regression introduit des indicatrices specifiques a chaqueindividu (donc N variables, specification dite a effets fixes) en plus dun ensemble de
regresseurs dinteret x1, on peut dabord regresser les variables dinteret et la variable
8/3/2019 Econometrie Applique Cours
20/253
14 Chapitre 2. Lestimateur des moindres carres ordinaires
dependante sur les variables indicatrices puis utiliser les residus des regressions correspon-
dantes. Dans ces operations puisque les variables indicatrices sont orthogonales les unes
aux autres on peut effectuer les regressions sur les indicatrices separement. On verifie
aisement que le coefficient de la regression dune variable sur une variable indicatrice din-
dividu est la moyenne des observations pour cet individu. Les residus des regressions sont
donc les ecarts aux moyennes individuelles des differentes variables dinteret. Lestimateur
obtenu en regressant les ecarts des variables explicatives aux moyennes individuelles sur
la quantite analogue pour la variable dependante est tres populaire et connu sous le nom
destimateur Within (ou Intra).
3. Pour obtenir les coefficients de x1 dans la regression de y sur x1 et x2, on peut regresser
y sur x1 et la prevision de x1 par x2 : Px2x1.
2.2 Modele et proprietes statistiques
Lestimateur des moindres carres ordinaires a une definition mathematique. Il sagit du vec-
teur des coefficients de la pro jection orthogonale de la variable dependante sur les variables ex-
plicatives. Dans le cadre de leconometrie on sinteresse neanmoins a lestimation des parametres
dun modele econometrique. On considere ainsi le modele lineaire suivant :
y = b0 + b1x1 + + bKxK + u
Pour lequel on dispose de N observations. Le modele secrit aussi sous forme matricielle :
y = xb + u
On sinteresse aux proprietes statistiques de lestimateur des mco : quelle est son esperance,
sa variance... Comme lestimateur est une fonction des observations, ses proprietes statistiques
dependent de la loi des observations l (y, x). On les caracterise a partir dhypotheses sur la
loi conditionnelle de y sachant x, cest a dire dans le cadre du modele precedent comme des
hypotheses concernant la loi de la perturbation u conditionnellement aux variables explicatives.
2.2.1 Quand lestimateur des mco est-il sans biais ?
On sinteresse dabord aux conditions sous lesquelles lesperance de lestimateur des mco
concide avec la vraie valeur du parametre. On dit alors que lestimateur est sans biais.
Definition 2.2 On dit quun estimateurb y, x est sans biais lorsque : Eb y, x = b.Dans cette definition E
b y, x = b y, x fy, x dydx ou fy, x represente la densite jointe des variables explicatives et dependantes.
Proposition 2.3 Sous lhypothese
H2 : E(un |x ) = 0 nlestimateur des mco est sans biais.
8/3/2019 Econometrie Applique Cours
21/253
2.2. Modele et proprietes statistiques 15
Demonstration Lestimateur des mco secrit
bmco =
xx
1
xy
= xx1 x (xb + u)= b +
xx1
xu
on sinteresse a Eb y, x |x . On a clairement Eb y, x |x = b + (xx)1 xE(u |x ) . Comme E(u |x ) = 0
par hypothese on a bien Eb y, x |x = b. On en deduit immediatement Eb y, x = EEb y, x |x = b
Lhypothese H2 est extemement forte, puisquelle signifie que lorsque les residus changent,
les variables explicatives ne changent pas. Dans de nombreuses situations cette hypotheses ne
peut pas etre tenu. Cest par exemple le cas si on prend un modele offre-demande dans lequel
on observe les prix et les quantites. Si on considere lequation de demande par exemple, elle
correspond a lexistence dune relation decroissante entre la variable dependante, la quantite, etla variable explicative, le prix. Si il y a un choc de demande, le desequilibre sur le marche va
se resoudre par une hausse de la quantite echangee et une hausse du prix. Dans ce modele on
ne peut donc pas tenir lhypothese H2 par nature meme du modele auquel on sinteresse. Dans
dautres cas la situation peut etre plus favorable. Par exemple dans le cas de la taille de la classe
et du taux de reussite scolaire, il est vrai que lon peut contester le fait que E(u |taille ) = 0,mais il est possible quil existe un ensemble de variables explicatives x tel que lon ait u =
xc + v et E(v |taille, x ) = 0. Autrement dit, on peut identifier, mesurer et introduire dansla regression les sources de variabilite communes a la taille et au residu. Le modele devient
tx = a0 + attaille + xb + v.
2.2.2 Quelle est la precision de lestimateur des mco ?
Le fait que la propriete dabsence de biais soit satisfaite est tres interessant mais on a be-
soin dinformations plus precises. On souhaite savoir si la vraie valeur peut se trouver loin de
lestimateur. Une telle information est donnee par la precision de lestimateur et on letudie en
considerant la variance :
Proposition 2.4 sous les hypotheses H1, H2,
H3 : V (un |x ) = 2 nH4 : E(unum
|x ) = 0
n, m
la variance de lestimateur des mco conditionnellement au variables explicatives est donnee
par
Vbmco |x = 2 xx1
La variance non conditionnelle est donnee par
Vbmco = 2Exx1
Demonstration La variance conditionnelle est definie comme
V
bmco |x
= E
bmco E
bmco |x
bmco E
bmco |x |x
Comme Ebmco |x = b et bmco b = (xx)1 xu,Vbmco |x = xx1 xEuu |x x xx1
8/3/2019 Econometrie Applique Cours
22/253
16 Chapitre 2. Lestimateur des moindres carres ordinaires
La matrice E(uu |x ) a pour elements n,m E(unum |x ) . On deduit directement des hypotheses que E(uu |x ) =2IN
La matrice de variance a deux composantes : 2 et E(xx)1 . Plus 2, i.e. la varianceresiduelle, est grande, moins lestimateur est precis. Ceci implique que lon peut accrotre la
precision des estimateurs de variables dinteret en introduisant des variables additionnelles, sa-
tisfaisant les hypotheses du modele lineaire H1 H4, des lors quelles contribuent a reduirela variance residuelle. La matrice xx joue un role central dans la variance de lestimateur. Onpeut lecrire a partir des observations individuelles comme xx =
n x
nxn. On voit quune
ecriture plus adaptee est xx = N
1N
n x
nxn
. Dans le cas du modele lineaire simple avec une
unique variable explicative centree la matrice
1N
n x
nxn
1secrit simplement comme 1/x2 =
1/V (x). On voit que dans ce cas la variance de lestimateur secrit V
b
= 2/ (N V (x)) . Les-
timateur est donc dautant plus precis que le nombre dobservations est grand. On sinteresse en
general a lecart-type des parametres estimes. La formule precedente implique que lecart type
decrot comme
N. Lorsque la taille de lechantillon est multipliee par 4 lecart-type nest divise
que par 2. On imagine donc bien que dans un echantillon de petite taille la precision de lesti-
mateur est un probleme important. On voit aussi que dans de grands echantillons de plusieurs
centaines de milliers dobservations, la precision des estimations sera tres grande. La formule
precedente montre aussi que lestimateur est dautant plus precis que la variance de la variable
explicative est importante. Cest parce que lon observe des situations differentes au regard des
variables explicatives qui ne soient pas correlees avec les residus du modele economique que lon
peut identifier leffet de ces variables. Enfin un dernier cas permettant dillustrer les implications
de la formule precedente est le cas dans lequel il y a deux variables explicatives par exemple de
meme variance 2 et ayant un coefficient de correlation . Dans ce cas on calcule simplement1
N
n
xnxn
1=
1
2x (1 2)
1
1
On voit que dans ce cas la precision de lestimateur est dautant plus faible que les variables
sont correlees. Au total, on voit que si les variables sont presque colineaires la precision de
lestimateur sera faible.
2.2.3 Lestimateur des mco est-il le plus precis : le theoreme de Gauss-
Markov
On sinteresse naturellement a la question de loptimalite de lestimation du parametre b. Ce
parametre, comme on la vu, est sans biais et il est en outre defini comme une fonction lineaire
des observations. Ceci forme une classe destimateurs. La question a laquelle repond le theoreme
de Gauss-Markov est celle de loptimalite (au sens de la precision) de lestimateur dans la classe
des estimateurs lineaires sans biais.
Definition 2.3 Un estimateur b1 est optimal dans une classe destimateurs b si toute esti-mation dune combinaison lineaire du parametre est estimee plus precisement avec
b1 quavec
nimporte quel estimateur de la classe consideree :
, V
b1 V b
8/3/2019 Econometrie Applique Cours
23/253
8/3/2019 Econometrie Applique Cours
24/253
18 Chapitre 2. Lestimateur des moindres carres ordinaires
On a donc
E
u
u |x
= E
T r
Mxuu
|x
= T r
E
Mxuu
|x
= T r MxEuu |x = 2T r (Mx)et Mx = IN x (xx)1 x dou
T r (Mx) = T r
IN x
xx1
x
= N T r
x
xx1
x
= N T r
xx1
xx
= N K 1
Exemple 1 Application a la prevision. On considere le modele yn = xnb + un pour lequel on a
n = 1, . . . , N observations et satisfaisant les hypotheses H1 a H5. Connaissant xN+1 et faisant
lhypothese que le modele reste valide pour cette observation, on souhaite estimer yN+1.
Dire que le modele reste valide signifie que non seulement la relation entre yn et xn peutetre etendue a lobservation N + 1 : yN+1 = xN+1b + uN+1 mais encore que les hypotheses
stochastiques peuvent etre etendues a linclusion de lobservationN+1 en particulier ceci impose
E(uN+1 |x, xN+1 ) = 0, V (uN+1 |x, xN+1 ) = 2, E(uN+1un |x, xN+1 ) = 0.La prevision de yN+1 est yN+1 = xN+1bmco
Conditionnellement aux variables explicatives la prevision est sans biais :
E(
yN+1 yN+1 |x, xN+1 ) = E
xN+1
bmco b
uN+1 |x, xN+1
= 0
yN+1 est le meilleur estimateur sans biais de yN+1, lineaire dans les observations y1, . . . , yN. Ceciconstitue une application directe du Theoreme de Gauss Markov : si on considere un estimateur
lineaire sans biais yN+1 de yN+1. La variance de lerreur de prevision secrit E(yN+1 yN+1 |x, xN+1 )2 =E(xN+1b + uN+1 yN+1 |x, xN+1 )2 = E(xN+1b yN+1 |x, xN+1 )2 + Eu2N+1 |x, xN+1 puisquelestimateur est lineaire en y et que y nest pas correle a uN+1 conditionnellement aux observa-
tions de x. Le probleme se resume donc a chercher lestimateur lineaire sans biais de variance
minimale de la combinaison lineaire xN+1b du parametre b. Le theoreme de Gauss-Markov in-
dique quil sagit de xN+1bmcoLa variance de lerreur de prevision est
E(yN+1 yN+1)2 = 2 xN+1 xx1
xN+1 + 12.2.5 Analyse de la variance
Lanalyse de la variance est fondee sur lorthogonalite entre le vecteur des residus estimes et
de la variable predite.
y = y +uLes regressions que lon considere ayant un terme constant on a y = y dont on tire :
y ye =
y
ye +
u
compte tenu de lorthogonalite on peut donc ecrire lequation dite equation danalyse de la
variance n
(yn y)2 =
n
yn y2 +nun2
8/3/2019 Econometrie Applique Cours
25/253
2.2. Modele et proprietes statistiques 19
ou encore
V (y) = V (
y) + V (
u)
La variance totale est la somme de la variance expliquee et de la variance residuelle. On introduitune quantite tres couramment utilisee qui mesure la part de la variance expliquee par le modele.
R2 =
y ye2y ye2 = 1
u2y ye2
0 1
Le R2 est frequemment utilise pour mesurer la qualite de lajustement. Neanmoins deux precautions
doivent etre prises :
Le R2 depend du calibrage des observations. Par exemple si on considere une fonction de
production
y = + l + k + ulestimation va fournir un R2 beaucoup plus important que celui obtenu avec le modele
identique mais expliquant la productivite
y l = + ( 1) l + k + u
On montre facilement que plus on etend lensemble des variables explicatives plus le R2
est grand. Ce nest donc pas necessairement un bon critere de choix de modele. Pour cette
raison on a introduit une quantite proche mais pas directement reliee qui est le R2 ajuste.
Il est defini dune facon tres voisine du R2
R2a = 1 2V (y) = 1 u2 / (N K 1)y ye2 /N 1 = 1 1 R2 N 1N K 1Remarque 2.3 Cette equation danalyse de la variance permet de preciser lexpression de la
variance de chacune des composantes de lestimateur. Dans la formule generale Vbmco |x =
2 (xx)1 , la variance de la kieme composante de lestimateur des mco correspond au kiemeelements diagonal. Si on utilise les formules dinversion par bloc
A =
A11 A12A21 A22
, A1 =
A11 A12
A21 A22
, A11 =
A11 A12A122 A21
1
Si on considere une variable xk particuliere, alors, quitte a reorganiser lordre des variables
explicatives : x = (xk, xk), ou xk represente lensemble des variables explicatives autres quela kieme,
xx =
xk
xk xkxkxkxk x
kxk
et on a donc (xx)111 = xkxk xkxk
xkxk
1xkxk = xk
Mxkxk = (N.V (xk |xk ))1 .V (xk |xk ) est la variance residuelle de la variable xk une fois pris en compte la part de lavariance de la variable xk expliquee par les autres variables explicatives du modele. La variance
de chacune des composante de lestimation du parametre secrit donc
Vbk = 2/ (N V (xk |xk )) = 2/NVk|k
8/3/2019 Econometrie Applique Cours
26/253
20 Chapitre 2. Lestimateur des moindres carres ordinaires
2.3 Variable omise et regresseur additionnel
2.4 Resume1. On a vu dans ce chapitre la definition algebrique de lestimateur des mco comme vecteur des
coefficients de la projection orthogonale de la variables dependante sur lespace engendre
par les variables explicatives.
2. Cet estimateur existe est unique sous lhypothese H1 que les vecteurs des variables expli-
catives soient lineairement independant.
3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du pa-
rametre economique b dans le modele lineaire y = xb + u. : Il sagit de lhypothese H2 que
lesperance des residus conditionnellement aux variables observables est nulle.
4. Sous les hypotheses H3 et H4 que dans ce modele les perturbations sont conditionnelle-ment aux variables explicatives des variances identiques et sont non correlees les unes avec
les autres, on peut donner lexpression classique de la matrice de variance de lestimateur
Vb |x = 2 (xx)1 .
5. Sous ces meme hypotheses lestimateur des mco est le meilleur estimateur lineaire sans
biais, au sens de la minimisation de la variance.
6. Linterpretation de cette formule conduit a la conclusion que plus le nombre dobservations
est grand, plus la variance residuelle 2 est faible, plus les variables explicatives presentent
de variabilite propre, plus lestimateur est precis.
7. Le parametre du second ordre 2 peut etre estime sans biais comme la moyenne des carres
des residus tenant compte des degres de liberte : 2 = u2n (N K 1) .8. Le R2 est une mesure de la qualite de lajustement du modele aux donnees : il mesure la
part de la variance totale expliquee par le modele.
Ces resultats sont importants : ils etablissent les conditions sous lesquelles les estimateurs
sont sans biais et ils permettent de determiner la precision des estimations. Ils sont neanmoins
insuffisants pour donner des intervalles de confiance sur les parametres estimes et realiser des
tests dhypothese. Pour aller plus loin il faut faire des hypotheses supplementaires. On peut
proceder de deux facons :
1. Lorsque le nombre dobservations est faible, on peut specifier la loi des observations condi-
tionnellement aux variables explicatives. Ceci est fait dans la majeure partie des cas enspecifiant les residus comme suivant une loi normale. On peut alors caracteriser la loi de
lestimateur. On peut aussi dans ce cas estimer le modele par maximum de vraisemblance.
On peut alors tester des hypotheses dites simples (nullite dun parametre). Ces tests sont
appeles test de Student. Ce cas est examine dans le chapitre 3. On peut aussi sur la base de
cette hypothese estimer le modele en imposant des contraintes lineaires sur les parametres
et tester lhypothese que ces contraintes sont acceptees. Les tests mis en oeuvres sont alors
des test dits de Fisher. Ces aspects sont presentes dans le chapitre 4.
2. La deuxieme facon est detudier les proprietes asymptotiques de lestimateur, cest a dire
lorsque le nombre dobservations devient grand. On montre dans le chapitre 5 que sans
specifier la loi des residus mais en faisant des hypotheses suffisamment fortes sur lepaisseurdes queues de distribution des residus, on peut specifier la loi asymptotique de lestimateur.
8/3/2019 Econometrie Applique Cours
27/253
Chapitre 3
Les MCO sous lhypothese de
normalite des perturbations
Dans ce chapitre on examine les proprietes de lestimateur des mco lorsque lon fait lhy-
pothese de normalite des perturbations. Plus precisement on fait lhypothese Hn suivante.
Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de
moyenne nulle et de matrice de variance 2IN.
l (u |x ) = 1
2Nu2n/22
u |x N
0, 2INRemarque 3.1 Cette hypothese est plus forte que les hypotheses H2 H4 puisquelle impliqueque le moment dordre 1 de u conditionnellement a x est nul. cest a dire lesperance
On va voir que dans ce cas on peut preciser la loi de lestimateur du parametre ainsi que celle
de lestimateur de la variance des residus. On va aussi obtenir un resultat central, le theoreme
de Cochrane, a la base de tous les tests effectues a partir de lestimateur des mco.
3.1 Normalite de lestimateur des mco
Proposition 3.1Sous lhypothese H
n, on peut specifier la loi jointe de lestimateur des mco et
de lestimateur de la variance des residus conditionnellement aux variables explicatives :
1. Lestimateur du parametre des mcobmco est distribue comme une loi normale de moyenneb, la vraie valeur du parametre, et de matrice de variance 2 (xx)1 :bmco Nb, 2 (xx)1
2. Lestimateur2, convenablement normalise, est distribue suivant une loi du 2[N (K+ 1)] 2
2 2 (N (K+ 1))
3.
bmco et
2 sont independants (Theoreme de Cochran)
Demonstration Le resultat concernant la normalite de lestimateur est immediat. Il provient du fait que les-timateur des mco est lineaire dans les observations de la variable dependante. Comme conditionnellement a x la
variable dependante est normale, lestimateur des mco est une combinaison lineaire de variables normales et est
21
8/3/2019 Econometrie Applique Cours
28/253
22 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations
donc lui meme un vecteur normal, caracterise par ces deux premiers moments : son esperance dont on a vu quelle
etait egale a la vraie valeur du parametre, et sa matrice de variance dont on a donne lexpression au chapitre
precedent, sous des hypotheses plus generales que celle de la loi normale.
De meme, les residus estimes sont eux memes normaux. On a en effet u = Mxy = Mxu. Par ailleurs, on a aussidirectement b b = (xx)1 xu. Finalement on peut specifier la loi jointe des residus estimes et de lestimateurdes mco : b bu
=
(xx)
1x
Mx
u
On en deduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne visiblement nulle et dont on
peut preciser la variance :
V
b bu x
=
(xx)
1x
Mx
V
b bu x
(xx)1
x
Mx
= 2
(xx)1
x
Mx
x (xx)1
Mx
= 2
(xx)
1xx (xx)
1x (xx)
1Mx
Mxx (xx)
1Mx
Comme Mxx = 0, on en deduit
V
b bu x
= 2
(xx)1
0
0 Mx
Dont on deduit
1. lexpression de la variance de lestimateur des mco
2. lestimateur des mco et les residus estimes sont independants (car etant tous les deux normaux et non
correles). Lestimateur des mco et lestimateur de la variance2 = u
u/ (N K 1) sont donc independants.3. Les residus estimes suivent une loi normale de matrice de variance 2Mx.Rappel :
Si Z N(0, IL) , alors par definitionZ2 = ZZ = Ll=1 Z2l 2 (L)
Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z
P Z 2 (L1) (Voir annexe)On applique ce resultat a Z = u/ N(0, IN) et P = Mx. On a : (u/) (u/) = (u/) MxMx (u/) =
(u/) Mx (u/) . On en deduit que uu/2 2 (N K 1) , puisque Mx est le projecteur orthogonal surlorthogonal de lespace vectoriel engendre par les x donc de dimension N K 1. Finalement, comme uu =(N K 1)2, [N (K+ 1)] 2
2 2 (N (K+ 1))
On rappelle quune loi du 2 (L) a L degres de libertes a pour premier et second moments
E2 (L) = L, V 2 (L) = 2L. On verifie donc que E[N (K+ 1)] 2
2 = N K 1.On verifie donc que lon a bien E2 = 2 : lestimateur de la variance est sans biais. Onapprend maintenant, grace a la specification normale la distribution de lestimateur de la variance
des residus et donc sa variance : on a V
[N (K + 1)] 22
= 2 (N K 1), soit V 2 =
24/ (N K 1) . On voit donc que comme pour lestimateur des mco, lorsque le nombredobservations devient grand la variance de lestimateur tend vers zero. Le rythme de convergence
est en outre identique a celui de lestimateur des mco. On remarque en revanche une specificite
de lestimateur de la variance : plus la dispersion des residus est importante, plus lestimateur
est imprecis.
Lestimation de la variance des residus peut etre interessante pour elle-meme, mais elle nous
interesse en premier lieu car cest un parametre important de la matrice de variance de lesti-mateur du parametre de premier interet b. En effet, on a vu que bmco |x Nb, 2 (xx)1 ,mais ce resultat reste insuffisant dans la mesure ou on ne connat pas la variance des residus.
8/3/2019 Econometrie Applique Cours
29/253
3.2. Ecart-types estimes, tests et intervalles de confiance 23
3.2 Ecart-types estimes, tests et intervalles de confiance
3.2.1 Ecart-type
La formule de la matrice de variance de lestimateur est utile Vbmco |x = 2 (xx)1 ,
mais elle nest pas directement exploitable car on ne connat pas la variance des residus 2.
Un estimateur naturel de cette matrice consiste a remplacer la quantite inconnue 2 par un
estimateur. V bmco |x = 2 xx1On a immediatement le resultat que V bmco |x est un estimateur sans biais de la matrice devariance de lestimateur mco du parametre.
On sinteresse en fait plus specifiquement a la variance de chaque composante de lestimateur
2
k = V bk = 2 (xx)1kk = 2xkk ou dans cette notation xkk est le kieme element diagonalde (xx)1 . Dans le chapitre precedent on a vu que ce kieme element etait en fait linverse de lavariance residuelle de la projection de xk sur les autres variables du modele (la variance propre
de la kieme variable) divisee par le nombre dobservations. Un estimateur naturel de 2k est
2k = 2xkkLa quantite k = 2k est systematiquement associe a nimporte quelle estimation par les mco.Grace aux resultats portant sur la loi de
2 on peut directement donner la loi de
2k :
Proposition 3.2 Sous lhypothese Hn lestimateur de la variance de la kieme composante du
vecteur des parametre suit, convenablement normalisee une loi du 2 (N K 1) :
[N (K + 1)] 2k2k
2 (N (K+ 1))
et est independant de lestimateur des mco bmco.3.2.2 Un resultat central
On sinteresse a lobtention dintervalles de confiance et a des tests dhypothese simple du
type H0 : bk = b0k pour une valeur donnee de b
0k. Un cas tres frequemment examine est par
exemple celui de la nullite dun parametre (b0k = 0). Pour obtenir des intervalles de confiance oupour effectuer des tests, on a besoin dobtenir une fonction des estimateurs qui ne depende pas
des parametres.
Proposition 3.3 Sous lhypothese de normalite des perturbations Hn, pour une composante
donnee k du parametre on a
bk bk
k
Student (N K 1)
Demonstration Ce resultat decoule directement de la definition des lois de Student : Si X1 suit une loi normale
N(0, 1) et X2 suit une loi du 2
(H) a H degres de liberte, et si X1 et X2 sont independants alors
S =X1
X2/H Student (H)
8/3/2019 Econometrie Applique Cours
30/253
24 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations
Ici bk Nbk, 2k . On en deduit donc que bk bk /k N(0, 1) . En outre le resultat precedent etablitque [N (K+ 1)] 2k
2k
2 (N (K + 1)) et est independant de
bk. On a donc par application directe de la
definition bk bk /k[N (K+ 1)] 2k
2k
/ [N (K+ 1)]
=bk bkk Student (N K 1)
Les lois de Student sont des lois symetriques de moyenne nulle et de variance H/ (H 2)ou H est le nombre de degres de liberte. Plus H est faible, plus les queues de distribution sont
epaisses. On voit quil y a un nombre minimal de degres de liberte pour que le moment dordre
2 existe : H > 2.
3.2.3 Intervalle de confianceDefinition 3.1 Un intervalle de confiance pour le parametre bk au niveau est un intervalle
[a, a] tq P (bk [a, a]) = 1 .
Lemme 1 Soit z une variable aleatoire dont la distribution f est symetrique autour de zero,
croissante pour z < 0, continue et de fonction de repartition F, tout intervalle [z, z] tel que
P (z [z, z]) = p0 donne, de longueur minimale est symetrique.Demonstration Ce resultat se montre tres facilement. La symetrie de la distribution secrit f(z) = f(z)et implique F (z) = 1 F (z). On a F(z) F (z) = p0, donc la longueur de lintervalle est L = z z =F1 (F (z) +p0) z. La derivee de la longueur de lintervalle par rapport a z est dL/dz = f(z) /f(z) 1. Sif(z) < f(z) , alors dL/dz < 0. On pourra diminuer la longueur de lintervalle en augmentant z. Comme f estcroissante dans le domaine negatif accrotre z conduit a accrotre f(z) /f(z) 1. Lextremum de la longueur,obtenu pour f(z) /f(z) 1 = 0 est donc bien un minimum.
Pour trouver un intervalle de confiance pour le parametre bk on applique directement les
resultats du lemme :
Proposition 3.4 Sous les hypotheses Hn, soitbk la kieme composante de lestimateur des mcoetk = 2k lestimateur de son ecart-type, alors lintervalle de confiance de longueur minimaledu parametre bk au niveau est
bk k tNK1 (1 /2) , bk +k tNK1 (1 /2)ou tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student a N K 1 degres deliberte.
Le quantile dordre 1 /2 dune loi de Student a NK1 degres de liberte est la quantitet telle que pour une variable S suivant une loi de Student a N K 1 degres de liberte,P (S < t) = 1 /2, et de facon similaire P (S > t) = /2Demonstration Par application des resultats precedents, on a immediatement que S =
bkbkk Student (N K 1).Comme la loi de Student est symetrique, on en deduit que lintervalle de longueur minimale auquel S appartienne
avec probabilite 1 estP (S [tNK1 (1 /2) , tNK1 (1 /2)]) = 1
dont on deduit immediatement lexpression des bornes de lintervalle de confiance.
8/3/2019 Econometrie Applique Cours
31/253
3.2. Ecart-types estimes, tests et intervalles de confiance 25
Remarque 3.2 Ce resultat setend directement au cas dans lequel on cherche un intervalle de
confiance pour une combinaison lineaire donnee des parametres : b. En effet, on trouve directe-ment la loi de lestimateur de la combinaison lineaire bmco : bmco Nb, 2 (xx)1 .En notant b =
2 (xx)1 et b = 2 (xx)1 , on verifie aisement que lintervalle
de confiance pour la combinaison lineaire donnee des parametres est
bmco b tNK1 (1 /2) ,bmco +3.2.4 Tests de la forme b =
On rappelle dabord des elements basiques concernant les tests. On se refere pour cela a
Gourieroux-Monfort. Les notions importantes sont celles dhypothese nulle, notee H0, et dhy-
pothese alternative, notee H1. Elles correspondent a une partition de lensemble des lois possibles
des observations. Ici compte tenu du fait quon se situe dans un cadre parametrique (la loi des
observations est specifiee integralement), lensemble des lois possibles est decrit par lensemble
des valeurs possibles de tous les parametres : b, 2. Les hypotheses que lon va considerer ici
portent sur la valeur dune composante du parametre ou dune combinaison lineaire du pa-
rametre : bk = b0k pour une valeur donnee de b
0k, un cas tres frequent etant celui de la nullite,
b0k = 0. On examinera dans le chapitre suivant des hypotheses portant sur plusieurs parametres,
mais les rappels que lon effectue ici valent pour lune et lautre situation. Dune fa con generale,
elles vont secrire sous la forme H0 : 0 et H1 : 1.Un test pur est une regle de decision pure cest a dire une fonction des observations conduisant
a choisir entre la decision d0 : H0 est vraie, et d1 : H1 est vraie. A un test pur est associe une
region critique, en general notee W definie comme lensemble des realisations des observations
conduisant a prendre la decision d1. Les tests peuvent aussi en theorie etre mixtes. Dans ce cas la
regle de decision est mixte. Il sagit alors dune fonction des observations associant a la decision d1une probabilite : compte tenu des observations y on accepte lhypothese H1 avec une probabilite
(y). Il y a trois grandeurs essentielles associees a un test : le risque de premiere espece, le
risque de deuxieme espece et la puissance du test. Le risque de premiere espece correspond a
la probabilite de de rejeter H0 alors que H0 est vraie (i.e. rejeter H0 a tort). Pour un test pur
caracterise par une region critique W, il sagit de la fonction P (W) definie sur 0 Pour un test
aleatoire, elle est definie par E ( (y)). On la note (, ) . Dans cette notation, represente
le test et la valeur du parametre. Le risque de deuxieme espece est a linverse la probabilite
daccepter a tort lhypothese nulle (i.e. la probabilite de rejeter H1
alors que H1
est vraie. Il est
defini comme 1 E ( (y)) pour 1 et dans le cas dun test pur par 1 P (W). On noteen general cette quantite (, ) Enfin la puissance du test represente la probabilite de rejeter
a raison lhypothese nulle. On la note (, ). Cette fonction est definie sur 1 et etroitement
liee a la fonction de risque de deuxieme espece (, ) = 1 (, ). On prefererait des testspour lesquels les risques de premieres et seconde espece soient les plus faibles possibles. Cest a
dire quun test est prefere a un autre si les fonctions de risque de premiere et seconde espece
sont plus faibles. Il existe clairement des tests minimisant separement chacun des risques (le test
correspondant au rejet systematique de H1 minimise le risque de premiere espece). Neanmoins
on montre facilement quil ny a pas de test annulant simultanement les deux risques : il est
donc necessaire de se referer a un principe permettant de selectionner un test. Le principe retenuest celui de Neyman qui consiste a privilegier la minimisation du risque de seconde espece. On
considere des classes de tests caracterises par un seuil (ou encore niveau) donne . Ces tests
8/3/2019 Econometrie Applique Cours
32/253
26 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations
sont tels que le risque de premiere espece soit uniformement inferieur a . Parmi ces tests,
on souhaiterait selectionne ceux maximisant la puissance. Cest ce que lon appelle des tests
uniformement plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la
puissance pour toute valeur du parametre correspondant a lhypothese alternative. De tels tests
nexiste en general pas et on adjoint dautres proprietes : tests sans biais, tests invariants... qui
permettent de restreindre encore la classe des tests examines. La propriete de tests sans biais
au niveaux correspond pour les tests de niveau au fait que la puissance du test pour toute
valeur du parametre sous lhypothese alternative soit superieure a . On considere le test de
lhypothese nulle
H0 : bk = b0k
contre lhypothese
H1 : bk = b0kOn a alors le resultat suivant
Proposition 3.5 Considerant la statistique
S =bk b0kkle test defini par la region critique
W = SS < tNK1 (1 /2) SS > tNK1 (1 /2)ou tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student a N K 1 degres deliberte est un test uniformement plus puissant sans biais au niveau de lhypothese H0 contre
H1.
On verifie aisement que ce test est un test au niveau . En effet sous lhypothese nulle on a
vu quebkb0kk suit une loi de Student a N K 1 degres de liberte. La probabilite de rejeter
lhypothese nulle (la probabilite de la region critique) dans ce cas est donc bien . Montrer
la propriete de sans biais et la propriete concernant la puissance est plus complique (voir les
resultats dans Gourieroux et Monfort sur le modele exponentiel). On peut aussi definir la region
critique par W = SS > tNK1 (1 /2)Mise en oeuvre du test : on calcule la statistique de Student
bkb0kk . Suivant les valeurs prisespar cette statistique, on accepte ou rejette lhypothese nulle. Si la statistique prend des valeurs
extremes on rejette lhypothese, sinon on laccepte. Le seuil de rejet dependent du niveau du
test. On considere en general des tests au seuil de 5%. Le quantile dordre 97, 5% = 1 2, 5%dune loi de Student depend du nombre de degres de liberte. lorsque ce nombre devient grand,
ce quantile est 1.96. On sera donc amene a rejeter au seuil de 5% une hypothese des lors que la
statistique de Student en valeur absolue est superieur a 1.96. Lorsque le nombre de degres de
liberte est plus faible, cest a dire lorsque le nombre de variables explicatives est plus important
ou lorsque le nombre dobservations est plus faible, le seuil augmente. Par exemple pour 5 degresde liberte, le seuil de la region critique est de 2,56 ; pour 500 degres de liberte de 1,96 (voire
figure 3.1)
8/3/2019 Econometrie Applique Cours
33/253
3.3. Un exemple 27
Fig.3.1 Distribution de Student pour 5 et 500 degr es de liberte
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-5 -3 -1 1 3 5
Ce test est parfois caracterise par ce que lon appelle la p-value. Il sagit a contrario du
niveau du test pour lequel la statistique observee serait le seuil. Elle est donc definie par la
quantite p value = P|S| > S = 21 FS lorsque S suit une loi de Student a N-K-1 degres de liberte. On acceptera lhypothese nulle pour un test au niveau si la p valueest superieure a . En effet compte tenu du fait que F (tNK1 (1 /2)) = 1 /2, on a2 (1
F (tN
K
1 (1
/2))) =
p value > S < tNK1 (1 /2)Un test systematiquement mis en oeuvre est le test dit de significativite des parametres. Il
correspond a lhypothese nulle bk = 0. La statistique de Student associee a ce test, nommee t
de Student est definie par bk/k. En general nimporte quelle estimation dun modele lineairefait par defaut lhypothese de normalite des residus. Elle produit la valeur estimee du parametre
la valeur estimee de lecart-type, la valeur du t de Student (correspondant a lhypothese de
significativite du parametre) et la p-value correspondant a ce test.
3.3 Un exemple
Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du test
lorsque la vraie valeur du parametre varie. On va considerer un modele a une unique variable
y = 1 + xb0 + u
et on va simuler ce modele pour differente vraie valeur du parametre, allant de 0 a 2. On va
sinteresser au test de lhypothese H0 : b = 1. Pour calculer la fonction de puissance en un point
donne b0, on utilise des simulations. On titre un echantillon Ech1 avec b0 comme vraie valeur
du parametre. Sur cet echantillon on applique le test. On retient la decision d1 = 1 si on rejetteet d1 = 0 sinon. On replique cette operation avec la meme vraie valeur sur M echantillons, avec
M grand. On a ainsi un ensemble de valeur (di)iM . On approxime la valeur de la fonction de
8/3/2019 Econometrie Applique Cours
34/253
28 Chapitre 3. Les MCO sous lhypothese de normalite des p erturbations
puissance par (b0) = di. Cest bien un estimateur du nombre de fois ou on a rejete a raison
lhypothese. Bien sur, lorsque b0 = 1, la quantite calculee nest pas la puissance mais le risque
de premiere espece. On peut proceder ainsi pour differentes taille dechantillons. On considere
le cas dans lequel il ny a que 20 observations, puis on augmente progressivement ce nombre.
On considere respectivement N = 50, 100, 500, 2000. La figure 3.2 montre le resultat de ces
estimations. On voit que le graphe de la fonction de puissance a une forme de vasque. Si on
se situe au niveau de la valeur testee b0 = 1, on trouve bien que la proportion de rejet est de
5%, correspondant au risque de premiere espece, et ce quelque soit le nombre dobservations.
Lorsque lon secarte de la vraie valeur on voit que la courbe crot : on rejette de plus en plus
souvent le parametre. La croissance est tres vive lorsque le nombre dobservation est grand : si
la vraie valeur est de 0.95, on va rejeter lhypothese dans 60% des cas. Par contre, dans le cas
de 20 observations, il faut que la vraie valeur secarte de plus de 0.5 pour que lon atteigne des
taux de rejet similaire. Ce resultat merite detre note : avec un petit nombre dobservations,
on est amene a accepter a tort lhypothese dans 40% des cas meme lorsque la vraie valeur est
assez eloignee. Lorsque lecart a la valeur testee augmente, la probabilite de rejet tend vers 1.
Cette valeur est tres rapidement atteinte lorsque le nombre dobservations est grand, pour des
nombres plus petits il faut des ecarts plus importants.
Remarque 3.3 Dans le cas ou la variance des residu
Top Related