Économétrie II -...

Économétrie II

Économétrie IICh. 1. Rappels de ConceptsL3 Économétrie – L3 MASS

Pr. Philippe Polomé, U. Lyon 2

Année 2015-2016

Économétrie II

Ch. 1. Rappels de Concepts

Modèle de Régression Linéaire (MRL) formel

Table des matières

Ch. 1. Rappels de ConceptsModèle de Régression Linéaire (MRL) formelCausalité contre corrélationDistribution d’échantillonnage & propriétés d’un estimateur

Économétrie II



Notations

IYi = �0 + �1X1i + ...+ �kXki + ✏i

Ii = 1...I indexe les observations

I t séries temporelles, n ou i coupes transversales

IY variable endogène, expliquée, dépendante

IXj avec j = 1...k variable explicative ou causale, régresseur

I pas nécessairement exogène

IE (Yi ) = �0 + �1X1i + ...+ �kXki

I (sans le ✏) théorie (causale)I �j mesure quantitativement l’influence de Xj sur Y

I �j pente de la droite selon Xj

I �0

constante, terme indépendant ou intercept

I � vecteur de coefficients du modèle

Économétrie II



NotationsI Terme d’erreur ✏ ou µ

I Interprétations : erreurs de mesures, régresseurs inobservablesou manquants, facteurs aléatoires...

I Tous les modèles économétriques sont stochastiques

I Notation matricielle Y = X� + ✏

I On observe Y et XI L’économétrie est un ensemble de techniques pour estimer �

à partir de Y et de X

I Chaque technique = une formule, qu’on appelle« estimateur » et qu’on note avec un chapeau

I Exemple « Moindres carrés ordinaire » � =⇣X

0X

⌘�1X

0Y

I 9 estimateurs « maximum de vraisemblance », « méthode desmoments », « variables instrumentales », « moindres carrésgénéralisés »...

Économétrie II



Notations

I Prédiction avec un chapeau Y 8 les estimateursI

Y = X � avec MCO p.e.I Toujours erreur de prédiction

IX 2 échantillon : “Valeur ajustée”

I On n’observe jamais le terme d’erreur ✏I (Y ,X ) 2 échantillon : calcul du résidu ✏ = Y � Y = Y � X �

I Résidu s’écrit parfois e et peut se nommer « erreur »I Porte à confusion

Économétrie II



Exemple simple

Économétrie II



Ce qu’on a et ce qu’on veut faireI Modèle causal stochastique

I S’il fait plus chaud (X : température), la consommation decrème glacée (Y ) augmente, toutes autres choses (✏) égales

IYt = �1 + �2Xt + ✏t

I pour chaque t = 1...TI avec erreurs aléatoires non-observables ✏t (pas toute autres

choses égales)I Série temporelle courte ' coupe transversale

I On a des donnéesI Variable Y

I Une ou plusieurs variables X1...Xk explicatives

I On veutI Quantifier l’influence de X sur YI Prédire Y conditionnellement à certaines valeurs pour X

I Comment faire ?

Économétrie II



Intuition 1 : Droite qui “passe au mieux”

Économétrie II



Intuition 1 : Droite qui “passe au mieux”

IYt = �1 + �2Xt + ✏t pour chaque t = 1...T

I On suppose que c’est une bonne approximation de la relationréelle

I ✏ = événement aléatoire non-mesuré et non-systématiqueI ✏ pas corrélé avec X

I � de � t.q. la droite Yt = �1 + �2Xt “passe au mieux” dans lenuage de points

I C’est du dessin : minimisation des distances euclidiennesI Soit le résidu ✏ = Y � X �I Cherche le vecteur de nombres � t.q. somme des carrés des

résidusPT

t=1

⇣Yt � Xt �

⌘2est minimale

I Réponse � =⇣X

0X

⌘�1X

0Y : estimateur moindres carrés

Économétrie II



Intuition 1 : Logiciels

I L’exemple dans Tableur Icecream_inverse_TCD.odsI DessinI Calcul matriciel

I L’exemple dans Gretl

Économétrie II



Intuition 2 : “Inversion” de Y = X� + ✏

I Imaginons que ✏ = 0 et que X soit carrée et inversibleI Alors 9 X

�1 telle que X

�1X = I

I � = X

�1Y s’obtient par inversion

I système d’équations linéaires

I Mais ✏ 6= 0 et X pas carrée ! « Généralisation » de l’inverseI Prémultiplier par X

0, on a X

0Y = X

0X� + X

0✏

IX

0X est carrée et “souvent” inversibleI À condition d’absence de multicolinéarité

I Hypothèse : X0✏ = 0 covariance zéro

I Alors X

0Y = X

0X� et donc � =

⇣X

0X

⌘�1X

0Y

I exactement : � et non �

Économétrie II



Intuition 2 : “Inversion” de Y = X� + ✏

I En général, X 0✏ 6= 0 mais

I Si on peut supposer que X

0✏ ⇡ 0 en un sens stochastique

I au moins lorsque la taille de l’échantillon ! 1

I Alors on peut écrire � =⇣X

0X

⌘�1X

0Y

I dans le sens où � est une approximation de � quand n ! 1

I L’inversion est une intuition d’un autre estimateurI Méthode des moments

Économétrie II



Estimateur Méthode des Moments MMI Soit A un estimateur de �, alors on peut écrire Y � XA = ✏

I Hypothèse exogénéité E (✏|X ) = 0I =) E (X ✏) = 0 (corrélation nulle 8 régresseurs)

I Stratégie MMI Cette hypothèse sur les moments de la pop. est imposée aux

moments de l’échantillon : on veut A t.q. X0✏ = 0

I Donc : X0(Y � XA) = 0 : CPO des MCO

I Alors A = (X0X )�1

X

0Y = � :

I Estimateur MM = estimateur MCO pour le MRL Y = X� + ✏

I X0✏ = X

0✓Y � X

⇣X

0X⌘�1

X0Y

◆= 0 par construction

I Mais la méthode des moments s’applique pareillement à desmodèles non linéaires Y = g (X ,�) + ✏

I Et le principe est très différent

Économétrie II



Prédiction & effet marginal

I Un objectif était de prédire au mieux les ventes de crèmeglacée en fonction de la température

I La prédiction se trouve sur la droite : Y = X �

I Aussi bien pour MCO que pour MM dans ce cas-ci

I Un 2nd objectif était la quantification de l’influence de X sur YI @Y/@X1 estimé = �1 = coefficient estimé de X1 = pente de la

droiteI �1 = effet (constant) d’un changement marginal de x1 sur y

Économétrie II


Causalité contre corrélation

Table des matières


Économétrie II




I Modèle causal : X cause Y , X influence Y , X ⇢ y

I Pas le contraire

I Ce n’est pas la même chose qu’une corrélationI

X corrélé à Y , Y corrélé à X

I Dans l’exemple des ventes de crème glacée, la températurecause les ventes

I Un accroissement de température provoque un accroissementde demande

I Ce n’est pas parce que les gens mangent plus de glaces que latempérature va augmenter

Économétrie II



Simultanéité

Dans des modèles plus sophistiqués, causalité pas évidenteI En macro, le taux de change agit-il sur la balance commerciale

ou est-ce l’inverse ?I En marketing, au niveau de la firme, les ventes et les dépenses

de publicité sont dites simultanéesI chacune est cause de l’autre

I La demande d’un produit (quantité) dépend du prix, maisl’inverse est vrai aussi (simultanéité)

Économétrie II



Régression inverse

I La régression ne mesure que des corrélationsI Ne peut que confirmer ou infirmer un modèle théorique

I Uniquement dans un sens statistique : pour un certain jeu dedonnées, le modèle est confirmé/infirmé

I 9 tests de causalité applicables dans certaines circonstancesI Certaines données (panel p.e.) permettent d’être plus sûr de la

causalitéI Changements expliquent changements

I Exemple de régression inverse dans le cas des crèmes glacées :X1 = �1 + �2Y + ✏

I Tableur Icecream_inverse_TCD.ods

Économétrie II



Exemple des cigognes

I Fisher, 1936I Copenhagen, décennie

post WWII En réalité : constructions

importantes et migrationdes campagnes

I Exemple de régressionfallacieuse spurieuse(spurious)

Économétrie II



Pq les cigognes sont-elles associées aux bébés ?

I Oiseau migrateur européenI Part à l’automne et revient en Europe centre & nord début

avrilI Soit 9 mois après le solstice d’été (21 juin / Saint Jean)

environ

I Le solstice d’été était un important festival païen, où les gensse mariaient beaucoup

Économétrie II



Les moyennes conditionnellesI Exemple de tableau croisé dynamique / Pivot table dans Excel

I Google “Excel 25 easy PivotTable reports”I Tableur Icecream_inverse_TCD.ods

I Les moyennes conditionnelles sont des moyennes(arithmétiques simples) calculées par groupe dansl’échantillon

I P.e. les ventes moyennes par vendeur dans une entrepriseI Il est facile de croire que les différences entre moyennes

conditionnelles sont dues aux “conditionneurs”I P.e. les ventes de Smith sont plus élevées que celles de

González parce que Smith est meilleur vendeur que GonzálezI Mais il ne s’agit que d’une corrélation, pas d’une causalité

I P.e. les ventes de Smith sont plus élevées parce qu’il est sur unplus grand territoire

I Pas “toutes autres choses égales” / ceteris paribus

http://office.microsoft.com/en-gb/excel-help/25-easy-pivottable-reports-HA001034633.aspx

Économétrie II



Causalité : conclusion

I L’économétrie, les moyennes conditionnelles, les corrélations neservent qu’à quantifier, pas à expliquer

I De telles quantifications peuvent confirmer ou infirmer unethéorie dans un sens probabiliste

I Il ne faut pas accepter n’importe quel résultat juste parce qu’ila été obtenu par des méthodes sophistiquées

I L’hypothèse de causalitéI Est commune à tous les modèles économétriquesI La tester est l’objectif principal de l’économétrie

Économétrie II


Distribution d’échantillonnage & propriétés d’un estimateur

Table des matières


Économétrie II



Chaque échantillon est aléatoire

I Exemple de la vente de crème glacée sur la plageI Un autre vendeur sur autre plage aurait récolté des données

différentesI La méthodologie présentée auparavant est applicable de mêmeI Le modèle est le même ... mais les valeurs des coefficients

seront différentes dans les deux cas !

I Echantillon aléatoire ) � aléatoire alors que � ne l’est pas !I Quel est le � correct ? Tous les deux sont correctsI Tous les deux sont entachés d’une marge d’erreur par rapport

au « vrai » coefficient �

I On va illustrer comment fluctuent les �

I Distribution d’échantillonnage

Économétrie II



Simulation de Monte-Carlo Monte Carlo.odsI On génère des données artificielles afin d’illustrer certains

outils théoriques dans un cadre contrôléI Fonction alea() / rand() : crée une valeur tirée d’une v. a. de

distribution uniforme entre 0 et 1I sqrt(-2*ln(alea()))*sin(2*pi()*alea()) crée une valeur n (0, 1)I Avec ces fonctions, on génère X et µ

I Calculer Y = 2 � 3X + µ (ou tout autre choix de coefficient)I Générer ainsi 10 lignes (par exemple)I En utilisant Y et X on estime �

I On voit bien que � 6= �

I En recommençant l’opération, on crée des vecteurs �i qui sonttous différents les uns des autres et de �

I Les �i sont tous aléatoires, � ne l’est pasI ✏ est aléatoireI

X est aléatoire, mais l’analyse est conditionnelle à X

I Comme si X était constant

Économétrie II



Distribution d’échantillonnage

I � aléatoire : conséquencesI Pas de garantie d’être proche des vraies valeursI � suit une distribution

I La valeur de � change avec chaque échantillon : distribution

d’échantillonnage

I Comme toute distribution, elle a des moments : moyenne,variance,...

I Selon les valeurs atteintes par ces moments, l’estimateur a despropriétés plus ou moins bonnes

I Un estimateur sera jugé meilleur qu’un autre si ses propriétéssont meilleures

I On va voir pour MCO dans le MRL

Économétrie II



Distribution d’échantillonnage de �1 dans Monte Carlo.ods

I Vraie valeur 1.5I Moyenne 1.57...I Écart type 4.55...I n=835

Économétrie II



Modèle de régression linéaire : 7 hypothèsesLes circonstances dans lesquelles MCO est un “bon” estimateur

I Modèle de Régression Linéaire (MRL) Y = X� + ✏

I 7 hypothèses classiques (+ celle de causalité)

I Lorsqu’elles sont vérifiées, l’estimateur MCO possède despropriétés désirables

I Dans quels cas ne sont-elles pas satisfaites ?I Conséquences sur l’estimateur ?I Peut-on “réparer” ?

I Proposer un estimateur alternatif, transformer les données...

Économétrie II



MRL Y = X� + ✏ : hypothèses 1-4

1. E (✏i ) = 0 8i : les erreurs ont une espérance nulle2. var (✏i ) = �2 8i : la variance de chaque erreur est la même et

est réelle = Homoscédasticité3. cov (✏t , ✏s) = 0 8t 6= s : les erreurs sont indépendantes entre

elles = Pas d’auto-corrélationI 1+2+3 = “Sphéricité des erreurs”

4. E (✏ixi ) = 0 8i : il n’y a pas de corrélation contemporaine(même i) entre l’erreur et chaque régresseur = Exogénéité

Économétrie II



Figure: MRL Y = X� + ✏ : Illustration graphique des 4 hyp. sur l’erreur

Tiré de Wooldridge

Économétrie II



MRL Y = X� + ✏ : hypothèses 5-7I 5. X de plein rang

I Aucun régresseur ne peut s’écrire comme une combinaisonlinéaire des autres régresseurs

I Sinon : colinéarité parfaite des régresseursI X

0X pas inversible

I 6. MRL correctement spécifiéI La réalité est effectivement linéaire en les coefficients � (forme

fonctionnelle)I � non stochastiquesI Il ne manque aucun régresseur pertinent

I 7. Y continueI Pas qualitative : 0/1 ou bien A, B, C, DI Pas discrète : 0,1,2,3...I Pas tronquée/censurée : [3,12] ou [-1,+1]

I Hypothèses MRL pas respectées ) MCO perdcertaines/toutes propriétés

Économétrie II



MRL Y = X� + ✏ : Propriétés de l’estimateur MCO

Table: Propriétés de l’estimateur MCO lorsque toutes les hypothèses duMRL sont respectées

Moment* n petit n ! 1Espérance biais consistanceVariance efficience efficience asymptotique

* de la distribution d’échantillonnage

Économétrie II



Propriété 1 de MCO dans le MRL : absence de biais

I L’espérance de l’estimateur E⇣�⌘= �

I L’estimateur est dit non-biaiséI Preuve math en annexe

I La moyenne des coefficients estimés (sur l’ensemble deséchantillons simulés) tend à se rapprocher des vraiesvaleurs

I « En moyenne, cet estimateur ne se trompe pas »I

E

⇣�⌘⇡ moyenne

⇣�⌘

lorsqu’il y a beaucoup d’échantillonsI Illustré dans Monte Carlo.ods

I �MCO est non-biaisé

Économétrie II



Propriété 2 de MCO dans MRL : consistance / convergence

I Plus la taille de l’échantillon grandit, plus les coefficientsestimés tendent à se rapprocher des vraies valeurs

I L’estimateur est dit consistantI Souvent “convergent” en français

I Lorsque la taille de l’échantillon tend vers l’infini, lescoefficients estimés convergent (en probabilité) vers les vraiesvaleurs

I On écrit : Plim⇣�⌘= �

I Preuve math assez compliquéeI Plus facile à illustrer dans un Tableur Monte Carlo.ods

I �MCO est consistant

Économétrie II



Propriétés 3-4 de MCO dans le MRL : efficience

I Théorème de Gauss-Markov : var⇣�⌘

est la plus petite detous les estimateurs linéaires non-biaisés

I �MCO est BLUE = efficient

I Théorème de Cramer-Rao : � est le plus efficient de tous lesestimateurs consistants

I �MCO est asymptotiquement efficient = atteint la borneinférieure de Cramer-Rao

I L’efficience d’un estimateur est sa précisionI Inverse de sa variance

I L’efficience est comparativeI Un estimateur � est plus efficient qu’un estimateur � si

var

⇣�⌘� var

⇣�⌘

est une matrice sdp

Économétrie II



Devoir #1 : Monte-CarloI Réaliser votre propre exemple de Monte Carlo dans un tableur

I Avec 2 régresseurs, un distribué uniformément dans [0, 1] etl’autre distribué normalement n(0, 1), une constante et unterme d’erreur distribué n(0, 1)

I Choisissez les valeurs des coefficients

I Tout le monde devrait avoir des chiffres différentsI Calculez les coefficients explicitement avec les formules

IX

0X sera 3x3 et � sera 3x1

I Calculez le R

2

I Répliquer l’opération avec des tailles d’échantillons croissantespour monter la consistance de l’estimateur

I Les devoirs ne sont ni notés ni corrigés, mais ils sont matièresd’examen

I Si vous avez des difficultés à les faire, on en discute en cours

Économétrie II



Annexe. Démonstration de E⇣�⌘= �

E

⇣�⌘= E

✓⇣X

0X

⌘�1X

0Y

◆

= E

✓⇣X

0X

⌘�1X

0(X� + ✏)

◆

= E

✓⇣X

0X

⌘�1X

0X�

◆+ EX ,✏

✓⇣X

0X

⌘�1X

0✏

◆

I parce que E (somme) = somme (E ) et X est une v.a.

= E (�) + EX

✓E✏

⇣X

0X

⌘�1X

0✏|X

�◆

I par la loi d’itération des espérances (ci-dessous)

= E (�) + EX

✓⇣X

0X

⌘�1X

0E✏ [✏|X ]

◆

= � si E✏ [✏|X ] = 0

Loi d’itération des espérances

E [Y ] = EX

⇥EY |X (Y |X )

⇤

IE [Y ] est l’espérance inconditionnelle (ou marginale) de Y

IEX [ ] est l’espérance inconditionnelle (marginale) par rapportà X (on traite Y comme fixe)

IEY |X ( ) est l’espérance conditionnelle de Y par rapport à X

IY et X appartiennent au même espace de probabilités(ci-dessous)

Preuve dans le cas discretEX

⇥EY |X (Y |X )

⇤=

Px EY |X (Y |X )Pr (X = x)

=P

x

hPy y Pr (Y = y |X = x)

iPr (X = x)

=P

x

Py y (Pr (Y = y |X = x)Pr (X = x))

=P

x

Py y Pr (Y = y ,X = x)

= E [Y ]Car Pr (Y = y |X = x)Pr (X = x) = Pr (Y = y ,X = x) : la probconjointe (Y,X) = prob conditionnelle (Y|X) • prob marginale (X)

Économétrie II



Espace de probabilités

I On considère une “expérience” aux résultats aléatoires, p.e. unlancer de 2 dés.

I L’ensemble de tous les résultats élémentaires : (1,1),(1,2)...(6,6) constitue l’espace d’échantillonnage ⌦

I Les évènements sont des combinaisons des résultatsélémentaires, p.e. “somme des 2 dés = 10”, “au moins un desdés = 3”...

I L’ensemble de ces évènements se nomme un � algèbre et estnoté F

I La fonction P de mesure de probabilité associe à chaqueévènement une probabilité

I Ces trois composants (⌦,F ,P) constitue l’espace deprobabilité

Économétrie II -...

Documents

Transcript of Économétrie II -...