Download - Économétrie II - risques-environnement.universite-lyon.frrisques-environnement.universite-lyon.fr/IMG/pdf/ectx_ii_l3_ch7... · Économétrie II Économétrie II L3 Économétrie

Économétrie II

Économétrie IIL3 Économétrie – L3 MASS

Ch. 7. Variables Dépendantes Dichotomiques

Prof. Philippe Polomé, U. Lyon 2

Année 2015-2016

Économétrie II


Table des matières

Ch. 7. Variables Dépendantes DichotomiquesDéfinition, interprétation & MCOMCO avec VDL dichotomiqueModèles à VDD : logit & probitInterprétation des modèles Logit & Probit & exempleAutres types de VDL et conclusions

Économétrie II


Rappel

1. X E (et) = 0 8t : Espérance nulle2. X var (et) = s2 8t : Homoscédasticité3. X cov (et ,es) = 0 8t 6= s : Pas d’autocorrélation4. X E (etxt) = 0 8t : Exogénéité5. X La matrice X est de plein rang : Pas de multicolinéarité6. X Le modèle est correctement spécifié7. La variable dépendante Y est continue

Économétrie II


Définition, interprétation & MCO

Table des matières


Économétrie II



Variable dépendante limitée VDL

I Binaire/dichotomique : 2 valeurs seulementI Catégorique : nombre fini de valeurs

I p.e. codée de 1 à 3 “faible”, “moyen”, “élevé” (ordinale)I “bus”, “voiture”, “vélo” (non-ordonné)

I Variable bornée par une valeur critiqueI D’en dessous : donations annuelles par ménages limitées par zéroI Par le haut : nombre de spectateurs limité par la capacité du stadeI Des 2 côtés : Notes de cours entre 0 et 20 en France

Économétrie II



Interprétation

I Une variable continue a un sens quantitatif (cardinal)I Une VDL a souvent un sens qualitatif

I p.e. satisfaction 5=“great”, 4=“good”, 3=“fair”, 2=“poor”,1=“very poor”.

I Satisfaction = 5 est mieux que 4, qui est mieux que 3I Mais satisfaction = 5 n’est pas 5 fois plus que satisfaction = 1I La différence entre satisfaction = 4 et satisfaction =3 n’est pas la

même qu’entre 3 et 2

Économétrie II



MCO

I Si on utilise MCO pour analyser l’impact de régresseurs sur uneVDL, on la traite comme quantitative

I Comme une relation linéaire entre la VDL est assumée, MCOimpose des effets marginaux CONSTANTS quel que soit leniveau du régresseur ! 2 défauts :

1. MCO peut prédire des valeurs de VDL + petites que leur minpossible ou + grdes que leur max possible

2. MCO peut prédire des effets marginaux + grds que le + grdchangements possibles qui peut affecter la VDL, p.e. 1.2 pour uneVDL dichotomique

I EMV – Estimateur du Maximum de Vraisemblance (MLE)évite ces défauts en permettant une relation non-linéaire entre laVDL et ses régresseurs

Économétrie II


MCO avec VDL dichotomique

Table des matières


Économétrie II



Modèle à proba linéaire

I Soit y VDL dichotomique (VDD)I Que signifie un MRL dans ce cas ?

y = Xb + e

I bj ne peut être interprêté comme le changement ceteris paribusen y étant donné un changement unitaire en xj puisque y ne peutchanger que de zéro à un ou de un à zéro

Économétrie II



Interprétation de bI Sous hypothèse d’exogénéité E (e|X ) = 0, on a :

E (y |X ) = Pr{y = 1|X}= Xb

I La proba de succès Pr{y = 1|X} ou “proba de réponse”, est unefonction linéaire de xj

I Le MRL avec VDD est appelé Modèle à Proba Linéaire (MPL)I Que mesure bj dans le MPL ?

I Le changement ceteris paribus en la proba de succès quand xj

changeI �P(y = 1|�xj ) = bj�xj

I Si on écrit la valeur ajustée y (la proba de succès prédite) commey = X b

I bj mesure le changement prédit en la proba de succès lorsque xj

augmente d’une unité

Économétrie II



Exemple : Participation des femmes à l’offre de travail

I Échantillon aléatoire de 753 femmesI Wooldridge : Gretl mroz

I Estime par MCO la proba qu’une femme travaille contre salaireI ou soit en recherche d’emploi en principe

I La variable dépendante est dichotomiqueI 1 si la femme travaille contre salaire hors de chez elle à un point

quelconque de l’annéeI 0 autrement

I Estimation par MCOI pour les 753 femmes de l’échantillon, 16 ont des valeurs ajustées

< 0 et 17 ont >1

Économétrie II



Impact des jeunes enfants

I Une des variables explicatives est “nbr d’enfants de moins de 6ans”, kid<6

I Après estimation par MCOI le coefficient de “kid<6” est significatif et egal à −0.262

I Donc : un enfant de moins de 6 ans en plus réduitI la proba de participation de −0.262 - ceteris paribus (sous

exogénéité)I quel que soit le nombre d’enfants de moins de 6 ansI Passer de 0 à 4 enfants de moins de 6 ans réduit la proba de

travailler de 0.262 * 4 = 1.048 (impossible)

Économétrie II


Modèles à VDD : logit & probit

Table des matières


Économétrie II



Spécification

I Soit une classe de modèles non-linéaires à réponsedichotomique :

Pr (y = 1|X ) = G (Xb )

G est une fonction qui prend des valeurs strictement entre zéro etun : 0 G (z) 1, 8 nombre réel z

I Ceci garanti que les proba estimées de réponse seront strictmententre zéro et un

I Implique une relation non linéaire entre la variable dépendanteet les régresseurs

I De nombreuse fonctions sont candidatesI 2 sont populaires : logistique et normale

Économétrie II



Logit et Probit

I Modèle logit, G est la fonction de distribution (densitécumulative) d’une v.a. logistique standard :

G (z) = exp(z)/ [1+ exp(z)] = ⇤(z)

I Modèle probit, G est la fonction de distribution d’une v.a.normale standard, dont on note la densité f (.) :

G (z) =

ˆ z

�•f (t)dt

avec f (z) = (2p)�1/2exp

��z

2/2�

Économétrie II



Logit vs. ProbitI Les distributions logistique et normale sont similairesI La logistique rend les calculs plus simples et permet des

simplifications importantes dans des modèles plus avancés

Économétrie II



Modèle à Variable LatenteI Soit y⇤ une variable latente (c’est-à-dire pas observée

directement) t.q.y

⇤ = Xb + e

I P.e. y⇤ est l’utilité d’acheter une nouvelle voiture

I Logit et probit peuvent être obtenus d’un modèle à variablelatente qui satisfait toutes les hypothèses du MRL classique

I On n’observe pas l’utilité, mais seulement la conséquence de ladécision individuelle

(y

⇤i < 0 =) yi = 0

y

⇤i � 0 =) yi = 1

I On observe que la personne a (y = 1) ou n’a pas (y = 0) achetéde nvlle voiture

Économétrie II



Proba de réponse

I Hypothèse : e est indépendant de x et e est soit standardlogistique soit standard normale

I On dérive les proba de réponse pour y :

Pr{y = 1|X} = Pr{y⇤ � 0|X}= Pr{e >�(Xb ) |X}= 1�G (�(Xb ))= G (Xb )

I Comme e est normale ou logistique, elle est sym autour zéro,donc 1�G (�z) = G (z) 8 nbr réel z

Économétrie II



Estimation Maximum de Vraisemblance

I Estimation des modèles Logit et Probit par Maximum deVraisemblance (Maximum Likelihood)

I Dans ce cours, MV = boîte noire qui produit des estimationsbMV

I Consistantes mais biaiséesI Asymptotiquement efficientesI Asymptotiquement normalesI Pour autant que les hypothèses du modèles soient vraies

I Sinon, c’est pas forcément fichu, mais c’est compliqué

I En pratique : on donne au logiciel y comme variable dépendanteet X (plein rang) comme régresseur

I MV sera vu en détail en M1

Économétrie II


Interprétation des modèles Logit & Probit & exemple

Table des matières


Économétrie II



Cas d’un régresseur continu x

j

I L’effet d’un changement marginal en xj sur la proba de réponsePr{y = 1|X}= p (X ) est donné par la dérivée partielle

∂p (X )

∂xj=

∂G (Xb )∂xj

= g (Xb )bj

I C’est l’effet marginal de xj : il dépend des valeurs prises partous les régresseurs (pas seulement de xj )

I On peut le calculer en des points “intéressants” de X , p.e.moyennes sur l’échantillon

I Qd un régresseur est discret sa moyenne sur l’échantillon ne veutpas dire grd chose

I Ou bien on peut le calculer pour chaque i dans l’échantillon etcalculer la moyenne des effets marginaux “individuels”

I En général ça ne coïncide pas

Économétrie II



Effets marginaux Logit – Probit

I Dans Logit g (z) =exp(z)

[1+ exp(z)]2et g (0) = .25

I Dans Probit g (z) = f (z) (la densité normale standard) etf (0) = 1/

p2p ' .4

I Ces modèles ne peuvent pas avoir des effets marginauxg (Xb )xj plus grand que un

Économétrie II



Cas d’un régresseur discret

I Effet d’un changement en xj discretI de a à b (souvent, de 0 à 1)I sur la proba de réponse Pr{y = 1|X}= p (X )I On écrit X�j l’ensemble des régresseurs sauf xj , de façon

similaire b�j

�p (Xi ) = G

⇣X�ji b�j +bbj

⌘

�G

⇣X�ji b�j +abj

⌘

I Un tel effet est différent d’individu à individuI Dans Stata

I Commande mfx après logit ou probit : effets marginaux derégresseurs continus

I Commande prvalue pour un régresseur discret

Économétrie II



Mesures de qualité d’ajustement

I Le pourcentage correctement préditI 8i calculer la proba ajustée que yi prenne la valeur 1, G

⇣Xi b

⌘

I Si � .5 on “prédit” yi = 1 et zéro sinonI On calcule le % de prédictions correctes

I Problème : possible d’obtenir de hauts % correctement préditssans que le modèle soit bien utile

I P.e., ds un échantillon de 200, 180 observations ont yi = 0 dont150 sont prédites zéro et 20 obs ont yi = 1 toutes prédite zéro

I Le modèle est clairement mauvaisI Mais on a qd même 75% de prédictions correctes

I Pour cela, on rapporte un tableau de prédiction 2⇥2 (p.e. Stata)

Économétrie II



Pseudo R-carré

IPseudo�R

2 = 1� lnLUR/ lnL0

I lnLUR la log-vraisemblance du modèle estimé (voir M1)I lnL0 celle du modèle avec seulement l’intercept

I semblable à R

2 pour la régression MCOI car R2 = 1�SSRUR/SSR0

I Il existe d’autres mesures de qualité de l’ajustement,I mais l’ajustement n’est généralement pas aussi important que la

significativité statistique et économique des régresseurs

Économétrie II



Exemple : Participation des femmes à l’offre de travail

inlf =1 if in labor force, 1975inc* (faminc - wage*hours)/1000educ years of schoolingexp actual labor mkt experexp2

age woman’s age in yrskid< 6 # kids < 6 yearskid� 6

Fichier Gretl MROZ (tab Wooldridge)

Économétrie II



Échelle

I Les tailles des coefficients ne sont pas directement comparablesentre modèles

I C’est pcq avec les variables dichotomiques y on pourraitmultiplier l’ensemble des coefficients par n’importe quelleconstante positive sans changer le modèle

I =) la variance de y n’est pas identifiée en général

I Approximativement,I diviser les estimations logit par 4 et les probit par 2.5 pour les

rendre comparables aux estimations du MPL

Économétrie II



Modèles pour inlf (Participation des femmes à l’offre detravail)

xj bOLS |t| blogit |t| bprobit |t|

inc* -.003 2.4 -.021 2.5 -.012 2.5educ .038 5.2 .221 5.1 .131 5.2exp .039 7 .206 6.4 .123 6.7exp2 -.000 3.2 -.003 -3.1 -.002 3.2age -.016 6.5 -.088 -6.0 -.053 6.2

kid< 6 -.262 7.8 -1.44 -7.1 -.868 7.3kid� 6 .013 1 .060 .8 .036 .8

Cst .586 3.8 .425 .5 .27 .5lnL – -402 -401p-R2 .26 R

2a .220 .221

Économétrie II



Comparer les effets marginaux

I MPL, effets marginaux constants = coef estimés

I Probit : f⇣X bprobit

⌘' .4

IX qui comprend les moyennes de exp

2 : exp2 6= ¯exp2

I Coefficient ⇥ 0.4 = effet marginal de la variable sur la proba à lamoyenne de l’échantillon

I Sans doute différent en d’autres pointsI Sera différent entre i

Économétrie II



Exemple : Participation des femmes à l’offre de travailI Une femme avec inc* = 20.13, educ = 0.13, exp = 10.6, age =

42.5I Environ les moyennes de l’échantillon

I Proba pour kid< 6 = 0I Calculer la distribution normale standard �

⇣X b

⌘en kid<6=0 :

Pr = 0.707I Baisse estimée de la proba de travailler en passant de zéro à un

jeune enfant ?I Calculer la distribution normale standard �

⇣X b

⌘en kid<6=1 :

Pr = 0.373I On a environ 0.373 − 0.707 = −0.334 : proba environ 0.334 plus

petite lorsque la femme a un petit enfantI Si cette femme passe de 1 à 2 petits enfants, la proba tombe plus

bas,I mais l’effet marginal est moindre : 0.117 − 0.373 = −0.256

Économétrie II



Table prédictive (estat classification)

Predict Model yi = 1 yi = 0 Total

yi = 1

LPM 350 122 472Logit 347 118 465Probit 348 120 468

yi = 0

LPM 78 203 281Logit 81 207 288Probit 80 205 285

Total 428 325 753

Économétrie II



Remarque : EndogénéitéI Les enfants n’arrivent pas par hasardI La décision d’avoir un enfant de plus est prise en même temps

que celle de participer au marché du travailI Voire, un changement professionnel peut mener à réajuster la vie

familialeI Donc : le nombre d’enfants est endogène dans cette régression

I Sans doute, particulièrement le nombre de jeunes enfantsI Deux équations latentes

I Utilités U

⇤1 = X1b1+ e1

U

⇤2 = X2b2+ e2

I On observe Y1 =

(1 si U

⇤1 > 0

0 sinon

I idem pour U⇤2

I Vraisemblablement, e1 et e2 corrélés

Économétrie II


Autres types de VDL et conclusions

Table des matières


Économétrie II



3 catégories principales

I Variables ordinalesI Variables catégoriquesI Variables continues bornées

Économétrie II



Variables ordinales

I P.e. “satisfaction” codée 1 à 3I On part d’un principe de variables observées yi et latente y

⇤i t.q.

8><

>:

yi = 1 if y

⇤ k1

yi = 2 if k1 y

⇤ k2

yi = 3 if k2 y

⇤

où k1 et k2 sont appelés “seuils” ou “points de coupure”I Cas des VDL “ordonnée” : y a un ordre naturelI Estimation par des extensions de probit et logit (dits ordonnés)

dans Stata par MVI Interpretation des coefficients assez différente

I Même interprétation du signe et de la significativité

Économétrie II



Variables catégoriques

I Même principe latent, sauf qu’il n’y a pas d’ordreI On parle de choix multinomial entre alternatives A, B, C...

I Logit/probit dits multinomialI À coefficients fixes entre alternatives (logit/probit conditionnel) :

seuls les régresseurs qui changent entre les alternativesI À coefficients variables entre alternatives : on peut estimer un

coef pour des régresseurs constants entre alternatives

I Interprétation également assez différenteI Même interprétation du signe et de la significativité

Économétrie II



Conclusions

1. On préfère MV à MC en présence de VDL2. Les effets marginaux sont moins évidents à calculer parce que

les modèles deviennent non-linéaires3. Les modèles à VDL sont nombreux et présentent généralement

des interprétations assez différentes les uns des autres3.1 Du point de vue logiciel il ne s’agit jamais que d’une variable

dépendante et de régresseurs3.2 Les interprétations du signe et de la significativité restent les

mêmes