Méthodes qualitatives – Observation directe et enquête de ...
Les variables qualitatives
-
Upload
ronan-mejia -
Category
Documents
-
view
50 -
download
0
description
Transcript of Les variables qualitatives
![Page 1: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/1.jpg)
Les variables qualitatives
Lionel Nesta
Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion
Formation d’Économétrie avec Stata
![Page 2: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/2.jpg)
Plan du cours : première partie
1. Les variables qualitatives explicatives
1. Création et gestion des variables qualitatives sous STATA
2. Les variables muettes dans le modèle MCO
2. Les modèles à variables qualitative dépendante
1. Le modèle de probabilité linéaire
2. L’estimation par le maximum de vraisemblance
3. La régression logistique
![Page 3: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/3.jpg)
Plan du cours : deuxième partie
3. La régression logistique multinomiale
1. Simple
2. Ordinale
4. Les modèles de comptage
1. Le modèle de Poisson
2. Le modèle négatif binomial
![Page 4: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/4.jpg)
Les variables qualitatives explicatives
![Page 5: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/5.jpg)
1. Les variables qualitatives explicatives
Les variables qualitatives
Les variables muettes (les dummies)
Créer une variable muette avec Stata
Interprétation des coefficients dans le modèle MCO
Les effets croisés entre variables muettes et continues
![Page 6: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/6.jpg)
Les variables qualitatives
Il s’agit de variables qui donnent des informations sur des caractéristiques discrètes.
Le nombre de catégories prises par les variables qualitatives est en général petit.
Ces valeurs peuvent être numériques mais chaque nombre indique une qualité; une caractéristiques.
Une variable discrète peut avoir plusieurs modalités Deux modalités : homme ou femme
Trois modalités : nationalité (française, allemande, anglaise)
Plus de trois modalités : secteur (automobile, chimie, bureautique, métallurgie, etc.)
![Page 7: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/7.jpg)
Les variables qualitatives Il existe plusieurs manières de coder une variable
qualitative à n modalités
Codage par une seule variable catégorielle
Codage par n - 1 variables muettes
Une variable muette ou indicatrice est une variable qualitative qui prend les valeurs 0 ou 1.
On parle de variable binaire ou dichotomique.
En Anglais, on parle de « dummy variables », ou « dummies »
![Page 8: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/8.jpg)
Les variables qualitatives Codage par une seule variable catégorielle
Deux modalités : On crée une variable catégorielle « genre » qui est égale à 1 si l’individu est une femme, 2 si l’individu est un homme.
Trois modalités : On crée une variable « nationalité » qui est égale à 1 si l’individu est français, 2 si l’individu est allemand, 3 si l’individu est anglais.
Variable à n modalités : On crée une variable « nationalité » qui est égale à 1 si l’individu est français, 2 si l’individu est allemand, 3 si l’individu est anglais, etc.
Le codage d’une variable catégorielle nécessité l’utilisation d’un label pour savoir à quelle modalité se réfère ledit numéro.
![Page 9: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/9.jpg)
Labéliser des variables
Labéliser les variables est intéressant, fastidieux, ennuyeux.
Conséquence importante sur l’interprétation des résultats
label variable. Décrit une variable qualitative ou quantitativelabel variable asset "real capital"
label define. Décrit les valeurs (modalité) d’une variable qualitativelabel define firm_type 1 "biotech" 0 "Pharma"
label values Applique le label défini précédemmentlabel values type firm_type
![Page 10: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/10.jpg)
Exemple de labellisation*************************************************************************************
******* CREATION DES LABELS INDUSTRIES *********
*************************************************************************************
egen industrie = group(isic_oecd)
#delimit ;
label define induscode 1 "Text. Habill. & Cuir"
2 "Bois"
3 "Pap. Cart. & Imprim."
4 "Coke Raffin. Nucl."
5 "Chimie"
6 "Caoutc. Plast."
7 "Aut. Prod. min."
8 "Métaux de base"
9 "Travail des métaux"
10 "Mach. & Equip."
11 "Bureau & Inform."
12 "Mach. & Mat. Elec."
13 "Radio TV Telecom."
14 "Instrum. optique"
15 "Automobile"
16 "Aut. transp."
17 "Autres";
#delimit cr
label values industrie induscode
![Page 11: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/11.jpg)
Exercice
1. Téléchargez la base var_qual.dta
2. Labélisez la variable firm_type
3. Définissez un label pour la variable firm_type, sachant que la modalité 1 qualifie les grandes firmes pharmaceutiques et la modalité 2 qualifie les firmes de biotechnologie.
![Page 12: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/12.jpg)
Les variables qualitatives muettes Codage par des variables muettes
Deux modalités. On crée une variable muette « femme » qui est égale à 1 si
l’individu est une femme, 0 sinon. On crée une variable muette « homme » qui est égale à 1 si
l’individu est une femme, 0 sinon. Or une des deux variables muettes est redondante. A partir du
moment où femme = 0, alors homme = 1.
Autrement dit pour une variable catégorielle à deux modalités, on a besoin d’une seule variable muette seulement pour avoir la même information.
![Page 13: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/13.jpg)
Les variables qualitatives muettes Codage par n variables muettes Exemple avec trois modalités
On crée trois variables muettes, la première étant est égale à 1 si l’individu est français, 0 sinon (variable appelé « FRA »).
la deuxième modalité est égale à 1 si l’individu est allemand, 0 sinon (variable appelé « DEU »).
la troisième modalité est égale à 1 si l’individu est anglais, 0 sinon (variable appelé « GBR »).
Or une des trois variables muettes est redondante. A partir du moment où FRA = 0, DEU = 0, alors GBR = 1.
Pour une variable à n modalités, on crée n - 1 variables muettes, chacune représentant une modalité particulière de la variable.
![Page 14: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/14.jpg)
Créer une variable muette sous stata Générer une variable muette à partir d’une variable
qualitative. generate DEU = 0 replace DEU = 1 if country==“GERMANY” generate FRA = country==“FRANCE”
Générer une variable muette à partir d’une variable qualitative. generate GE = 1 if taille > 100 replace GE =0 if taille < 101 generate GE = taille > 100
![Page 15: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/15.jpg)
Créer une variable muette sous stata Si vous disposez d’une variable qualitative à n modalités,
il peut être fastidieux de créer n-1 variables muettes
La fonction tabulate a une extension très pratique, puisqu’elle générera autant de variables muettes qu’il y a de modalités d’une variable catégorielle. tabulate varcat, gen(v_)
tabulate country, gen(c_)
Va créer la variable muette c_1 pour le premier parti, c_2 pour le second, c_3 pour le troisième, etc.
![Page 16: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/16.jpg)
Interprétation des coefficients devant les variables muettes Dans la régression linéaire, le coefficient estimé
s’interprète comme la variation de la variable dépendante suite à la variation d’une unité de la variable explicative, toute chose égale par ailleurs.
Soit le modèle de fonction de production de connaissance
où « y » est le nombre de brevet produit par les firmes et « biotech » est une variable muette égale à 1 pour les firmes de biotechnologie.
y biotech u
![Page 17: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/17.jpg)
Interprétation des coefficients devant les variables muettes Si la firme est une firme de biotechnologie, la variable
muette « biotech » est égale à l’unité, donc :
Si la firme est une firme pharmaceutique, la variable muette « biotech » est égale à 0, donc :
ˆ ˆˆ ˆy 1
ˆˆ ˆy 0
![Page 18: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/18.jpg)
Interprétation des coefficients devant les variables muettes Quand la variable explicative est muette, le coefficient
s’interprète comme variation de la variable dépendante quand la variable muette est égale à 1, relativement à une situation où la variable muette est égale à 0. Pour deux modalités, je dois introduire une variable muette.
Pour trois modalités, je dois introduire deux variables muettes.
Pour n modalités, je dois introduire (n-1) variables muettes.
![Page 19: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/19.jpg)
Exercice
1. A partir de la base var_qual.dta, régressez le modèle
2. Prédisez la production de brevet pour les firmes de biotechnologie et les firmes pharmaceutiques
3. Etablissez les statiques descriptives de PAT pour chacun des types de firme avec la commande table
4. Qu’observez-vous ?
PAT biotech u
![Page 20: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/20.jpg)
Interprétation des coefficients devant les variables muettes Pour la forme semi logarithmique (log Y), le coefficient β
est interprété comme une approximation du pourcentage de variation de Y pour une variation de 1 de la variable explicative.
Cette approximation est acceptable quand β est petit (β < 0.1). Quand β est grand (β ≥ 0.1), alors le pourcentage exact de la différence selon les évènements 0 ou 1 est :
100 × (eβ – 1)
![Page 21: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/21.jpg)
La fonction de production de connaissances
Application 1: modèle de base
1 2
1 2
PAT f (RD,SIZE)
PAT A RD SIZE exp u
pat rd size u
![Page 22: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/22.jpg)
Application 1: modèle de base
_cons -.7080941 .3893776 -1.82 0.070 -1.4733 .0571119 size -.3995841 .0731757 -5.46 0.000 -.5433891 -.2557791 rd .6904159 .0876424 7.88 0.000 .5181807 .862651 pat Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 708.526573 456 1.55378635 Root MSE = 1.1439 Adj R-squared = 0.1578 Residual 594.078634 454 1.30854325 R-squared = 0.1615 Model 114.447939 2 57.2239696 Prob > F = 0.0000 F( 2, 454) = 43.73 Source SS df MS Number of obs = 457
. reg pat rd size
![Page 23: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/23.jpg)
Application 2: Changement de modèle
1
2
1 2
PAT f (RD,SIZE)
RDPAT A SIZE exp u
SIZE
RDpat log size u
SIZE
La fonction de production de connaissances
![Page 24: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/24.jpg)
Application 2: Changement de modèle
_cons -.7080941 .3893776 -1.82 0.070 -1.4733 .0571119 size .2908318 .033395 8.71 0.000 .2252038 .3564598 rdi .6904159 .0876424 7.88 0.000 .5181807 .862651 pat Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 708.526573 456 1.55378635 Root MSE = 1.1439 Adj R-squared = 0.1578 Residual 594.078634 454 1.30854325 R-squared = 0.1615 Model 114.447939 2 57.2239696 Prob > F = 0.0000 F( 2, 454) = 43.73 Source SS df MS Number of obs = 457
. reg pat rdi size
![Page 25: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/25.jpg)
Application 3: Variable muette
1
23
1 2 3
PAT f (RD,SIZE, )
RDPAT A SIZE exp u
SIZE
rdp
B
at size usi
IO
BIO
BIze
O
La fonction de production de connaissances
![Page 26: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/26.jpg)
Application 3: Variable muette
_cons -5.745133 .633991 -9.06 0.000 -6.991061 -4.499204 biotech 1.673523 .1744372 9.59 0.000 1.330716 2.016329 size .5768994 .0426386 13.53 0.000 .4931055 .6606934 rdi .5106912 .0821529 6.22 0.000 .3492431 .6721392 pat Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 708.526573 456 1.55378635 Root MSE = 1.044 Adj R-squared = 0.2985 Residual 493.755974 453 1.08996904 R-squared = 0.3031 Model 214.770599 3 71.5901997 Prob > F = 0.0000 F( 3, 453) = 65.68 Source SS df MS Number of obs = 457
. reg pat rdi size biotech
![Page 27: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/27.jpg)
Application 3: Variable muette
Patentln(PAT)
size
3ˆ ˆ
2 3ˆˆBiotech : size ˆ
2ˆpente
2ˆpente
2ˆˆPharma : size 3
![Page 28: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/28.jpg)
Application 4: Variable d’interaction
1
23 4
1 2 3 5
BIO
BIO B
PAT f (RD,SIZE, )
RDPAT A SIZE exp u
SIZE
rdpat si
IO size
BIO BIO sizze usize
e
La fonction de production de connaissances
![Page 29: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/29.jpg)
Application 4: Variable d’interaction
_cons -6.92359 .8591161 -8.06 0.000 -8.611947 -5.235232 size_bio -.1688997 .0834314 -2.02 0.044 -.3328612 -.0049382 biotech 3.950866 1.138292 3.47 0.001 1.713864 6.187868 size .6503855 .0558872 11.64 0.000 .5405545 .7602165 rdi .4881356 .082628 5.91 0.000 .3257528 .6505183 pat Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 708.526573 456 1.55378635 Root MSE = 1.0405 Adj R-squared = 0.3033 Residual 489.319346 452 1.08256492 R-squared = 0.3094 Model 219.207228 4 54.801807 Prob > F = 0.0000 F( 4, 452) = 50.62 Source SS df MS Number of obs = 457
. reg pat rdi size biotech size_bio
![Page 30: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/30.jpg)
Application 4: Variable d’interaction
Patentln(PAT)
Size
42 3ˆˆBiotech : size ˆ ˆ BIO size
2ˆˆPharma : size
2 4ˆ BIOˆpe izee snt
2ˆpente
3ˆ ˆ
3
![Page 31: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/31.jpg)
Les modèles à variable qualitative dépendante
![Page 32: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/32.jpg)
Le modèle de probabilité linéaire
![Page 33: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/33.jpg)
Le modèle de probabilité linéaire Quand la variable qualitative dépendante est binaire ou
dichotomique (0/1), le modèle OLS est appelé modèle de probabilité linéaire (par exemple : Y=1 si l’entreprise innove, Y=0 sinon).
0 1 1 2 2Y x x u
Y ne prend que 2 valeurs (0;1). Comment interpréter βj? Si E(u|X)=0 alors:
0 1 1 2 2E(Y | X) x x
![Page 34: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/34.jpg)
Le modèle de probabilité linéaire
Y suit une distribution de Bernoulli d’espérance P. Ce modèle est donc dit MPL car son espérance conditionnelle E(Y|X) peut être interprétée comme la probabilité conditionnelle que l’évènement se produise compte tenu des valeurs de X :
E(Y | X) Pr(Y 1| X)
1 E(Y | X) Pr(Y 0 | X)
β mesure de combien est modifié la probabilité de succès quand X change d’une unité (ΔX=1)
E(Y | X) Pr(Y 1| X)Pr(Y 1| X)
X X
![Page 35: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/35.jpg)
Les limites du modèle de prob. linéaire (1)L’absence de normalité des erreurs
OLS6 : Le terme d'erreur est indépendant des variables indépendantes et suit une loi Normale de moyenne nulle et de variance 2
Les erreurs étant le complémentaire par rapport à 1 de la probabilité conditionnelle, elles suivent une distribution de Bernoulli, et non normale.
2u Normal(0, )
![Page 36: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/36.jpg)
Les limites du modèle de prob. linéaire (1)L’absence de normalité des erreurs
0.5
11
.52
2.5
De
nsi
ty
-1 -.5 0 .5Residuals
![Page 37: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/37.jpg)
Les limites du modèle de prob. linéaire (2)L’hétéroscédasticité des erreurs
OLS5 : La variance du terme d'erreur est la même, quelle que soiet les valeurs des variables indépendantes
Si le terme d’erreur suit une distribution de Bernoulli, alors sa variance dépend de X:
21 2 kVar u x ,x , ,x
Var(u) P(1 P) E(Y | X) (1 E(Y | X))
![Page 38: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/38.jpg)
Les limites du modèle de prob. linéaire (2)L’hétéroscédasticité des erreurs
-1-.
50
.5R
esi
du
als
.4 .6 .8 1 1.2Fitted values
![Page 39: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/39.jpg)
Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes
Par définition, une probabilité est toujours comprise entre 0 et 1, si bien que :
Or OLS ne garantit en rien cette condition : On peut imaginer des prédictions en dehors de [0;1] L’effet marginal reste constant en permanence car P = E(Y|X) croit linéairement avec X. Ceci n’est pas réaliste (ex: la probabilité d’avoir un enfant en fonction
du nombre d’enfants dans la fratrie).
0 E Y | X 1
![Page 40: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/40.jpg)
Les limites du modèle de prob. linéaire (3)Des prédictions aberrantes
01
23
De
nsi
ty
.4 .6 .8 1 1.2Fitted values
Mauvaises prédictions
![Page 41: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/41.jpg)
Les limites du modèle de prob. linéaire (4)Un coefficient de détermination faible
Les valeurs observées de Y sont égales à 1 ou 0, alors que les valeurs prédites appartiennent à l‘ensemble des réels compris enter 0 et 1 : [0;1].
Si on confronte graphiquement les valeurs prédites avec les valeurs observées, l’ajustement linéaire apparaît systématiquement faible.
![Page 42: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/42.jpg)
Les limites du modèle de prob. linéaire (3)Des prédictions aberrantes
0.2
.4.6
.81
Du
mm
y in
no
vatio
n
.4 .6 .8 1 1.2Fitted values
Mauvaises prédictions qui baissent le R2
![Page 43: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/43.jpg)
Les limites du modèle de probabilité linéaire
1. L’absence de normalité des erreurs
2. L’hétéroscédasticité des erreurs
3. Les prédictions aberrantes
4. La faible valeur du coefficient de détermination 0 E Y | X 1
21 2 kVar u x ,x , ,x
2u Normal(0, )
![Page 44: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/44.jpg)
Surmonter les limites du MPL1. L’absence de normalité des erreurs Augmenter la taille de l’échantillon
2. L’hétéroscédasticité des erreurs Effectuer des estimations robustes
3. Les prédictions aberrantes Effectuer des estimations contraintes ou non linéaires
4. La faible valeur du coefficient de détermination Ne pas utiliser le R2 pour estimer la qualité de l’ajustement
![Page 45: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/45.jpg)
Le MPL et ses utilisations
Malgré ses limites, le MPL est assez largement utilisé :
1. Parce qu’il constitue une base exploratoire dont les coefficients sont faciles à interpréter.
2. Parce qu’il marche plutôt bien pour les valeurs des variables indépendantes qui sont proches de la moyenne des données.
3. Parce qu’à la condition de travailler sur des grandes bases de données, il permet d’aborder des problèmes d’estimation que d’autres approches ont du mal à aborder.
![Page 46: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/46.jpg)
Le modèle LOGIT
![Page 47: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/47.jpg)
Probabilités, chances et logit Nous voulons expliquer la réalisation évènement : la
variable à expliquer prend deux valeurs : y={0;1}.
En fait, on va expliquer la probabilité de réalisation (ou non) de l’évènement: P(Y=y | X) [0 ; 1]∈ .
Il nous faudrait une transformation de P(Y) qui étendent l’intervalle de définition.
Nous allons voir que le calcul des chances permet d’envisager cette transformation.
Nous comprendrons alors les sources de la fonction logit.
![Page 48: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/48.jpg)
Le modèle Logit (1)
Z
Z Z
Z Z
0 i i i
e 1P
1 e 1 e1 1
1 P 11 e 1 e
avec z x u
Modélisons la probabilité en nous assurant que quelles que soient les valeurs de X, P reste toujours entre 0 et 1.
![Page 49: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/49.jpg)
Le modèle Logit (2)
ZZ
Z
0 1 1 2 2
P 1 ee
1 P 1 eP
ln z x x u1 P
Ecrivons le ratio de chance (odds ratio) et prenons son log:
Notons deux caractéristiques importantes et désirées du modèle :
1. Malgré le fait que P soit compris entre 0 et 1, le logit est un réel compris entre -∞ et + ∞
2. La probabilité n’est pas linéaire en X
![Page 50: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/50.jpg)
Les ratios de chance
( 1)odds ratio =
1 ( 1)
P Y
P Y
Ou plus généralement
innoverinnover innover
ne pas innover
ProbabilitéChance (odds ratio)
Probabilité
Plutôt que d’expliquer Y (=1 ou =0), on va tenter d’expliquer le ratio de chance (ou odds ratio)
![Page 51: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/51.jpg)
Probabilités, chances et logitP(Y=1) Odds
p(y=1)
1-p(y=1)Ln (odds)
0.01 1/99 0,01 -4,60
0.03 3/97 0,03 -3,48
0.05 5/95 0,05 -2,94
0.20 20/80 0,25 -1,39
0.30 30/70 0,43 -0,85
0.40 40/60 0,67 -0,41
0.50 50/50 1,00 0,00
0.60 60/40 1,50 0,41
0.70 70/30 2,33 0,85
0.80 80/20 4,00 1,39
0.95 95/5 19,0 2,94
0.97 97/3 32,3 3,48
0.99 99/1 99,0 4,60
![Page 52: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/52.jpg)
La transformation logit
Le précédent tableau fait correspondre une liste de probabilité entre 0 et 1 et son équivalent en termes de chance au logarithme des chances.
Si la probabilité varie de 0 à 1, la chance varie de 0 à l’infini. Le log de la chance varie de – ∞ à + ∞ .
Remarquez que la distribution des chances et des log est symétrique.
![Page 53: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/53.jpg)
La distribution logistique
0.0
5.1
.15
.2.2
5D
en
sity
-10 -5 0 5 10Log (Odds ratio)
![Page 54: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/54.jpg)
La méthode du maximum de vraisemblance Le problème est que nous n’observons pas le ratio de chance.
Encore une fois, le modèle MCO ne convient pas.
Pour estimer le modèle LOGIT, on a recours à la méthode du maximum de vraisemblance.
La méthode MV est une méthode d’estimation alternative à la méthode des moindres carrés.
Elle consiste à trouver la valeur des paramètres qui maximisent la vraisemblance des données.
La vraisemblance en économétrie est définie comme la probabilité jointe d’observer un échantillon, étant donné les paramètres du processus ayant généré les données.
![Page 55: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/55.jpg)
La méthode du maximum de vraisemblance Supposons que nous disposons d’un échantillon de n observations
aléatoires. Soit f(Y) la probabilité que Y=1 ou 0. La probabilité jointe d’observer les n variables de Y est donnée par la fonction de vraisemblance :
1 21
, ,..., ( )n
n ii
f y y y f y
On doit maintenant spécifier la fonction f(.). Elle découle de la distribution des probabilités d’un événement qui ne peut avoir que deux occurrences: un succès et un échec. Il s’agit de la distribution binomiale :
1( ) (1 ) i iy yif y p p
![Page 56: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/56.jpg)
La fonction de vraisemblance
En définitive, la fonction de vraisemblance s’écrit:
i i
i i
i ii
i i
n ny 1 y
ii 1 i 1
y 1 yzn n
i z zi 1 i 1
y 1 yxn n
i i x xi 1 i 1
L y f (y ) p 1 p
e 1L y,z f (y , z)
1 e 1 e
e 1L y, x, f (y , x , )
1 e 1 e
![Page 57: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/57.jpg)
La fonction de vraisemblance Parce qu’elle est difficile à manipuler, on utilise généralement le log.
Après manipulation, la fonction log de la vraisemblance s’écrit :
i
i
n nz
ii 1 i 1
n nx
i ii 1 i 1
nx
i ii 1
LL y,z y z ln 1 e
LL y, x, y x ln 1 e
LL y, x, ln 1 e y x
![Page 58: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/58.jpg)
La méthode du maximum de vraisemblance Le problème est le suivant: étant donné la forme
fonctionnelle de f(.) et les N observations, quelles valeurs des paramètres rendent l’observation de l’échantillon la plus vraisemblable?
![Page 59: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/59.jpg)
La maximisation de la vraisemblance
n
i i i zi 1
i zn
i i i ii 1
LLy x 0
ewhere
1 e²LL1 x x
Cette maximisation n’a pas de solution analytique et se résout grâce un algorithme d’itération dit de Newton-Raphson.
Les estimateurs obtenus en maximisant la vraisemblance sont efficaces. Ou encore en maximisant le log de la vraisemblance.
![Page 60: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/60.jpg)
L’exemple des chances d’innover Les entreprises de biopharmaceutique : 373
(81%) ont innover et 84 (19%) ne l’ont pas fait.
La chance d’innover est d’environ 4 contre 1.En effet 373/84=4.4
Pour les entreprises de biopharmaceutique, la probabilité d’innover est quatre fois plus élevée que la probabilité de ne pas le faire.
![Page 61: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/61.jpg)
Le modèle de régression logistiqueApplication sur la base de données OLS
Instruction Stata : logit
logit y x1 x2 x3 … xk [if] [weight] [, options]
Options : noconstant : estime le modèle sans constante
robust : estime des variances robustes, même en cas d'hétéroscédasticité
if : permet de sélectionner les observations sur lesquelles portera la régression
weight : permet de pondérer les différentes observations
![Page 62: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/62.jpg)
Interprétation des coefficients (1) Pour avoir la mesure de la variation de probabilité, il faut utiliser la
formule du logit pour transformer le logit en probabilité
i
i
x
x
eP
1 e
![Page 63: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/63.jpg)
Interprétation des coefficients (2) Tapons un modèle sans variable explicative et
seulement une constante: Tapons logit inno et nous trouvons
La constante 1.491 s’interprète comme le log ratio moyen. Calculons la probabilité moyenne d’innover. Tapons : dis exp(_b[_cons])/(1+exp(_b[_cons])) Nous trouvons bien la valeur observée: 81%
1,491
1,491
eP 0,81
1 e
![Page 64: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/64.jpg)
Interprétation des coefficients (3) Un signe positif signifie que la probabilité de succès augmentera
avec la variable correspondante.
Un signe négatif signifie que la probabilité de succès diminuera avec la variable correspondante.
Une des difficultés dans l’interprétation des probabilités est leur non linéarité: elles ne varient pas identiquement selon le niveau des variables indépendantes.
C’est pourquoi il est fréquent de calculer la probabilité au point moyen de l’échantillon.
![Page 65: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/65.jpg)
Interprétation des coefficients (4) Tapons logit inno rdi size spe pharma
-7.63 0.757 0.979 0.367 3.781
-7.63 0.757 0.979 0.367 3.781
eP
1 e
rdi size spe pharma
rdi size spe ph
arma
A partir du modèle, on peut calculer la probabilité conditionnelle moyenne en utilisant les valeurs moyennes de rdi, size, spe et pharma.
eP 0,8724
1 e
1.9228238
1.9228238
![Page 66: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/66.jpg)
Les effets marginaux (1) Il est souvent utile de connaître l’effet marginal d’une variable explicative sur
la probabilité de succès d’un évènement. Puisque la probabilité est une fonction non linéaire des variables
explicatives, la variation de la probabilité due à un changement d’une variable explicative (ou son effet marginal) ne sera pas identique selon que les autres variables sont maintenues à leur niveau moyen, ou médian, ou au premier quartile, etc.
prvalue produit les probabilité prédites après un modèle logit (ou autre modèle) prvalue prvalue , x(size=10) rest(mean) renvoie pour p(Y=1) : 0.1177 prvalue , x(size=11) rest(mean) renvoie pour p(Y=1) : 0.2622 prvalue , x(size=12) rest(mean) renvoie pour p(Y=1) : 0.4862 prvalue , x(size=10) rest(median) renvoie pour p(Y=1) : 0.0309 prvalue , x(size=11) rest(median) renvoie pour p(Y=1) : 0.0781 prvalue , x(size=12) rest(median) renvoie pour p(Y=1) : 0.1841
![Page 67: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/67.jpg)
Les effets marginaux (2)
La commande prchange est bien utile. Elle produit l’effet marginal de chacune des variables explicatives pour la plupart des variations de valeurs désirées.
prchange [varlist] [if] [in range] ,x(variables_and_values) rest(stat) fromto
prchange prchange, fromto prchange , fromto x(size=10.5) rest(mean)
![Page 68: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/68.jpg)
Qualité de l’estimation
Il n’existe pas de mesure comparable au R2 de la régression linéaire.
On utilise exclusivement la statistique du log de vraisemblance (LL), cad du log de la probabilité jointe d’observer l’échantillon. Plus il y a d’observation, plus le produit des probabilité jointe tend vers 0.
Autrement dit, pour un même modèle, plus il y a d’observations, plus LL tend vers -∞
Pour une même nombre d’observations, plus le modèle est explicatif, plus LL tend vers 0.
C’est en comparant deux LL que l’on évalue la qualité d’un ajustement, avec toujours un modèle contraint et un modèle non contraint.
![Page 69: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/69.jpg)
Le McFadden Pseudo R2
On utilise le McFadden Pseudo R2 (1973) en première analyse pour voir la qualité de l’ajustement. Il s’interprète de manière analogue au R2. Toutefois, parce qu’il reste généralement faible, son utilisation reste limitée.
Le pseudo-R2 dépend des maxima de vraisemblance obtenus si le modèle n’avait qu’une constante (modèle contraint) et pour le modèle complet (modèle non contraint). Il est compris entre 0 et1. Plus il est proche de 1 et mieux c’est.
c nc2 ncMF
nc c
ln L ln L ln LPseudo R 1
ln L ln L
![Page 70: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/70.jpg)
Le rapport de vraisemblance (LR test) Le ratio de vraisemblance dépend aussi des maxima de vraisemblance
et suit une loi de 2. La probabilité que les variables indépendantes ne sont pas explicatives (H0) est donnée par le test du 2.
Le rapport de vraisemblance compare une spécification contrainte à une autre non contrainte:
Ce rapport suit une distribution du 2.
Une grande valeur indique que le modèle non contraint apporte une information significative à l’évènement que le modèle veut expliquer.
nc cLR 2 ln L ln L
![Page 71: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/71.jpg)
Autre utilisation du LR test
Comme output, STATA présente toujours le LR test, comparant le modèle spécifié avec un modèle sans variable explicative et seulement une constante.
On peut réaliser ce test pour comparer deux spécifications pour justifier l’ajout de variables explicatives. Ceci est très utile lorsqu’il s’agit de voir si l’ajout d’une variable apporte de l’information.
logit [modèle contraint] est store [nom1]
logit [modèle non contraint] est store [nom2] lrtest nom2 nom1
![Page 72: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/72.jpg)
La qualité de la prévision
On peut enfin effectuer une comparaison entre les évènements prédits correctement avec ceux prédits avec erreurs.
Il faut alors faire une hypothèse: quand la probabilité prédite est supérieure à 0,5, alors la prédiction est que l’évènement a lieu.
Sous STATA, ceci est effectuer avec estat class
![Page 73: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/73.jpg)
Autre modélisation du choix binaire Le modèle Logit ne constitue qu’une modélisation
possible, même dans le cas où la variable dépendante est une variable binaire.
On utilise largement le modèle Probit comme modèle concurrentiel.
Ou encore le modèle dit log-log complémentaire dans le cas des probabilité de survie, car il se prête bien à la modélisation de la fonction de hasard.
![Page 74: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/74.jpg)
Autres modélisations de choix binaire Le modèle Probit
Le modèle log-log complémentaire
22 2z 2
z e ePr(Y 1| X) dz dz t dt
2 2
Xβ
X β X βX β
Pr(Y 1| X) 1 exp exp( ) X β X β
![Page 75: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/75.jpg)
Les fonctions de vraisemblance et commandes STATA
1
1 1
1
1 1
1
1( , , ) ( , , )
1 1
( , , ) ( , , ) ( ) 1 ( )
( , , ) ( , , ) 1 exp( exp( )) exp( exp(
i i
i i
i
y yn n
i ii i
n ny y
i ii i
ny
i ii
eL y x f y x
e e
L y x f y x
L y x f y x
X β
X β X β
X β X β
X β
Logit :
Probit :
Log-log comp : 1
1
)) in
y
i
X β
Exemple
logit inno rdi size spe pharmaprobit inno rdi size spe pharmacloglog inno rdi size spe pharma
![Page 76: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/76.jpg)
Les fonctions de répartition
0.2
.4.6
.81
y
-4 -2 0 2 4x
Probit Transformation Logit TransformationComplementary log log Transformation
![Page 77: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/77.jpg)
Comparaison des modèlesOLS Logit Probit C log-log
rd - size 0.113 0.757 0.428 0.365
[4.03]*** [3.63]*** [3.55]*** [3.24]***
ln(Actif matériel) 0.126 0.979 0.558 0.495
[8.73]*** [7.43]*** [7.68]*** [7.32]***
ln(spécialisation technologique) 0.051 0.367 0.196 0.131
[1.03] [0.90] [0.87] [0.67]
Dummy Pharma -0.447 -3.782 -2.12 -1.836
[7.56]*** [6.63]*** [6.83]*** [6.57]***
Constant -0.407 -7.64 -4.376 -4.264
[2.39]** [5.31]*** [5.44]*** [5.61]***
Observations 457 457 457 457
Absolute t value in brackets (OLS) z value for other models.
* 10%, ** 5%, *** 1%
![Page 78: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/78.jpg)
Comparaison des effets marginaux
OLS Logit Probit C log-log
Intensité de recherche 0.113 0.085 0.093 0.102
Actif matériel 0.126 0.110 0.121 0.137
Spécialisation technologique 0.051 0.040 0.042 0.037
Entreprise Pharmaceutique -0.445 -0.470 -0.466 -0.455
Pour les modèles logit, probit et cloglog, les effets marginaux ont été évalués par une variation d’un point autour de la moyenne, en utilisant les valeurs moyennes des autres variables.
![Page 79: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/79.jpg)
Le modèle LOGIT multinomial
![Page 80: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/80.jpg)
Le modèle multinomial
Envisageons maintenant le cas où la variable dépendante est
multinomial. Par exemple, dans la cadre des activités d’innovation de
la firme: Collabore avec université (modalité 1) Collabore avec grande firme (modalité 2) Collabore avec PME (modalité 3) Ne collabore pas (modalité 4)
Ou dans le cadre de la survie des firmes: Survie (modalité 1) Banqueroute (modalité 2) Rachat (modalité 3)
![Page 81: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/81.jpg)
![Page 82: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/82.jpg)
Introduction au modèle multinomialPrenons le cas de la survie des firmes. La première possibilité est
d’envisager trois régressions logistiques indépendantes comme suit:
(1) (1) (1)0 1 1 m m
(2) (2) (2)0 1 1 m m
(3) (3) (3)0 1 1 m m
P(Y 1| X)ln x x
1 P(Y 1| X)
P(Y 2 | X)ln x x
1 P(Y 2 | X)
P(Y 3 | X)ln x x
1 P(Y 3 | X)
Où 1 = survie, 2 = banqueroute, 3 = rachat.1. Ouvrez le fichier mlogit.dta2. Pour chaque modalité, estimez la probabilité au point moyen de
l’échantillon, conditionnelle à : - temps (log_time) - la taille (log labour)- l’âge (entry_age)- l’indicatrice spinout (spin_out)- l’indicatrice cohorte (cohort_*)
![Page 83: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/83.jpg)
Introduction au modèle multinomial
(1) (1) (1)0 1 1 m m
(2) (2) (2)0 1 1 m m
(3) (3) (3)0 1 1 m m
P(Y 1| X)ln x x
1 P(Y 1| X)
P(Y 2 | X)ln x x
1 P(Y 2 | X)
P(Y 3 | X)ln x x
1 P(Y 3 X)
|
P(Y 1| X) 0.8771
P(Y 2 | X) 0.0398
P(Y 3 | X) 0.0679
k
P(Y k | X) 0.9848 1
![Page 84: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/84.jpg)
Le modèle multinomial
Premièrement, la somme des probabilités conditionnelles d’occurrence d’évènements exclusifs doit être égale à l’unité.
k
j k
P Y 0 | X 1 P Y j | X
k
j 0
P Y j | X 1
Deuxièmement, pour k modalités différentes, nous n’avons besoin d’estimer que (k – 1) modalités. Donc
![Page 85: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/85.jpg)
Le modèle multinomialTroisièmement, le modèle multinomial est un modèle d’estimation
simultanée comparant des ratios de chance pour chaque pair de
modalités. Dans le cas de trois modalités:
(1|0) (1|0) (1|0)0 1 1 m m
(2|0) (2|0) (2|0)0 1 1 m m
(1|2) (1|2) (1|2)0 1 1 m m
P(Y 1| X)ln x x
P(Y 0 | X)
P(Y 2 | X)ln x x
P(Y 0 | X)
P(Y 1| X)ln x x
P(Y 2 | X)
![Page 86: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/86.jpg)
Le modèle logit multinomial
P Y 1| X P Y 2 | X P Y 1| Xln ln ln
P Y 0 | X P Y 0 | X P Y 2 | X
Remarquons qu’il y a redondance d’information dans les trois modèles précédents. En effet :
1|0 2|0 1|2P Y 1| X P Y 2 | X P Y 1| Xln x ;ln x ;ln x
P Y 0 | X P Y 0 | X P Y 2 | X
1|0 2|0 1|2x x x
1|0 2|0 1|2
Quatrièmement, l’estimation d’un modèle multinomial revient à estimer conjointement (k – 1) modèles logit en posant la contrainte sur les paramètres à estimer:
![Page 87: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/87.jpg)
Le modèle logit multinomial
( j|0 )
( j|0 )
x
j kx
j 0
eP Y j | X
e
Dans une modélisation logistique à k modalités, la probabilité d’occurrence de la modalité j s’écrit:
Par convention, la modalité 0 est la modalité de base
![Page 88: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/88.jpg)
Le modèle logit multinomial
j| j P Y j | X
x ln ln(1) 0P Y j | X
Notez que j| jx, j : 0
( j|0 )j kx
j 1
1P Y 0 | X
1 e
( j|0 )
( j|0 )
x
j kx
j 1
eP Y j | X
1 e
( j|0 )
( j|0 )
x
j kx
j 0
eP Y j | X
e
![Page 89: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/89.jpg)
Le modèle Logit binomial comme un cas particulier du logit multinomialRéécrivons la probabilité de l’évènement Y=1
On voit bien que le logit binomial est un cas particulier du cas multinomial où seulement deux modalités sont analysées.
(1|0) (1|0) (1|0)
(1|0) (0|0) (1|0) ( k|0)
x
x
x x x
x x x x
k 0,1
eP Y 1| X
1 e
e e eP Y 1| X
1 e e e e
![Page 90: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/90.jpg)
La méthode du maximum de vraisemblance Supposons que nous disposons d’un échantillon de n observations
aléatoires. Soit f(Y) la probabilité que Y=j. La probabilité jointe d’observer les n variables de Y est donnée par la fonction de vraisemblance :
n
1 2 n ii 1
f y , y ,..., y f (y )
On doit maintenant spécifier la fonction f(.). Elle découle de la distribution des probabilités d’un événement qui peut avoir plusieurs modalités. Il s’agit de la distribution multinomiale :
j0 1 k ki i i i idYdY dY dY dY
i 0 1 j k jj K
f (y ) p p p p p
![Page 91: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/91.jpg)
La fonction de vraisemblance
En définitive, la fonction de vraisemblance s’écrit:
ji
j0i i
( j|0)
( j|0) ( j|0)
n n kdY
i ji 1 i 1 j 1
dY dY
xn n k( j|0)
i i j k j kx xi 1 i 1 j 1
j 1 j 1
L(y) f y p
1 eL(y) f y , x ,
1 e 1 e
![Page 92: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/92.jpg)
La fonction de vraisemblance
Après manipulation, la fonction log de la vraisemblance s’écrit
( j|0)i
( j|0) ( j|0)i i
( j|0)i i
xn k( j|0) 0 j
i ij k j kx xi 1 j 1
j 0 j 0
j kx x( j|0) j ( j|0)
i ij 0
1 eLL(y, x, ) dy ln dy ln
1 e 1 e
LL(y, x, ) ln 1 e dy x ln 1 e
( j|0)
( j|0)i
j kn k
i 1 j 1 j 0
j kn k kx( j|0) j ( j|0)
i ii 1 j 1 j 1 j 0
LL(y, x, ) dy x k 1 ln 1 e
![Page 93: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/93.jpg)
Le modèle de logit multinomial
Instruction Stata : mlogit
mlogit y x1 x2 x3 … xk [if] [weight] [, options]
Options : noconstant : estime le modèle sans constante
robust : estime des variances robustes, même en cas d'hétéroscédasticité
if : permet de sélectionner les observations sur lesquelles portera la régression
weight : permet de pondérer les différentes observations
![Page 94: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/94.jpg)
Le modèle de logit multinomialuse mlogit.dta, clear mlogit type_exit log_time log_labour entry_age entry_spin cohort_*
Dans Stata, la modalité de référence est celle qui a la plus grande fréquence empirique
Bloc des description de l’ajustement
Paramètres estimés, erreurs standards et probabilités critiques
![Page 95: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/95.jpg)
Interprétation des coefficientsL’interprétation des coefficients s’effectue toujours en référence à la
catégorie de base.
La probabilité de rachat décroit-elle avec le temps ?
Non!! L’interprétation correcte est:
relativement à la survie, la probabilité de rachat décroit avec le temps
![Page 96: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/96.jpg)
Interprétation des coefficientsL’interprétation des coefficients s’effectue toujours en référence à la
catégorie de base.
La probabilité de rachat est elle moins forte pour les « spinoffs » ?
Non!! L’interprétation correcte est:
relativement à la survie, La probabilité de rachat est moins forte pour les
« spinoffs »
![Page 97: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/97.jpg)
Interprétation des coefficients
Relativement à la banqueroute, la probabilité de rachat est plus forte
pour les « spinoffs »
1|0 2|0 1|2 2|0 1|0 2|1
lincom [boughtout]entry_spin – [death]entry_spin
![Page 98: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/98.jpg)
Croiser les référencesmcross fait le travail pour nous !
Attention à la nouvelle catégorie de référence !!
Rachat relativement à la banqueroute
Relativement à la banqueroute, la probabilité de rachat est plus forte
pour les « spinoffs »
![Page 99: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/99.jpg)
Croiser les référencesmcross fait le travail pour nous !
Et nous retrouvons notre résultat précédent
![Page 100: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/100.jpg)
L’hypothèse d’indépendances des états non pertinents (IIA)
Le modèle repose sur l’hypothèse que pour chaque paire de modalités les réalisations sont indépendantes des autres modalités. Autrement dit, les autres modalités sont non pertinentes (irrelevant).
D’un point de vue statistique, cela revient à faire l’hypothèse d’indépendance des termes d’erreur entres les différentes modalités (d’où le nom IIA: Independence of irrelevant alternatives)
Une façon simple de tester la propriété IIA est alors d’estimer le modèle en retirant une modalité (pour retreindre les choix), et de comparer les nouveaux paramètres avec ceux du modèle complet Si IIA est valide, les paramètres ne changent pas significativement Si IIA n’est pas valide, les paramètres changent significativement
![Page 101: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/101.jpg)
L’hypothèse d’indépendances des états non pertinents (IIA) H0: La propriété IIA est valide
H1: La propriété IIA n’est pas valide
1* * *
R C R C R Cˆ ˆ ˆ ˆ ˆ ˆH var var
La statistique H (H car il s’agit en fait d’un test d’Hausman) suit une distribution du χ² à M degré de liberté (M étant le nombre de paramètres)
![Page 102: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/102.jpg)
Application de IIA
H0: La propriété IIA est valide
H1: La propriété IIA n’est pas valide
mlogtest, hausman
Variable omise
![Page 103: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/103.jpg)
Application de IIA
H0: La propriété IIA est valide
H1: La propriété IIA n’est pas valide
mlogtest, hausmanDonc on compare les paramètres du modèle
« Banqueroute relativement à Rachat » estimé conjointement avec
« survie relativement à rachat»
avec
les paramètres du modèle « Banqueroute relativement à Rachat »
estimé sans « survie relativement à rachat»
![Page 104: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/104.jpg)
Application de IIA
H0: La propriété IIA est valide
H1: La propriété IIA n’est pas valide
mlogtest, hausman
La conclusion est que la modalité survie modifie significativement l’arbitrage rachat ou
banqueroute.
En fait pour une firme, le rachat peut être vu comme une modalité de rester en activité avec
une perte sur la décision économique d’investissement notamment.
![Page 105: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/105.jpg)
Le LOGIT multinomial ordonné
![Page 106: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/106.jpg)
Le modèle multinomial ordonnéEnvisageons maintenant le cas où la variable dépendante est une
variable discrète, dont la valeur indique une intensité. Typiquement,
dans le cadre d’une enquête d’opinion (genre CIS1-4), on a des
questions dont la réponse est codée par une échelle de Likert :
Obstacles à l’innovation (échelle de 1 à 5) Intensité de collaboration (échelle de 1 à 5) Enquête de marketing (N’apprécie pas (1) – Apprécie (7)) Note d’étudiants Test d’opinion Etc.
![Page 107: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/107.jpg)
La structure ordonnée
*n 1
*n1 2*n2 3
*3 k
y 1 si y
y 2 si y
y 3 si y
y k si y
M
Ces variables décrivent des échelles verticales – quantitatives, si
bien qu’une façon de modéliser le problème est de considérer des
intervalles dans lesquels la variable latente y* peut se trouver
où αj sont des bornes inconnues à estimer, définissant la frontière
des intervalles.
![Page 108: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/108.jpg)
La structure ordonnée
i i*i x uy
On pose ensuite l’hypothèse que la variable latente (non observée)
y* est une combinaison linéaire des variables explicatives :
où ui admet une fonction de répartition F(.). Les probabilités
associées aux réalisations de y (y ≠ y*) sont alors liées à la fonction
de répartition de F(.). Regardons la probabilité que y = 1 :
1 i
1 i
i i
i i
x
1 i x
*1i
1
1
P(y 1) P
P(y 1) P x u
P(y 1) P u x
eP(y 1) x
1 e
y
![Page 109: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/109.jpg)
La structure ordonnée
Regardons la probabilité que y = 2 :
i 1 i
i 1 i
2
2
x x
2 i 1 i x x
* *2 1i iP(y 2) P P
e eP(y 2) x x
1 e 1 e
y y
Donc dans l’ensemble, nous avons:
1 i
2 i 1 i
3 i 2 i
k 1 i
P(Y 1) x
P(Y 2) x x
P(Y 3) x x
P(Y k) 1 x
M
![Page 110: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/110.jpg)
Probabilité dans le modèle ordonné
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
y=3y=2y=1 y=k
1 ix 2 ix 3 ix k 1 ix
ui
![Page 111: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/111.jpg)
La fonction de vraisemblance
j
0 n
k n
dyn k
j i j-1 ii=1 j=1
y, x,
avec
F( - x ) 0
F( - x ) 1
L( , ) = F( x ) F( x )
En définitive, la fonction de vraisemblance s’écrit:
![Page 112: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/112.jpg)
Dans le cas où ui suit une fonction logistique, la fonction log de la vraisemblance s’écrit :
j i j-1 i
j i j-1 i
x xn kji x x
i 1 j 1
jj i j-1 i
j i j-1 i
dyx xn k
x xi=1 j=1
y, x,
et donc
e ey, x, dy ln
1 e 1 e
e eL( , ) =1 e 1 e
LL( , ) =
La fonction de vraisemblance
![Page 113: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/113.jpg)
Le logit multinomial ordonnée
Instruction Stata : ologit
ologit y x1 x2 x3 … xk [if] [weight] [, options]
Options : noconstant : estime le modèle sans constante
robust : estime des variances robustes, même en cas d'hétéroscédasticité
if : permet de sélectionner les observations sur lesquelles portera la régression
weight : permet de pondérer les différentes observations
![Page 114: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/114.jpg)
Le modèle de logit multinomialuse est_var_qual.dta, clear ologit innovativeness size rdi spe biotech
Qualité de l’ajustement
Paramètres estimés
Points seuils
![Page 115: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/115.jpg)
Interprétation des coefficients
i i1.95
i 1.95
i
1P(y 1) P x ue
P(y 1) P 270.5 u 268.6 .12451 e
P(y 1) P u 1.9
Un signe positif signifie une relation positive entre la variable explicative et le rang (ou l’ordre)
Une des difficultés dans l’interprétation est le rôle des variables de seuil. Notre modèle est :
Quelle est la probabilité que Y = 1 : P( = 1) ? Quelle est la probabilité que le score soit inférieur au premier seuil ?
i iScore x u
![Page 116: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/116.jpg)
Interprétation des coefficients
i i1.95
i 1.95
i 2 i 1 i
i i1.95
i 1.95
i
1
2
P(y 1) P x ue
P(y 1) P 270.5 u 268.6 .12451 e
P(y 1) P u 1.9 P(Y 2) F x F x
P(Y
P(y 1) P x ue
P(y 1) P 270.5 u 269.3 .23211 e
P(y 1) P u 1.2
2) .2321 .1245
P(Y 2) .1076
Quelle est la probabilité que Y = 2 : P( Y = 2) ?
![Page 117: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/117.jpg)
Obtenir les probabilité préditesprvalue fait le travail pour nous !
![Page 118: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/118.jpg)
Les modèles de comptage
Partie 1. Le modèle de Poisson
![Page 119: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/119.jpg)
![Page 120: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/120.jpg)
Les modèles de comptage
Envisageons maintenant le cas où la variable dépendante est une variable
discrète positive qui décrit un nombre d’évènement. Typiquement, dans le
cadre de l’analyse de l’innovation, on dénombre des innovations, de
demande de brevets, des inventions.
On pourrait utiliser les MCO mais les MCO peuvent produire des prédictions
négatives. Pour les cas où les recensement sont importants (nombre de
brevets par pays, et non par firme), alors les MCO peuvent être utilisés. On
pourrait utiliser le modèle multinomial ordonné pour le faible dénombrement.
Généralement on utilise les modèle de comptage, dont la variable à
expliquer suit une loi de Poisson.
![Page 121: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/121.jpg)
Le modèle de Poisson
Soit Y variable aléatoire de comptage, la probabilité donnée par la
distribution de Poisson que Y soit égale à un entier yi est :
Pour introduire les variables explicatives dans le modèle, on conditionne
λi en imposant la forme log-linéaire comme suit:
i iyi
i ii
i
eP Y y , y 0,1,2,...
y !
avec E Y var Y
ixi
i i
e
ln x
![Page 122: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/122.jpg)
La distribution de Poisson
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0.8 1.5
2.9 10.5
Valeur de Lambda
![Page 123: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/123.jpg)
La fonction de vraisemblance s’écrit :
i
nx
i i ii 1
i iyni
i=1 i
y,
et donc
y, x, y x e ln y !
eL( ) =
y !
LL( ) =
La fonction de vraisemblance
![Page 124: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/124.jpg)
Le modèle de Poisson
Instruction Stata : poisson
poisson y x1 x2 x3 … xk [if] [weight] [, options]
Options : noconstant : estime le modèle sans constante
robust : estime des variances robustes, même en cas d'hétéroscédasticité
if : permet de sélectionner les observations sur lesquelles portera la régression
weight : permet de pondérer les différentes observations
![Page 125: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/125.jpg)
Le modèle de Poissonuse est_var_qual.dta, clear poisson poisson PAT rdi size spe biotech
Bloc des paramètres estimés
Bloc des description de l’ajustement
![Page 126: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/126.jpg)
L’interprétation des coefficients
i i
ln x 1 xln x ; x
x x xln
Si les variables sont entrées en logarithme, on peut interpréter les coefficients comme des élasticités :
L’augmentation de 1% de la taille de l’entreprise est associée à une augmentation de 0.51% du nombre espéré de brevets
![Page 127: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/127.jpg)
L’interprétation des coefficients
i i
ln x 1 xln x ; x
x x xln
Si les variables sont entrées en logarithme, on peut interpréter les coefficients comme des élasticités :
L’augmentation de 1% de l’investissement en R&D est associée à une augmentation de 0.79% du nombre espéré de brevets
![Page 128: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/128.jpg)
L’interprétation des coefficientsSi la variable explicatives n’est pas une transformé logarithmique, l’interprétation change
L’augmentation de 1 point du degré de spécialisation est associée à une augmentation de 0.74% du nombre espéré de brevets
![Page 129: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/129.jpg)
L’interprétation des coefficientsPour les variables muettes, l’interprétation est légèrement différentes
Les entreprises de biotechnologie ont un nombre espéré de brevets supérieur de 1% aux autres entreprises.
![Page 130: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/130.jpg)
L’interprétation des coefficientsToutes les variables sont extrêmement significatives
… mais hélas …
E Y var Y
![Page 131: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/131.jpg)
Les modèles de comptagePartie 2. Le modèle négatif
binomial
![Page 132: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/132.jpg)
Le modèle négatif binomial
Généralement, le modèle de Poisson est invalidé par la présence
d’une surdispersion des données qui violent l’hypothèse d’égalité
des deux premiers moments de la distribution: la moyenne et la
variance.
Le modèle négatif binomial pallie à ce problème en ajoutant à la
forme log-linéaire un terme d’hétérogénéité non observée:
i i i i iln v ln ln u x
ii iyu
i ii
i
e uP Y y
y !
![Page 133: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/133.jpg)
Le modèle négatif binomialLa densité de yi (la probabilité) est obtenue en prenant l’espérance
de l’expression par rapport à la densité de ui :
ii i
i
yuui i 1
i i i i i ii0
ave u
f Y y | x g u du e uec g uy !
En supposant que ui suit une loi Gamma de moyenne 1, la densité
de yi devient :
iy
i ii i
i i i
yY y x
y 1
f |
![Page 134: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/134.jpg)
La fonction de vraisemblance
i
i
yn
i i
i 1 i i i
nx
i i ii 1
yL y, ,
y 1
LL y,x , y x y ln e ln
Où alpha est le paramètre de surdispersion
![Page 135: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/135.jpg)
Le modèle négatif binomial
Instruction Stata : nbreg
nbreg y x1 x2 x3 … xk [if] [weight] [, options]
Options : noconstant : estime le modèle sans constante
robust : estime des variances robustes, même en cas d'hétéroscédasticité
if : permet de sélectionner les observations sur lesquelles portera la régression
weight : permet de pondérer les différentes observations
![Page 136: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/136.jpg)
Le modèle de Poissonuse est_var_qual.dta, clear nbreg poisson PAT rdi size spe biotech
Qualité de l’ajustement
Paramètres estimés
Paramètre de surdispersion
Test de surdispersion
![Page 137: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/137.jpg)
L’interprétation des coefficientsSi les variables sont entrées en logarithme, on pouvons toujours interpréter les coefficients comme des élasticités :
L’augmentation de 1% de la taille de l’entreprise est associée à une augmentation de 0.66% du nombre espéré de brevets
![Page 138: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/138.jpg)
L’interprétation des coefficientsSi les variables sont entrées en logarithme, on pouvons toujours interpréter les coefficients comme des élasticités :
L’augmentation de 1% de la taille des dépenses de R&D est associée à une augmentation de 0.86% du nombre espéré de brevets
![Page 139: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/139.jpg)
L’interprétation des coefficientsSi la variable explicatives n’est pas une transformé logarithmique, l’interprétation change:
L’augmentation de 1 point du degré de spécialisation est associée à une augmentation de 0.84% du nombre espéré de brevets
![Page 140: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/140.jpg)
L’interprétation des coefficientsEt pour les variables muettes :
Les entreprises de biotechnologie ont un nombre espéré de brevets supérieur de 1,56% aux autres entreprises.
![Page 141: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/141.jpg)
Le test de surdispersion
On utilise le test LR qui compare le modèle négatif binomial avec le modèle de Poisson
NBREG PRMLR 2 ln L ln L 2 3055 6110
-4536-1481 -
Le résultat du test (H0: Alpha=0) rejette l’hypothèse de nullité de alpha. Il y a de la surdispersion dans les données. Il faut donc choisir
le modèle binomial négatif.
![Page 142: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/142.jpg)
Des erreurs standard plus grandesDes valeurs z plus petites
![Page 143: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/143.jpg)
Extensions
![Page 144: Les variables qualitatives](https://reader036.fdocuments.fr/reader036/viewer/2022062517/56812cab550346895d915a81/html5/thumbnails/144.jpg)
Estimateurs MV Tous les modèles présentés peuvent être étendus à la prise en
compte de l’hétérogénéité non observée Effets fixes Effets aléatoires
Le modèle d’Heckman Biais de sélection Deux équations, dont la première estime la probabilité d’être
observé
Les modèles de survie En temps discret: log-log complémentaire, logit En temps continu