ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et...
-
Upload
hamblin-baudoin -
Category
Documents
-
view
106 -
download
0
Transcript of ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et...
ELEMENTS DE COURS
1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica.
2. FALISSARD B. (2005)Comprendre et utiliser les statistiques dans les sciences de la vie. Masson (3ème Edition)
3. TOULEMON L. (1995) Régression logistique et régression sur les risques.Documents de travail n°46 - INED
Pourquoi un enseignement de régression logistique en Master 1 de démographie ?
1. Outil de plus en plus courant en sciences humaines et sociales et utilisé par les démographes
2. Un outil de standardisation Raisonnement «toutes choses égales par ailleurs »
3. Typique des modèles de régression multivariées
Principes des modèles de régression Une variable Y que l’on cherche à expliquer …
Elle est dite « à expliquer », « dépendante » « endogène »
… par des variables X. Elle sont dites :
« explicatives », « indépendantes » « exogènes»
Modèles qui varient selon la nature de la variable à expliquer
Si la variable à expliquer est quantitative continue :
La régression suit un modèle linéaire
Si la variable à expliquer est dichotomique ou multinominale
La régression suit un modèle dit « logistique » ou « log-linéaire »
Régression logistique : quel lien avec l’analyse démographique (1)
En analyse démographique, on étudie classiquement :
l’arrivée d’un événement dans une population à différentes durées
ou encore le risque couru par des individus d’une population donnée de connaître un événement donné.
La mesure de l’intensité d’un phénomène à événement renouvelable se mesure par un nombre moyen d’événements connus par un individu à une durée donnée….
…. Ce nombre moyen peut être la variable « à expliquer », quantitative continue à expliquer.
Dans ce cas utilisation d’un modèle linéaire
MAIS ATTENTION UNE DIFFERENCE FONDAMENTALE : Un des buts de l’analyse démographique est de mesurer une intensité en l’absence de
phénomène perturbateur ce que ne permet en rien la régression logistique.
Régression logistique : quel lien avec l’analyse démographique (2)
Si le phénomène étudié se manifeste par un événement non renouvelable :
La mesure de l’intensité d’un phénomène à événement non renouvelable se mesure par une proportion….
…. proportion de personne qui est dans un état donné ou qui a connu un événement donné à une durée donnée
Derrière la notion « Être ou non dans un état » peut se lire une variable Y Indicatrice (1 ou 0) que l’on chercher à expliquer. D’où l’utilité d’une régression logistique
MAIS ATTENTION UNE DIIFERENCE FONDAMENTALE : Un des buts de l’analyse démographique est de mesurer une intensité en
l’absence de phénomène perturbateur ce que ne permet en rien la régression logistique.
L’intérêt de l’approche multivariée (1)
Pour juger de la corrélation entre deux variables vous savez :
Si 2 variables qualitaties : utiliser le test du Khi-2 Si 2 variables quantitatives : utiliser la régression et corrélation
linéaire (R²)
Possible de multiplier les croisements de couples de variables connues MAIS :
Risques d’interprétations erronées Jamais un raisonnement « toutes choses égales par ailleurs »
L’intérêt de l’approche multivariée (2)
La régression multivariée permet : de démêler l’impact des différentes
caractéristiques d’un individu sur son comportement
de repérer quelles variables sont les plus influentes, « toutes choses égales par ailleurs », sur la probabilité ,
de survenue d’un phénomène étudié d’être/avoir telle ou telle caractéristique.
La notion d’échelle de mesure
Il existe au moins 4 échelles de mesure pour comparer des valeurs. Nous traiterons ici de(s)
-l’échelle additive (linéaire),
-Les échelles multiplicatives
-L’échelle logistique
OBJECTIF : décrire et comprendre la logique et les propriétés de l’échelle logistique
L’exempleComment mesurer l’évolution des inégalités sociales
devant l’école ?
Année de naissance des enfants
Proportion de bacheliers selon la profession du père et l’année de
naissance
1880-1890 1910-1920
Cadre 35 % 50 %
Manœuvre 4 % 8 %
Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.
Année de naissance des enfants
Proportion de bacheliers selon la profession du père
et l’année de naissance
1880 1890
1910 1920
Cadre 35 % 50 %
Manœuvre 4 % 8 %
Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.
Trois dimensions dans ce tableau
-L’origine sociale
-La génération
-L’accès aux études
Quelles conclusions ?
1 – Inégalité quelle que soit la génération
2 – Augmentation de la réussite quelle que soit l’origine sociale
Mais qu’en est-il de l’évolution des inégalités ?
• Ont-elles augmenté ou diminué ?
• La proportion de bacheliers a-t-elle davantage augmenté chez les enfants de cadres que chez les enfants de manœuvres ?
Il faut pour cela comparer les « distances » entre :
4% par rapport à 35% = inégalité pour la 1ère génération 8% par rapport à 50% = inégalité pour la 2ème génération
Le raisonnement est le suivant
Quelle serait la proportion p* de fils de cadres bacheliers dans la génération 1915 qui correspondrait à une inégalité constante, les trois autres proportions restant inchangées ?
Ensuite on compare cette proportion p* à p, celle observée dans la réalité (c'est-à-dire 50%=p)
Cas 1 : p* >p. L’inégalité a. diminué Cas 2 : p* <p. L’inégalité a augmenté. Cas 2 : p* = p. L’inégalité est stable
Suivant l’ l’échelle que l’on va choisir on va observer des valeurs de p* différentes et on arrive à des conclusions contradictoires.
Posons le problème
Soit « X » la propension à obtenir son Bac dans la population La relation entre p et X est positive
Quand la propension X augmente, « p » augmente
La relation s’écrit p = f(X)
Si l’inégalité entre les deux groupes est constante alors f(X1) = f(X2) à une date « t » donnée.
Avec X1 la propension pour les enfants de cadres et X2 pour les enfants de manœuvres
Si on retient une échelle additive
bXap *
« a » est positif
La relation s’écrit p = f(X)
0%4%8%
12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%
100%104%
Propension (X)
p
p = a*X + b
Echelle additive
Xp bXap *
Si a = 1 et b=0
Devient
Et
1212 ppXX Si pas d’inégalité croissante, alors
p* = 35% + (8% - 4%)
P* = 39,0%
Echelle multiplicative
0%4%8%
12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%
100%104%
Propension (X)
p
p = exp (aX + b)
Si on retient une échelle multiplicative
ebXa
p)*(
Posons pour simplifier
)ln( doncet pXp eX
a = 1 et b=0
bYap *
)ln()ln()ln(1
21212
p
pppXX
Si pas d’inégalité croissante, alors
%4
%8%35* p
%4
%35%8* p
Soit :
p* = 70,0%
OU BIEN
Echelle multiplicative en (1-p)
0%4%8%
12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%
100%104%
Propension (Y)
p
p=1-exp(-aX-b)
Si on retient une échelle multiplicative en (1-p)
ebXa
p 1)*(
)1ln( doncet 1 pXp eX
Posons pour simplifier a = 1 et b=0
bYap *
Si pas d’inégalité croissante, alors
Soit :1-p*= 62,3%
p* = 37,7%
)21ln()11ln(12 ppXX
)21
11ln(
p
p
%)41(
%)81(%)351(*1
p
Finalement
La comparaison sur une échelle additive est adaptée si les proportions sont moyennes
La comparaison sur une échelle multiplicative est adaptée si les proportions sont faibles (phénomènes rares)
La comparaison sur une échelle multiplicative en (1-p) est adaptée si les proportions sont fortes (phénomènes fréquents)
Si les proportions varient sur un large spectre
C’est l’échelle logistique qui permettra de comparer des évolutions entre proportions.
C’est le cas dans notre exemple.
Echelle logistique
0%4%8%
12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%
100%104%
Propension (X)
p
p=1/(1+exp(-aX-b))
Si on retient une échelle logistique
0 1 betasi
)*exp(1
1
bXap
)exp(1
)exp(
)exp(1
1
X
X
Xp
p
ppX
1ln)(logit
)1(logit)2(logit12 ppXX
111
212
ln
pp
pp
La différence entre X2 et X1 est appelée contraste logistique entre p2 et p1 en anglais : ln(odds- ratio), appelée « α » et…
l’exponentielle du contraste logistique est ce que l’on appelle l’ODDS-Ratio .
ratioodds
pp
pp
1
1
2
2
1
1)exp(
Si pas d’inégalité croissante, alors
%41%4
%81%8
%351%35
*1*
PP
%41%4
%351%35
%81%8
*1*
PP
et
%4
%41*
%351
%35*
%81
%8
*1
*
P
P
%)41(%35%84%)351(%)81(
%)41(%35%8*
P
P*= 52,9%
Finalement(proportions en %) Valeur
théoriqueComparaison
Modèle (échelle) p* p<p*
AdditifMultiplicatifMultiplicatif en 1-pLogistique
39,0%70,0%37,7%52,9%
NonOuiNonOui
Valeur réelle (p) 50,0% -
L’échelle logistique ou log linéaire permet de comparer des pourcentage pour toutes les valeurs de l’échelle de mesure : très faible comme
l’échelle multiplicative, moyens comme l’échelle additive et très élevée comme l’échelle multiplicative de (1-p).
La notion d’odds-ratio Dans le cas de l’étude des variables dichotomiques suivantes
tirées d’une enquête auprès de femmes âgées de 25 ans : le fait d’être ou non déjà mère le fait de vivre ou non en couple
Être mère
Oui Non
Vie en couple 115 (A) 142 (B)
Ne vit pas en couple
19 (C) 131(D)
La notion d’odds-ratioÊtre mère
Oui Non
Vie en couple 115 (A) 142 (B)
Ne vit pas en couple 19 (C) 131(D)
BC
DA
DC
BA
OR*
*
Interprétation : A 25 ans, il y a 5,6 fois plus de mères par rapports à des non mères chez les jeunes femmes en couple que de mère par rapport aux non mères chez celles ne vivant pas en couple.
58,5
13119
142115
Notion proche : le risque relatifÊtre mère
Oui Non
Vie en couple 115 (A) 142 (B)
Ne vit pas en couple 19 (C) 131(D)
)(*
)(*
)(
)(BAC
DCA
DCC
BAA
RR
Interprétation : Le « risque » ou la probabilité d’être mère est 3,5 fois plus fort si on est en couple que si on ne l’ai pas.
53,3
)13119(19
)142115(115
La notion de modèle (1) On postule qu’il existe une relation (corrélation) entre la valeur de la variable Y « à expliquer » et les valeurs des variables X explicatives.
Cette relation prend la forme d’un relation mathématique (modèle) dont on doit choisir la forme : linéaire, logistique,…
Cette relation s’écrit comme ceci :
Yi = f (X1, X2, X2, …., Xk)Avec :
-Les Xi sont les valeurs observées pour les variables Xi
-La valeur de Yi est celle estimée par le modèle.
La notion de modèle (2)La construction d’un modèle consiste à déterminer, selon une relation mathématique
les coefficients ou paramètres a attribuer à chacune des variables explicatives « Xi » tels que
La distance totale entre les valeurs observées et les valeurs
théoriques soit minimum : on parle d’ajustement.
Trois notions centrales REGRESSION, PREDICTION AJUSTEMENTTEST
La régression (linéaire)Considérons 3 variables (Y, X1 et X2) observées auprès d’individus d’un échantillon de taille n
leurs valeurs sont notées (yi, x1i, x2i) pour « i » allant de 1 à n.
Effectuer une régression linéaire de « Y » à partir de X1 et X2 c’est :
1- rechercher a0, a1,et a2 tels que
ii xaxaayi 22110
La régression (linéaire)
etiii exaxaayi 22110
ii xaxaayi 22110
Avec « ei » le résidu.
La série des « ai » est obtenue à partir d’un algorithme sous la contrainte de minimiser le terme suivant :
²ie
Le cas particulier de la régression logistique
La régression logistique combine les avantages de l’échelle logistique et de la régression.
Il s’agit de généraliser la notion d’odds-ratio et de test de chi-2 qui permettent de juger de la dépendance entre variables qualitative ou binaires.
Le cas particulier de la régression logistique
Soit « Y » la variable dépendante. Chaque individu a pour valeur soit 1, soit 0 selon qu’il est ou non
la caractéristique étudiée ou qu’il soit ou non dans l’état étudié.
Nombreux exemples en démographie Parmi les variables que l’on cherche à expliquer :
La probabilité d’avoir ou non un troisième enfant, de vouloir ou non un troisième enfant.
La probabilité de voir son père ou/et sa mère au moins une fois par semaine
La probabilité d’utiliser un moyen de contraception dit moderne La probabilité d’avoir eu un enfant avant 25 ans La probabilité de vivre en couple.
La mise en place de la régression logistique
Soit « pi » la probabilité pour que Y=1 pour l’individu «i».
Au lieu d’utiliser un modèle linéaire qui donnerait des valeurs estimées à l’extérieur des bornes acceptables pour une probabilité [0 ;1], nous utilisons un modèle logit.
La mise en place de la régression logistique
Exemple : Y une variable telle que :
Y=1 si la femme a un enfant Y=0 sinon
On observe les réponses des 76 femmes de la génération 1960. A chaque âge compris entre 15 et 40 ans elles ont deux états possibles : 1 ou 0.
On veut ajuster la variable proportion de femmes mères selon l’âge de celles ci avec une équation.
Effectifs de mères de la génération 1960 par âge selon qu'elles aient ou non un enfant
-0,1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
10 15 20 25 30 35 40 45
Âge
A un
enf
ant(=
1) o
u no
n (=
0)Les premières naissances dans la génération
1960 – France – Enquête ERFI ( n=76)
Les premières naissances dans la génération 1960 – France – Enquête ERFI ( n=76)
Proportion de mères ayant eu au oins un enfant selon l'âge
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 39 40Âge
% d
es m
ères
Proportion de mères ayant eu au oins un enfant selon l'âge
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 39 40Âge
% d
es m
ères
xi 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 373
9 40
fi1%
4%
5%
7%
12%
17%
22%
26%
32%
41%
51%
61%
66%
75%
76%
82%
87%
89%
93%
95%
96%
97%
99%
100%
La mise en place de la régression logistique
Il s’agit de déterminer l’équation de la droite qui ajuste le mieux les points (xi, fi). Avec xi = âge Et fi = proportion de mère à l’âge i
Au lieu d’utiliser un modèle linéaire (ajustement par une droite) -qui donnerait des valeurs estimées à l’extérieur des bornes acceptables pour une probabilité [0;1] – nous utiliserons un modèle logit.
Les équations de la régression logistique – une seule variable
Soit :
eeXYPX
X
X
X
X
1)/1()(
)exp(1
)exp(
la probabilité que Y=1 si xi=X d’après le modèle
))(1
)(ln()()(itlogx
xXgx
Et :
)(x
XXg *)(
Les résultats donnés par SAS
)34,833,0exp(1
)34,833,0exp()/1()(
X
XXYPX
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -8.3383 0.3765 490.6104 <.0001 Age 1 0.3317 0.0147 511.4980 <.0001
033,0)34,815*33,0exp(1
)34,815*33,0exp(15
XSi
Les résultats donnés par SASAge Observé Calculé
15 1,3% 3,3%
16 3,9% 4,5%
17 5,3% 6,1%
18 6,6% 8,3%
19 11,8% 11,2%
34 94,7% 94,7%
36 96,1% 97,2%
37 97,4% 98,0%
39 98,7% 98,9%
40 100,0% 99,2%
Proportion de mères ayant eu au moins un enfant selon l'âge
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
13 18 23 28 33 38 43Âge
% d
es m
ères
OBSERVATIONMODELE
)34,833,0exp(1
)34,833,0exp(*
X
Xp
Généralisation du modèle logistique La valeur de «pi» varie selon les valeurs prises par les
différentes variables indépendantes synthétisées par un vecteur X selon la relation (équation) de la forme logistique suivante :
)*exp(1
)*exp(
)*exp(
1)(
X
X
XX
Le vecteur X contient : La constante du modèle. Elle ne varie pas d’un individu à un autre
Un ensemble de valeur pour les variables explicatives du modèle. Ces valeurs peuvent être continues, discrètes ou qualitatives à deux ou plusieurs modalités. Ce sont des valeurs observées.
β est un vecteur qui contient les paramètres estimés du modèle.
)*exp(1
)*exp(
)*exp(
1)(
X
X
XX
La prévision et l’ajustementUne fois la relation (équation de l’ajustement) établie, on peut :
1- Prédire la valeur de Yi pour un individu statistique dont on ne connaît que les valeurs de X1 et X2
= établir des prévisions
2- Juger de la relation entre Y et X1 si X2 est constant. Donc permet de juger de la force de la corrélation entre Y et X1, toutes choses, prises en compte par le modèle, égales par ailleurs. On parle d’ajustement de Y sur X2
ATTENTION : 1- Le modèle n’est valable que pour les variables et le contexte
(population) considéré DONC attention aux prévisions si on oubli un éléments de prévisions important.
2- Le modèle ne donnera une bonne prévision que pour une proportion d’individus. Plus cette proportion s’approche de 1, plus le modèle va être considéré comme bon.
Le testLorsque l’on veut tester la liaison entre une variable Y quantitative et une variable X1 avec un ajustement sur les variables X2, X3, …., Xp,
Le test va porter sur le coefficient « a1 », appelé aussi paramètre, de la régression de la forme
pipii xaxaxaaYi .....22110
H0 : a1 =0 / 0H : a1 <>0
Le test est le suivant :
Les hypothèses
la normalité des résidus « ei ».
L’indépendance de var(« ei ») avec yi et les xj
L’indépendance des « ei » avec chacune des variables.
La robustesse du modèle
La robustesse du modèle est forte si le fait d’enlever une observation fait peu varier les valeurs estimées des paramètres « ai »
Les individus qui font le plus varier les valeurs des paramètres doivent être alors discutés après avoir été repérés.
Les problèmes de colinéarité
Certaines variables explicatives peuvent être corrélées. La qualité du modèle en sera affectée.
Si une des variables est une combinaison linéaire d’autres variables, le modèle devient indéterminé. Par exemple la superficie, la population et la densité densité
pour expliquer par exemple le taux de criminalité dans un pays. Il s’agit d’une situation de colinéarité.
Dans le moindre doute, il faut retirer une des variables associées du modèle.
Il est prudent de tester préalablement au modèle l’ensemble des relations entre les variables 2 par 2.
Exercice application 1Exposition
E =1 E=0
M = 1 90 90
M= 0 450 900
1) Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)
2) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle.
3) Déterminer la valeur de la constante du modèle sachant qu’elle vaut g(Y=1/X=0)
3) Donner l’équation du modèle qui permet de décrire le risque de la maladie M en fonction de l’exposition de E.
4) À partir du modèle logistique décrit en 3) recalculez les différentes probabilités décrites en 1).
Exercice application 1Exposition
E =1 E=0
M = 1 90 90
M= 0 450 900
1) Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)
P(M=1/E=1) 0,17P(M=0/E=1) 0,83P(M=1/E=0) 0,09P(M=0/E=0) 0,91
Exercice application 1Exposition
E =1 E=0
M = 1 90 90
M= 0 450 900
1) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle.2) Déterminer la valeur de la constante du modèle sachant qu’elle vaut g(X=0) 3) Donner l’équation du modèle qui permet de décrire le risque de la maladie M
en fonction de l’exposition de E.
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -2.3026 0.1106 433.7917 <.0001 E 1 0.6931 0.1599 18.8004 <.0001
Odds Ratio Estimates
Point 95% Wald Effect Estimate Confidence Limits
E 2.000 1.462 2.736
Association of Predicted Probabilities and Observed Responses
Percent Concordant 25.0 Somers' D 0.000 Percent Discordant 25.0 Gamma 0.000 Percent Tied 50.0 Tau-a 0.000