ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et...

ELEMENTS DE COURS

1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica.

2. FALISSARD B. (2005)Comprendre et utiliser les statistiques dans les sciences de la vie. Masson (3ème Edition)

3. TOULEMON L. (1995) Régression logistique et régression sur les risques.Documents de travail n°46 - INED

Pourquoi un enseignement de régression logistique en Master 1 de démographie ?

1. Outil de plus en plus courant en sciences humaines et sociales et utilisé par les démographes

2. Un outil de standardisation Raisonnement «toutes choses égales par ailleurs »

3. Typique des modèles de régression multivariées

Principes des modèles de régression Une variable Y que l’on cherche à expliquer …

Elle est dite « à expliquer », « dépendante » « endogène »

… par des variables X. Elle sont dites :

« explicatives », « indépendantes » « exogènes»

Modèles qui varient selon la nature de la variable à expliquer

Si la variable à expliquer est quantitative continue :

La régression suit un modèle linéaire

Si la variable à expliquer est dichotomique ou multinominale

La régression suit un modèle dit « logistique » ou « log-linéaire »

Régression logistique : quel lien avec l’analyse démographique (1)

En analyse démographique, on étudie classiquement :

l’arrivée d’un événement dans une population à différentes durées

ou encore le risque couru par des individus d’une population donnée de connaître un événement donné.

La mesure de l’intensité d’un phénomène à événement renouvelable se mesure par un nombre moyen d’événements connus par un individu à une durée donnée….

…. Ce nombre moyen peut être la variable « à expliquer », quantitative continue à expliquer.

Dans ce cas utilisation d’un modèle linéaire

MAIS ATTENTION UNE DIFFERENCE FONDAMENTALE : Un des buts de l’analyse démographique est de mesurer une intensité en l’absence de

phénomène perturbateur ce que ne permet en rien la régression logistique.

Régression logistique : quel lien avec l’analyse démographique (2)

Si le phénomène étudié se manifeste par un événement non renouvelable :

La mesure de l’intensité d’un phénomène à événement non renouvelable se mesure par une proportion….

…. proportion de personne qui est dans un état donné ou qui a connu un événement donné à une durée donnée

Derrière la notion « Être ou non dans un état » peut se lire une variable Y Indicatrice (1 ou 0) que l’on chercher à expliquer. D’où l’utilité d’une régression logistique

MAIS ATTENTION UNE DIIFERENCE FONDAMENTALE : Un des buts de l’analyse démographique est de mesurer une intensité en

l’absence de phénomène perturbateur ce que ne permet en rien la régression logistique.

L’intérêt de l’approche multivariée (1)

Pour juger de la corrélation entre deux variables vous savez :

Si 2 variables qualitaties : utiliser le test du Khi-2 Si 2 variables quantitatives : utiliser la régression et corrélation

linéaire (R²)

Possible de multiplier les croisements de couples de variables connues MAIS :

Risques d’interprétations erronées Jamais un raisonnement « toutes choses égales par ailleurs »

L’intérêt de l’approche multivariée (2)

La régression multivariée permet : de démêler l’impact des différentes

caractéristiques d’un individu sur son comportement

de repérer quelles variables sont les plus influentes, « toutes choses égales par ailleurs », sur la probabilité ,

de survenue d’un phénomène étudié d’être/avoir telle ou telle caractéristique.

La notion d’échelle de mesure

Il existe au moins 4 échelles de mesure pour comparer des valeurs. Nous traiterons ici de(s)

-l’échelle additive (linéaire),

-Les échelles multiplicatives

-L’échelle logistique

OBJECTIF : décrire et comprendre la logique et les propriétés de l’échelle logistique

L’exempleComment mesurer l’évolution des inégalités sociales

devant l’école ?

Année de naissance des enfants

Proportion de bacheliers selon la profession du père et l’année de

naissance

1880-1890 1910-1920

Cadre 35 % 50 %

Manœuvre 4 % 8 %

Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.

Année de naissance des enfants

Proportion de bacheliers selon la profession du père

et l’année de naissance

1880 1890

1910 1920

Cadre 35 % 50 %

Manœuvre 4 % 8 %

Source : Laurent Toulemon, Dossiers et Recherches n°46, Ined, 1995.

Trois dimensions dans ce tableau

-L’origine sociale

-La génération

-L’accès aux études

Quelles conclusions ?

1 – Inégalité quelle que soit la génération

2 – Augmentation de la réussite quelle que soit l’origine sociale

Mais qu’en est-il de l’évolution des inégalités ?

• Ont-elles augmenté ou diminué ?

• La proportion de bacheliers a-t-elle davantage augmenté chez les enfants de cadres que chez les enfants de manœuvres ?

Il faut pour cela comparer les « distances » entre :

4% par rapport à 35% = inégalité pour la 1ère génération 8% par rapport à 50% = inégalité pour la 2ème génération

Le raisonnement est le suivant

Quelle serait la proportion p* de fils de cadres bacheliers dans la génération 1915 qui correspondrait à une inégalité constante, les trois autres proportions restant inchangées ?

Ensuite on compare cette proportion p* à p, celle observée dans la réalité (c'est-à-dire 50%=p)

Cas 1 : p* >p. L’inégalité a. diminué Cas 2 : p* <p. L’inégalité a augmenté. Cas 2 : p* = p. L’inégalité est stable

Suivant l’ l’échelle que l’on va choisir on va observer des valeurs de p* différentes et on arrive à des conclusions contradictoires.

Posons le problème

Soit « X » la propension à obtenir son Bac dans la population La relation entre p et X est positive

Quand la propension X augmente, « p » augmente

La relation s’écrit p = f(X)

Si l’inégalité entre les deux groupes est constante alors f(X1) = f(X2) à une date « t » donnée.

Avec X1 la propension pour les enfants de cadres et X2 pour les enfants de manœuvres

Si on retient une échelle additive

bXap *

« a » est positif

La relation s’écrit p = f(X)

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (X)

p

p = a*X + b

Echelle additive

Xp bXap *

Si a = 1 et b=0

Devient

Et

1212 ppXX Si pas d’inégalité croissante, alors

p* = 35% + (8% - 4%)

P* = 39,0%

Echelle multiplicative

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (X)

p

p = exp (aX + b)

Si on retient une échelle multiplicative

ebXa

p)*(

Posons pour simplifier

)ln( doncet pXp eX

a = 1 et b=0

bYap *

)ln()ln()ln(1

21212

p

pppXX

Si pas d’inégalité croissante, alors

%4

%8%35* p

%4

%35%8* p

Soit :

p* = 70,0%

OU BIEN

Echelle multiplicative en (1-p)

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (Y)

p

p=1-exp(-aX-b)

Si on retient une échelle multiplicative en (1-p)

ebXa

p 1)*(

)1ln( doncet 1 pXp eX

Posons pour simplifier a = 1 et b=0

bYap *


Soit :1-p*= 62,3%

p* = 37,7%

)21ln()11ln(12 ppXX

)21

11ln(

p

p

%)41(

%)81(%)351(*1

p

Finalement

La comparaison sur une échelle additive est adaptée si les proportions sont moyennes

La comparaison sur une échelle multiplicative est adaptée si les proportions sont faibles (phénomènes rares)

La comparaison sur une échelle multiplicative en (1-p) est adaptée si les proportions sont fortes (phénomènes fréquents)

Si les proportions varient sur un large spectre

C’est l’échelle logistique qui permettra de comparer des évolutions entre proportions.

C’est le cas dans notre exemple.

Echelle logistique

0%4%8%

12%16%20%24%28%32%36%40%44%48%52%56%60%64%68%72%76%80%84%88%92%96%

100%104%

Propension (X)

p

p=1/(1+exp(-aX-b))

Si on retient une échelle logistique

0 1 betasi

)*exp(1

1

bXap

)exp(1

)exp(

)exp(1

1

X

X

Xp

p

ppX

1ln)(logit

)1(logit)2(logit12 ppXX

111

212

ln

pp

pp

La différence entre X2 et X1 est appelée contraste logistique entre p2 et p1 en anglais : ln(odds- ratio), appelée « α » et…

l’exponentielle du contraste logistique est ce que l’on appelle l’ODDS-Ratio .

ratioodds

pp

pp

1

1

2

2

1

1)exp(


%41%4

%81%8

%351%35

*1*

PP

%41%4

%351%35

%81%8

*1*

PP

et

%4

%41*

%351

%35*

%81

%8

*1

*

P

P

%)41(%35%84%)351(%)81(

%)41(%35%8*

P

P*= 52,9%

Finalement(proportions en %) Valeur

théoriqueComparaison

Modèle (échelle) p* p<p*

AdditifMultiplicatifMultiplicatif en 1-pLogistique

39,0%70,0%37,7%52,9%

NonOuiNonOui

Valeur réelle (p) 50,0% -

L’échelle logistique ou log linéaire permet de comparer des pourcentage pour toutes les valeurs de l’échelle de mesure : très faible comme

l’échelle multiplicative, moyens comme l’échelle additive et très élevée comme l’échelle multiplicative de (1-p).

La notion d’odds-ratio Dans le cas de l’étude des variables dichotomiques suivantes

tirées d’une enquête auprès de femmes âgées de 25 ans : le fait d’être ou non déjà mère le fait de vivre ou non en couple

Être mère

Oui Non

Vie en couple 115 (A) 142 (B)

Ne vit pas en couple

19 (C) 131(D)

La notion d’odds-ratioÊtre mère

Oui Non


Ne vit pas en couple 19 (C) 131(D)

BC

DA

DC

BA

OR*

*

Interprétation : A 25 ans, il y a 5,6 fois plus de mères par rapports à des non mères chez les jeunes femmes en couple que de mère par rapport aux non mères chez celles ne vivant pas en couple.

58,5

13119

142115

Notion proche : le risque relatifÊtre mère

Oui Non


Ne vit pas en couple 19 (C) 131(D)

)(*

)(*

)(

)(BAC

DCA

DCC

BAA

RR

Interprétation : Le « risque » ou la probabilité d’être mère est 3,5 fois plus fort si on est en couple que si on ne l’ai pas.

53,3

)13119(19

)142115(115

La notion de modèle (1) On postule qu’il existe une relation (corrélation) entre la valeur de la variable Y « à expliquer » et les valeurs des variables X explicatives.

Cette relation prend la forme d’un relation mathématique (modèle) dont on doit choisir la forme : linéaire, logistique,…

Cette relation s’écrit comme ceci :

Yi = f (X1, X2, X2, …., Xk)Avec :

-Les Xi sont les valeurs observées pour les variables Xi

-La valeur de Yi est celle estimée par le modèle.

La notion de modèle (2)La construction d’un modèle consiste à déterminer, selon une relation mathématique

les coefficients ou paramètres a attribuer à chacune des variables explicatives « Xi » tels que

La distance totale entre les valeurs observées et les valeurs

théoriques soit minimum : on parle d’ajustement.

Trois notions centrales REGRESSION, PREDICTION AJUSTEMENTTEST

La régression (linéaire)Considérons 3 variables (Y, X1 et X2) observées auprès d’individus d’un échantillon de taille n

leurs valeurs sont notées (yi, x1i, x2i) pour « i » allant de 1 à n.

Effectuer une régression linéaire de « Y » à partir de X1 et X2 c’est :

1- rechercher a0, a1,et a2 tels que

ii xaxaayi 22110

La régression (linéaire)

etiii exaxaayi 22110

ii xaxaayi 22110

Avec « ei » le résidu.

La série des « ai » est obtenue à partir d’un algorithme sous la contrainte de minimiser le terme suivant :

²ie

Le cas particulier de la régression logistique

La régression logistique combine les avantages de l’échelle logistique et de la régression.

Il s’agit de généraliser la notion d’odds-ratio et de test de chi-2 qui permettent de juger de la dépendance entre variables qualitative ou binaires.

Le cas particulier de la régression logistique

Soit « Y » la variable dépendante. Chaque individu a pour valeur soit 1, soit 0 selon qu’il est ou non

la caractéristique étudiée ou qu’il soit ou non dans l’état étudié.

Nombreux exemples en démographie Parmi les variables que l’on cherche à expliquer :

La probabilité d’avoir ou non un troisième enfant, de vouloir ou non un troisième enfant.

La probabilité de voir son père ou/et sa mère au moins une fois par semaine

La probabilité d’utiliser un moyen de contraception dit moderne La probabilité d’avoir eu un enfant avant 25 ans La probabilité de vivre en couple.

La mise en place de la régression logistique

Soit « pi » la probabilité pour que Y=1 pour l’individu «i».

Au lieu d’utiliser un modèle linéaire qui donnerait des valeurs estimées à l’extérieur des bornes acceptables pour une probabilité [0 ;1], nous utilisons un modèle logit.


Exemple : Y une variable telle que :

Y=1 si la femme a un enfant Y=0 sinon

On observe les réponses des 76 femmes de la génération 1960. A chaque âge compris entre 15 et 40 ans elles ont deux états possibles : 1 ou 0.

On veut ajuster la variable proportion de femmes mères selon l’âge de celles ci avec une équation.

Effectifs de mères de la génération 1960 par âge selon qu'elles aient ou non un enfant

-0,1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

10 15 20 25 30 35 40 45

Âge

A un

enf

ant(=

1) o

u no

n (=

0)Les premières naissances dans la génération

1960 – France – Enquête ERFI ( n=76)

Les premières naissances dans la génération 1960 – France – Enquête ERFI ( n=76)

Proportion de mères ayant eu au oins un enfant selon l'âge

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 39 40Âge

% d

es m

ères

Proportion de mères ayant eu au oins un enfant selon l'âge

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 37 39 40Âge

% d

es m

ères

xi 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 373

9 40

fi1%

4%

5%

7%

12%

17%

22%

26%

32%

41%

51%

61%

66%

75%

76%

82%

87%

89%

93%

95%

96%

97%

99%

100%


Il s’agit de déterminer l’équation de la droite qui ajuste le mieux les points (xi, fi). Avec xi = âge Et fi = proportion de mère à l’âge i

Au lieu d’utiliser un modèle linéaire (ajustement par une droite) -qui donnerait des valeurs estimées à l’extérieur des bornes acceptables pour une probabilité [0;1] – nous utiliserons un modèle logit.

Les équations de la régression logistique – une seule variable

Soit :

eeXYPX

X

X

X

X

1)/1()(

)exp(1

)exp(

la probabilité que Y=1 si xi=X d’après le modèle

))(1

)(ln()()(itlogx

xXgx

Et :

)(x

XXg *)(

Les résultats donnés par SAS

)34,833,0exp(1

)34,833,0exp()/1()(

X

XXYPX

Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -8.3383 0.3765 490.6104 <.0001 Age 1 0.3317 0.0147 511.4980 <.0001

033,0)34,815*33,0exp(1

)34,815*33,0exp(15

XSi

Les résultats donnés par SASAge Observé Calculé

15 1,3% 3,3%

16 3,9% 4,5%

17 5,3% 6,1%

18 6,6% 8,3%

19 11,8% 11,2%

34 94,7% 94,7%

36 96,1% 97,2%

37 97,4% 98,0%

39 98,7% 98,9%

40 100,0% 99,2%

Proportion de mères ayant eu au moins un enfant selon l'âge

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

13 18 23 28 33 38 43Âge

% d

es m

ères

OBSERVATIONMODELE

)34,833,0exp(1

)34,833,0exp(*

X

Xp

Généralisation du modèle logistique La valeur de «pi» varie selon les valeurs prises par les

différentes variables indépendantes synthétisées par un vecteur X selon la relation (équation) de la forme logistique suivante :

)*exp(1

)*exp(

)*exp(

1)(

X

X

XX

Le vecteur X contient : La constante du modèle. Elle ne varie pas d’un individu à un autre

Un ensemble de valeur pour les variables explicatives du modèle. Ces valeurs peuvent être continues, discrètes ou qualitatives à deux ou plusieurs modalités. Ce sont des valeurs observées.

β est un vecteur qui contient les paramètres estimés du modèle.

)*exp(1

)*exp(

)*exp(

1)(

X

X

XX

La prévision et l’ajustementUne fois la relation (équation de l’ajustement) établie, on peut :

1- Prédire la valeur de Yi pour un individu statistique dont on ne connaît que les valeurs de X1 et X2

= établir des prévisions

2- Juger de la relation entre Y et X1 si X2 est constant. Donc permet de juger de la force de la corrélation entre Y et X1, toutes choses, prises en compte par le modèle, égales par ailleurs. On parle d’ajustement de Y sur X2

ATTENTION : 1- Le modèle n’est valable que pour les variables et le contexte

(population) considéré DONC attention aux prévisions si on oubli un éléments de prévisions important.

2- Le modèle ne donnera une bonne prévision que pour une proportion d’individus. Plus cette proportion s’approche de 1, plus le modèle va être considéré comme bon.

Le testLorsque l’on veut tester la liaison entre une variable Y quantitative et une variable X1 avec un ajustement sur les variables X2, X3, …., Xp,

Le test va porter sur le coefficient « a1 », appelé aussi paramètre, de la régression de la forme

pipii xaxaxaaYi .....22110

H0 : a1 =0 / 0H : a1 <>0

Le test est le suivant :

Les hypothèses

la normalité des résidus « ei ».

L’indépendance de var(« ei ») avec yi et les xj

L’indépendance des « ei » avec chacune des variables.

La robustesse du modèle

La robustesse du modèle est forte si le fait d’enlever une observation fait peu varier les valeurs estimées des paramètres « ai »

Les individus qui font le plus varier les valeurs des paramètres doivent être alors discutés après avoir été repérés.

Les problèmes de colinéarité

Certaines variables explicatives peuvent être corrélées. La qualité du modèle en sera affectée.

Si une des variables est une combinaison linéaire d’autres variables, le modèle devient indéterminé. Par exemple la superficie, la population et la densité densité

pour expliquer par exemple le taux de criminalité dans un pays. Il s’agit d’une situation de colinéarité.

Dans le moindre doute, il faut retirer une des variables associées du modèle.

Il est prudent de tester préalablement au modèle l’ensemble des relations entre les variables 2 par 2.

Exercice application 1Exposition

E =1 E=0

M = 1 90 90

M= 0 450 900

1) Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)

2) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle.

3) Déterminer la valeur de la constante du modèle sachant qu’elle vaut g(Y=1/X=0)

3) Donner l’équation du modèle qui permet de décrire le risque de la maladie M en fonction de l’exposition de E.

4) À partir du modèle logistique décrit en 3) recalculez les différentes probabilités décrites en 1).


E =1 E=0

M = 1 90 90

M= 0 450 900

1) Calculer P(M=1/E=1) ; P(M=0/E=1) ; P(M=1/E=0) ; P(M=0/E=0)

P(M=1/E=1) 0,17P(M=0/E=1) 0,83P(M=1/E=0) 0,09P(M=0/E=0) 0,91


E =1 E=0

M = 1 90 90

M= 0 450 900

1) Sachant que Odds-ratio = exp( ). Déterminer la valeur de du modèle.2) Déterminer la valeur de la constante du modèle sachant qu’elle vaut g(X=0) 3) Donner l’équation du modèle qui permet de décrire le risque de la maladie M

en fonction de l’exposition de E.

Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -2.3026 0.1106 433.7917 <.0001 E 1 0.6931 0.1599 18.8004 <.0001

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits

E 2.000 1.462 2.736

Association of Predicted Probabilities and Observed Responses

Percent Concordant 25.0 Somers' D 0.000 Percent Discordant 25.0 Gamma 0.000 Percent Tied 50.0 Tau-a 0.000

ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et...

Documents

Transcript of ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et...