Cours Regression que

64
Cours de Régression Logistique Appliquée Patrick Taffé, PhD Institut Universitaire de Médecine Sociale et Préventive (IUMSP) et Centre d’épidémiologie Clinique (CepiC) Lausanne, Août 2004

description

regresie logistica

Transcript of Cours Regression que

Page 1: Cours Regression que

i

Cours de Régression Logistique Appliquée

Patrick Taffé, PhD

Institut Universitaire de Médecine Sociale et Préventive (IUMSP) et Centre d’épidémiologie Clinique (CepiC)

Lausanne, Août 2004

Page 2: Cours Regression que

ii

Table des matières

Introduction ..............................................................................................................1

Pourquoi la statistique ? ..........................................................................................1

Pourquoi la régression logistique ? .........................................................................1

1) La modélisation d’une variable qualitative dichotomique................................3

Exercice 1................................................................................................................5

2) Formulation mathématique du modèle de régression logistique (*) ...............7

2.1) Le modèle de régression linéaire Normal.........................................................7

2.2) Le modèle de régression logistique..................................................................8

2.3) Y-a-t’il d’autres modèles !? ...............................................................................9

Exercice 2..............................................................................................................10

3) Estimation et tests (*).........................................................................................13

3.1) L’estimation du modèle ..................................................................................13

3.2) Test de significativité des coefficients ............................................................13

Exercice 3..............................................................................................................14

4) La transformation logit ......................................................................................17

Exercice 4..............................................................................................................18

5) Le succès du modèle Logit : l’Odds Ratio.......................................................21

5.1) L’Odds Ratio comme mesure d’association ...................................................21

5.2) L’Odds Ratio comme mesure du risque relatif (RR).......................................22

Exercice 5..............................................................................................................24

6) L’interprétation des coefficients.......................................................................27

6.1) Le cas d’un modèle additif, i.e. sans interactions ...........................................27

a) La constante du modèle .................................................................................28

b) Coefficient d’une variable explicative dichotomique.......................................29

c) Coefficient d’une variable explicative polytomique .........................................30

d) Coefficient d’une variable explicative continue...............................................31

e) L’Odds ratio associé à la variation de plusieurs co-variables..........................32

6.2) Le cas d’un modèle non additif, i.e. avec interactions ....................................32

Exercice 6..............................................................................................................34

7) Stratégie de modélisation..................................................................................39

Pourquoi construire un modèle ?...........................................................................39

Existe-t-il une stratégie de modélisation conduisant à un « bon » modèle ?..........39

Page 3: Cours Regression que

iii

7.1) Le choix des co-variables............................................................................... 40

7.2) Le choix de la forme fonctionnelle des co-variables ...................................... 40

7.3) L’adéquation du modèle aux données « Goodness of fit » (*) ....................... 41

a) La notion de « covariate pattern » ................................................................. 42

b) Evaluation de la calibration du modèle : le test de Hosmer et Lemeshow ..... 42

c) L’analyse des résidus..................................................................................... 43

c.1) Le résidu de Pearson............................................................................................... 44

c.2) Le résidu de déviance ............................................................................................. 46

d) Détection des « covariate patterns » mal ajustés .......................................... 47

e) Détection des points influants (effet de levier) ............................................... 48

f) Evaluation du pouvoir discriminant du modèle : sensibilité, spécificité et courbe

ROC ................................................................................................................... 49

g) La validation du modèle ................................................................................. 51

7.4) Limitations et biais (*)..................................................................................... 52

a) Le problème de la séparabilité ou quasi-séparabilité (*) ................................ 52

b) Le problème de « l’overfitting » ...................................................................... 53

c) Le biais de sélection....................................................................................... 53

d) Le problème de surdispersion « overdispersion ».......................................... 54

e) Extensions ..................................................................................................... 54

e.1) Le cas de données répétées..................................................................................... 54

e.2) Le cas de données agrégées « cluster » .................................................................. 54

Exercice 7 ............................................................................................................. 54

8) Le logiciel statistique STATA............................................................................ 55

Bibliographie .......................................................................................................... 59

Livres :................................................................................................................... 59

Articles: ................................................................................................................. 59

Pour l’utilisation de STATA se référer aux manuels suivants :.............................. 60

Page 4: Cours Regression que

iv

Avant propos

Ce cours a pour but d’introduire le lecteur à la problématique de la modélisation des variables qualitatives dichotomiques (i.e. comportant deux catégories comme « sain » et « malade ») au moyen de la régression logistique.

L’analyse de régression logistique est plus complexe que celle de régression linéaire, car le modèle logistique est non-linéaire. Nous allons, autant que possible, faire un parallèle entre les deux types d’analyses et illustrer les différences fondamentales.

Il s’agit d’un cours de régression logistique appliquée de sorte que nous n’insisterons pas sur les détails mathématiques, mais plutôt sur les concepts fondamentaux. Néanmoins, la statistique est avant tout une discipline faisant appel aux mathématiques et même si le programme statistique prend en charge tous les aspects formels, un minimum de formalisme est nécessaire pour bien illustrer les concepts. Nous avons donc décidé de ne pas occulter complètement les mathématiques de ce cours et les sections d’un caractère plus technique seront indiquées par un astérisque « * ».

Les données pour les exercices peuvent être téléchargées depuis le web aux adresses : ftp://ftp.wiley.com/public/sci_tech_med/logistic/ http://www.ats.ucla.edu/stat/stata/examples/alr2/default.htm

Page 5: Cours Regression que

1

Introduction

Le but de ce cours est d’exposer les fondements de la régression logistique de manière intuitive et aussi peu formelle que possible, et d’illustrer les étapes de la modélisation des variables qualitatives binaires.

Pourquoi la statistique ?

En général, le but de la plupart des recherches est de déterminer des relations entre un ensemble de variables. Les techniques « multivariables » ont été développées à cette fin. Souvent on considère une variable dépendante que l’on veut prédire et des variables indépendantes ou explicatives.

Remarquons que bien souvent le terme « multivarié » est confondu avec « multivariables », ce qui peut porter à confusion étant donné que le premier se réfère à la situation où l’on considère plusieurs variables dépendantes à la fois, tandis que le deuxième plus vague correspond peut-être mieux à la situation la plus fréquente en épidémiologie où l’on considère une seule variable dépendante et plusieurs variables explicatives.

Il est difficile de donner une définition consensuelle de la statistique, mais certainement cette discipline traite de l’incertitude, de la variabilité, de l’inférence (test d’hypothèses, intervalles de confiance, prédiction, …). On retiendra qu’elle a pour but de quantifier un phénomène d’intérêt et d’apporter une information concernant la précision avec laquelle les résultats ont été établis. Par exemple, pour estimer la taille moyenne des jeunes de 15 ans en Suisse on considère un échantillon d’élèves dans une école et l’on calcule leur taille moyenne. Cette estimation ne sera certainement pas parfaite puisqu’elle repose sur un petit collectif dont on espère qu’il soit suffisamment représentatif de l’ensemble de cette population en Suisse. Un intervalle de confiance nous permettra d’apprécier le degré d’incertitude de notre évaluation.

L’analyse de régression est une technique statistique permettant d’établir une relation entre une variable dépendante et des variables explicatives, afin d’étudier les associations et de faire des prévisions. On peut, par exemple, s’intéresser à quantifier la relation entre le risque de décès et la quantité de cigarettes fumées quotidiennement, tout en ajustant pour l’âge, le sexe, et éventuellement d’autres facteurs de risque.

Pourquoi la régression logistique ?

Lorsque la variable dépendante n’est pas quantitative mais qualitative ou catégorielle le modèle de régression linéaire n’est pas approprié.

Ce qui distingue le modèle de régression logistique du modèle de régression linéaire est que dans le premier la variable dépendante est qualitative, i.e. cette variable prend comme valeur un attribut et non pas une valeur numérique : par exemple la variable état de santé prend les attributs « sain » ou « malade », la variable sexe « mâle » ou « femelle », une autre variable les attributs « rouge » ou « noir », etc.

Lorsque le nombre d’attributs est deux l’on parle de variable dichotomique, e.g. le sexe « mâle » ou « femelle », tandis que s’il est supérieur à deux l’on a une variable polytomique, e.g. une pression « haute », « normale » ou « basse ».

Page 6: Cours Regression que

2

Dans le modèle de régression linéaire la variable dépendante est, en revanche, quantitative, car elle admet une échelle de mesure naturelle : par exemple la pression systolique 50-200 mmHg, le poids 30-200 kg, la taille 1-2 m, le niveau de CD4 0-2000 cell/ìL, etc.

Lorsque la variable dépendante est quantitative l’hypothèse de normalité de la distribution de cette variable ou d’une transformation est généralement plausible, tandis que lorsqu’elle est qualitative elle n’admet pas de valeur numérique naturelle (puisqu’elle ne peut prendre que des attributs) et le modèle normal n’est pas approprié. Une variable aléatoire qualitative est décrite par les probabilités des différents attributs qu’elle peut prendre et pour évaluer l’influence de différents facteurs sur cette variable il est d’usage de modéliser les probabilités des différents attributs.

Un modèle décrivant la probabilité avec laquelle la variable qualitative dichotomique sexe prend les attributs « femelle » ou « mâle » est le modèle « binomial » (avec n = 11). Lorsque le nombre d’attributs que peu prendre cette variable est supérieur à deux on a une variable polytomique et un modèle décrivant cette situation est le modèle « multinomial ».

On a représenté, ci-dessous, différents graphes illustrant les différences fondamentales entre variable qualitative et variable quantitative. Dans le premier graphe la variable dépendante est la maladie coronarienne. Cette variable peut prendre les attributs « oui » ou « non » de sorte qu’il n’est pas possible d’écrire une relation directement entre la maladie coronarienne et l’âge. Dans le second graphe la variable dépendante est quantitative, il s’agit de la taille, de sorte qu’il est possible d’établir directement une relation (linéaire ou pas) entre la taille et l’âge. Le troisième graphe illustre l’hypothèse de Normalité souvent adoptée lorsque la variable dépendante est quantitative.

non

oui

Maladie coronarienne

âge

Relation entre taille et âge chez les enfants

âge

taille

Relation entre taille et âge chez les enfants:

hypothèse de Normalité

âge

taille

figures 1 à 3

1 Lorsque n=1 le modèle binomial se réduit au modèle de Bernoulli.

Page 7: Cours Regression que

3

1) La modélisation d’une variable qualitative dichotomique

Nous avons vu que lorsque la variable dépendante était qualitative elle n’admettait pas d’échelle de mesure naturelle et que l’on modélisait, par conséquent, sa probabilité de prendre tel ou tel attribut. Voyons comment cela s’applique dans notre exemple de maladie coronarienne en fonction de l’âge.

Dans le graphique suivant l’on a regroupé les données concernant l’âge en catégories et calculé dans chacune de ces catégories le pourcentage de personnes souffrant d’une maladie coronarienne :

0

1

Pourcentage de personnes souffrant d’une maladie coronariennepar catégorie d’âge

âge

0.5

figure 4

On constate que l’on a une relation sigmoïdale, i.e. en forme de S, entre la proportion de maladie coronarienne et l’âge. On en déduit, ainsi, que pour modéliser la probabilité de maladie coronarienne en fonction de l’âge il faudra utiliser une relation sigmoïdale.

En effet, une probabilité étant par définition comprise entre 0 et 1 le modèle linéaire n’est bien entendu pas approprié (puisqu’il ne limite pas les valeurs de notre probabilité au domaine compris entre 0 et 1) et la relation est forcément non-linéaire :

0

1

Pourcentage de personnes souffrant d’une maladie coronariennepar catégorie d’âge: relation linéaire

âge

0.5

>1

< 0

0

1

Pourcentage de personnes souffrant d’une maladie coronariennepar catégorie d’âge: relation non linéaire (sigmoïdale)

âge

0.5

figures 5 & 6

Page 8: Cours Regression que

4

Remarquons qu’une probabilité est une caractéristique d’une population, tandis qu’une proportion est calculée à partir d’un échantillon. Cette dernière s’approche d’autant plus de la probabilité (inconnue en général) que l’échantillon est grand.

Un choix intuitif pour modéliser une probabilité est d’utiliser une fonction de répartition ou fonction cumulative.

Illustrons ce point avec l’exemple des fonctions de répartition des lois Normale et Logistique. Pour rappeler la différence, nous illustrons aussi les fonctions de densité correspondantes :

0.2

.4.6

.81

-10 -5 0 5 10x

N(0,1) N(0,3)N(2,3)

Fonctions cumulatives de diverses lois Normales

0.1

.2.3

.4

-10 -5 0 5 10x

N(0,1) N(0,3)N(2,3)

Fonctions de densité de diverses lois Normales

0.2

.4.6

.81

-10 -5 0 5 10x

Logistique(0,1) Logistique(0,3)Logistique(2,3)

Fonctions cumulatives de diverses lois Logistiques

0.1

.2.3

.4.5

-10 -5 0 5 10x

Logistique(0,1) Logistique(0,3)Logistique(2,3)

Fonctions de densité de diverses lois Logistiques

figures 7 à 10

On constate qu’en fonction de la moyenne (1er paramètre) les courbes se déplacent le long de l’abscisse et qu’en fonction de la variance (2e paramètre) la pente de la fonction de répartition change.

On peut déjà anticiper que se seront ces deux paramètres qu’il faudra estimer (au moyen d’une technique statistique) pour obtenir un bon ajustement de notre courbe aux données.

Remarque (*)

La fonction cumulative d’une loi Normale de moyenne µ et de variance 2σ , i.e. ( )2,σµN , s’écrit :

∫ ∞−

−=x

dtt

xF2

21

exp2

1)(

σµ

σπ

Page 9: Cours Regression que

5

tandis que celle d’une loi Logistique de moyenne µ et de variance 2σ s’écrit :

−+

=

σµπ

σµπ

x

x

xF

3exp1

3exp

)(

En résumé, nous avons donc dit que lorsque la variable dépendante était qualitative l’on modélisait la probabilité de ses attributs, qu’un modèle mathématique adéquat avait une forme sigmoïdale comme une fonction de répartition et que la forme de cette sigmoïde changeait en fonction des paramètres caractérisant cette fonction de répartition.

Il s’agit, ensuite, d’établir un lien entre ces paramètres (donc la forme et la position de notre courbe sigmoïdale), la probabilité de maladie coronarienne (la variable dépendante d’intérêt) et l’âge (la variable explicative). Pour cela, dans le prochain chapitre, nous allons formuler un modèle de régression (non-linéaire). Un modèle très utilisé en épidémiologie est le modèle Logistique.

Exercice 1

Le but de cet exercice est d’illustrer la différence fondamentale entre variable qualitative et variable quantitative. Nous allons montrer, en particulier, qu’il n’est pas approprié de traiter une variable qualitative comme si elle était quantitative : par exemple de régresser directement une variable dépendante qualitative codée « 0 » et « 1 » en fonction d’une variable explicative, comme on le fait en régression linéaire. A cette fin, nous allons utiliser des données rapportant la présence ou l’absence d’une maladie coronarienne. 1) Représentation graphique des données Dans ce fichier de données nous avons une seule variable explicative l’âge. Afin de « visualiser » la relation entre la présence ou l’absence d’une maladie coronarienne en fonction de l’âge nous allons représenter les données sur un graphe. Pour cela l’option « jitter(2) » de STATA s’avère utile. Essayez la commande suivante avec et sans cette option : scatter chd age, jitter(2) ylabel(0(1)1) ytitle(chd 0/1) title(Maladie coronarienne en fonction de l'âge)

On constate que plus on est âgé plus le risque d’avoir un problème coronarien semble élevé. 2) Un exemple à ne pas suivre : estimation d'une relation linéaire entre la variable dépendante dichotomique chd et l’age La régression linéaire de la variable chd en fonction de la variable age fournit une droite n’ayant pas de sens, car chd ne peut prendre que deux valeurs 0 ou 1 tandis que la droite de régression linéaire prédit des valeurs impossibles. * régression linéaire

Page 10: Cours Regression que

6

regress chd age cap drop fit predict fit, xb * graphe de la relation linéaire entre les variables chd et age scatter chd age, jitter(2) ylabel(0(1)1) ytitle(chd 0/1) title(Maladie coronarienne en fonction de l'âge , size(medium)) subtitle(régression linéaire) || scatter fit age, c(l) sort saving(g1, replace)

3) Relation fonctionnelle entre la probabilité de maladie coronarienne et l'âge Pour représenter la relation fonctionnelle entre la probabilité de maladie coronarienne et l'âge nous allons définir des catégories d’âge et calculer le pourcentage de maladie coronarienne dans chacune de ces catégories : * calcul des percentiles de la variable age centile age, centile(10 20 30 40 50 60 70 80 90) * génération des percentiles de la variable age cap drop pct_age xtile pct_age=age, nquantiles(9) tab pct_age * calcul des proportions de maladie coronarienne dans les catégories d'âge sort pct_age cap drop p_chd by pct_age: egen p_chd=mean(chd) * graphe de la relation entre les catégories d'âge et la proportion de maladie coronarienne scatter p_chd pct_age, ylabel(0(0.2)1) ytitle(P(chd)) title(Proportion de maladie coronarienne en fonction de la catégorie d'âge, size(medium)) saving(g2, replace) * un graphe plus joli en utilisant une régression non paramétrique twoway scatter chd age, jitter(2) ylabel(0(0.2)1) ytitle(P(chd)) title(Proportion de maladie coronarienne en fonction de l'âge, size(medium)) || lowess chd age, sort legend(off) saving(g3, replace) graph combine g2.gph g3.gph, iscale(.55)

Page 11: Cours Regression que

7

2) Formulation mathématique du modèle de régression logistique (*)

Dans « modèle de régression logistique » nous avons les termes « régression » et « logistique ». Dans cette section, nous allons en illustrer la raison. Ceci nous permettra de bien comprendre les différences fondamentales entre les modèles de régression linéaire et logistique.

Néanmoins, d’emblée on peut remarquer que le terme « régression » impliquera qu’on considérera un ensemble de variables explicatives et que le terme « logistique » fera référence à une hypothèse de distribution (du même nom).

2.1) Le modèle de régression linéaire Normal

En statistique, le terme de « régression » de « y » par rapport à « x » fait référence à l’espérance mathématique de y conditionnelle à x, ( )xyE | . Concrètement, cette espérance mathématique établit une relation entre x et y : connaissant la valeur prise par la variable x on prédira que y prendra en moyenne la valeur ( )xyE | . Par exemple, ( ) 335| ==xyE veut dire que lorsque x vaut 5 la valeur espérée (attendue, moyenne) de y vaut 33.

En régression linéaire l’on modélise l’espérance mathématique de y conditionnelle à x au moyen d’une équation linéaire :

( ) xxyE 1010 ,,| ββββ +=

et le modèle s’écrit :

εββ ++= xy 10

où å est un résidu que l’on suppose d’espérance nulle ( ) 0=εE et de variance constante ou

homoscédastique ( ) 2σε =V .

Souvent, on fait aussi l’hypothèse de normalité du résidu å, on dit que l’on adopte le modèle « Normal » ou « Gaussien », afin de procéder à des tests sur les paramètres 0β et 1β :

( )2,0 σε N≅ .

On parle, alors, du modèle linéaire classique.

Page 12: Cours Regression que

8

2.2) Le modèle de régression logistique

Nous allons voir qu’en régression logistique l’on modélise aussi l’espérance mathématique de y conditionnelle à x, mais cette fois la relation est non-linéaire et les résidus ne peuvent pas être distribués « Normalement ».

Rappelons que lorsque la variable dépendante était qualitative elle n’admettait pas de valeur numérique naturelle. On peut, néanmoins, introduire un codage quantitatif permettant de représenter les différents attributs. Par exemple, on codera « 1 » si l’attribut est « sain » et « 0 » sinon.

A partir de ce codage quantitatif, on établit un lien entre l’espérance mathématique de y conditionnelle à x et la probabilité de y :

( )

( )

−=−=

=10

10

,,11)".".(0

,,)".".(1

ββββ

xFPéprobabilitavecmaladeei

xFPéprobabilitavecsaineiy

L’espérance mathématique de y conditionnelle à x (i.e. la régression de y par rapport à x), s’écrit :

( ) ),,()1(01,,| 1010 ββββ xFPPPxyE ==−×+×=

En ayant adopté le codage 0/1 la probabilité de y correspond à son espérance conditionnelle. Cette relation justifie l’utilisation du terme « régression » logistique.

Il nous reste à expliquer la raison du terme « logistique ». Nous avons vu qu’un choix intuitif pour modéliser une probabilité était d’utiliser une fonction de répartition. Lorsque cette fonction de répartition est celle de la loi Logistique on obtient le modèle de régression logistique ou plus simplement le modèle Logit.

Remarques :

1) Le codage en 0/1 est arbitraire mais n’a aucune influence sur les résultats des estimations, car la vraisemblance s’exprime en fonction des probabilités P et pas de l’espérance conditionnelle ( )10 ,,| ββxyE .

2) On peut écrire le modèle de régression logistique sous la même forme que le modèle de régression linéaire :

εββ += ),,( 10xFy

Cependant, cette fois le modèle est non-linéaire et le résidu å ne peut pas être distribué selon une loi Normale.

Page 13: Cours Regression que

9

En effet, il ne peut prendre que deux valeurs ),,(1 10 ββε xF−= si 1=y ou

),,( 10 ββε xF−= si 0=y . De plus, sa variance n’est pas 2σ mais

[ ]),,(1),,()( 1010 ββββε xFxFV −= . On constate que la variance dépend de la variable x et,

par conséquent, elle n’est pas constante mais hétéroscédastique.

Formellement, appliqué à notre exemple de la maladie coronarienne le modèle Logit s’écrit :

P(maladie coronarienne | âge) = )exp(1

)exp(),(

10

1010 âge

âgeâgeF

ββββ

ββ++

+=

Remarque : Dans cette expression la probabilité de maladie coronarienne est modélisée au moyen de la fonction de répartition d’une loi Logistique d’espérance 10 / ββµ −= et d’écart-

type )3/( 1βπσ = .

En définitive

En définitive on notera que le modèle de régression logistique se distingue du modèle de régression linéaire de part 1) la distribution de la variable dépendante n’est pas Normale mais Binomiale 2) le modèle de régression est non-linéaire 3) la variance est hétéroscédastique.

2.3) Y-a-t’il d’autres modèles !?

Nous avons vu qu’un choix intuitif pour modéliser une probabilité était d’utiliser une fonction de répartition. Il en existe, bien évidemment, un choix quasiment infini.

Pour des raisons historiques (existence d’une tabulation, simplicité, ...) ce choix s’est porté souvent sur les fonctions de répartition des lois Normale et Logistique, la première conduisant à un modèle appelé Probit et la deuxième comme on l’a vu au modèle Logit.

Ainsi, si l’on choisi la fonction de répartition de la loi Normale pour modéliser notre probabilité l’on obtient le modèle Probit :

P(maladie coronarienne | âge) = ∫+

∞−−=

âgedt

tâgeF

10

)2

exp(2

1),( 2

10

ββ

πββ

Remarque : Dans cette expression la probabilité de maladie coronarienne est modélisée au moyen de la fonction de répartition d’une loi Normale d’espérance 10 / ββµ −= et d’écart-type

1/1 βσ = .

Page 14: Cours Regression que

10

Les lois Normale et Logistique se distinguent, en particulier, en fonction de l’épaisseur de la queue de probabilité de la fonction de densité correspondante, ce qui a une influence sur la « vitesse » avec laquelle la fonction de répartition s’éloigne de 0 ou s’approche de 1 :

0.2

.4.6

.81

-5 0 5x

N(0,1) Logistique(0,1)

Fonctions cumulatives des lois Normale(0,1) et Logistique(0,1)

0

.1.2

.3.4

.5

-5 0 5x

N(0,1) Logistique(0,1)

Fonctions de densité des lois Normale(0,1) et Logistique(0,1)

figures 11 & 12

Néanmoins, comme on le constate sur ces figures, la différence entre les deux modèles est infime de sorte qu’en pratique l’on peut choisir indifféremment l’une ou l’autre des lois. Toutefois le modèle Logit permet une interprétation plus habituelle en épidémiologie car elle fait intervenir des Odds Ratio.

Remarquons que ce résultats est valable uniquement dans le cas de la modélisation d’une variable qualitative dichotomique et que dans le cas polytomique la différence est importante.

Exercice 2

Dans cet exercice nous allons estimer une relation sigmoïdale entre les variables chd et age au moyen d’un modèle de régression logistique. Nous comparerons cette estimation avec celle fournie par un modèle Probit. On en conclura que la différence entre les deux modèles est, ici, infime. Le modèle de régression logistique est très utilisé, surtout en épidémiologie, principalement à cause de l’interprétation du coefficient d’une co-variable comme le logarithme de son Odds Ratio. Autrement dit, l’exponentiel du coefficient d’une co-variable correspond à un Odds Ratio.

1) Estimation d'une relation sigmoïdale entre les variables chd et age Pour cela nous allons utiliser la commande « logistic » de STATA. * régression logistique logistic chd age * calcul des probabilités estimées cap drop p predict p

Page 15: Cours Regression que

11

* graphe de la relation sigmoïdale entre chd et age scatter chd age, jitter(2) ylabel(0(1)1) ytitle(P(chd)) title(Maladie coronarienne en fonction /// de l'âge, size(medium)) subtitle(régression logistique) || scatter p age, c(l) sort saving(g4, replace)

2) Comparaison des modèles linéaire et logistique graph combine g1.gph g4.gph, iscale(.75)

On vérifie sur ces graphes que le modèle logistique fournit une probabilité estimée de maladie coronarienne comprise entre 0 et 1, tandis que la régression linéaire fournit des valeurs aberrantes de la variable chd. 3) Estimation d'un modèle probit de la relation entre chd et age probit chd age cap drop p_probit predict p_probit * graphe de la relation entre chd et age scatter chd age, jitter(2) ylabel(0(1)1) ytitle(P(chd)) title(Maladie coronarienne en fonction /// de l'âge, size(medium)) subtitle(régression probit) || scatter p age, c(l) sort saving(g5, replace) * comparaison des modèles logit et probit graph combine g4.gph g5.gph, iscale(.75)

En conclure que, dans le cas dichotomique, la différence entre les modèles de régression logistique et probit est infime.

Page 16: Cours Regression que

12

Page 17: Cours Regression que

13

3) Estimation et tests (*)

3.1) L’estimation du modèle

L’estimation du modèle de régression logistique se fait généralement par la méthode du maximum de vraisemblance. Pour cela on écrit la vraisemblance de l’échantillon. Lorsque les observations individuelles yi, i=1,…,n, sont supposées indépendantes, cette vraisemblance s’écrit comme le produit des probabilités :

[ ] [ ]∏=

−=−==n

i

yy ii xyPxyPL1

1

101010 ),,1(1),,1(),( ββββββ

Ensuite, on maximise cette vraisemblance par rapport aux paramètres 10 , ββ au moyen d’un

algorithme numérique (par ex. une méthode de gradient).

Remarques :

1) Quand on fait l’hypothèse d’indépendance des observations on entend qu’elles sont conditionnellement indépendantes. C’est-à-dire que les probabilités individuelles sont supposées indépendantes après ajustement pour les facteurs de risques. Ainsi, deux individus présentant les mêmes facteurs de risque ne sont pas indépendants, mais conditionnellement à ces facteurs on suppose qu’il le sont. Autrement dit, une fois que l’on a ajusté pour l’effet des différents facteurs de risque les observations peuvent être considérées comme indépendantes (mathématiquement ),0(| 2σε iidx ≈ ).

2) Lorsqu’on est en présence de mesures répétées pour chaque individu ou que les données présentent une « structure hiérarchiques », comme c’est le cas lorsqu’on échantillonne des familles et que l’on s’intéresse aux caractéristiques des membres de ces familles, l’hypothèse d’indépendance des données n’est pas plausible. En effet, les mesures répétées d’un même individu ou des membres d’une même famille sont plus semblables qu’entre individus ou familles. Dans ce cas, il faut utiliser d’autres méthodes qui prennent en compte la corrélation des données (ex : modèle marginal avec GEE, modèle logistique conditionnel, modèle mixte).

3.2) Test de significativité des coefficients

Pour tester la significativité d’un ou plusieurs coefficients, par ex. Ho : 0=kβ versus Ha :

0≠kβ , on utilisera soit le test de Wald W, soit le test du rapport de vraisemblance LR. Dans

le cas où l’on veut tester la significativité d’un seul coefficient ces statistiques s’écrivent :

)1,0()ˆ(ˆ

ˆN

ESW

k

k →=β

β

Page 18: Cours Regression que

14

)1()(log2 2χ→−=c

c

L

LLR

tandis que si l’on veut tester la significativité de plusieurs coefficients, par ex. Ho : 021 ==== Mβββ L , alors elles s’écrivent :

( ) )(ˆ)ˆ(ˆˆ 21MVW χβββ →′=

)()(log2 2 ML

LLR

c

c χ→−=

où cL est la vraisemblance évaluée sous la contrainte Ho et cL la vraisemblance non

contrainte.

NB : La statistique de Wald fait intervenir les expressions matricielles suivantes :

( ) 1ˆ)ˆ(ˆ −′= XVXV β ,

−=

)ˆ1(ˆ0

0)ˆ1(ˆ

ˆ11

nn PP

PP

V

L

MOM

L

et

=

npn

p

xx

xx

X

L

MM

L

1

111

1

1

Exercice 3

Dans cet exercice nous allons introduire un nouveau jeu de données qui nous servira jusqu’à la fin de ce cours afin d’illustrer les propos.

Il s’agit des données « Low birth weight » issues d’une étude des facteurs de risque liés à la mise au monde d’un bébé de petit poids de naissance, i.e.< 2500g. L’échantillon concerne 189 femmes dont 59 ont eu un bébé pesant < 2500g. Les facteurs de risque potentiels évalués sont l’âge de la mère age (en années), son poids lors de ses dernières règles lwt (en livres), la race race (blanc, noir, autre), la fumée durant la grossesse smoke (oui/non), le nombre d’épisodes de contractions importantes avant terme ptl (0,1,2, etc), un antécédent de problème d’hypertension ht (oui/non), la présence d’une irritation utérine ui (oui/non) et le nombre de visites au médecin durant les trois premiers mois de grossesse ftv (0,1,2,etc.).

Remarquons qu’on pourrait aussi étudier la relation entre le poids de naissance bwt (en grammes) et ces facteurs au moyen, cette fois, d’une régression linéaire puisque bwt est une variable continue. Eventuellement, il faudra au préalable transformer cette variable pour rendre sa distribution plus symétrique et sa variance plus stable.

Page 19: Cours Regression que

15

1) Description des données Nous allons commencer par décrire nos données : fréquences, données manquantes, etc. Describe tab low summarize age summarize lwt tab race, missing tab smoke, missing tab ptl, missing tab ht, missing tab ui, missing tab ftv, missing

2) Analyse bivariable Avant d’analyser nos données au moyen d’un modèle de régression logistique multivariables il est d’usage de procéder à des analyses bivariables, en particulier lorsque le nombre de variables candidates à introduire dans le modèle est élevé. Ces analyses bivariables nous permettront d’appréhender les facteurs de risque potentiellement associés avec l’outcome. Sur la base de ces résultats, on procédera à un tri préalable de ces facteurs selon leur degré d’évidence (p-value) et nos connaissances théoriques, afin de ne pas tous les introduire dans le modèle (risque de multicolinéarité, difficulté d’interprétation des résultats, overfitting, etc.). Lorsque la variable explicative est continue on peut former des catégories afin de représenter graphiquement sa relation avec la variable dépendante. Lorsqu’une variable explicative catégorielle comporte des catégories n’ayant pas assez d’observations (e.g. <5) on procède à leur regroupement, afin d’obtenir des fréquences suffisamment élevées. 2.1) lorsque la variable explicative est continue * génération des percentiles de la variable age cap drop pct_age xtile pct_age=age, nquantiles(9) sort pct_age tab pct_age * calcul de la proportion de petits poids dans les catégories d'âge by pct_age: egen p_low=mean(low) * graphe de la relation entre les catégories d'age et la proportion de petits poids scatter p_low pct_age, ylabel(0(0.2)1) ytitle(P(low)) title(Proportion de petits poids /// en fonction de l'âge) saving(g6, replace) * une autre représentation scatter low age, jitter(2) ylabel(0(1)1) title(Petit poids de naissance en fonction de l'âge) /// || lowess low age, sort bwidth(1) * génération des percentiles de la variable lwt

Page 20: Cours Regression que

16

cap drop pct_lwt xtile pct_lwt=lwt, nquantiles(9) sort pct_lwt * calcul de la proportion de petits poids dans les catégories de lwt cap drop p_low by pct_lwt: egen p_low=mean(low) tab pct_lwt * graphe de la relation entre les catégories d'lwt et la proportion de petits poids scatter p_low pct_lwt, ylabel(0(0.2)1) ytitle(P(low)) title(Proportion de petits poids /// en fonction du poids de la mère) saving(g7, replace) * une autre représentation scatter low lwt, jitter(2) ylabel(0(1)1) title(Petit poids de naissance en fonction du poids de la mère) /// || lowess low lwt, sort bwidth(1)

2.2) lorsque la variable explicative est catégorielle tab low race, chi2 row col tab low smoke, chi2 row col tab low ptl, chi2 row col * Lorsqu’il y a des catégories qui sont très peu représentées on procède à un regroupement recode ptl (0=0) (1 2 3=1), gen(ptl_g) tab low ptl_g, chi2 row col tab low ht, chi2 row col tab low ui, chi2 row col tab low ftv, chi2 row col recode ftv (0=0) (1=1) (2=2) (*=3), gen(ftv_g) tab low ftv_g, chi2 row col

Sur la base de ces résultats l’on pourra pré-selectionner les variables candidates pour l’analyse multivariables. Les variables ayant une p-value supérieure à 0.2 auront peu de chance d’être retenues dans le modèle multivariables. S’il y a beaucoup de co-variables et que l’on ne peut pas toutes les introduire à la fois dans le modèle, on donnera une préférence à celles dont la p-value est la plus petite. Il faudra, néanmoins, ultérieurement ré-introduire une à une ces variables dans le modèle multivariables pour ré-évaluer leur association.

Page 21: Cours Regression que

17

4) La transformation logit

Une transformation centrale dans l’analyse de régression logistique est la transformation « logit ». En effet, cette transformation permet d’établir une relation entre la probabilité de l’outcome et le prédicteur linéaire x10 ββ + :

logit [ ] xxyP

xyPxyP 10)|1(1

)|1(log)|1( ββ +=

=−

===

Elle s’interprète comme le logarithme du rapport des cotes p/(1-p).

La transformation « logit » ou plus simplement le « logit » permet d’interpréter les résultats d’une estimation sur l’échelle « logit ». L’intérêt de raisonner sur l’échelle « logit » réside avant tout dans la possibilité d’évaluer approximativement d’un coup d’oeil la probabilité associée à une combinaison des co-variables, ainsi que l’importance relative de celles-ci.

Voyons cela : la probabilité de y s’exprime à partir du « logit » comme suit :

[ ]

[ ])|1(log

)|1(log

1)1(

xyPit

xyPit

e

exyP =

=

+==

Le « logit » peut prendre des valeurs entre -inf et +inf, mais la zone d’intérêt se situe entre -5 et +5, car au delà de ces limites la probabilité est soit 0 soit 1 :

0.1

.2.3

.4.5

.6.7

.8.9

1P

(y=

1)

-5 -4 -3 -2 -1 0 1 2 3 4 5logit

Probabilité de y en fonction du logit

figure 13

Par exemple, lorsque le logit vaut 0 la probabilité de y est de 0.5, tandis que lorsqu’il vaut +5 elle est de 0.993 et lorsqu’il vaut -5 de 0.007.

Ainsi, à partir des résultats de l’estimation des coefficients il est facile de calculer le « logit » et d’évaluer approximativement la probabilité de l’outcome. Considérons l’exemple fictif suivant du résultat de l’estimation d’une régression logistique comportant les variables âge et sexe :

Page 22: Cours Regression que

18

logit [ ] sexeâgesexeâgeyP ×+×+−== 21.05),|1(

où la variable sexe prend la valeur 0 pour les femmes et 1 pour les hommes.

Pour une femme d’âge 50 ans le « logit » est égal à 0 et, en se référant à la figure 13, on évalue la probabilité de l’outcome à 0.5 . Pour un homme, par contre, le « logit » prendrait la valeur 2 et la probabilité serait pratiquement de 0.9 . On constate, d’autre part, que l’effet du veillissement d’une année est vingt fois moins important (en terme d’augmentation du risque) que le changement de catégorie pour le genre.

On remarque que, d’une part, plus le coefficient d’une co-variable est grand plus l’effet d’une variation unitaire de cette variable est important sur la probabilité de y, d’autre part, que lorsqu’on se situe sur l’échelle « logit » proche de 0 cette variation aura un effet plus marqué que lorsqu’on est proche de 3 ou -3.

On peut se poser la question : à partir de quelle amplitude d’un coefficient un changement unitaire de la co-variable a un effet sensible sur la probabilité. D’après la figure 13 on sait que cet effet sera maximum lorsque le « logit » est proche de 0. Ainsi, un coefficient d’amplitude 0.2 engendrera au plus un changement de 5% de la probabilité, tandis que si il vaut 0.5 alors le changement est au plus de 12%.

Un autre intérêt du « logit », comme on le verra dans le prochain chapitre, est sa relation avec une mesure d’association très utilisée en épidémiologie entre un facteur explicatif et l’outcome : l’Odds Ratio.

Exercice 4

Dans cet exercice, nous allons apprendre à raisonner sur l’échelle « logit ». Autrement dit, à évaluer directement le niveau de la probabilité associée à une combinaison des co-variables, ainsi que l’impact d’un accroissement unitaire d’une de ces co-variables. Pour cela, il est utile de bien avoir en tête la figure 13, en particulier les niveaux de probabilités associées à différent points entre -5 et +5 sur l’échelle « logit ».

Afin de donner un sens à la constante du modèle, nous allons voir qu’il est utile de centrer les co-variables continues.

Pour estimer les coefficients du modèle nous utiliserons la commande « logit ». La commande « logistic » permet aussi d’estimer le modèle mais fournit les résultats sous forme d’Odds Ratios).

Remarque : les variables smoke, ht et ui ont été codées 0/1 de sorte qu’on peut directement les utiliser dans le modèle sans les préfixer par « i. ». La variable race, en revanche, a été codée 1, 2 et 3 et il faut créer des variables binaires 0/1 pour représenter les différentes catégories. Pour cela, STATA possède une commande automatique « xi : » qui créera les variables binaires nécessaires pour toutes les co-variables catégorielles préfixées par « i. ».

Cette fois, nous allons considérer un modèle multivariables afin d’étudier l’effet conjoint de plusieurs co-variables sur la probabilité de petit poids de naissance.

Page 23: Cours Regression que

19

1) Analyse multivariables Dans cet exercice nous allons illustrer l’effet du centrage des co-variables continue. * estimation sans centrage des covariables continues xi: logit low age lwt i.race smoke ptl_g ht ui i.ftv_g * estimation avec centrage des covariables continues egen mean_age=mean(age) gen age_c=age-mean_age egen mean_lwt=mean(lwt) gen lwt_c=lwt-mean_lwt xi: logit low age_c lwt_c i.race smoke ptl_g ht ui i.ftv_g

En comparant ces deux estimations l’on peut constater que seule la constante change. Dans le premier cas, i.e. sans centrage, la constante n’a pas de sens puisqu’elle correspond à une femme d’âge 0 et de poids 0 kg aux dernières règles…

Dans, le 2ième modèle, en revanche, la constante a l’honorable rôle de représenter une femme d’âge moyen et de poids moyen.

2) Déterminez une combinaison de co-variables de sorte que la probabilité prédite de poids de naissance <2500 kg soit d’au moins 0.5

Pour cela, il vous faut calculer la valeur du « logit » pour différents niveaux des co-variables. A vous de proposer des valeurs…

3) Effet du changement d’unités de mesure

Le poids des femmes aux dernières règles est mesuré en [livres]. Afin d’interpréter les résultats en [kilogrammes] nous allons recoder lwt et ré-estimer le modèle. * recodage du poids aux dernières règles en kg gen lwt_kg_c=lwt_c/2 xi: logit low age_c lwt_kg_c i.race smoke ptl_g ht ui i.ftv_g * recodage du poids aux dernières règles en 10 kg gen lwt_10kg_c=lwt_c/20 xi: logit low age_c lwt_10kg_c i.race smoke ptl_g ht ui i.ftv_g

On constate que sur l’échelle « logit » le changement d’unités affecte le coefficient estimé de manière proportionnelle. Remarquons que la probabilité estimée, par contre, change de manière non proportionnelle puisque la relation entre le « logit » et la probabilité de l’outcome est non linéaire.

Page 24: Cours Regression que

20

4) Test de « significativité » des coefficients (test de Wald)

Pour les variables explicatives dichotomiques ou continues STATA nous fournit directement la p-value du test de « significativité » du coefficient, tandis que pour les variables explicatives polytomiques il faut invoquer le test de Wald au moyen de la commande « test ».

Nous allons tester si les variables race et ftv_g sont significatives. Rappelons que dans l’exercice précédent nous avions regroupé les catégories de la variable ftv en créant la nouvelle variable ftv_g afin d’augmenter les effectifs dans les cellules : * test de significativité de la variable ftv_g test _Iftv_g_1 _Iftv_g_2 _Iftv_g_3 * test de significativité de la variable race test _Irace_2 _Irace_3

5) Sensibilité de la probabilité à un changement unitaire d’une co-variable

Nous allons évaluer l’impact sur la probabilité d’un changement unitaire d’une co-variable en fonction de la position sur l’échelle « logit ». Pour illustrer ceci, nous allons calculer la probabilité pour différents accroissements et valeurs du « logit » : * lorsque le logit est proche de 0 disp "prob="exp(0)/(1+exp(0)) disp "prob="exp(0+0.2)/(1+exp(0+0.2)) disp "prob="exp(0+0.5)/(1+exp(0+0.5)) * lorsque le logit est proche de -2 disp "prob="exp(-2)/(1+exp(-2)) disp "prob="exp(-2+0.2)/(1+exp(-2+0.2)) disp "prob="exp(-2+0.5)/(1+exp(-2+0.5))

En conclure que pour avoir un effet unitaire suffisamment sensible il faut que le coefficient d’une co-variable soit au moins d’amplitude 0.5 . Remarquer que le choix des unités de mesure est primordial pour cette interprétation. Dans le prochain chapitre nous introduirons la notion d’Odds Ratio qui est intimement liée à la transformation « logit ».

Page 25: Cours Regression que

21

5) Le succès du modèle Logit : l’Odds Ratio

Si le modèle Logit est très utilisé en épidémiologie c’est avant tout à cause de l’interprétation de l’exponentielle du coefficient d’une co-variable comme un Odds Ratio.

Pour comprendre ce que représente un Odds Ratio voyons comment il est défini. Pour cela, considérons un modèle avec une seule variable explicative dichotomique comme le sexe (le cas plus général du modèle de régression multiple incorporant plusieurs co-variables ainsi que des interactions sera abordé dans la section suivante) et adoptons le codage suivant : « 0 » pour les femmes et « 1 » pour les hommes, de sorte qu’on écrira la probabilité P(y = 1) = p0 pour les femmes et P(y = 1) = p1 pour les hommes.

5.1) L’Odds Ratio comme mesure d’association

Un Odds est défini comme le rapport des cotes :

Odds = p

p−1

où p est par exemple la probabilité de gagner.

On définit l’Odds Ratio (OR) associé à la variable sexe comme suit :

OR =

0

0

1

1

1

1

p

pp

p

Si p0 représente la probabilité d’être malade pour une femme et p1 celle pour un homme, alors un Odds Ratio de 1 signifie que la probabilité d’être malade est la même chez les hommes et chez les femmes. Autrement dit, le risque de maladie n’est pas associé au sexe.

En revanche, un Odds Ratio différent de 1 signifie qu’il y a une association entre la maladie et le genre. Si cet Odds Ratio est >1 cela signifie que le numérateur est plus grand que le dénominateur et, par conséquent, que les hommes ont un plus grand risque d’être malade que les femmes. C’est le contraire s’il est <1.

Revenons à notre modèle Logit comportant comme variable explicative uniquement le sexe :

logit [ ] sexesexeyP 10)|1( ββ +==

Pour les hommes on a :

Page 26: Cours Regression que

22

logit [ ] 10)11( ββ +=== sexeyP

et pour les femmes :

logit [ ] 0)01( β=== sexeyP

En utilisant la relation entre la probabilité de y et le « logit » vue dans la section précédente on obtient :

OR = [ ]

[ ]1

0

10

)01(log

)11(log

0

0

1

1

1

1 ββ

ββ

ee

e

e

e

p

pp

p

sexeyPit

sexeyPit

===

− +

==

==

de sorte que dans un modèle Logistique l’exponentielle du coefficient d’une variable explicative s’interprète comme son Odds Ratio.

5.2) L’Odds Ratio comme mesure du risque relatif (RR)

De façon analogue à la définition de l’Odds Ratio dans la section précédente, on définit le Risque Relatif (RR) associé à la variable sexe comme :

RR = 0

1

p

p

Cette grandeur a une interprétation intuitive claire, ce qui n’est pas le cas de l’Odds Ratio.

Lorsque la prévalence de l’événement à expliquer est faible, i.e. p0 et p1 sont petites, l’Odds Ratio fournit une approximation du risque relatif :

OR = RRp

p

p

p

p

p=≅

≅−≅−

×0

1

1

0

0

1

1)1(

1)1(

Cependant, lorsque ces prévalences ne sont pas tout petites on a, en général , OR ≠ RR :

Page 27: Cours Regression que

23

OR = )1(

)1(

)1(

)1(

1

0

1

0

0

1

p

pRR

p

p

p

p

−−

×=−−

×

Afin d’illustrer ce dernier point, considérons un exemple issu d’une étude transversale portant sur 170 enfants âgés de 24 à 36 mois d’une région rurale africaine où l’on s’intéressait à l’association entre le retard de croissance staturale et le petit poids de naissance (< 2500g). Les données sont récapitulées dans le tableau suivant :

| retard de croissance staturale

row | 1 0 | Total

-----------+----------------------+----------

<2500g | 18 13 | 31

| 58.06 41.94 | 100.00

| 37.50 10.66 | 18.24

-----------+----------------------+----------

=2500g | 30 109 | 139

| 21.58 78.42 | 100.00

| 62.50 89.34 | 81.76

-----------+----------------------+----------

Total | 48 122 | 170

| 28.24 71.76 | 100.00

| 100.00 100.00 | 100.00

Dans cet exemple, le risque de retard de croissance staturale chez les petits poids de naissance est 18/31=0.58, tandis qu’il est de 30/139=0.22 chez les autres, des sorte que :

69.2

13930

3118

)2500|croissance(retard

)2500|croissanceretard(==

≥<

=gP

gPRR

03.5

10930

1318

)2500|croissanceretard(1)2500|croissanceretard(

)2500|croissanceretard(1)2500|croissanceretard(

==

≥−≥

<−<

=

gPgP

gPgP

OR

On constate, ici, que l’Odds Ratio sur-estime le risque relatif de façon importante, ce qui n’est pas surprenant puisque les prévalences p0=0.22 et p1=0.58 ne sont pas petites.

Page 28: Cours Regression que

24

Exercice 5

Dans cet exercice, nous allons reconsidérer l’estimation du modèle de l’exercice 4 avec les données « Low birth weight » et interpréter les coefficients estimés en terme d’Odds Ratios.

L’Odds Ratio a une interprétation claire et intuitive uniquement lorsqu’il fournit une « bonne » approximation du risque relatif, ce qui est le cas lorsque la prévalence de l’outcome est petite dans les deux catégories considérées. Autrement, il fournit une mesure d’association qui, ma fois, n’est pas interprétable clairement : que signifie concrètement le ratio de deux autres ratios ?!.

Pour obtenir les résultats de l’estimation du modèle Logistique en terme d’Odds Ratios on utilisera la commande « logistic » de STATA.

Remarquons que, cette fois, cela n’a pas d’importance si les variables continues ont été centrées ou pas, car le calcul de l’Odds Ratio ne fait pas intervenir la constante du modèle. Aussi, dans l’exercice 4 on testait la « significativité » d’une covariable en testant si son coefficient était significativement différent de 0. Lorsqu’on travaille avec les Odds Ratios, le test porte alors sur la valeur 1. Autrement dit, une variable sera « significativement » associée à l’outcome si son Odds Ratio est « significativement » différent de 1.

1) Comparaison des p-values et OR avec et sans centrage xi: logistic low age_c lwt_c i.race smoke ptl_g ht ui i.ftv_g xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g

On vérifie que le centrage des co-variables continue n’affecte pas les Odds Ratios. xi: logit low age lwt i.race smoke ptl_g ht ui i.ftv_g xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g

On vérifie que les p-values des paramètres estimés avec la commande « logit » sont bien les mêmes que celles estimées avec la commande « logistic » .

2) Interprétation des OR

Pour commencer, nous allons estimer un modèle avec uniquement la variable explicative smoke : logistic low smoke

L’ OR s’interprète comme une mesure d’association. S’il est supérieur à 1 la relation est croissante, et décroissante s’il est inférieur à 1. Lorsqu’il est égal à 1 il n’y a pas d’association.

Afin de d’anticiper si l’on peut espérer que l’OR associé à la variable smoke fournit, ici, une « bonne » approximation du RR nous allons calculer la prévalence du risque de petit poids de naissance dans les deux catégories de la variable d’exposition. * prévalences de l'outcome dans les 2 catégories de smoke tab low smoke, row col * alternativement en utilisant les résultats fournis par la commande logistic

Page 29: Cours Regression que

25

disp "p0=" exp(_b[_cons])/(1+exp(_b[_cons])) disp "p1=" exp(_b[_cons]+_b[smoke])/(1+exp(_b[_cons]+_b[smoke]))

En conclure que les prévalences sont élevées et que l’approximation du RR par l’OR est susceptible d’être très imprécise. * calcul du RR associé à la variable smoke et comparaison avec son OR disp "RR=" exp(_b[smoke])*(1+exp(_b[_cons]))/(1+exp(_b[_cons]+_b[smoke])) disp "OR=" exp(_b[smoke])

En conclure que l’approximation du RR associé à la variable smoke par son OR conduit, ici, à une surestimation.

Les OR et RR que nous venons d’estimer sont non ajustés puisque le modèle comporte uniquement la variable d’exposition. Comparez l’OR non ajusté avec l’OR ajusté et en conclure, qu’ici, ils diffèrent peu. * OR non ajusté/ajusté logistic low smoke xi: logistic low age lwt i.race smoke ptl_g ht ui i.ftv_g

Le calcul du RR ajusté est plus complexe et sera abordé dans le prochain chapitre.

Page 30: Cours Regression que

26

Page 31: Cours Regression que

27

6) L’interprétation des coefficients

Nous avons vu dans la section précédente que dans le cas d’un modèle comportant une seule variable explicative dichotomique l’exponentielle du coefficient de cette variable s’interprétait comme un Odds Ratio.

Voyons ce qui se passe lorsque la variable explicative admet plusieurs catégories, i.e. elle est polytomique, ou qu’elle est continue, ou encore que le modèle incorpore d’autres co-variables ainsi que des interactions.

6.1) Le cas d’un modèle additif, i.e. sans interactions

Un modèle est additif2 lorsque les co-variables x1, x2, …, xp entrent dans le modèle de manière additive sans faire intervenir le produit d’une variable avec une autre :

logit [ ] ppp xxxxxyP ββββ ++++== ...),,|1( 221101 L

où 0β est la constante du modèle.

Pour illustrer, considérons le modèle suivant :

logit [ ] sexeâgesexeâgeyP 210),|1( βββ ++==

où les variables explicatives sont l’âge et le sexe. Il s’agit d’un modèle additif car il n’y a pas d’interaction (de produit) entre les variables âge et sexe. Autrement dit, dans ce modèle on postule que l’effet de l’âge et du sexe sont indépendants (sur l’échelle logit).

Graphiquement, cette hypothèse implique que la droite représentant l’effet de l’âge est simplement translatée sur une distance 2β lorsqu’on passe d’un genre à l’autre.

-2

2

Relation entre le logit et l’âge chez les femmes et les hommesdans un modèle additif

âge

0logi

t

femmes

hommes

figure 14

2 Dans le cas de la régression logistique, le modèle est additif sur l’échelle « logit », mais multiplicatif lorsqu’on considère la probabilité.

Page 32: Cours Regression que

28

Dans cet exemple, le vieillissement a le même effet chez les hommes et chez les femmes, mais le niveau absolu du risque est différent (les deux droites ne sont pas superposées). Autrement dit, un accroissement unitaire de l’âge augmentera le logit du même montant quel que soit le genre, et l’ Odds Ratio associé à la variable âge sera le même pour les hommes et les femmes.

Remarques (*)

1) Même si dans ce cas l’Odds Ratio associé à la variable âge est le même pour les femmes et les hommes, le risque relatif est différent si 02 ≠β . En effet, cela est dû au fait que le niveau absolu du risque est plus bas, dans cet exemple, chez les hommes et l’effet de l’accroissement d’une année d’âge n’augmente pas la probabilité P(y = 1) du même montant (même si le logit change de la même quantité). La raison provient de la relation non linéaire entre le logit et la probabilité P(y). Par exemple, si le logit passe de 1 à 2, la probabilité passe de 0.73 à 0.88, tandis que si le logit passe de 3 à 4, alors la probabilité passe de 0.95 à 0.98.

2) Dans les modèles non-linéaires, comme le modèle Logit, même si l’on introduit pas de terme produit croisé de deux co-variables celles-ci présentent, en général, une interaction (1).

Soit le modèle de régression non linéaire :

( )sexeâgesexeâgefsexeâgeyE ×+++== 12210),|1( ββββ

L’effet de l’interaction entre âge et sexe se calcule comme :

12121122

2

(.))()((.)(.)

βββββ ×′++×+×′′=∂∂

∂fsexeâgef

sexeâgef

de sorte que même si 012 =β cette expression ne s’annule pas. Ce phénomène est propre aux modèles de régression non-linéaire.

3) La définition que nous avons adoptée d’une interaction est justifiée si l’on travaille sur l’échelle logit et que l’on s’intéresse à l’effet conjoint de deux co-variables sur l’Odds Ratio et non pas sur le Risque Relatif.

a) La constante du modèle

La constante du modèle s’interprète comme « l’effet » de la catégorie de référence. Autrement dit, 0β permet de calculer la probabilité de y lorsque toutes les co-variables x1, x2, …, xp sont

nulles.

Si l’on revient à notre exemple d’un modèle contenant l’âge et le sexe comme variables explicatives :

logit [ ] sexeâgesexeâgeyP 210),|1( βββ ++==

Page 33: Cours Regression que

29

Nous avons arbitrairement choisi de coder les valeurs de la variable sexe = 0 pour les femmes et sexe = 1 pour les hommes, de sorte que 0β s’interprète comme le logit de la probabilité

d’une femme d’âge 0.

En effet, la probabilité P(y = 1| âge et sexe), e.g. d’être malade en fonction de son âge et sexe, s’écrit :

sexeâge

sexeâge

e

esexeâgeyP

210

210

1),|1( βββ

βββ

++

++

+==

de sorte que pour une femme d’âge 0 on obtient :

0

0

210

210

11)0,0|1(

00

00

β

β

βββ

βββ

e

e

e

esexeâgeyP

+=

+==== ×+×+

×+×+

sa probabilité ne dépend que de 0β .

Pour un homme d’âge 0, en revanche, la probabilité dépend aussi de 1β :

10

10

210

210

11)1,0|1(

10

10

ββ

ββ

βββ

βββ

+

+

×+×+

×+×+

+=

+====

e

e

e

esexeâgeyP

Remarque

Pour que la constante du modèle admette une interprétation plus honorable que le logit pour une femme d’âge 0, il est préférable de centrer la variable âge, âge_c = âge-moyenne(âge). Dans ce cas, la constante s’interprète comme le logit d’une femme d’âge égal à l’âge moyen dans l’échantillon.

b) Coefficient d’une variable explicative dichotomique

Lorsque la variable explicative est dichotomique l’exponentielle du coefficient de cette variable s’interprète comme l’Odds Ratio (OR) associé au passage de la catégorie de référence 0 à la catégorie 1.

Ainsi, dans notre exemple, lorsque la variable sexe passe de 0 à 1, on a :

OR = [ ]

[ ]2

10

210

)0,1(log

)1,1(logβ

ββ

βββ

ee

e

e

eâge

âge

sexeâgeyPit

sexeâgeyPit

== +

++

==

==

Page 34: Cours Regression que

30

Il s’agit d’un Odds Ratio ajusté puisque modèle comporte en plus de la variable d’exposition sexe la variable explicative âge. Remarquons que l’Odds Ratio ajusté est en général différent de celui non ajusté, même si son calcul ne fait pas intervenir directement la variable âge, car l’estimation de 2β dépend de celle de 1β .

Remarque

Le calcul du Risque Relatif (RR) est plus complexe et fait intervenir toutes les co-variables du modèle :

RR = )1(1

)1(1

)1(

)1(1010

210210

2

0

1

0

1âgeâge

âgeâge

ee

eee

p

pOR

p

pββββ

βββββββ

++

++++

+−+−

×=−−

×=

210

10

2

1

1βββ

βββ

++

+

++

×=âge

âge

e

ee

Il s’agit d’un RR ajusté puisque modèle comporte en plus de la variable d’exposition sexe la variable explicative âge. Remarquons que le RR ajusté est non seulement différent de l’OR ajusté, mais qu’en plus il n’est pas constant, il dépend des valeurs de la co-variable âge.

c) Coefficient d’une variable explicative polytomique

Lorsque la variable explicative est polytomique, i.e. elle admet plus de deux catégories, on choisi l’une des catégories comme référence et l’on calcule des Odds Ratios pour les autres catégories par rapport à cette référence.

Considérons par exemple la variable éducation comportant 3 niveaux : 1 pour niveau « fin de scolarité », 2 pour « apprentissage » et 3 pour « études supérieures ». Pour représenter une telle variable l’on considérera un modèle avec, en plus de la constante, deux variables « indicatrice » ou « dummy » prenant la valeur 1 si l‘individu possède l’attribut et 0 sinon :

=sinon0

ageapprentisssi11D

=sinon0

ssupérieureétudessi12D

et le logit s’écrit :

logit [ ] 22110)|1( DDéducationyP βββ ++==

L’Odds Ratio associé au passage de la catégorie 1 « fin de scolarité » à la catégorie 2 « apprentissage » est :

Page 35: Cours Regression que

31

OR = [ ]

[ ]1

0

10

)11(log

)21(logβ

β

ββ

ee

e

e

eéducationyPit

éducationyPit

==+

==

==

Tandis que celui associé au passage de la catégorie 1 « fin de scolarité » à la catégorie 3 « études supérieures » est :

OR = [ ]

[ ]2

0

20

)11(log

)31(logβ

β

ββ

ee

e

e

eéducationyPit

éducationyPit

==+

==

==

Ces 2 Odds Ratio sont directement fournis par le programme.

Si, en revanche, l’on désire l’Odds Ratio associé au passage de la catégorie 2 « apprentissage » à la catégorie 3 « études supérieures » il faut calculer :

OR = [ ]

[ ]12

10

20

)21(log

)31(logββ

ββ

ββ−

+

+

==

==

== ee

e

e

eéducationyPit

éducationyPit

d) Coefficient d’une variable explicative continue

Lorsque la variable explicative est continue on calcule un Odds Ratio associé à un accroissement unitaire. Par exemple, considérons la variable âge mesurée en années et supposons que la personne soit d’âge x. Le vieillissement d’une année est associé à un Odds Ratio donné par l’expression :

OR = [ ]

[ ]1

10

10

)(

)1(

)1(log

)11(logβ

ββ

ββ

ee

e

e

ex

x

xâgeyPit

xâgeyPit

== +

++

==

+==

Remarques

1) On notera que cet Odds Ratio dépend des unités et si l’on avait mesuré l’âge en décades on aurait obtenu un Odds Ratio plus élevé :

OR = [ ]

[ ] ( )1010)(

)10(

)1(log

)101(log

11

10

10ββ

ββ

ββ

eee

e

e

ex

x

xâgeyPit

xâgeyPit

=== ×+

++

==

+==

Ainsi, pour calculer un Odds Ratio associé à un accroissement de « z » années il suffit d’élever à la puissance « z » l’Odds Ratio calculé pour une année.

Page 36: Cours Regression que

32

2) L’Odds Ratio ne fait pas intervenir la valeur x prise par la variable âge, tandis que c’est le cas du Risque Relatif :

RR = )1(

)(

)()(

)1()1(

0

1

0

1

10

10

1

1010

1010

1

1

1

)1(1

)1(1

)1(

)1(++

+

++

++++

++

×=+−+−

×=−−

×=x

x

xx

xx

e

ee

ee

eee

p

pOR

p

pββ

βββ

ββββ

βββββ

Le Risque Relatif associé à un accroissement unitaire de la variable âge dépend du niveau de référence x de l’âge, tandis que ce n’est pas le cas de l’Odds Ratio. Le Risque relatif et l’Odds ratio sont deux mesures différentes d’associations entre l’exposition et l’outcome. Parfois, ces deux grandeurs sont proches mais, en général, elles n’ont pas la même interprétation.

3) Comme le RR dépend des valeurs des co-variables dans une étude donnée l’on a autant de valeurs que de participants. Pour simplifier la présentation des résultats on peut calculer le RR moyen. La formule suivante fournit une approximation (2) du RR moyen et permet d’effectuer le calcul directement à partir de l’OR estimé et la prévalence de l’outcome chez les non exposés p0 :

RRmoyen )()1( 00 ORpp

OR×+−

e) L’Odds ratio associé à la variation de plusieurs co-variables

Revenons à notre modèle comportant les variables âge et sexe et calculons l’Odds Ratio associé à une variation simultanée des deux co-variables :

logit [ ] sexeâgesexeâgeyP 210),|1( βββ ++==

où, comme avant, sexe prend la valeur 0 pour les femmes et 1 pour les hommes. L’Odds Ratio associé au passage de la catégorie 0 à 1 pour le genre et à l’augmentation de l’âge de ∆ unités s’écrit :

OR = [ ]

[ ]21

10

210

)(

)(

)0,1(log

)1,1(logββ

ββ

βββ+∆×

+

+∆++

===

=∆+==

== ee

e

e

ex

x

sexexâgeyPit

sexexâgeyPit

6.2) Le cas d’un modèle non additif, i.e. avec interactions

Un modèle n’est pas additif (sur l’échelle logit) lorsqu’il contient non seulement les co-variables x1, x2, …, xp mais en plus le produit de deux ou plusieurs co-variables :

logit [ ] ......),,|1( 312211221101 +++++++== ++ xxxxxxxxxyP ppppp ββββββL

Page 37: Cours Regression que

33

Pour illustrer, considérons le modèle suivant :

logit [ ] sexeâgesexeâgesexeâgeyP ×+++== 12210),|1( ββββ

où les variables explicatives sont l’âge et le sexe, et où l’on postule qu’il peut exister une interaction entre les variables âge et sexe. Concrètement, cela signifie que sur l’échelle logit ou en terme d’Odds ratio l’effet de l’âge n’est pas indépendant de celui du sexe (i.e. l’Odds Ratio des femmes n’est pas le même que celui des hommes). Autrement dit, pour étudier l’effet de l’âge il faut aussi spécifier pour quelle niveau de la variable sexe, puisque cet effet est différent pour les deux sexes.

Graphiquement, l’existence d’une interaction implique que la droite représentant l’effet de l’âge pour les femmes n’a pas la même pente que pour les hommes.

-2

2

Relation entre le logit et l�âge chez les femmes et les hommesdans un modèle non additif (avec interaction)

âge

0logi

t femmes

hommes

figure 15

Le calcul d’un Odds Ratio dans un modèle non additif se traite de la même manière que lorsqu’on considère le calcul d’un Odds Ratio pour la variation simultanée de plusieurs co-variables.

Pour illustrer, considérons toujours notre exemple d’un modèle contenant les co-variables âge et sexe, ainsi que l’interaction sexeâge × . Alors, l’Odds Ratio associé à l’incrément d’une unité de la variable âge s’écrit :

OR = [ ]

[ ]sexe

sexeâgesexeâge

sexeâgesexeâge

sexeâgesexeâgeyPit

sexeâgesexeâgeyPit

ee

e

e

e121

12210

12210

)()(

)1()1(

),,1(log

))1(,,11(logββ

ββββ

ββββ+

×+++

×+++++

×=

×++=

==

On constate que s’il s’agit d’une femme on a sexe = 0 et OR = 1121 0 βββ ee =×+ , tandis que s’il s’agit d’un homme on a sexe = 1 et OR = 121121 1 ββββ +×+ = ee .

En ce qui concerne le Risque Relatif associé à l’accroissement unitaire de l’âge on a :

Page 38: Cours Regression que

34

RR = sexeâgesexeâge

sexeâgesexeâgesexe

e

ee

p

pOR ×+++++

×++++

++

×=−−

×)1()1(

0

1

12210

12210

121

1

11

1ββββ

ββββββ

Contrairement à l’OR, le RR dépend non seulement de la variable sexe, mais aussi de la variable âge.

Remarque

On distingue les interactions d’ordre 1 de celles d’ordre supérieures. Lorsque l’interaction fait intervenir uniquement le produit de deux co-variables elle est d’ordre 1, tandis que si elle définie comme le produit de trois co-variables il s’agit d’une interaction à l’ordre 2, etc. En général, pour des questions d’interprétation on se limite à des interactions d’ordre 1.

Exercice 6

Dans cet exercice nous allons calculer et comparer les Odds Ratios et les Risques Relatifs afin d'évaluer empiriquement la différence entre ces deux mesures d’association. Nous continuons notre présentation avec les données « Low birth weight ».

1) Modèle additif Pour commencer, nous allons considérer un modèle additif comportant les variables explicatives age et smoke. logistic low age smoke

1.1) Comparaison de l’OR et du RR associés à la variable smoke (modèle additif) * NB: le RR dépend non seulement de smoke mais aussi de l'âge cap drop logit* p1* p0* RR* OR * logit chez les fumeurs gen logit1=_b[_cons]+_b[age]*age+_b[smoke]*1 * logit chez les non fumeurs gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0 gen p0=exp(logit0)/(1+exp(logit0)) gen p1=exp(logit1)/(1+exp(logit1)) gen RR=p1/p0 summarize RR disp "0R=" exp(_b[smoke]) gen OR=exp(_b[smoke]) scatter RR age, ytitle(OR/RR) ylabel(1(0.2)2) title(Modèle additif: OR et RR associés à la cigarette, size(medsmall)) || scatter OR age, saving(g8, replace)

Page 39: Cours Regression que

35

On constate que le RR associé à la cigarette dépend de l’âge, tandis que ce n’est pas le cas de l’OR. Conclure que dans notre cas l’OR sur-estime le RR.

On peut obtenir une approximation du RR moyen à partir de la prévalence p0 : tab low smoke, row col disp "RR0=" exp(_b[smoke])/((1-0.2522)+(0.2522*exp(_b[smoke])))

1.2) OR et RR associés à la variable age (modèle additif) * NB: le RR dépend non seulement de l'âge mais aussi de smoke. On calculera le RR pour un fumeur et pour un non fumeur. cap drop logit* p1* p0* RR* OR * logit chez les non fumeurs gen logit1=_b[_cons]+_b[age]*(age+1)+_b[smoke]*0 gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0 gen p0=exp(logit0)/(1+exp(logit0)) gen p1=exp(logit1)/(1+exp(logit1)) gen RR_non_f=p1/p0 summarize RR_non_f * logit chez les fumeurs gen logit1f=_b[_cons]+_b[age]*(age+1)+_b[smoke]*1 gen logit0f=_b[_cons]+_b[age]*age+_b[smoke]*1 gen p0f=exp(logit0f)/(1+exp(logit0f)) gen p1f=exp(logit1f)/(1+exp(logit1f)) gen RR_f=p1f/p0f summarize RR_f gen OR=exp(_b[age]) scatter RR_non_f RR_f age, ytitle(OR/RR) title(Modèle additif: OR et RR associés à l'âge, size(medsmall)) || scatter OR age, saving(g9, replace)

Remarquer que le RR associé à l’accroissement unitaire de la variable continue age dépend non seulement des autres co-variables, mais aussi du niveau de l’âge.

1.3) OR associé aux variables age et smoke (modèle additif) Calculer l’OR associé à un accroissement unitaire de la variable age ainsi qu’au passage de la catégorie non fumeur à fumeur. disp "0R=" exp(_b[age]+_b[smoke]) * avec la commande lincom lincom age + smoke

1.4) OR associé à la variable race Nous allons calculer des OR dans le cas d’une variable explicative polytomique. gen black=cond(race==2,1,0) gen other=cond(race==3,1,0)

Page 40: Cours Regression que

36

xi:logistic low age smoke i.race * OR associé au passage de la catégorie 2 à 3 disp "0R=" exp(_b[_Irace_3]-_b[_Irace_2]) lincom _Irace_3-_Irace_2

2) Modèle avec interaction Nous allons considérer, cette fois, un modèle non additif comportant une interaction entre les variables age et smoke. gen age_smoke=age*smoke gen age_c_smoke=age_c*smoke logit low age smoke age_smoke

2.1) OR et RR associés à la variable smoke (modèle avec interaction) * NB: dans un modèle avec interaction l'OR dépend de l'âge cap drop logit* p1* p0* RR* OR * logit chez les fumeurs gen logit1=_b[_cons]+_b[age]*age+_b[smoke]*1+_b[age_smoke]*age*1 * logit chez les non fumeurs gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0+_b[age_smoke]*age*0 gen p0=exp(logit0)/(1+exp(logit0)) gen p1=exp(logit1)/(1+exp(logit1)) gen RR=p1/p0 summarize RR gen OR=exp(_b[smoke]*1+_b[age_smoke]*age*1) summarize OR scatter OR RR age, ytitle(OR et RR) title(Modèle avec interaction: OR et RR associés à la cigarette, size(medsmall)) saving(g10, replace) * ex: pour un fumeur de 20, 50 ans disp "0R=" exp(_b[smoke]*1+_b[age_smoke]*20*1) lincom 20*age_smoke + smoke, or disp "0R=" exp(_b[smoke]*1+_b[age_smoke]*50*1) lincom 50*age_smoke + smoke, or

Constater que dans ce modèle avec interaction l’OR dépend de l’âge.

2.2) OR et RR associés à la variable age (modèle avec interaction) cap drop logit* p1* p0* RR* OR* * logit chez les non fumeurs gen logit1=_b[_cons]+_b[age]*(age+1)+_b[smoke]*0+_b[age_smoke]*(age+1)*0 gen logit0=_b[_cons]+_b[age]*age+_b[smoke]*0+_b[age_smoke]*age*0 gen OR_non_f=exp(_b[age]*1+_b[age_smoke]*1*0)

Page 41: Cours Regression que

37

gen p0=exp(logit0)/(1+exp(logit0)) gen p1=exp(logit1)/(1+exp(logit1)) gen RR_non_f=p1/p0 summarize RR_non_f * logit chez les fumeurs gen logit1f=_b[_cons]+_b[age]*(age+1)+_b[smoke]*1+_b[age_smoke]*(age+1)*1 gen logit0f=_b[_cons]+_b[age]*age+_b[smoke]*1+_b[age_smoke]*age*1 gen OR_f=exp(_b[age]*1+_b[age_smoke]*1*1) gen p0f=exp(logit0f)/(1+exp(logit0f)) gen p1f=exp(logit1f)/(1+exp(logit1f)) gen RR_f=p1f/p0f summarize RR_f scatter RR_non_f RR_f age, ytitle(OR/RR) title(Modèle avec interaction: OR et RR associés à l'âge, size(medsmall)) || scatter OR_non_f OR_f age, saving(g11, replace) graph combine g8.gph g9.gph g10.gph g11.gph, iscale(.55)

Remarquer que le RR associé à l’âge est pratiquement constant chez les fumeurs. Ceci provient du fait que le coefficient associé à la variable age est très petit et que lorsqu’il s’agit d’un fumeur l’effet total est encore plus petit.

La figure comportant les 4 graphes est instructive et permet de comparer les OR et RR estimés dans un modèle additif avec ceux estimés dans un modèle avec interaction.

Le but de cet exercice était d’illustrer la différence entre OR et RR. On constate que la différence est parfois importante, mais que les deux mesures d’association vont dans le même sens lorsqu’il y a augmentation ou diminution du risque. On retiendra, donc, que l’OR qui est plus simple à calculer que le RR fournit une « bonne » approximation du RR pour autant que la prévalence de l’outcome soit faible (<10%). Si cette prévalence est élevée il peut y avoir une grande différence entre les deux mesures d’association et il faudra être prudent dans l’interprétation de l’OR. Il sera raisonnable de dire « il y a une association croissante… » si l’OR>1, mais il ne faudra pas considérer qu’il s’agit d’une « bonne » approximation du RR.

Page 42: Cours Regression que

38

Page 43: Cours Regression que

39

7) Stratégie de modélisation

Sous le vocable de « stratégie de modélisation » on entend la problématique de choisir un modèle mathématique/statistique, choisir les co-variables, estimer les paramètres du modèle, analyser l’adéquation du modèle aux données et le valider. Il s’agit d’un processus complexe nécessitant de l’expérience.

Pourquoi construire un modèle ?

Revenons, brièvement, sur le « pourquoi » construire un modèle !? La raison est qu’à partir d’un modèle décrivant nos données nous espérons pouvoir inférer des caractéristiques de la population d’intérêt, comme l’association entre l’âge et le risque de maladies coronariennes, montrer que le traitement A est plus efficace que le B, que le risque est différent selon le genre, etc.

Afin de pouvoir extrapoler les résultats de l’analyse de l’échantillon de données dont on dispose à l’entier de la population il faut :

1. Disposer d’un échantillon représentatif de la population d’intérêt. C’est, en général, le cas lorsqu’il y a eu tirage aléatoire des observations. Parfois les observation ne proviennent pas exactement d’un tirage aléatoire mais elles ont été récoltées de façon plus ou moins aléatoire et l’échantillon est supposé représentatif (ex : étude de cohorte). Toutefois, dans ce cas, il y a possiblement un biais de sélection.

2. S’assurer que le modèle décrive « bien » les données et qu’il n’y a pas de biais systématique.

Si ces deux conditions sont vérifiées ont considère qu’il est raisonnable d’inférer les résultats des analyses à l’ensemble de la population d’intérêt.

Un modèle est par définition une représentation simplifiée de la réalité. Par conséquent, il est forcément, dans un certain sens, approximatif et incorrect. Néanmoins, sous les deux conditions que nous avons évoquées ci-dessus il permet d’étudier les relations entre des variables et de tirer des conclusions valables pour la population.

Existe-t-il une stratégie de modélisation conduisant à un « bon » modèle ?

Un « bon » modèle est un modèle qui, à priori, fournit une description raisonnable. Comment parvenir à un tel modèle ?

Il n’existe pas de stratégie de modélisation optimale mais des principes. On procédera par étapes :

• Tout d’abord, la modélisation (mathématique) requière le choix d’une variable dépendante dont on aimerait connaître les déterminants ou variables explicatives qui l’influencent. La nature de cette variable (quantitative, qualitative, positive ou prenant n’importe quelle valeur sur l’axe des réels, etc.) conditionnera le choix du modèle.

Page 44: Cours Regression que

40

• Sur la base de ses connaissances théoriques et de la littérature on choisira les variables explicatives.

• Le nombre de variables que l’on peut raisonnablement introduire dans un modèle va dépendre du nombre d’observations que l’on a disposition. Une règle du pouce pour la régression logistique est d’avoir au moins 10 outcomes positifs par co-variable (3).

• Le nombre de modèles que l’on peut formuler à partir d’un ensemble de k co-variables est quasiment infini, même pour k = 3 ou 4. En effet, avec k co-variables on peut formuler 12 −k modèles contenant les variables x1 à xk. Ensuite, ce nombre est décuplé lorsqu’on introduit les interactions possibles entre les co-variables, et finalement on obtient un nombre incalculable de modèles en variant la forme fonctionnelle de la régression et de chacune des co-variables (4).

• Sur la base de toute une batterie de tests et d’outils statistiques, le modélisateur sélectionnera un modèle parcimonieux et interprétable, maximisant ses chances de reproduire ses résultats dans une nouvelle étude (5-9).

Dans ce chapitre, nous allons présenter des outils d’aide permettant au modélisateur de sélectionner un modèle et d’évaluer sa qualité.

7.1) Le choix des co-variables

Le choix des co-variables à introduire dans le modèle de régression repose non seulement sur les connaissances biomédicales, mais aussi sur la finalité du modèle. En effet, il faut distinguer entre une analyse « pronostic » et une analyse « étiologique », car la finalité n’est pas tout à fait la même.

Dans une analyse « pronostic » on cherche avant tout à construire un modèle permettant de prédire (discriminer dans la régression logistique) le mieux possible les « outcomes » (0 et 1) à partir des co-variables, tandis que dans une analyse « étiologique » on s’intéresse plus particulièrement à évaluer le risque associé à un facteur. Dans ce cas le choix des facteurs confondants est primordial pour éliminer les biais autant que possible.

Pour les analyses étiologiques une théorie assez sophistiquée basée sur des graphes a été développée par les chercheurs de divers disciplines (épidémiologie, économie, sciences du management, etc.). Nous n’allons pas aborder ce thème, ici, mais renvoyons le lecteur intéressé à la littérature (10,11).

On retiendra que, en général, l’approche qui consiste à inclure dans le modèle toutes les co-variables que l’on peut trouver peut introduire un biais et que le choix approprié des régresseurs doit se faire de manière judicieuse. La théorie des graphes nous enseigne, en particulier, qu’il ne faut pas introduire dans le modèle un facteur intermédiaire se trouvant sur le chemin de causalité entre « l’exposition » et « l’outcome ».

7.2) Le choix de la forme fonctionnelle des co-variables

Une fois effectuée la sélection des variables explicatives candidates à l’analyse, il faut déterminer la forme fonctionnelle avec laquelle chaque variable continue entre dans le modèle.

Page 45: Cours Regression que

41

En effet, il se peut que la transformation appropriée pour la variable « âge » par exemple soit le logarithme ou qu’il faille introduire un terme quadratique.

Pour ce qui est des variables catégorielles le problème ne se pose pas puisqu’elles sont codées au moyen de variables dichotomiques 0/1.

On recherchera donc la transformation la plus appropriée soit en comparant les modèles avec la variable « âge » versus « âge+âge2 » ou « âge » versus « log(âge) », soit en utilisant une méthode plus générale comme l’approche par les polynômes fractionnels ou la méthode des splines (12-14).

Une méthode pour obtenir une indication sur la forme fonctionnelle à utiliser peut aussi être basée sur la définition de catégories d’âges, par exemple des quintiles, et l’estimation des coefficients associés à chacune de ces catégories. Ensuite, on représente ces coefficients en fonction du milieu des catégories d’âge sur un graphe.

Remarque

La méthode qui consiste à utiliser les catégories plutôt que la variable continue est utile pour rechercher la transformation adéquate, mais il ne faudrait pas remplacer la variable continue dans le modèle final par les catégories, car l’on perd non seulement de la puissance statistique, mais aussi on introduit un biais de « confounding résiduel » dans l’estimation de chacun des coefficients.

7.3) L’adéquation du modèle aux données « Goodness of fit » (*)

Une fois que les étapes du choix des co-variables et de leurs formes fonctionnelles ont été effectuées, on peut déterminer la qualité de l’ajustement du modèle aux données ou, en anglais, le « Goodness of fit ».

Pour fixer les idées, notons les valeurs observées de l’outcome ),,,(' 21 nyyyy L= et les

valeurs prédites par le modèle )ˆ,,ˆ,ˆ('ˆ 21 nyyyy L= , où n est la taille de l’échantillon. On

considérera que l’ajustement est satisfaisant si :

1. La distance entre l’outcome observé y et l’outcome prédit par le modèle y est petite.

2. Le modèle est bien « calibré », i.e. les fréquences prédites sont proches de celles observées.

3. Le modèle permet de bien discriminer entre les valeurs de y = 0 et y = 1 en fonction des variables explicatives x1, x2, …, xp, i.e. on obtient de bonnes sensibilités et spécificités.

Pour nous aider dans cette tâche, nous allons nous appuyer sur des tests de « Goodness of fit » comme, le test de Hosmer et Lemeshow, la statistique de Pearson et la déviance, sur l’analyse des résidus comme, les résidus de déviance et de Pearson, ainsi que sur l’évaluation de la capacité à discriminer les outcomes positifs y = 1 des outcomes négatifs y = 0 par l’inspection des courbes de sensibilité et spécificité, et la courbe ROC.

La démarche que nous allons adopter consiste à évaluer, d’abord, globalement l’adéquation du modèle au moyen des différents tests de « Goodness of fit », puis, en principe lorsqu’on est

Page 46: Cours Regression que

42

satisfait de la qualité de l’ajustement global, à déterminer s’il n’y a pas localement des observations très mal ajustées et ayant possiblement un effet important sur l’estimation des coefficients. Le but des ces évaluations globale et locale est de s’assurer que l’ajustement du modèle soit satisfaisant pour toutes les valeurs observées dans l’échantillon des variables explicatives. Finalement, l’évaluation du pouvoir discriminant du modèle nous permettra d’appréhender si nous avons choisi les « bonnes » variables explicatives ou s’il manque d’importants régresseurs pour arriver à prédire avec suffisamment de précision l’outcome.

Avant de procéder, il nous faut définir la notion de « covariate pattern » qui est essentielle dans l’analyse du « Goodness of fit » du modèle logistique.

a) La notion de « covariate pattern »

Supposons que notre modèle contienne p variables explicatives, que l’on notera par le vecteur ),,,(' 21 pxxxx L= . Chaque individu dans l’échantillon aura une vecteur 'x caractérisant son

âge, son sexe, etc. On appelle un « covariate pattern » une valeur caractéristique du vecteur 'x de sorte que chaque individu caractérisé par un même vecteur 'x aura le même « covariate pattern ».

Ainsi, si dans un échantillon de taille n, J individus seulement ont des vecteurs 'x différents, on aura J<n « covariate patterns ». On notera mj le nombre d’individus avec le même « covariate

pattern » jxx ′=' , de sorte que nmJ

j =∑1.

Remarque

Lorsque le modèle contient une ou plusieurs variables continue, en général, nJ ≅ .

b) Evaluation de la calibration du modèle : le test de Hosmer et Lemeshow

Le test de Hosmer et Lemeshow est basé sur un regroupement des probabilités prédites par le modèle, par exemple par décile. On calcule, ensuite, pour chacun des groupes le nombre observé de réponses positives y = 1 et négatives y = 0, que l’on compare au nombre espéré prédit par le modèle. On calcule alors une distance entre les fréquences observées et prédites au moyen d’une statistique du Chi2. Lorsque cette distance est petite on considère que le modèle est bien calibré.

Pour illustrer, voici un output de STATA où l’on a appliqué le test de Hosmer et Lemeshow à des données concernant les petits poids de naissance :

. lfit, group(10) table Logistic model for low, goodness-of-fit test (Table collapsed on quantiles of estimated probabilities) +--------------------------------------------------------+ | Group | Prob | Obs_1 | Exp_1 | Obs_0 | Exp_0 | Total | |-------+--------+-------+-------+-------+-------+-------| | 1 | 0.0827 | 0 | 1.2 | 19 | 17.8 | 19 | | 2 | 0.1276 | 2 | 2.0 | 17 | 17.0 | 19 | | 3 | 0.2015 | 6 | 3.2 | 13 | 15.8 | 19 | | 4 | 0.2432 | 1 | 4.3 | 18 | 14.7 | 19 | | 5 | 0.2792 | 7 | 4.9 | 12 | 14.1 | 19 | |-------+--------+-------+-------+-------+-------+-------| | 6 | 0.3138 | 7 | 5.6 | 12 | 13.4 | 19 |

Page 47: Cours Regression que

43

| 7 | 0.3872 | 6 | 6.5 | 13 | 12.5 | 19 | | 8 | 0.4828 | 7 | 8.2 | 12 | 10.8 | 19 | | 9 | 0.5941 | 10 | 10.3 | 9 | 8.7 | 19 | | 10 | 0.8391 | 13 | 12.8 | 5 | 5.2 | 18 | +--------------------------------------------------------+ number of observations = 189 number of groups = 10 Hosmer-Lemeshow chi2(8) = 9.65 Prob > chi2 = 0.2904

On constate que dans notre exemple le test de Hosmer et Lemeshow est passé et que, par conséquent, l’ajustement global du modèle aux données est satisfaisant. Néanmoins, ce test est basé sur un regroupement des données en catégories et certains « covariate patterns » très mal ajustés peuvent avoir échappé. Avant d’accepter ce modèle il faut analyser les résidus pour confirmer que l’ajustement est « bon » pour tous les « covariate patterns ».

Remarque

La statistique de Hosmer et Lemeshow est calculée à partir de la table de contingence (g x 2) (lorsqu’on forme g groupes) des fréquences observées et espérées. Hosmer et Lemeshow ont montré que leur statistique suivait approximativement une loi du Chi2 à g-2 degrés de liberté, mais cette approximation est bonne pour autant que les fréquences espérées soient 5≥ , hormis une. La puissance du test est relativement faible lorsque la taille de l’échantillon est 400≤ .

c) L’analyse des résidus

Un résidu est une mesure de la distance entre l’outcome observé y et l’outcome prédit par le modèle y . Comme on va le voir, il existe plusieurs définitions de résidus et chacune d’elle correspond à un concept particulier de distance.

Le but de l’analyse des résidus est multiple : 1) il s’agit de vérifier qu’il n’y a pas des erreurs systématiques, 2) de déterminer s’il y a des observations très mal expliquées (résidus extrêmes) et 3) si certaines observations ont un effet important de levier sur les résultats des estimations.

Comme chaque observation a son résidu associé il y a autant de résidus que d’observations. L’on considérera donc des mesures globales résumant l’ensemble des résidus par un seul chiffre et permettant ainsi d’apprécier l’ajustement global du modèle aux données (autrement dit on résume la distance entre y et y ), ainsi que des mesures locales fournies par chacun des résidus et permettant de vérifier que la contribution à la mesure globale de chacune des observations est plus ou moins équivalente.

Ce dernier point fait référence à la qualité de l’ajustement pour chaque « covariate pattern ». L’on désire, en effet, que le modèle ajuste bien les observations pour l’ensemble des « covariate patterns » et si certains sont très mal ajustés il faudra en déterminer, si possible, la raison. Eventuellement, certains « covariate patterns » peuvent être éliminés de l’analyse s’ils sont jugés trop « loin » du nuage de points (il s’agit d’outliers) et qu’ils ont un effet de levier important sur l’estimation des coefficients. En effet, les « outliers » peuvent avoir un effet catastrophique sur les estimations et biaiser les analyses. On cherche, en définitive, à ajuster le modèle sur le centre de gravité du nuage de points et il n’est pas désirable que quelques valeurs extrêmes (qui peuvent être des erreurs de mesure ou des cas complètement atypiques) modifient sensiblement les estimations.

Page 48: Cours Regression que

44

Outliers ayant un fort effet de levier

x

y

Droite de régressionsans outliers

Droite de régressionavec outliers

Outliers n’ayant pas un effet de levier important

x

y

Droite de régressionsans outliers

Droite de régressionavec outliers

figure 16 & 17

c.1) Le résidu de Pearson

Nous avons noté mj le nombre d’individus avec le même « covariate pattern » jxx ′=' . De

même, nous noterons le nombre de réponses positives (y = 1) au sein d’un « covariate pattern »

jy , de sorte que 11ny

J

j =∑ où 1n représente le nombre total d’individus avec y = 1.

Ainsi, le nombre de réponses y = 1 au sein d’un « covariate pattern » prédites par le modèle s’exprime par :

jjj Pmy ˆˆ = , j = 1, …, J

où )|1(ˆˆjj xyPP == est la probabilité prédite par le modèle.

Le résidu de Pearson est défini comme :

)ˆ1(ˆ

)ˆ()ˆ,(

jjj

jjjjj

PPm

yyryyr

−== .

Ce résidu sera d’autant plus grand que le nombre de cas positifs prédit est différent du nombre observé et que le dénominateur est petit.

Remarque

Remarquons que )1()|( jjjjj PPmxyV −= , mais )1()|ˆ( jjjjjj PPmxyyV −≠− de sorte que

le résidu de Pearson n’est pas standardisé (i.e. de variance constante égale à 1). La difficulté avec des résidus non standardisés est que leur amplitude dépend non seulement de la

Page 49: Cours Regression que

45

différence jj yy ˆ− mais aussi de sa variance, ce qui complique leur interprétation. Pour cela,

on a défini le résidu de Pearson standardisé.

Le résidu de Pearson standardisé est défini comme :

j

jjsjjs

h

rryyr

−==

1)ˆ,(

où jjjjjj xVXXxPPmh 1)()ˆ1(ˆ −′′−= est une fonction compliquée des observations. On appelle

jh le levier, car cette grandeur mesure dans un certain sens la distance du jème « covariate

pattern » au centre de gravité des « covariate patterns ». Or, l’effet d’un « covariate pattern » éloigné du centre de gravité peut être important sur l’estimation des paramètres.

Remarquons qu’en régression logistique l’interprétation de l’effet de levier d’un « covariate pattern » dépend de sa probabilité associée et un « covariate pattern » éloigné du centre de gravité n’est pas forcément un levier important.

A partir des résidus de Pearson on définit la statistique de Pearson :

∑ ==

J

j jjs yyrX1

22 )ˆ,(

Il s’agit d’une mesure globale résumant la distance entre y et y . Si le nombre d’observations mj , j = 1, …, J, dans chacun des « covariate patterns » est assez grand la statistique de Pearson suit approximativement une loi du Chi2 à J-p degrés de liberté (p est le nombre de paramètres estimés dans le modèle).

Lorsque le modèle contient une ou plusieurs variables continue, en général, nJ ≅ de sorte que la distribution de cette statistique n’est pas une loi du Chi2 à J-p degrés de liberté et l’on retiendra que l’ajustement est d’autant meilleur que cette statistique est petite.

Pour déterminer si une co-variable est mal ajustée par le modèle on peut représenter les résidus de Pearson standardisés en fonction de celle-ci. Si les résidus ne sont pas distribués de manière plus ou moins égale entre les niveaux bas et haut de cette co-variable on en déduira que l’on a un problème d’ajustement pour cette dernière. Cette démarche est illustrée dans le graphe ci-dessous pour un modèle expliquant la probabilité de mettre au monde en enfant de petit poids en fonction de l’âge de la maman :

Page 50: Cours Regression que

46

-2-1

01

23

Rés

idus

sta

ndar

disé

s de

Pea

rson

10 20 30 40 50age of mother

figure 18

On ne constate pas de gros déséquilibre dans la distribution des résidus pour les mamans jeunes et les moins jeunes, ni de valeurs très grandes des résidus de sorte que l’on est satisfait de la qualité de l’ajustement pour cette co-variable.

Remarque

Si les « covariate patterns » contiennent assez d’observations les résidus sont distribués approximativement Normalement et l’on s’attend à trouver environ le 95% des points dans l’intervalle -2 à +2.

c.2) Le résidu de déviance

On définit le résidu de déviance comme :

2/1

)ˆ1(log)(

ˆlog2)ˆ,(

−−+±=

jj

jjjj

jj

jjjj

Pm

ymym

Pm

yyyyd ,

et la déviance :

∑ ==

J

j jj yydD1

2)ˆ,( .

Tout comme la statistique de Pearson, la déviance est une mesure globale résumant la distance entre y et y . Si le nombre d’observations mj , j = 1, …, J, dans chacun des « covariate patterns » est assez grand la déviance suit approximativement une loi du Chi2 à J-p degrés de liberté (p est le nombre de paramètres estimés dans le modèle).

Page 51: Cours Regression que

47

Remarque

En régression logistique, maximiser la vraisemblance revient à minimiser la déviance, soit minimiser la somme des carrés des résidus de déviance. Dans ce sens, les résidus de déviance sont équivalent aux résidus du modèle linéaire.

Comme avec les résidus de Pearson, pour déterminer si une co-variable est mal ajustée par le modèle on peut représenter les résidus de déviance en fonction de cette celle-ci. En reprenant l’exemple d’avant concernant la probabilité de mettre au monde en enfant de petit poids en fonction de l’âge de la maman :

-2-1

01

2D

evia

nce

Res

idua

l

10 20 30 40 50age of mother

figure 19

d) Détection des « covariate patterns » mal ajustés

On peut repérer un « covariate pattern » mal ajusté en considérant sa contribution à la statistique du Chi2 de Pearson ou à la déviance.

La réduction de la statistique de Pearson due à l’élimination des sujets du jème « covariate pattern » est donnée par :

22jsj rX =∆ ,

tandis que pour la déviance on a :

)1(

2

j

jj h

dD

−=∆ .

Typiquement, un graphe de 2jX∆ (respectivement de jD∆ ) versus la probabilité prédite a

l’allure suivante :

Page 52: Cours Regression que

48

4

10

1113

15

16

17

18

1920

22

23

2425

26

27

2829

30

31

32

33

34

35

36

37

4042

43

44

45

46

47

49

5051

52

54

56

57

59

60 61

62

6365

67

68

6971

75

76

77

78

79

81

82838485

8687

88 89

9192

9394 95

9697

98

99100101102

103

104

105106 107108

109111

112113

114

115

116117

118

119

120121

123 124125126

127128

129130

131

132133

134135

136

137

138

139

140141142 143

144

145146

147148

149150151

154

155156

159

160161

162

163

164166167

168169170

172

173 174175176177179

180

181182183 184185

186187

188

189

190191

192193

195 196

197199

200201

202203204

205206207

208209210211 212213 214215

216

217 218219220221222223224

22522602

46

81

0

dx2

0 .2 .4 .6 .8

P(Y=1)

logistics regression dioagnostic

4

10

11

13

15

16

17

18

19

20

22

23

2425

26

27

28

29

30

31

32

33

34

35

36

37

4042

43

44

45

46

47

49

50

51

52

54

56

57

59

6061

62

6365

67

68

69

71

75

76

77

78

79

81

82

8384

85

86

87

8889

91

92

93

9495

96

97

98

99100101

102

103

104

105106107

108

109

111

112

113

114

115

116117

118

119

120

121

123124125

126

127

128

129

130

131

132133

134

135

136

137

138

139140 141142

143

144

145

146

147148

149150

151

154

155

156

159

160

161

162

163

164

166167

168169

170

172

173174

175

176177179

180

181

182183

184185

186

187

188

189

190191

192193

195196

197

199

200

201

202

203204

205206

207

208209210

211212

213214

215

216

217218219220221222223

224

225226

01

23

45

d_

de

via

nce

0 .2 .4 .6 .8

P(Y=1)

logistics regression dioagnostic

figures 20 & 21

Les « covariate patterns » mal ajustés sont généralement représentés par des points soit en haut à droite, soit à gauche, et qui en plus se détachent sensiblement de la masse des points. Pour repérer plus facilement quels sont les sujets correspondant on a fait apparaître leur numéro d’identification.

On constate sur ces figures que seuls deux « covariate patterns » sont éloignés de la masse des points et donc pas bien ajustés. Cependant, si le nombre d’observations dans les « covariate patterns » est suffisamment grand on peut montrer que 2

jX∆ et jD∆ sont distribués

approximativement selon une loi du Chi2 à 1 degré de liberté dont le percentile 95 est 84.3)1(2

95.0 =χ . On considérera, donc, que d’une part un « covariate pattern » est mal ajusté si

la valeur de 2jX∆ ou jD∆ est plus grande que 4, d’autre part que le modèle est bien ajusté si

pas plus de 5% des « covariate patterns » sont supérieurs à 4.

e) Détection des points influants (effet de levier)

Un résidu élevé n’implique pas forcément que le « covariate pattern » a une influence importante sur l’estimation des paramètres et l’on détermine cette influence en examinant les changements dans l’estimation des paramètres pjj ,...,1, =β (on a p covariables) lorsqu’on

élimine le jème « covariate pattern ». Pour cela l’on ne va pas ré-estimer le modèle pour chaque situation mais utiliser une mesure résumant cet effet.

Une mesure de l’influence d’un « covariate pattern » sur l’estimation des paramètres est fournie par :

)1(

ˆ2

j

jjsj h

hr

−=∆β .

On remarque que cette grandeur augmente avec la magnitude du résidu standardisé de Pearson, ainsi qu’avec l’augmentation du levier.

Les « covariate patterns » associés à un résidu élevé et ayant une forte influence sur l’estimation des paramètres sont a scruter attentivement.

Page 53: Cours Regression que

49

Typiquement, un graphe de jβ∆ versus la probabilité prédite a l’allure suivante :

4

10

11

13

15

16

17

18

1920

22

232425 26

27

28

29

3031

32

33

3435

36

374042

43

44

45 4647

49

50515254

56

57 59

60 6162

63

65

67

6869

7175

76

77

78

79 8182 838485

86 87

88 89

9192 9394 95 9697

98

99100101 102

103104

105106107

108 109111

112 113114

115

116117

118

119

120121

123 124125126 127128

129130

131

132133

134 135136

137

138

139140 141142143

144

145 146147148

149150151

154

155

156159

160

161

162

163 164166167

168169170

172

173 174175 176177179

180

181182183 184185 186

187

188

189

190191192193

195 196

197

199200 201

202

203204 205206207 208209210211 212213 214215216

217 218219220221222223 224225226

0.2

.4.6

.81

Pre

gibo

n db

eta

0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1

P(Y=1)

logistics regression dioagnostic

figure 22

Dans ce graphe on constate qu’un « covariate pattern » (le no d’identification 188) a plus d’influence que les autres et est à analyser pour déterminer la raison. Néanmoins, Hosmer et Lemeshow (voir bibliographie) estiment que pour qu’un « covariate pattern » aie une influence sensible sur l’estimation des coefficients il faut que cette grandeur soit supérieure à 1, ce qui n’est pas le cas dans notre exemple et, par conséquent, nous n’en ferons pas cas.

Un autre graphe résumant à la fois les « covariates patterns » mal ajustés et influants est donné par :

4

10

1113

15

16

17

18

1920

22

23

2425

26

27

2829

30

31

32

33

34

35

36

37

4042

43

44

45

46

47

49

5051

52

54

56

57

59

60 61

62

6365

67

68

6971

75

76

77

78

79

81

82838485

8687

88 89

9192

9394 95

9697

98

99100101102

103

104

105106 107108

109111

112113

114

115

116117

118

119

120121

123 124125126

127128

129130

131

132133

134135136

137

138

139

140141142 143

144

145146

147148

149150151

154

155156

159

160161

162

163

164166167

168169170

172

173 174175176177179

180

181182183 184185

186187

188

189

190191

192193

195 196

197199

200201

202

203204205206

207208209210211 212213 214215

216

217 218219220221222223224

225226

02

46

81

0

dx2

0 .2 .4 .6 .8

P(Y=1)

logistics regression dioagnostic

figure 23

f) Evaluation du pouvoir discriminant du modèle : sensibilité, spécificité et courbe ROC

On utilise le modèle Logistique pour modéliser la probabilité des attributs 0/1 de la variable dépendante y en fonction des co-variables x1, x2, …, xp. A partir des probabilités estimées on décidera en fixant un seuil, par exemple à 0.5, de classer l’individu dans la catégorie y = 1 si sa probabilité est supérieure au seuil et dans la catégorie y = 0 sinon. Il s’agit d’une règle de classement :

Si ≥== )|1(ˆˆjj xyPP seuil alors 1ˆ =y et 0 sinon.

Page 54: Cours Regression que

50

Il est intéressant de déterminer la performance du classement et comment celui-ci dépend du seuil (ou de la règle) choisi. Pour cela nous allons considérer les notions de sensibilité et spécificité.

La sensibilité est définie comme la probabilité de classer l’individu dans la catégorie y = 1 (on dit que le test est positif) étant donné qu’il est effectivement observé dans celle-ci :

Sensibilité = P(test + | y = 1)

La spécificité est définie comme la probabilité de classer l’individu dans la catégorie y = 0 (on dit que le test est négatif) étant donné qu’il est effectivement observé dans celle-ci :

Spécificité = P(test - | y = 0)

Voici un exemple fictif de classement obtenu pour un seuil choisi à priori où l’on a calculé la sensibilité et la spécificité :

Classement observé total

y = 1 y = 0

y = +

y = -

5

142

0

428

5

570

total 147 428 575

Sensibilité = 5/147 = 3.4% ; Spécificité = 428/428 = 100%

Lorsqu’on varie le seuil (en anglais « cutoff ») la sensibilité et la spécificité changent, puisque la règle de classement est modifiée. Afin de représenter les valeurs pour toutes les possibilités de seuils on dessine sur un graphe des courbes de sensibilités et spécificités :

0.00

0.25

0.50

0.75

1.00

Se

nsi

tivity

/Sp

eci

ficity

0.00 0.25 0.50 0.75 1.00Probability cutoff

Sensitivity Specificity

figure 24

Page 55: Cours Regression que

51

On constate que, dans cet exemple, en fixant le seuil à 0.3 on obtient un classement avec une sensibilité et spécificité d’environ 70%.

Comme indicateur de la capacité du modèle à discriminer on utilisera la courbe ROC :

0.00

0.25

0.50

0.75

1.00

Se

nsi

tivity

0.00 0.25 0.50 0.75 1.001 - Specificity

Area under ROC curve = 0.7462

figure 25

La surface sous cette courbe nous permet d’évaluer la précision du modèle pour discriminer les outcomes positifs y = 1 des outcomes négatifs y = 0.

On retiendra comme règle du pouce :

Si aire ROC = 0.5 il n’y a pas de discrimination

Si aire ≤7.0 ROC 8.0< la discrimination est acceptable

Si aire ≤8.0 ROC 9.0< la discrimination est excellente

Si aire ROC 9.0≥ la discrimination est exceptionnelle

Remarque

Un modèle mal ajusté, i.e. mal calibré, peut très bien fournir une bonne discrimination. Pour s’en convaincre, il suffit de penser à la situation où l’on ajoute 0.15 à toutes les probabilités estimées. Le modèle sera alors mal calibré, mais en déplaçant le seuil de 0.15 on obtiendra la même discrimination.

Un bon modèle doit être bien calibré et permettre une bonne discrimination.

g) La validation du modèle

Les paramètres de notre modèle de régression logistique sont estimés à partir de l’échantillon de données dont on dispose. On peut se poser la question de la validité de la transposition de nos résultats à l’ensemble de la population d’intérêt.

Pour que l’on puisse inférer des caractéristiques de la population à partir de notre échantillon il faut, bien entendu, qu’il soit représentatif de celle-ci. Cette représentativité s’obtient en particulier lorsqu’il y a eu tirage aléatoire.

Page 56: Cours Regression que

52

Maintenant, nos estimations sont sensibles à la taille de notre échantillon et il est légitime de se poser la question de la reproductibilité de nos résultats. En particulier, est-ce qu’on obtiendra a peu près les mêmes estimations si l’on analyse un autre échantillon de même taille et issu de la même population ?

Comme en général l’on ne dispose pas d’un deuxième échantillon de la population, pour tenter de répondre à cette dernière question des techniques de validation basées sur le re-échantillonnage ou la partition de l’échantillon ont été développées.

Pour ne pas trop allonger le texte, nous n’allons pas rentrer dans la description de ces techniques, ici, mais l’on retiendra que l’évaluation de l’ajustement de notre modèle sur un autre échantillon provenant de la même population fournira très probablement des résultats moins optimistes.

En définitive, on retiendra que plus l’échantillon de données disponibles sera grand plus les estimations seront fiables et reproductibles. Règle du pouce que nous avions énoncée auparavant dans le texte de « dix outcomes positifs par co-variable introduite dans le modèle » va dans le sens d’une meilleure reproductibilité des résultats.

7.4) Limitations et biais (*)

Nous allons ci-dessous passer en revue quelques problèmes courrant que l’on rencontre lorsqu’on fait de la régression logistique.

a) Le problème de la séparabilité ou quasi-séparabilité (*)

Un problème que l’on rencontre parfois lorsqu’on estime un modèle de régression logistique est celui de la séparabilité ou quasi-séparabilité, dans quel cas les estimateurs ne convergent pas et, en principe, le logiciel affiche un message d’erreur. Dans ce cas les résultats ne sont pas fiables et il faut rechercher la cause de la séparabilité.

STATA possède un algorithme permettant de détecter le problème de séparabilité avant de lancer la routine de maximisation de la vraisemblance.

Pour que le modèle de régression logistique soit estimable il faut qu’il y ait une superposition des valeurs des co-variables pour les différents outcomes 0/1. Autrement dit, il ne faut pas que les co-variables discriminent parfaitement.

La situation la plus simple de séparabilité est celle où pour une covariable qualitative il y a une fréquence nulle dans une table de contingence :

Outcome 1 2 3 total

1 7 12 20 39

0 13 8 0 21

total 20 20 20 60

Odds ratio 1 2.79 inf

Page 57: Cours Regression que

53

Dans ce cas, tous les individus dans la catégorie 3 de la variable explicative ont l’outcome 1 et l’Odds ratio associé est infini. Dans ce cas, ces 20 individus sont éliminés de l’estimation et l’on rapportera simplement que les individus de cette catégories ont probabilié 1 d’avoir l’oucome positif.

La situation impliquant une variable continue peut être représentée dans les graphes suivants :

non

oui

Maladie coronarienne

age 50

Sans ce point on aséparabilité complète

non

oui

Maladie coronarienne

age 50

Ici on a séparabilitéQuasi-complète

figures 26 & 27

Si l’on n’observait dans notre échantillon pas de patient sain âgé de plus de 50, on aurait un problème de séparabilité complète. Autrement dit, les patients de plus de 50 ans auraient une probabilité 1 d’avoir un outcome positif et la discrimination en fonction de l’âge serait alors parfaite. On a séparabilité est quasi-complète si le seul chevauchement observé est exactement pour l’âge de 50 ans.

La situation de séparabilité ou quasi-séparabilité impliquant plusieurs co-variables catégorielles ou continue est plus complexe et nous renvoyons le lecteur intéressé à la littérature (15).

b) Le problème de « l’overfitting »

Le problème de « l’overfitting » intervient lorsqu’on a sélectionné beaucoup de co-variables dans le modèle ou lorsqu’on n’a pas assez d’outcomes positifs par rapport au nombre de co-variables retenues. Dans ce cas, les résultats ne sont pas reproductibles et les associations fortuites.

Le risque « d’overfitting » augmente, en particulier, lorsqu’on introduit plusieurs termes d’interaction dans le modèle. Le problème est d’autant plus délicat que les variables explicatives sont catégorielles polytomiques, dans quel cas il y a foison de termes d’interaction à estimer. Dans ce cas, il vaut mieux se limiter aux interaction faisant intervenir un assez grand nombre de patients.

c) Le biais de sélection

Un biais de sélection se produit lorsque l’échantillon de données n’est pas tiré aléatoirement ou qu’il n’y a pas eu randomisation. Dans ce cas, il se peut que les patients exposés au

Page 58: Cours Regression que

54

traitement diffèrent systématiquement de ceux n’ayant pas été exposés et l’analyse de l’effet de l’exposition est biaisé par la sélection.

Pour corriger le biais de sélection on peut recourir aux modèles de sélection et la littérature sur le thème est vaste et assez complexe.

On distingue aussi d’autres biais potentiels, comme le biais de classement qui résulte des erreurs de mesures et le biais de confusion provenant de la non-inclusion dans le modèle d’un facteur confondant.

d) Le problème de surdispersion « overdispersion »

Dans la régression logistique on fait l’hypothèse que le modèle binomial est adéquat pour décrire la variabilité aléatoire de l’outcome. Or, il se peut que ce ne soit pas le cas et que la dispersion soit en réalité supérieure à celle prédite par le modèle. On parle alors de surdispersion ou, en anglais, « d’overdispersion ». Dans ce cas, les p-value et intervalles de confiances estimés par la régression logistique ordinaire sont biaisés.

e) Extensions

e.1) Le cas de données répétées

Lorsque les données sont répétées, comme lorsqu’on suit une cohorte de patients au fil du temps, elles ne sont pas indépendantes et il faut utiliser des techniques statistiques appropriées comme des modèles marginaux (e.g. GEE) ou mixte (à coefficients aléatoires).

e.2) Le cas de données agrégées « cluster »

Comme pour les données répétées, les données agrégées ne sont pas indépendante et il faut utiliser des techniques statistiques qui prennent en compte la dépendance des données, e.g. les modèles multi-niveaux.

Exercice 7

Dans cet exercice nous vous proposons de considérer les données « Low birth weight » et d’appliquer les notions que nous venons de voir pour ajuster un modèle logistique à ces données.

Page 59: Cours Regression que

55

8) Le logiciel statistique STATA

Nous proposons ci-dessous une liste de commandes STATA utiles pour la régression logistique. Pour se fixer les idées, nous prendrons comme exemple de variables celles utilisées par Hosmer et Lemeshow dans le fichier de données « Low birth weight data » disponible sur le web (http://www.stata-press.com/data/r8/lbw).

La commande pour invoquer la régression logistique est « logistic » ou « logit », la première produisant les résultats sous forme d’Odds ratio et la deuxième fournissant les coefficients estimés du modèle :

* Chargement des données Low birth weight ***************************************** cd "C:\Mes documents\Cours régression logistique\" use "C:\Mes documents\Cours régression logistique\lbw.dta", clear xi: logistic low age lwt i.race smoke ptl ht ui

Pour représenter les données, ainsi que la forme de la relation « non ajustée » entre la probabilité de « low birth weight » et l’âge on utilisera la commande : twoway scatter low age, ylabel(0(0.2)1) ytitle(P(low)) title(Relation entre low birth weight et l'âge) || lowess low age, sort

Pour déterminer et représenter la relation fonctionnelle entre l’âge et « low birth weight » on peut utiliser les polynômes fractionnels : xi: fracpoly logistic low age lwt i.race smoke ptl ht ui fracplot age

On obtient toutes sortes de mesures d’adéquation du modèle aux données avec les commandes: fitstat lfit

Pour le test de Hosmer et Lemeshow : lfit, group(10) table

Pour déterminer la sensibilité et la spécificité: Lstat lsens

Pour la courbe ROC: lroc

Pour calculer les probabilités prédites par le modèle:

Page 60: Cours Regression que

56

predict p

Pour calculer les résidus standardisés de Pearson: predict rstd, rs label var rstd "Standardized Residual"

Pour représenter les résidus standardisés de Pearson en fonction de la probabilité sur un graphe, où les points sont en bleu et étiquetés par le numéro d’identification et avec une ligne horizontale passant par 0 : graph twoway (scatter rstd p, msymbol(smcircle) msize(small) mcolor(red) mlabel(id) /// mlabsize(vsmall)), ytitle(Standardized Pearson Residual, size(small)) yscale(titlegap(2) /// range(-5 +5) outergap(3)) ylabel(-5(1)5, labgap(2) labsize(vsmall)) xtitle(P(Y=1), size(small)) /// xscale(titlegap(2) range(0 1) outergap(3)) xlabel(0(0.1)1, labgap(2) labsize(vsmall)) /// yline(0) title(Graph des résidus de Pearson standardisés, size(medsmall))

Pour calculer le résidu de déviance : predict deviance, deviance label var deviance "Deviance Residual"

Pour calculer la réduction de la statistique du Chi2 de Pearson, après avoir enlevé les sujets de covariate pattern xj : predict dx2, dx2

et représenter ceci dans un graphe: graph twoway (scatter dx2 p, msymbol(smcircle) msize(small) mcolor(red) mlabel(id) mlabsize(vsmall)), /// ytitle(dx2, size(medsmall)) yscale(titlegap(2) outergap(3)) xtitle(P(Y=1), size(small)) /// xscale(titlegap(2) outergap(3)) xlabel(, labgap(2) labsize(vsmall)) /// title(logistics regression dioagnostic, size(small)) xline(0.5)

Pour calculer la réduction de la déviance, après avoir enlevé les sujets de covariate pattern xj : predict dd, ddeviance

et représenter ceci dans un graphe: graph twoway (scatter dd p, msymbol(smcircle) msize(small) mcolor(green) mlabel(id) mlabsize(vsmall)), /// ytitle(d_deviance, size(medsmall)) yscale(titlegap(2) outergap(3)) xtitle(P(Y=1), size(small)) /// xscale(titlegap(2) outergap(3)) xlabel(, labgap(2) labsize(vsmall)) /// title(logistics regression dioagnostic, size(small)) xline(0.5)

Pour calculer la statistique d’influence d’un covariate pattern sur l’estimation des parameters: predict cook, dbeta label var cook "Pregibon dbeta"

et représenter ceci dans un graphe:

Page 61: Cours Regression que

57

graph twoway (scatter cook p, msymbol(smcircle) msize(small) mcolor("0 0 255") mlabel(id) mlabsize(vsmall) mlabposition(12)), /// ytitle(Pregibon dbeta, size(medsmall)) yscale(titlegap(2) outergap(3)) xtitle(P(Y=1), size(small)) /// xscale(titlegap(2) range(0 1) outergap(3)) xlabel(0(0.1)1, labgap(2) labsize(vsmall)) /// title(logistics regression dioagnostic, size(small)) xline(0.5)

Le graphe préféré de Hosmer et Lemeshow : graph twoway (scatter dx2 p [weight=cook], msymbol(Oh)) || (scatter dx2 p, mlabel(id) mlabsize(vsmall) mlabposition(12)), /// ytitle(dx2, size(medsmall)) yscale(titlegap(2) outergap(3)) xtitle(P(Y=1), size(small)) /// xscale(titlegap(2) outergap(3)) xlabel(, labgap(2) labsize(vsmall)) /// title(logistics regression dioagnostic, size(small)) xline(0.5) legend(off)

Page 62: Cours Regression que

58

Page 63: Cours Regression que

59

Bibliographie

Livres :

• Hosmer DW and Lemeshow S. Applied logistic regression. John Wiley & Son 1989.

• Amemiya T. Advanced Econometrics. Harvard University Press 1985.

• Maddala GS. Limited dependent and qualitative variables in econometrics. Cambrige University Press 1983.

Articles:

1. Chunrong A. and Norton EC. Interaction terms in logit and probit models. Economic letters 2003;80:123-129.

2. Zhang J and Yu KF. What’s the relative risk. JAMA 1998;280:1690-1691.

3. Peduzzi P, Concato J, Kemper E et al. A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology 1996;49:1373-1379.

4. Greenland Sr. Modeling and variable selection in epidemiologic analysis. American Journal of Public Health 1989;79:340-349.

5. Concato J, Feinstein AR and Holford T. The risk of determining risk with multivariable models. Annals of Internal Medicine 1993;118:201-210.

6. Greenland S and Neutra R. Control of confounding in the assessment of medical technology. International Journal of Epidemiology 1980;9:361-367.

7. Katz MH. Multivariable analysis: a primer for readers of medical research. Annals of Internal Medicine 2003;138:644-650.

8. Bagley SC, White H and Golomb BA. Logistic regression in the medical literature: standards for use and reporting, with particular attention to one medical domain. Journal of Clinical Epidemiology 2001;54:979-985.

9. Traissac P, Martin-Prével Y, Delpeuch F et al. Régression logistique vs autres modèles linéaires généralisés pour l’estimation de rapports de prévalences. Revue d’Epidémiologie et de Santé publique 1999 ;47 :593-604.

10. Hernan MA, Hernadez-Diaz S, Werler MM et al. Causal knowledge as a prerequisite for confounding evaluation : an application to birth defects epidemiology. American Journal of Epidemiology 2002;155;176-184.

11. Greenland S, Pearl J and Robins J. Causal diagrams for epidemiologic research. Epidemiology 1999;10:37-48.

12. Greenland S. Dose-response and trend analysis in epidemiology: alternatives to categorical analysis. Epidemiology 1995;6:356-365.

13. Royston P, Altman DG: Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling. Appl.Stat. 1994;43:429-467.

Page 64: Cours Regression que

60

14. Royston P, Ambler G, Sauerbrei W: The use of fractional polynomials to model continuous risk variables in epidemiology. Int.J.Epidemiol. 1999;28:964-974.

15. Albert A and Anderson JA. On the existence of maximum likelihood estimates in logistic regression models. Biometrika 1984;71:1-10.

Pour l’utilisation de STATA se référer aux manuels suivants :

• STATA Reference Manual de A-Z

• Getting Started with Stata for Windows

• Stata User’s Guide

• Stata Graphics

On consultera aussi l’ouvrage de Rabe-Hesketh et Everitt :

• A Handbook of Statistical Analysis using Stata