Download - Poly Freg Var Quali

Anne Universitaire 2008-2009

Rgression sur variables catgorielles

Laurent Rouvire

Universit Rennes 2Place du Recteur H. le Moal

CS 24307 - 35043 RennesTel : 02 99 14 18 21

Mel : [email protected]

Table des matires

1 Introduction 51.1 Rappels sur le modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Le modle linaire gnralis : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.1 La rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.2 La rgression log-linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.3 Gnralisation : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 Exemples de fonctions de liens pour la rgression dune variable binaire . . . . . . . 12

2 Analyse discriminante logistique 152.1 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.1 Equations du score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.2 Rappel sur lalgorithme de Newton-Raphson . . . . . . . . . . . . . . . . . . 182.1.3 Calcul des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2 Dimensions explicatives, variables explicatives . . . . . . . . . . . . . . . . . . . . . 192.2.1 Variable explicative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Variable explicative qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.3 Interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.3 Interprtation des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 Prcision des estimations et tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.4.1 Loi asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.3 Tests de nullit de q coefficients libres . . . . . . . . . . . . . . . . . . . . . . 24

2.5 Un exemple avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.5.1 Modles simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.5.2 Encore dautres modles... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Slection et validation de modles 313.1 Slection ou choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.1.1 Un outil spcifique : la dviance . . . . . . . . . . . . . . . . . . . . . . . . . 313.1.2 Test de dviance entre 2 modles embots . . . . . . . . . . . . . . . . . . . 343.1.3 Critre de choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.4 Apprentissage/validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.5 Validation croise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.1.6 Slection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Validation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.1 Test dadquation par la dviance . . . . . . . . . . . . . . . . . . . . . . . . 423.2.2 Test dHosmer Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.3 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Rgression sur variables catgorielles Laurent Rouvire

4 Table des matires

3.2.4 Points leviers et points influents . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Modle logistique multi-classes 514.1 Modle polytomique ordonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1.1 Cas binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.1.2 Gnralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.1.3 Lgalit des pentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2 Modle multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.2 Estimation et interprtation des paramtres . . . . . . . . . . . . . . . . . . 56

Annexes 59A.1 Rappels sur la mthode du maximum de vraisemblance . . . . . . . . . . . . . . . . 59A.2 Echantillonnage Rtrospectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61A.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63A.4 Correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Bibliographie 71

Laurent Rouvire Rgression sur variables catgorielles

Chapitre 1

Introduction

Notations : X = (1,X1, . . . ,Xp) : variable alatoire explicative de dimension p + 1, x = (1,x1, . . . ,xp) uneralisation de X ;

Y variable (univarie) expliquer. (X1, Y1), . . . , (Xn, Yn) : un n-chantillon alatoire (iid et de mme loi que le couple (X,Y )), telque Xi = (Xi1, . . . , Xip) ;

(x1, y1), . . . , (xn, yn) une ralisation de (X1, Y1), . . . , (Xn, Yn). X : la matrice des observations :

X =

1 x11 . . . x1p...

......

...1 xn1 . . . xnp

.

1.1 Rappels sur le modle linaire

Le contexte

Nous cherchons expliquer une variable Y par p variables X = (1,X1, . . . ,Xp). Pour ce faire,

on dispose de n ralisations (x1, y1), . . . , (xn, yn) du couple (X,Y ). Le but est de modliser ladpendance de la variable rponse Y sur les variables explicatives X1, . . . ,Xp. Plusieurs raisonspeuvent motiver cette modlisation : la description : on veut un modle qui permette de dcrire la relation entre Y et X ; lvaluation des contributions relatives de chaque prdicteur pour expliquer Y ; la prdiction : prvoir la valeur de Y pour des nouvelles valeurs des variables explicatives.Le modle linaire classique scrit :

Y = X + = 0 + 1X1 + . . .+ pXp + ,

avec = (0, 1, . . . , p) Rp+1 et N (0, 2). On distingue alors deux cas :

Les variables Xi sont dterministes (non-alatoires) :

Y N (X , 2), E(Y ) = X ;

Les variables Xi sont alatoires :

(Y |X) N (X , 2), E(Y |X) = X .


6 Introduction

Plaons nous maintenant dans le cas o la variable expliquer Y est qualitative ou de type facteur(sexe, couleur, prsence ou absence dune maladie...). Cette variable possde un nombre fini demodalits g1, . . . , gm. Le problme consiste expliquer lappartenance dun individu un groupe partir des p variables explicatives, on parlera alors de discrimination au lieu de rgression.

Il est bien entendu impossible de modliser directement la variable Y par une relation linaire(imaginons que Y soit le sexe dune personne ou la couleur de ces cheveux).

Afin de pallier cette difficult, on va sintresser aux probabilits P(Y = gk|X = x). Supposonspour simplifier que la variable Y prenne uniquement deux valeurs : 0 (groupe 0) ou 1 (groupe 1).La connaissance de P(Y = 1|X = x) implique celle de P(Y = 0|X = x) : il suffit par consquentde modliser la probabilit p(x) = P(Y = 1|X = x). On peut par exemple envisager une relationde la forme

p(x) = 0 + 1x1 + . . .+ pxp = x.

Cette approche possde plusieurs inconvnients :

Remarquons tout dabord que la variance de Y |X = x vaut p(x)(1 p(x)). Contrairement aumodle linaire traditionnel, cette variance nest pas constante et par consquent lhypothseclassique dhomoscdasticit des rsidus ne sera pas vrifie.

Le fait quaucune restriction ne soit effectue sur les implique que x peut prendre nimportequelle valeur sur R. Ce qui peut tre gnant pour lestimation dune probabilit (imaginez uneestimation du genre P(Y = 1|X = x) = 1297.56 ! ! !).

Pour ces raisons, nous devons tendre le modle linaire classique aux cas o :

Y peut tre une variable qualitative (prsence ou absence dune maladie, appartenance unecatgorie...) ;

les erreurs peuvent ne pas avoir la mme variance (saffranchir de lhypothse dhomoscdasti-cit).

1.2 Le modle linaire gnralis : GLM

1.2.1 La rgression logistique

Nous nous plaons tout dabord dans un contexte de classification binaire, cest--dire que noussupposons quil existe seulement deux groupes discriminer. Nous verrons dans le chapitre 4comment tendre les techniques des modles multiclasses (plus de deux groupes).

Variable explicative continue

Exemple 1.1Nous souhaitons expliquer la variable Y prsence (1)/ absence (0) dune maladie cardio-vasculaire(Chd) par lge des patients. Les donnes sont reprsentes sur la figure 1.1.


1.2 Le modle linaire gnralis : GLM 7

* * * *

*

* * * *

*

* * *

*

* * *

*

* *

*

* * *

*

*

*

* *

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

* *

* * *

*

* *

*

*

*

* *

*

* * * *

*

* * *

age

chd

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 1.1 Reprsentation directe de Chd (note aussi Y , la variable expliquer) en fonction de lgeX.

Cette figure montre quil est difficile de modliser les donnes brutes, la variabilit de la variableCHD est leve pour tout ge. Une mthode permettant de rduire cette variabilit consiste regrouper les patients par classe dge. Nous obtenons le tableau suivant :

CHDAge n Absent Present Moyenne

]19 ;29] 10 9 1 0.1]29 ;34] 15 13 2 0.133333]34 ;39] 12 9 3 0.25]39 ;44] 15 10 5 0.333333]44 ;49] 13 7 6 0.461538]49 ;54] 8 3 5 0.625]54 ;59] 17 4 13 0.764706]59 ;69] 10 2 8 0.8

Tab. 1.1 Donnes regroupes en classe dge.

La liaison entre lge et la prsence de la maladie devient beaucoup plus claire. Il apparat en effetque lorsque lge augmente, la proportion dindividus atteint par la maladie augmente. La figure1.2 permet dvaluer cette liaison : elle apparat nettement sous la forme dune courbe sigmode(i.e. en forme de S). Il semblerait donc naturel de modliser cette proportion de malade parclasse dge en fonction de lge par une courbe sigmode.


8 Introduction

oo

o

o

o

o

oo

age

chd

20 40 60 80

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 1.2 Frquence de Chd par classe dge en fonction de lge X

La colonne moyenne du tableau 1.1 fournit une estimation de E(Y |X = x). Nous pouvons doncproposer un modle du type pour lesprance conditionnelle de Y |X = x de la forme :

E(Y |X = x) = h(x)o lallure de la courbe reprsentative de h est une sigmode.

Plusieurs fonctions h ont t proposes dans la littrature. Pour le modle logistique on considrela fonction h(x) = exp(x)/(1 + exp(x)), ce qui donne le modle

E(Y |X = x) = p(x) = exp(0 + 1x)1 + exp 0 + 1x

,

o encore

logit p(x) = log

(p(x)

1 p(x))

= 0 + 1x,

logit dsignant la fonction bijective et drivable de ]0, 1[ dans R : p 7 log(p/(1 p)) (voir figures1.3 et 1.4). Nous verrons quune telle modlisation permettra de retrouver un grand nombre desbonnes proprits du modle linaire.

La loi conditionnelle de la variable dintrt diffre entre le modle logistique et le modle linaire.Dans le modle de rgression linaire Y = 0 + 1x + , on fait lhypothse que les rsidus suivent une loi N (0, 2). On en dduit Y |x N (0+1x, 2). Pour le modle logistique, pour uneobservation x de la variable explicative, on peut exprimer la variable dintrt comme suit :

Y = p(x) + .

La quantit peut prendre simplement deux valeurs : si y = 1 alors = 1 p(x) et si y = 0alors = p(x). Par consquent prend pour valeur 1 p(x) avec probabilit p(x) et p(x) avecprobabilit 1 p(x) : Y |x suit une loi de Bernoulli de paramtre p(x).



0.0 0.2 0.4 0.6 0.8 1.0

3

2

1

01

23

Fig. 1.3 logit

3 2 1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 1.4 Inverse de logit

Variable explicative qualitative

Il y a deux faons davoir des variables explicatives qualitatives. Tout dabord, la variable peuttre qualitative par nature (sexe, CSP). La deuxime manire consiste regrouper une variablecontinue en classes. Soit X une variable qualitative admettant m modalits, le modle logistiquepermettant dexpliquer une variable dichotomique Y par X scrit

logit p(x) = 0 + 111(x) + . . .+ m1m(x)

o 1j(x) dsignent les indicatrices

1j(x) =

{1 si x correspond la jme modalit de X0 sinon.

Avec un lger abus de notation, on crira

logit p(x) = x

avec = (0, 1, . . . , m) et x = (1,11(x), . . . ,1m(x)). Toutes les variables qualitatives sont d-coupes en variables indicatrices dans le modle, chaque modalit dune variable correspond uncoefficient. Nous verrons (section 2.2.2 et exercice A.2) (page 63) quen prsence dune variablequalitative, il est ncessaire dimposer une contrainte sur les coefficients du modle. Nous sommesmaintenant mme de dfinir le modle logistique dans un cadre gnral.

Dfinition 1.1 (Rgression logistique)Soit Y une variable binaire expliquer et X = (X1, . . . , Xp) Rp p variables explicatives. Lemodle logistique propose une modlisation de la loi de Y |X = x par une loi de Bernoulli deparamtre p(x) = P(Y = 1|X = x) telle que :

logp(x)

1 p(x) = 0 + 1x1 + . . .+ pxp = x, (1.1)

ou encorelogit p(x) = x,

logit dsignant la fonction bijective et drivable de ]0, 1[ dans R : p 7 log(p/(1 p)).On dduit de (1.1)

p(x) = P(Y = 1|X = x) = exp(x)

1 + exp(x).


10 Introduction

Identifiabilit du modle

On rappelle que le modle est identifiable si pour 6= , les loi de Y |X = x associes et sontdiffrentes. Tout comme pour le modle linaire, une condition ncessaire pour pouvoir estimer lesparamtres est que lchantillon rende le modle identifiable : les lois {(Yi|X = xi), i = 1, . . . , n}associes et sont diffrentes. Comme Yi|X = xi suit une loi de Bernoulli de paramtre p(xi)et que la fonction logit est strictement croissante, cette condition quivaut lexistence dun xi telque xi 6= xi. Ce qui, comme pour le modle linaire, quivaut rang(X) = p+ 1. On supposerapar la suite que cette condition est vrifie.

RemarqueDans un modle logistique, nous effectuons deux choix pour dfinir le modle :

1. le choix dune loi pour Y |X = x, ici la loi de Bernoulli ;2. le choix de la modlisation de P(Y = 1|X = x) par

logit (P(Y = 1|X = x)) = x.La fonction logit est bijective et drivable. Elle est appele fonction de lien.

Remarquons galement que

E(Y |X = x) = P(Y = 1|X = x)

V(Y |X = x) = P(Y = 1|X = x)(1P(Y = 1|X = x)

)ce qui implique que la variance nest pas constante et varie selon la valeur x de X.

1.2.2 La rgression log-linaire

Dans le modle logistique la variable expliquer est une variable binaire. Le modle log-linairetraite le cas dune variable de comptage. Voici quelques exemples : nombre de catastrophes ariennes sur une priode donne ; nombre de voitures un feu rouge ; nombre daccidents par jour sur une autoroute...

Dfinition 1.2 (Rgression log-linaire)Soit Y une variable de comptage expliquer et X = (1,X1, . . . ,Xp) Rp+1 p + 1 variablesexplicatives. Le modle log-linaire propose une modlisation de la loi de Y |X = x par une loi depoisson de paramtre = (x) telle que :

logE(Y |X = x) = x.Pour une nouvelle mesure x effectue, le modle log-linaire va donc prdire exp(x).

RemarqueIci encore, deux choix sont effectus pour dfinir le modle :

1. le choix dune loi pour Y |X = x, ici la loi de Poisson ;2. le choix de la modlisation de E(Y |X = x) par

logE(Y |X = x) = x.La fonction log est bijective et drivable.



1.2.3 Gnralisation : GLM

On peut rsumer les remarques prcdentes par le tableau :

Choix logistique log-linaire linaire

Y |X = x Bernoulli Poisson Normalemodlisation

de logit E(Y |X = x) = x logE(Y |X = x) = x E(Y |X = x) = xE(Y |X = x)

Une gnralisation de ces mthodes est appele GLM (Generalized Linear Model). LapprocheGLM consiste :

1. choisir une loi pour Y |X = x parmi un ensemble restreint de loi (les lois exponentiellesGLM) ;

2. choisir une fonction de lien g(.) parmi une ensemble rduit de fonctions bijectives et drivable.

3. la transformation de lesprance conditionnelle E(Y |X = x) par la fonction g est ensuitemodlise par une fonction qui nest autre quune combinaison linaire des variables expli-catives :

g (E(Y |X = x)) = (x) = x.On peut rsumer un modle GLM par le schma suivant :

A expliquercomposante alatoire

Y |X = x suit une loi fixe.

Lien

E(Y |X = x) dpend de(x) au travers de la fonc-tion g appele fonction delien

g(E(Y |X)) = (X)

g est une fonction inversible.

ExplicatifComposante systmatique

On modlise par une com-binaison linaire des Xj

(x) =

pj=1

xjj

Remarque1. Pour choisir un modle GLM il faut donc

choisir la loi de Y |X = x dans la famille exponentielle des GLM. choisir une fonction de lien inversible g.

2. Pour utiliser un modle GLM il faudra donc estimer les paramtres = (0, 1, . . . , p). Unefois cette estimation ralise, (x) est fix, ce qui fixe E(Y |X = x) = g1((x)).

Le tableau 1.2 donne quelques exemples de GLM.


12 Introduction

Loi Nom du lien Fonction de lienBernoulli/Binomiale lien logit g() = logit () = log(/(1 ))Poisson lien log g() = log()Normale lien identit g() = Gamma lien rciproque g() = 1/

Tab. 1.2 Exemples de GLM.

1.3 Exemples de fonctions de liens pour la rgression dune

variable binaire

Dautres fonctions de lien que logit peuvent tre utilises dans le cas o la variable expliquer Yest binaire. On retrouve notamment dans la littrature les transformations : probit, qui nest autre que linverse de la fonction de rpartition de la loi normale centre rduite :

p [0, 1], probit(p) = avec 12

exp

(12u2)

du = p.

log-log dfinie par :p [0, 1], log-log(p) = log( log(1 p)).

Ces transformations sont reprsentes sur la figure 1.5

0.0 0.2 0.4 0.6 0.8 1.0

4

2

02

4

p

Fig. 1.5 Fonctions de liens : probit (trait plein), logit (tirets), log-log (pointills).

Des trois fonctions de lien prsentes, la transformation log-log est bien approprie aux cas olon souhaite modliser les probabilits de succs de manire asymtrique. Les transformationslogit et probit possdent des proprits identiques. Dans de nombreux cas, on prfre utiliser latransformation logistique. Plusieurs raisons motivent ce choix : dun point de vue numrique, la transformation logistique est plus simple manipuler (notam-ment pour lcriture des estimateurs du maximum de vraisemblance, voir section 2.1) ;


1.3 Exemples de fonctions de liens pour la rgression dune variable binaire 13

on a une interprtation claire des coefficients en terme dodds ratio pour la transformationlogistique (voir section 2.3).

le modle logistique est particulirement bien adapt un schma dchantillonnage rtrospectif(voir annexe A.2)

Nous nous focaliserons dans la suite sur le modle logistique. Les diffrents rsultats obtenuspourront stendre aux autres modles GLM. Il est important de connatre les notations des GLMprsentes dans cette partie. Cest en effet sous cette forme l quelles sont prsentes dans lalittrature ainsi que dans la plupart des logiciels statistiques (notamment R).


Chapitre 2

Analyse discriminante logistique

Nous rappelons que Y dsigne une variable expliquer binaire (qui prend 2 valeurs 0 ou 1 poursimplifier) ou un label qui dnote lappartenance un groupe et X1, . . . ,Xp dsignent p variablesexplicatives. On souhaite :

expliquer la variable Y laide des p variables explicatives X = (1,X1, . . . ,Xp) ; tant donne une nouvelle mesure x des p variables explicatives X, prdire le label y associ cette variable.

Nous avons vu dans le chapitre prcdent que le modle logistique scrit

logit p(x) = 0 + 1x1 + . . .+ pxp = x (2.1)

o = (0, . . . , p) et x = (1,x1, . . . ,xp). Nous nous posons le problme de lestimation desparamtres partir dun chantillon (x1, y1), . . . , (xn, yn). Les observations sont supposes ind-pendantes. Il y a deux structures de donnes :

les donnes individuelles : {(xi, yi), i = 1, . . . , n} o les xi sont tous diffrents, le design est{x1, . . . , xn} ;

les donnes rptes : {((xt, yit), i = 1, . . . , nt), t = 1, . . . , T}. Il y a nt 1 observations yit aupoint xt, le nombre total dobservations est n =

Tt=1 nt et le design est {(x1, n1), . . . , (xT , nT )}.

Les proprits du modle logistique sont trs proches pour ces deux types de donnes. Certainsconcepts tels que la forme de la vraisemblance o les tests dadquation par la dviance peuventnanmoins lgrement diffrer. Dans ce chapitre, nous nous focalisons sur le cas de donnes in-dividuelles (qui est le cas le plus frquent). Pour une tude plus approfondie du cas des donnesrptes, nous renvoyons le lecteur lannexe A.3 (pour lcriture de la vraisemblance) ou auxouvrages de Hosmer & Lemeshow (2000) et Collet (2003).

2.1 Estimation des paramtres

2.1.1 Equations du score

Nous allons utiliser lchantillon (x1, y1), . . . , (xn, yn) pour estimer les paramtres par la m-thode du maximum de vraisemblance (voir annexe A.1). Cette mthode consiste chercher =(0, 1, . . . , p) qui maximise la vraisemblance

ni=1

P(Y = yi|X = xi).


16 Analyse discriminante logistique

Rappelons que par dfinition du modle logistique Y |X = x Ber(p(x)). Par consquent :ni=1

P(Y = yi|X = xi) =ni=1

pyii (1 pi)1yi

avec pi = P(Y = 1|X = xi). En passant au log nous avons alors

L() =ni=1

{yi log(pi) + (1 yi) log(1 pi)}

=ni=1

{yi log

(pi

1 pi

)+ log(1 pi)

}.

Daprs (2.1) nous obtenons

L() =ni=1

{yixi log(1 + exp(xi))}. (2.2)

En drivant par rapport au paramtre nous avons queL

() =

[L0

(), . . . ,Lp

()

]avec

Lj

() =ni=1

[yixij xij exp(x

i)

1 + exp(xi)

]

=ni=1

[xij(yi pi)] .

Ce qui donne en criture matricielle

L

() =ni=1

[xi(yi pi)] .

Une condition ncessaire doptimum (sur Rp) est lannulation des drives loptimum, nousobtenons lquation suivante (appele quation du score) :

S() =L

() =ni=1

xi {yi P(Y = 1|X = xi)} = X (Y P ) = 0, (2.3)

P est le vecteur de dimension n des P(Y = 1|X = xi) qui dpend de . On note une solutionde S() = 0.

Trouver explicitement nest pas possible. En effet, lquation (2.3) scrit :

x11y1 + . . .+ xn1yn = x11exp(1x11 + . . .+ px1p)

1 + exp(1x11 + . . .+ px1p)+ . . .+ xn1

exp(1xn1 + . . .+ pxnp)

1 + exp(1xn1 + . . .+ pxnp)......

x1py1 + . . .+ xnpyn = x1pexp(1x11 + . . .+ px1p)

1 + exp(1x11 + . . .+ px1p)+ . . .+ xnp

exp(1xn1 + . . .+ pxnp)

1 + exp(1xn1 + . . .+ pxnp).

Dans le cas de la rgression logistique (binaire), il existe une procdure spcifique dite IRLS(Iterative Reweighted Least Squares) issue de la procdure de Newton-Raphson.


2.1 Estimation des paramtres 17

Dfinition 2.1Le nuage de points est dit : compltement sparable si Rp+1 : i tel que Yi = 1 xi > 0 et i tel que Yi = 0 xi < 0 ; quasi-compltement sparable si Rp+1 : i tel que Yi = 1 xi 0, i tel que Yi = 0 xi 0et {i : xi = 0} 6= ;

en recouvrement sil nest ni compltement sparable ni quasi-compltement sparable (voir figure2.1).

Fig. 2.1 Exemple de sparabilit complte (gauche), quasi-complte (milieu) et de recouvrement(droite).

La proposition suivante assure la convergence de lalgorithme IRLS vers la valeur .

Proposition 1 On suppose que le nuage de points est en situation de recouvrement et que les xisont des ralisations i.i.d. dune loi support compact. Alors

1. La log-vraisemblance L() est strictement concave : existe et est unique.2. La loi asymptotique de lestimateur du maximum de vraisemblance est donne par

n( ) N (0, I()1),

o I() est la matrice dinformation de Fisher au point :

I()ij = E[ 2ij

LY ()],

LY () dsignant la log-vraisemblance de au point Y .

Pour la preuve de la concavit, on pourra se rfrer au polycopi de Guyon (2005) ou larticle deAlbert & Anderson (1984). La loi asymptotique dcoule de la thorie du maximum de vraisemblance(voir annexe A.1). La concavit a une consquence numrique importante puisquelle justifie quunalgorithme itratif convergera bien vers la valeur de . Il ny a donc pas de risque de convergervers un maximum local non global et la convergence de lalgorithme ne dpend pas du pointdinitialisation de lalgorithme.



2.1.2 Rappel sur lalgorithme de Newton-Raphson

La mthode de Newton-Raphson permet une rsolution numrique des quations du score. Onpart tout dabord dune valeur initiale arbitraire de , note 0. On note 1 = 0 + h une valeurcandidate pour tre solution de S() = 0, cest--dire S(0+h) = 0. Par un dveloppement limit lordre un de la fonction S, on obtient lapproximation suivante :

S(0 + h) S(0) + hS (0).Comme S(0 + h) = 0, on obtient pour h la valeur suivante :

h = [S (0)]1 S(0).Il vient

1 = 0 [2L

(0)

]1L

(0).

On itre le processus. La procdure se rsume de la manire suivante :

1. choix dun point de dpart 0 ;

2. On construit k+1 partir de k

k+1 = k + AkL|k ,o L|k est le gradient au point k et Ak = (2L|k)1 est la matrice de pas delalgorithme (linverse du hessien de L au point k)

Algorithme 1 maximisation de la vraisemblance

Require: 0

k 1repeatk+1 k + AkLkk k + 1

until k+1 k et/ou L(k+1) L(k)

2.1.3 Calcul des estimateurs

Calculons la matrice hessienne 2L ={

2Lrs

}1r,sp

:

2Lrs

= ni=1

xrixsi

exp(xi)

(1 + exp(xi))2=

ni=1

xrixsipi(1 pi),

par consquent

2L = 2L2

= ni=1

xixiP(Y = 1|X = xi)(1P(Y = 1|X = xi)).

On note pki la probabilit P(Y = 1|X = xi) estime ltape k de lalgorithme ;


2.2 Dimensions explicatives, variables explicatives 19

P k le vecteur colonne de dimension n dont le ime lment est pki ; W k la matrice diagonale diag(pki (1 pki )).Il vient

(2L|k)1 = (XW kX)1. (2.4)Nous sommes maintenant mme de calculer k+1

k+1 = k + (XW kX)1X(Y P k)= (XW kX)1XW k(Xk +W k

1(Y P k))

= (XW kX)1XW kZk,

o Zk = Xk + W k1(Y P k). Cette quation est simplement une rgression pondre o les

poids W k dpendent de X et k. Les poids sont donc rvalus chaque tape de lalgorithme,une tape tant une simple rgression pondre. A la dernire tape k de lalgorithme, on noteW k

= W . On obtient lestimateur du maximum de vraisemblance :

= (XW k

X)1XW k

Zk

= (XW X)1XW Zk

.

2.2 Dimensions explicatives, variables explicatives

Les remarques formules dans cette partie sappliquent dans la plupart des modles de rgres-sion (modles linaires et danalyse de variance par exemple). Pour plus de dtails, on pourra serapporter aux ouvrages de Droesbeke et al (2007) et Cornillon & Matzner-Lber (2007).

Suivant la nature dune variable explicative, le nombre de dimensions explicatives du modle peutvarier. Plus prcisment, on dira que la dimension explicative du modle est gale au nombre decolonnes de la matrice du design X utilise dans lalgorithme destimation des paramtres (voirsection 2.1). Elle est obtenue en sommant les dimensions explicatives associes aux diffrentesvariables explicatives du modle, lesquelles varient suivant le nature de la variable explicative. Noustudions dans cette partie les dimensions explicatives pour des variables explicatives quantitatives,qualitatives. Le cas dinteraction sera ensuite abord.

2.2.1 Variable explicative continue

Cest le cas le plus simple puisque une variable explicative est reprsente par une seule colonnedans la matrice du design X. On estime donc un seul paramtre par variable quantitative.

2.2.2 Variable explicative qualitative

Tout comme pour le modle danalyse de variance, une variable qualitative est reprsente parles indicatrices associes aux diffrentes modalits. Considrons un modle o la seule variableexplicative est le sexe :

logit (P(Y = 1|X = x)) = 0 + F1F (x) + H1H(x), (2.5)

mais aussi

logit (P(Y = 1|X = x)) = (0 + F ) + (H F )1H(x).



Il y a une infinit dcritures possibles... Le modle (2.5) correspond une matrice du design X trois colonnes o la premire colonne est une colonne de 1 et les deux dernires sont obtenuesen effectuant un codage disjonctif complet pour chaque individu (le ime terme de la 2me (resp.3me) colonne vaut 1 si le ime individu de lchantillon est une femme (resp. un homme)). Parconsquent, la somme des deuxime et troisime colonne vaut 1 ce qui rend lestimation impossiblepuisque la matrice X nest pas de plein rang (XWX nest donc pas inversible). Une solution pourpallier cette difficult consiste mettre une contrainte sur les coefficients H et F . La solutionsouvent utilise par les logiciels est de supprimer une des colonnes de la matrice X, ce qui revient considrer que le coefficient de la modalit associe cette colonne est nul. Cette modalit est prisecomme modalit de rfrence par rapport laquelle on mesure des dviations. Le choix de cettemodalit na bien entendu pas dinfluence sur le modle. Il en a cependant une sur la valeur descoefficients estims ainsi que sur leurs carts types. Ainsi le nombre de coefficients significativementdiffrents de 0 peut changer suivant le choix de la modalit de rfrence. Ceci montre clairementque, pour juger lapport dune variable qualitative, il nest pas pertinent dutiliser les tests designificativit des coefficients. Il sera prfrable de raliser un test entre modles embots (voirpage 34).

Exemple 2.1Considrons le cas dune variable explicative trois niveaux g1, g2, g3. Les observations sont rcol-tes dans les tableaux suivants (quivalents)

observation X Y

1 g1 12 g2 13 g3 14 g1 15 g2 06 g1 0

X #{Y = 1} #{Y = 0}g1 2 1g2 1 1g3 1 0

On effectue une rgression logistique sur R :

> model model

Call: glm(formula = Y ~ ., family = binomial, data = X)

Coefficients:

(Intercept) xg2 xg3

0.6931 -0.6931 17.8729

Degrees of Freedom: 5 Total (i.e. Null); 3 Residual

Null Deviance: 7.638

Residual Deviance: 6.592 AIC: 12.59

La modalit g1 est ici prise comme modalit de rfrence. Le modle estim scrit donc :

logit P(Y = 1|X = gj) =

0.6931 si j = 10 si j = 20.6931 + 17.8729 = 18.566 si j = 3.


2.3 Interprtation des coefficients 21

ou encore

P(Y = 1|X = gj) =

exp(0.6931)1+exp(0.6391)

= 2/3 si j = 1

1/2 si j = 2exp(18.566)

1+exp(18.566)= 1.0000 si j = 3.

2.2.3 Interactions

Tout comme en analyse de la variance, on ne peut se contenter de modles purement additifs.Reprenons lexemple dvelopp dans Droesbeke et al (2007) (page 122). Nous considrons le caso la variable Y reprsente le fait de faire (cod 1) ou non (cod 0) de la couture. On dispose dedeux variables explicatives : lage et le sexe. Le modle purement additif scrit :

logit p(x) = 0 + 1age+ 21femme,

la modalit homme a t choisie comme modalit de rfrence. Une telle criture revient supposerque les pentes sont identiques pour les hommes et les femmes (voir Figure 2.2).

Hommes

Femmes

age

Fig. 2.2 Modle additif.

Hommes

Femmes

age

Fig. 2.3 Modle avec interaction.

Sachant que les hommes font trs rarement de la couture, il parait prfrable de pouvoir utiliserun modle du genre (voir Figure 2.3) :

logit p(x) = 0 + 1age+ 21femme + 3age1femme.

Ce modle revient considrer linteraction entre les variables age et sexe. On rappelle quedeux variables interagissent si leffet de lune sur Y diffre suivant les valeurs de lautre. Bienentendu, lajout dune interaction augmente la dimension explicative du modle. Le nombre decomposantes supplmentaires sobtient en faisant le produit du nombre de dimensions des variablesqui interagissent (ici les variables sexe et age sont de dimension 1, on rajoute donc une dimension).

2.3 Interprtation des coefficients

Nous avons reprsent sur la Figure 2.4 plusieurs reprsentations de la fonction x 7 exp(x)1+exp(x)

pourdiffrentes valeurs de . On remarque que : pour de faibles valeurs de on a une large plage de valeurs de x pour lesquelles la fonction sesitue aux alentours de 0.5 (la fonction est mme constante (0.5) dans le cas extrme = 0).Pour ces valeurs P(Y = 1|X = x) sera proche de 0.5 et on peut donc penser quil sera difficilede discriminer ;



0.2

0.8

0.0

1.0

0.0

1.0

0.3

0.7

= 0 = 0.5

= 2 = 10

Fig. 2.4 P(Y = 1|X = x) pour diffrentes valeurs de .

lorsque augmente, la zone o la fonction est proche de 0.5 diminue et la fonction est prochede 0 ou 1 pour un grand nombre de valeurs de x. Par consquent, P(Y = 1|X = x) sera souventproche de 1 ou 0, ce qui risque de minimiser dventuelles erreurs de prdictions.

On peut interprter ainsi : plus est grand, mieux on discrimine. Cependant une telle interpr-tation dpend des valeurs que x prend (de son chelle). Cest pourquoi en gnral linterprtationdes coefficients seffectue en terme dodds ratio. Les odds ratio sont des outils souvent apprcisdans le domaine de lpidmiologie (mais pas toujours bien utiliss !).

Les odds ratio servent mesurer leffet dune variable continue ou le contraste entre les effetsdune variable qualitative. Lide gnrale est de raisonner en terme de probabilits ou de rapportde cotes (odds). Si on a, par exemple, une probabilit p = 1/4 de gagner un jeu, cela signifieque sur 4 personnes une gagne et les trois autres perdent, soit un rapport de 1 gagnant sur troisperdants, cest--dire p/(1 p) = 1/3. Ce rapport p/(1 p) varie entre 0 (0 gagnant) et linfini(que des gagnants) en passant par 1 (un gagnant pour un perdant).

Dfinition 2.2Lodds (chance) pour un individu x dobtenir la rponse Y = 1 est dfini par :

odds(x) =p(x)

1 p(x) , o p(x) = P(Y = 1|X = x).

Lodds ratio (rapport des chances) entre deux individus x et x est

OR(x, x) =odds(x)

odds(x)=

p(x)1p(x)

p(x)1p(x)

.

Les odds ratio peuvent tre utiliss de plusieurs manires :

1. Comparaison de probabilits de succs entre deux individus (voir Tableau 2.1) ;


2.4 Prcision des estimations et tests 23

OR(x, x) > 1 p(x) > p(x)OR(x, x) = 1 p(x) = p(x)OR(x, x) < 1 p(x) < p(x)

Tab. 2.1 Rgles dinterprtation des odds ratio.

2. Interprtation en terme de risque relatif : dans le cas o p(x) et p(x) sont trs petitspar rapport 1, comme dans le cas dune maladie trs rare, alors on peut approximer lodd-ratio comme OR(x, x) p(x)/p(x) et interprter simplement. Par exemple si OR(x, x) = 4alors la rponse (maladie) est 4 fois plus probable dans le cas o X = x que dans le cas oX = x.

3. Mesure de limpact dune variable : pour le modle logistique

logit p(x) = 0 + 1x1 + . . .+ pxp,

il est facile de vrifier que

OR(x, x) = exp(1(x1 x1)) . . . exp(p(xp xp)).Pour tudier linfluence dune variable sur lodds ratio, il suffit de considrer deux observationx et x qui diffrent uniquement par la jme variable. On obtient alors

OR(x, x) = exp(j(xj xj)).Ainsi une variation de la jme variable dune unit (sur lchelle de cette variable) correspond un odds ratio exp(j) qui est uniquement fonction du coefficient j. Le coefficient j permetde mesurer linfluence de la jme variable sur le rapport p(x)/(1 p(x)) lorsque xj variedune unit, et ceux indpendamment de la valeur de xj. Une telle analyse peut se rvlerintressante pour tudier linfluence dun changement dtat dune variable qualitative.

Exemple 2.2Considrons lexemple o lon souhaite expliquer le fait davoir une mention au bac par la moyenneen math sur les deux premiers trimestres. On note Y la variable alatoire qui prend pour valeur 1 si lindividu a obtenu une mention, 0 sinon ; X1 la moyenne de lindividu en question au cours des deux premiers trimestres.Le modle logistique scrit

logit p(x) = 0 + 1x1.

On trouve une estimation de 1 gale log 2. Pour une note x1 fixe, le modle donne p(x) = 1/4(on rappelle que x = (1,x1)). On a donc odds(x) = 1/3 soit un rapport dune mention pour 3non mention (pour la note x1). Si on considre des individu ayant obtenu la note x1 + 1, il fautmultiplier lodds par 2 : odds(x) = 2/3 avec x = (1,x1 + 1).

2.4 Prcision des estimations et tests

2.4.1 Loi asymptotique

Nous avons obtenu dans la proposition 1 le comportement asymptotique de lestimateur du maxi-mum de vraisemblance :

n( ) N (0, I()1),



o I() est la matrice dinformation de Fisher au point :

I()ij = E[ 2ij

LY ()],

et LY () dsigne la log-vraisemblance de au point Y . Un tel rsultat nest pas utilisable tel quelpuisque la matrice I() est inconnue. Dans la pratique, cette matrice est estime comme suit :

I()ij = 1n

nk=1

2

ijLYi() =

1

n

2

ij

nk=1

LYi() = 1

n

2

ijL(),

o L() est dfini par (2.2). tant inconnu, lestimateur de la matrice dinformation de Fisherest donn par :

I() = 1n(XW X).

2.4.2 Intervalles de confiance

On dduit facilement du paragraphe prcdent quun estimateur de la variance de j est donne

par le jme terme de la diagonale de (XW X)1. Notons 2j cet estimateur. On dduit que j/jsuit asymptotiquement une loi N (j, 1). Un intervalle de confiance de niveau 1 pour j estdonc donn par

IC(j) =[j u1/2j; j + u1/2j

],

o u1/2 reprsente le quantile de niveau (1 /2) de la loi normale N (0, 1).La validit de ces intervalles est toute relative puisquil sagit dune approximation valable asymp-totiquement. Il est toujours possible de complter cette tude par un bootstrap afin dobtenirdautres intervalles de confiance dans le cas ou ceux-ci sont particulirement importants. Cela dit,en pratique, on se contente de lintervalle de confiance bti grce la matrice dinformation deFisher.

2.4.3 Tests de nullit de q coefficients libres

La thorie du maximum de vraisemblance nous donnant la loi (asymptotique) des estimateurs,il est possible de tester la significativit des variables explicatives. Pour cela, trois tests sontgnralement utiliss : Le test de Wald ; Le test du score ; Le test du rapport de vraisemblance ou de la dviance.Les hypothses scrivent :

H0 : j1 = j2 = . . . = jq = 0 contre H1 : k {1, . . . , q} : jk 6= 0.Sous H0 les trois statistiques de test suivantes suivent asymptotiquement une loi du

2 q degrsde libert : Statistique du test de Wald :

(Q)(QI1n ()Q)1Q,o In() = nI() et Q est la matrice q (p+ 1) telle que Q = (j1, . . . , jq).


2.5 Un exemple avec R 25

Statistique du score :S(H0)

I10 (H0)S(H0),o S est la fonction de score dfinie par 2.3 (page 16) et I10 (H0) et H0 sont respectivementles estimateurs de n fois la matrice dinformation de Fisher et du maximum de vraisemblancesous la contrainte H0.

Statistique de la dviance :2[L(H0) L()].

H0 est rejet au profit de H1 ds que ces statistiques dpassent le fractile dordre 1 de la loi du2 q degrs de libert. La figure 2.5 permet de visualiser les trois tests. Le test du score revient tester que la pente en H0 ( sous H0) est nulle, le test de Wald que lcart entre et H0 estnul et le test du rapport de vraisemblance que lcart entre les vraisemblances de ces deux pointsest nul.

0

0

max

Test du rapport des vraisemblances

Test du score

Test de Wald

Log-vraisemblance

Fig. 2.5 Rapport de vraisemblance, score, test de Wald.

Remarque La PROC LOGISTIC sous SAS ralise les trois tests pour H0 : 1 = 2 = . . . = p = 0. Pour les tests variable par variable ou paramtre par paramtre

H0 : j = 0 contre H1 : j 6= 0,la PROC LOGISTIC utilise le test de Wald.

2.5 Un exemple avec R

Le traitement du cancer de la prostate change si le cancer a atteint ou non les neuds lymphatiquesentourant la prostate. Pour viter une investigation lourde (ouverture de la cavit abdominale) uncertain nombre de variables sont considres comme explicative de la variable Y binaire : Y = 0le cancer na pas atteint le rseau lymphatique, Y = 1 le cancer a atteint le rseau lymphatique.Le but est dexpliquer Y par les variables suivantes :



ge du patient au moment du diagnostic : age ; le niveau dacide phosphatase srique : acide ; Le rsultat dune analyse par rayon X, 0= ngatif, 1=positif : rayonx ; La taille de la tumeur, 0=petite, 1=grande : taille ; Ltat pathologique de la tumeur dtermine par biopsie (0=moyen, 1=grave) : grade ; Le logarithme nprien du niveau dacidit : log.acid.

age acide rayonx taille grade log.acid.

1 66 0.48 0 0 0 -0.73396918

2 68 0.56 0 0 0 -0.57981850

3 66 0.50 0 0 0 -0.69314718

4 56 0.52 0 0 0 -0.65392647

5 58 0.50 0 0 0 -0.69314718

6 60 0.49 0 0 0 -0.71334989

7 65 0.46 1 0 0 -0.77652879

8 60 0.62 1 0 0 -0.47803580

9 50 0.56 0 0 1 -0.57981850

10 49 0.55 1 0 0 -0.59783700

Tab. 2.2 Reprsentation des dix premiers individus.

2.5.1 Modles simples

Nous sommes en prsence de 6 variables explicatives X1, . . . ,X6 avec : X1, X2 et X6 quantitatives ; X3, X4 et X5 qualitatives (2 niveaux pour chacune).

Premier modle

Considrons tout dabord les trois variables explicatives qualitatives X = (X3,X4,X5) :

logit P(Y = 1|X = x) = 0 + 31{x3=1} + 41{x4=1} + 51{x5=1}.Ce modle possde 4 paramtres. Les sorties du logiciel R sont :

> model_quali model_quali

Call: glm(formula = Y ~ rayonx + taille + grade, family = binomial, data = donnees)

Coefficients:

(Intercept) rayonx1 taille1 grade1

-2.1455 2.0731 1.4097 0.5499




Si par exemple (x3,x4,x5) = (1, 0, 1), on aura alors :

logit P(Y = 1|X = x) = 0 + 3 + 5 = 2.1455 + 2.0731 + 0.5499 = 0.4785



et

P(Y = 1|X = x) = exp(0.4785)1 + exp(0.4785)

= 0.6174.

Ainsi, dans un contexte de prvision, nous assignerons le label 1 la nouvelle observation x.

Deuxime modle

Considrons maintenant le modle uniquement compos de variables quantitatives,

logit P(Y = 1|X = x) = 0 + 1x1 + 2x2 + 6x6.> model_quanti model_quanti

Call: glm(formula = Y ~ age + acide + log.acid., family = binomial, data = donnees)

Coefficients:

(Intercept) age acide log.acid.

12.34700 -0.02805 -9.96499 10.54332




Troisime modle

Le modle complet 6 variables scrit

logit P(Y = 1|X = x) = 0 + 1x1 + 2x2 + 31{x3=1} + 41{x4=1} + 51{x5=1} + 6x6.> model_complet model_complet

Call: glm(formula = Y ~ ., family = binomial, data = donnees)

Coefficients:

(Intercept) age acide rayonx1 taille1 grade1

10.08672 -0.04289 -8.48006 2.06673 1.38415 0.85376

log.acid.

9.60912




2.5.2 Encore dautres modles...

Comme dans le cas du le modle linaire on peut galement considrer des interactions entre lesvariables explicatives. Gnralement, on dit quil y a interaction entre deux facteurs F1 et F2 surune variable Y si leffet de lun des facteurs diffre selon la modalit de lautre. Remarquons quecette notion na rien voir avec celle de corrlation qui ne concerne que deux variables alors quelinteraction met en jeu une troisime variable Y .



Exemple 2.3 (Construction dinteraction)On sintresse leffet de deux traitements X1 et X2 sur le rhume. Le traitement X1 consiste prendre intervalle de temps rguliers deux verres de cognac et X2 reprsente un traitement auxantibiotiques (il nest pas difficile de comprendre lintrt denvisager une interaction). La variablerponse Y correspond ltat du patient (1 si malade, 0 si bonne sant). Nayant pas encore trouvsuffisamment de volontaires pour raliser ltude, on simule un chantillon suivant le modle

1. deux facteurs X1 et X2 deux niveaux quiprobables ;

2. la loi de Y conditionnellement X1 et X2 est donne dans le tableau 2.3.

0 1

0 B(0.95) B(0.05)1 B(0.05) B(0.95)

Tab. 2.3 Loi de Y (B dsigne la loi de Bernoulli).

On estime les pourcentages de mal classs sur un chantillon indpendant (voir section 3.1.4) eton reporte dans le tableau suivant les pourcentages de mal classs pour les modles sans et avecinteraction. Nous voyons lintrt dinclure une interaction pour cet exemple.

Sans 0.54

Avec 0.065

Tab. 2.4 Pourcentages de mal classs.

Pour lexemple du cancer de la prostate, le modle avec toutes les interactions dordre 2 scrit :

> model_inter model_inter

Call: glm(formula = Y ~ .^2, family = binomial, data = donnees)

Coefficients:

(Intercept) age acide rayonx1

2.843e+17 -4.229e+15 -3.117e+17 -5.453e+16

taille1 grade1 log.acid. age:acide

2.516e+16 -5.778e+15 2.026e+17 4.665e+15

age:rayonx1 age:taille1 age:grade1 age:log.acid.

2.077e+13 -5.245e+13 -1.670e+14 -2.869e+15

acide:rayonx1 acide:taille1 acide:grade1 acide:log.acid.

5.572e+16 -2.420e+16 2.336e+16 -5.687e+15

rayonx1:taille1 rayonx1:grade1 rayonx1:log.acid. taille1:grade1

1.129e+15 -1.176e+15 -4.004e+16 -5.496e+15

taille1:log.acid. grade1:log.acid.

8.625e+15 -1.228e+16






On peut vrifier que ce modle ncessite lestimation de 22 paramtres (1+6+(62

)). Bien entendu,

dautres sous-modles avec interactions peuvent tre utiliss. De plus, nous pouvons nous demandersi toutes les variables sont bien explicatives ? Ds lors, des mthodes slection et validation demodles doivent tre envisages.


Chapitre 3

Slection et validation de modles

Ce chapitre se divise en deux parties :

1. Slection : Etant donns M modles M1, . . .MM , comment choisir le meilleur partirde lchantillon dont on dispose.

2. Validation : Est-ce que le modle slectionn est bon ? En statistique cette question peuttre aborde de diffrentes faons : Est-ce que la qualit dajustement globale est satisfaisante : le modle dcrit-il bien lesvaleurs observes ? Ce type de question fait lobjet des tests dajustement ou dadquation (goodness of fit). Lajustement peut tre aussi regard observation par observation (individus aberrants)par des mthodes graphiques (analyse des rsidus) ou analytiques.

Est-ce que les hypothses sont vrifies ? Les mthodes sont essentiellement graphiques(analyse des rsidus).

Linfluence des observations sur lestimation des paramtres peut tre aussi envisage (dis-tance de Cook, robustesse).

Dans ce chapitre nous allons traiter ces questions travers lexemple du modle logistique. Len-semble des mthodes prsentes peut stendre dautres problmatiques de slection-validationde modles.

3.1 Slection ou choix de modle

Si on se restreint des modles logistiques, slectionner un modle revient choisir les variables(interactions inclues) qui vont constituer le modle.

3.1.1 Un outil spcifique : la dviance

Il est difficile de se faire une ide sur lajustement en se basant sur la valeur vraisemblance puis-quelle dpend (entre autres) de la taille de lchantillon. Pour la rgression logistique, un outilspcifique est introduit : la dviance. Elle compare la vraisemblance obtenue celle dun modlede rfrence : le modle complet (ou modle satur). Ce modle possde autant de paramtres quede points du design et vrifie : Psat(Y = yi|X = xi) = 1 si on est en prsence de donnes individuelles. Psat(Y = yi|X = xi) = yt o yt = st/nt, st dsignant le nombre de succs au point xt et nt lenombre de rptitions au point xt, si on est en prsence de donnes rptes.


32 Slection et validation de modles

Ce modle est le modle le plus complexe (en terme de nombre de coefficients) puisquil proposeun coefficient diffrent pour chaque point du design. Tous les autres modles sont embots danscelui-ci.

La dviance est dfinie par :

D = 2 (Lsature L()) 0.La dviance est gal 2 fois une diffrence de vraisemblance. Elle constitue un cart en terme delog-vraisemblance entre le modle satur dajustement maximum et le modle considr.

-

Ajustementparfait

0 Dviance

bon moyen mauvais Qualit dajustement

On rappelle que pour des donnes individuelles la log-vraisemblance scrit

L() = log{

ni=1

P(Y = yi|X = xi)}

=ni=1

yi log(pi) + (1 yi) log(1 pi).

Pour le modle satur, il nexiste aucune incertitude et la probabilit estime par le modle aupoint X = xi est donc 1 pour le groupe observ et 0 sinon :

P(Y = j|X = xi) ={

1 si yi = j0 sinon.

ou encore P(Y = yi|X = xi) = 1.

Par consquent Lsature = 0 et la dviance est gale deux fois loppos de la log-vraisemblance.RemarqueSi maintenant plusieurs observations sont effectues au mme point du design (voir annexe A.3),la log vraisemblance du modle logistique scrit :

L() =Tt=1

log

(ntst

)+

Tt=T

nt {yt log(p(xt)) + (1 yt) log(1 p(xt))}

o nt et st dsignent respectivement le nombres dobservations et de succs au point xi. Le modlesatur vrifie

P(Y = 1|X = xt) = yt, o yt = st/nt,par suite,

Lsature =Tt=1

log

(ntst

)+

Tt=1

nt {yt log(yt) + (1 yt) log(1 yt)}

La dviance est donc gale

D = 2Tt=1

nt

(yt log

ytp(xt)

+ (1 yt) log 1 yt1 p(xt))

).


3.1 Slection ou choix de modle 33

Exemple 3.1 (calcul de dviance)Considrons lexemple du cancer de la prostate et calculons dabord la dviance pour le modleY~age+acide. Nous somme ici en prsence de donnes individuelles, on obtient la dviance via lescommandes :

> mod1 #calcul de la vraisemblance

> prev vrais vrais[donnees$Y==1] vrais[donnees$Y==0] vrais dev dev

[1] 65.72393

Bien entendu, le logiciel peut retourner directement la valeur de la dviance

> mod1$deviance

[1] 65.72393

Si maintenant on considre le modle Y~age+taille, nous somme en prsence de donnes rptes.Les donnes se trouvent dans le fichier donnees_bin_age_taille.txt dont voici les premireslignes :

"age" "taille" "Y1" "Y0"

49 "0" 0 1

50 "0" 1 0

51 "0" 0 2

52 "0" 0 1

56 "0" 1 3

58 "0" 0 2

Les deux premires colonnes reprsentent les valeurs des variables explicatives. On retrouve ensuite(colonne Y1) le nombre de rponses Y=1 et (colonne Y0) le nombre de rponses Y=0. Le modle estconstruit via la commande :

> donnees1 model1 prev ni ti ybi #calcul des termes combinatoires (facultatif)

> vect_comb for (i in 1:nrow(donnees1)){



+ vect_comb[i] vect vrais_model1 #modele sature

> vect_sat vect_sat[is.na(vect_sat)] vrais_modelsat #on deduit la deviance

> 2*(vrais_modelsat-vrais_model1)

[1] 37.15260

On retrouve cette valeur directement

> model1$deviance

[1] 37.15260

3.1.2 Test de dviance entre 2 modles embots

Rappelons que par dfinition un modle est embot dans un autre plus gnral (ou plus grand)lorsquil est un cas particulier de ce modle plus gnral.

Exemple 3.2Dans le cas de la rgression simple, le modle

y = 0 + 1x1 + ,

est un cas particulier du modle

y = 0 + 1x1 + 2x2 + .

En effet il suffit de poser que 2 = 0 dans le second modle pour retrouver le premier.

Exemple 3.3On a la mme notion de modles embots pour la rgression logistique. Par exemple, les modles

logit (P(Y = 1|X = x)) = 0 + 1x1 + 2x2et

logit (P(Y = 1|X = x)) = 0 + 1x1 + 2x2 + 3x3sont embots lun dans lautre.

Pour comparer deux modles embots M1 M2 nous allons comparer leur dviance D1 et D2.On a alors deux cas : La diffrence est grande le fait de passer dun modle simple (petit) un modle plus complexe(plus gnral ou plus grand) a donc apport un cart de dviance significatif le modle plusgnral est acceptable.

La diffrence est faible le modle simple et celui plus complexe sont voisins et par souci deparcimonie le modle simple est conserv.



Il nous faut bien entendu dterminer un seuil partir duquel on pourra dire que la diffrence dedviance est petite ou grande. Pour ce faire, on construit un test dans lequel nous allons chercherla loi de la diffrence de dviance sous H0 (lhypothse selon laquelle le modle simple est vrai).

Comparer les dviances des deux modles candidats revient comparer leurs vraisemblances. Parsuite, sous les mmes hypothses que celles de la proposition 1, D = D1 D2 = Dpetit Dgrandsuit asymptotiquement une loi du 2 p2 p1 degrs de libert o p1 est le nombre de paramtresdu modle simple et p2 celui du modle complexe. Le test se droule alors de la manire classique

1. Les hypothses sont fixes H0 le modle simple p1 paramtres est adquat ; H1 le modle complexe p2 paramtres est adquat.

2. est choisi (en gnral 5% ou 1%)

3. Lobservation de D est calcule, notons la Dobs

4. Calcul du quantile de niveau (1 ) de la loi du 2(p2 p1), not q1(p2 p1). Si Dobs > q1(p2 p1) alors H0 est repouss au profit de H1, le modle M1 sera alorsrejet au profit du modle M2.

Si Dobs q1(p2 p1) alors H0 est conserv, le modle M1 est slectionn..

3.1.3 Critre de choix de modles

Le test que nous venons dtudier permet de slectionner un modle parmi deux modles embots.Or, partir de p variables explicatives, il est possible de construire un grand nombre de modleslogistiques qui ne sont pas forcment embots. Lutilisation dun simple test de dviance se rvlealors insuffisante. On a recours des critres de choix de modles qui permettent de comparer desmodles qui ne sont pas forcment embots les uns dans les autres.

Les critres AIC et BIC sont les plus utiliss. Ces critres sont bass sur la philosophie suivante :plus la vraisemblance est grande, plus grande est donc la log-vraisemblance et meilleur est lemodle. Cependant la vraisemblance augmente avec la complexit du modle, et choisir le modlequi maximise la vraisemblance revient choisir le modle satur. Ce modle est clairement sur-paramtr, il sur-ajuste les donnes (overfitting).

Exemple 3.4On considre un chantillon de taille n = 100 simul suivant le modle :

Xi N (0, 1), Ui U [0, 1], et Yi ={

1Ui0.25 si Xi 01Ui0.25 si Xi 0

Les donnes sont reprsentes sur la figure 3.1 : environ 3/4 des labels valent 0 pour les valeurs deXi ngatives et 1 pour les valeurs positives. Le modle satur ajuste parfaitement les observations.Nous voyons cependant quil est difficile, pour ne pas dire impossible utiliser dans un contextede prvision. De plus le modle satur possde ici n = 100 paramtres tandis que le modlelogistique nen possde que 2. Ceci est nettement plus avantageux pour expliquer Y dun point devue descriptif.

Pour choisir des modles plus parcimonieux, une stratgie consiste pnaliser la vraisemblancepar une fonction du nombre de paramtres.



Par dfinition lAIC (Akaike Informative Criterion) pour un modle p paramtres est

AIC = 2L+ 2p.

Le critre de choix de modle le BIC (Bayesian Informative Criterion) pour un modle pparamtres estims sur n observations est dfini par

BIC = 2L+ p log(n).

On choisira le modle qui possde le plus petit AIC ou BIC. Lutilisation de ces critres est simple.Pour chaque modle concurrent le critre de choix de modle est calcul et le modle qui prsentele plus faible est slectionn.

RemarqueRemarquons que certains logiciels utilisent AIC et BIC il est donc prudent de bien vrifierdans quel sens doivent tre optimiss ces critres (maximisation ou minimisation). Ceci peut trefait aisment en comparant un modle trs mauvais (compos uniquement de la constante parexemple) un bon modle et de vrifier dans quel sens varie les critres de choix.

+ +

+

+++

+

+ ++++++

+

++++++

+

++++++++

+

+++++++++++

+

+++++

++++++++++++++++++++

+

+++

+

+ ++

+

++++++++++++

+

+

+

++++ + +

2 0 2

0.01.0

X

Y 0.5

+ +

+

+++

+

+ ++++++

+

++++++

+

++++++++

+

+++++++++++

+

+++++

++++++++++++++++++++

+

+++

+

+ ++

+

++++++++++++

+

+

+

++++ + +

2 0 2

0.01.0

X

Y

2 0 2

0.01.0

X

Y

2 0 2

0.01.0

0.5

Fig. 3.1 Gauche : Reprsentation des observations (gauche). Droite : Trac des modles saturs(pointills) et logistique (trait plein).

3.1.4 Apprentissage/validation

Un moyen naturel de slectionner un modle consisterait :

1. estimer les pourcentages de mal classs de tous les modles candidats laide de lchantillon ;

2. choisir le modle qui possde la plus petite estimation.

Dans le cas dobservations binaires, un estimateur du pourcentage de mal classs est

1

n

ni=1

1{Yi(j) 6=Yi},



o Yi(j) dsigne la ime prdiction (celle associe Xi) du j

me modle.

Nous avons vu que le modle satur ajuste de manire parfaite les donnes, ce qui signifie queson pourcentage de mal classs est nul. Lutilisation dun tel critre semble alors peu pertinente.La faiblesse de ce critre tient du fait que le mme chantillon (x1, y1), . . . , (xn, yn) est utilis pour : construire le modle (estimer ses paramtres) ; estimer le taux derreurs.Ceci introduit un biais dans lestimation du pourcentage de mal classs. La procdure apprentissage-validation saffranchit de ce problme en sparant de manire alatoire les donnes (X1, Y1), . . . , (Xn, Yn)en deux parties distinctes : (Xi, Yi), i I un chantillon dapprentissage de taille ; (Xi, Yi), i Im un chantillon de validation de taille m tel que +m = n,o I Im = {1, . . . , n} et I Im = . Lchantillon dapprentissage est utilis pour construireles modles concurrents (pour estimer les paramtres des diffrents modles logistiques envisags).Lchantillon de validation est ensuite utilis pour estimer les pourcentages de mal classs desdiffrents modles. Plus prcisment, une fois les paramtres des diffrents modles estims, chaquemodle est appliqu sur les individus du deuxime chantillon. Pour chaque modle j nous obtenonsune prvision pour chaque observation i de lchantillon de validation Yi(j). Cette prvision estensuite compare la valeur observe Yi. Le pourcentage de mal classs est alors estim par (voirfigure 3.2) :

MC(j) =1

m

iIm

1{Yi(j) 6=Yi}.

On choisira bien entendu le modle pour lequel le critreMC sera minimum. Si les modles concur-rents sont tous des modles logistiques, nous avons pour chaque modle j et chaque observation ide lchantillon Im une estimation de la probabilit :

Pj(Y = 1|X = xi).

Une prvision peut tre obtenue suivant la rgle

Yi(j) =

{1 si Pj(Y = 1|X = xi) > 0.50 sinon.

Le tableau 3.1 compare les pourcentages de mal classs des modles satur et logistique de lexemplede la figure 3.1. La procdure qui utilise un seul chantillon pour calculer le taux de mal classs vaainsi slectionner le modle satur, ce nest pas le cas de la procdure Apprentissage-Validation quifournit des estimations des taux derreurs plus prcises et qui slectionnera le modle logistique.

Satur Logistique

Sans AV 0 0.146avec AV 0.244 0.160

Tab. 3.1 Pourcentages de mal classs des modles saturs et logistique de lexemple de la Figure 3.1avec et sans la procdure apprentissage-validation (les deux chantillons de mme taille)

Cette procdure semble la plus indique pour choisir un modle. Il faut nanmoins la nuancer carelle requiert beaucoup de donnes



Validation

X

Y

YSparation

Valeurs observes

Toutes les variables

Donnes de dpart

Apprentissage

Uniquement les X

Y

Estimations des modlesconcurrents

Valeurs prdites (pour tous les modles concurrents)

Fig. 3.2 Procdure dapprentissage/validation.

dans lchantillon dapprentissage pour estimer le modle et ainsi ne pas trop pnaliser lesmodles avec beaucoup de variables dont les coefficients seront moins bien estims ;

dans lchantillon de validation pour bien valuer la capacit de prvision.

De plus il nexiste pas de rgle pour choisir les tailles des deux chantillons.

3.1.5 Validation croise

Lorsque lon na pas assez de donnes pour lapprentissage/validation, on peut avoir recours uneprocdure de validation croise. Le principe est de moyenner le pourcentage de mal classs laide de plusieurs dcoupages de lchantillon. Plus prcisment, on divise lchantillon initial enK sous chantillons Ek de mme taille et on effectue K procdures apprentissage-validation pourlesquelles :

lchantillon test sera constitu dune division Ek ; lchantillon dapprentissage sera constitu de lensemble des autres divisions EEk (voir figure3.3).

On obtient ainsi une prvision pour chaque individu de la division Ek et une fois les K procduresapprentissage-validation effectues, on a une prvision pour tous les individus de lchantillon.Il suffit alors de comparer ces prvisions aux valeurs observes pour obtenir une estimation dupourcentage de mal classs. Le modle retenu sera le modle qui conduit lestimation minimale.

Bien entendu le choix du nombre K parties nest pas anodin.

Plus K est faible, plus la capacit de prvision sera value dans de nombreux cas puisque lenombre dobservations dans la validation sera lev, mais moins lestimation sera prcise ;

Au contraire, un K lev conduit peu dobservations dans la validation et donc une plusgrande variance dans les pourcentages de mal classs.



E1

E2

Ek

EK

XY

Fig. 3.3 Dcoupage de lchantillon pour la validation croise. Lchantillon dapprentissage corres-pond la partie hachure.

RemarqueSous R, la librairie boot permet destimer le pourcentage de mal classes par validation croise.Si, par exemple, on considre le modle compos des 6 variables explicatives sur les donnes ducancer de la prostate, on obtient :

> modele library(boot)

> cout 0.5))}

> cv.glm(donnees,modele,cout)$delta[1]

1

0.3396226

3.1.6 Slection automatique

Les procdures que nous venons dtudier permettent de slectionner un modle partir dunefamille de modles donne. Une autre approche de la slection de modle consiste chercherparmi les variables X1, . . . ,Xp, celles qui expliquent le mieux Y . Par exemple, pour la rgressionlogistique, nous pourrions nous poser le problme de chercher le meilleur sous-ensemble des pvariables explicatives pour un critre C donn (AIC, BIC...). Le nombre de sous ensembles dep variables tant 2p, nous serions en prsence de 2p modles logistiques possibles, cest--dire 2p

modles diffrents. Bien entendu, nous slectionnerions le modle qui optimiserait le critre C.Cependant, dans de nombreuses situations, p est grand et par consquent le nombre de modlesconsidrs est trs grand. Les algorithmes doptimisation du critre C deviennent trs coteuxen temps de calcul. On prfre alors souvent utiliser des mthodes de recherche pas pas.



Modle courant M0 retenu

Modle de dpart

Modle slectionn =M1

Modle en cours = M0

Comparaison AIC modele M0 et modele M1

Choix parmi tous les modles (+ petit AIC)

AIC M0 moins bon Ajout dun coefficient

AIC M0 meilleur

M1 devient M0

Fig. 3.4 Technique ascendante utilisant lAIC.

Recherche pas pas, mthode ascendante (forward selection)

A chaque pas, une variable est ajoute au modle.

Si la mthode ascendante utilise un test de dviance, nous rajoutons la variable Xj dont la valeurp (probabilit critique) associe la statistique de test de dviance qui compare les 2 modlesest minimale. Nous nous arrtons lorsque toutes les variables sont intgres ou lorsque la valeurp est plus grande quune valeur seuil.

Si la mthode ascendante utilise un critre de choix, nous ajoutons la variable Xj dont lajout aumodle conduit loptimisation la plus grande du critre de choix. Nous nous arrtons lorsquetoutes les variables sont intgres ou lorsque quaucune variable ne permet loptimisation ducritre de choix (voir aussi Figure 3.4).

Recherche pas pas, mthode descendante (backward selection)

A la premire tape toutes les variables sont intgres au modle.

Si la mthode descendante utilise un test de dviance, nous liminons ensuite la variable Xj dontla valeur p associe la statistique de test de dviance est la plus grande. Nous nous arrtonslorsque toutes les variables sont retires du modle ou lorsque la valeur p est plus petite quunevaleur seuil.

Si la mthode descendante utilise un critre de choix, nous retirons la variable Xj dont le retraitdu modle conduit laugmentation la plus grande du critre de choix. Nous nous arrtonslorsque toutes les variables sont retires ou lorsque quaucune variable ne permet laugmentationdu critre de choix.



Recherche pas pas, mthode progressive (stepwise selection)

Idem que lascendante, sauf que lon peut liminer des variables dj introduites. En effet, il peutarriver que des variables introduites au dbut de lalgorithme ne soient plus significatives aprsintroduction de nouvelles variables. Remarquons quen gnral la variable constante est toujoursprsente dans le modle.

Exemple 3.5Reprenons lexemple des donnes du cancer de la prostate. Nous allons slectionner des modlespar les diffrentes approches pas pas.

1. Mthode ascendante : le modle initial est constitu uniquement de la variable age.

> model_age model_asc model_asc

Call: glm(formula = Y ~ age + rayonx + taille + log.acid., family = binomial,

data = donnees)

Coefficients:

(Intercept) age rayonx1 taille1 log.acid.

2.65636 -0.06523 2.08995 1.75652 2.34941




2. Mthode descendante : le modle initial est ici constitu de toutes les variables (sansinteractions).

> modelcomplet model_des model_des

Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,

data = donnees)

Coefficients:

(Intercept) acide rayonx1 taille1 log.acid.

9.067 -9.862 2.093 1.591 10.410




3. Mthode progressive : le modle initial est ici constitu de toutes les variables (sansinteractions).

> model_pro model_pro

Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,

data = donnees)

Coefficients:

(Intercept) acide rayonx1 taille1 log.acid.



9.067 -9.862 2.093 1.591 10.410




On peut galement mettre des variables dinteractions parmi les variables candidates.

> model_pro1 model_pro1

Call: glm(formula = Y ~ acide + rayonx + taille + grade + log.acid. + taille:grade +

taille:log.acid. + acide:grade, family = binomial,data = donnees)

Coefficients:

(Intercept) acide rayonx1 taille1

49.385 -49.186 3.135 -2.635

grade1 log.acid. taille1:grade1 taille1:log.acid.

1.227 53.329 -14.264 -21.719

acide:grade1

17.629




Nous voyons sur cet exemple que suivant le choix de la mthode pas pas et du modle initial, lesmodles slectionns diffrent. La slection dun seul modle peut seffectuer en deux temps :

1. On slectionne un nombre faible (entre 5 et 10 par exemple) de modles candidats via desalgorithmes pas pas ;

2. On choisit le modle qui minimise un critre de choix (AIC, BIC, ou pourcentage de malclasss).

Une fois le modle choisi, il est ncessaire de mener une tude plus approfondie de ce dernier quipermettra de le valider ou de laffiner (suppression de points aberrants, analyse des rsidus...).

3.2 Validation du modle

3.2.1 Test dadquation par la dviance

Ce test permet de valider un modle p paramtres. Les hypothses nulle et alternative sont : H0 le modle considr p paramtres est adquat ; H1 le modle considr p paramtres nest pas adquat.Ici, nous allons comparer le modle satur au modle considr au moyen de la dviance. Noussavons que si la dviance est grande, alors le modle considr est loin du modle satur et que par cons-quent il najuste pas bien les donnes ;

Par contre si la dviance est proche de 0, le modle considr sera adquat.Pour quantifier cette notion de proche de 0 et de grande dviance, la loi de la dviance sousH0 (le modle considr est le vrai modle) va nous tre utile. En effet si H0 est vraie, le modleconsidr est vrai par dfinition. La dviance sera rpartie sur R+ mais avec plus de chance dtre


3.2 Validation du modle 43

proche de 0. Par contre si H0 nest pas vraie la dviance sera rpartie sur R+ mais avec plus de

chance dtre loigne de 0. Il nous faut donc connatre la loi de la dviance sous H0.

La dviance est une diffrence de log-vraisemblance entre deux modles embots. Il dcoule que lastatistique D suit asymptotiquement une loi du 2(n p) degrs de libert, o p est le nombre deparamtres du modle et n le nombre de points du design. Le test se droule alors de la manireclassique :

1. Les hypothses sont fixes H0 le modle considr p paramtres est adquat (cette hypothse se traduit par unehypothse qui fixe zro les coefficients prsents dans le modle satur mais pas dans lemodle en question).

H1 le modle considr p paramtres nest pas adquat

2. est choisi (en gnral 5% ou 1%)

3. Lobservation de D est calcule, notons la Dobs

4. Calcul du quantile de niveau (1 ) de la loi du 2(n p), not q1(n p). Si Dobs > q1(n p) alors H0 est repouss au profit de H1, le modle considr nest pasadquat.

Si Dobs q1(n p) alors H0 est conserv, le modle considr est adquat.

0 2 4 6 8 100.00

0.05

0.10

0.15

0.20

0.25

D

densit

H0 conserv H0 repouss

Fig. 3.5 Test de dviance, la droite horizontale reprsente le seuil de rejet Dc = q1(n p).

RemarqueLa validit de la loi et donc du test nest quasymptotique, il est donc ncessaire davoir un peude recul quant aux conclusions. Ce test ne peut tre utilis uniquement en prsence de donnesrptes. En effet, lapproximation de la loi de la dviance par une loi du 2 est dautant plusvalable lorsque le nombre de rptitions aux points du design est grand. En prsence de donnesindividuelles (aucune rptition sur les points du design), D ne suit pas une loi du 2 : le testdadquation dHosmer Lemeshow est alors conseill.

3.2.2 Test dHosmer Lemeshow

Ce test permet de vrifier ladquation dun modle en prsence de donnes individuelles. Il sef-fectue de la manire suivante (voir Hosmer & Lemeshow (2000), chapitre 5).

1. Les probabilits pi sont ordonnes par ordre croissant (pi est la probabilit P(Y = 1|X = xi)estime par le modle) ;



2. Ces probabilits ordonnes sont ensuite spares en K groupes de taille gale (on prendsouvent K = 10 si n est suffisamment grand). On note mk les effectifs du groupe k ; ok le nombre de succs (Y = 1) observ dans le groupe k ; k la moyenne des pi dans le groupe k.

La statistique de test est alors

C2 =Kk=1

(ok mkk)2mkk(1 k) .

Le test se conduit de manire identique au test de dviance, la statistique C2 suivant approxima-tivement un 2 K 1 degrs de libert.

3.2.3 Analyse des rsidus

Les diffrents types de rsidus

A limage de la rgression plusieurs types de rsidus sont proposs par les logiciels. Le premier,le plus simple calculer est tout simplement Yi pi. Ces rsidus sont appels rsidus bruts. Ilspermettent de mesurer lajustement du modle sur chaque observation. Ces rsidus nayant pas lamme variance, ils sont difficiles comparer. En effet, on rappelle que V(Y |X = xi) = pi(1 pi).Par consquent, la variance de tels rsidus risquent dtre leves pour des valeurs de pi prochesde 1/2. Un moyen de pallier cette difficult est de considrer les rsidus de Pearson

Yi pipi(1 pi)

. (3.1)

Par dfinition on standardise les rsidus par la variance thorique de Yi. Cependant, pi tantalatoire, on a V(Yi pi) 6= V(Yi pi). En effet, en notant

i = Yi pi

i = Yi pion a

Hypothses Ralit

E(i) = 0 E(i) 0

V(i) = pi(1 pi) V(i) = pi(1 pi)(1 hii)o hii est llment de la i

me ligne et de la ime colonne de la matrice H = X(XW X)1XW .

Il est par consquent intressant de considrer la version standardise des rsidus de Pearson

Yi pipi(1 pi)(1 hii)

,

Les rsidus de dviance sont dfinis par

signe(Yi pi)

2(LYi(sature) LYi()),



o LYi()) est la log-vraisemblance associe lobservation Yi (et non pas toutes les observations)du modle en question et LYi(sature) son homologue pour le modle satur. L encore pour tenircompte de la variabilit ces rsidus sont standardiss :

signe(Yi pi)

2(LYi(sature)(Yi) LYi())1 hii .

Ces deux types de rsidus de dviance sont ceux qui sont en gnral conseills.

Examen des rsidus

Index plot Pour le modle logistique les rsidus de dviance sont souvent prfrs. De nom-breuses tudes exprimentales ont montr quils approchent mieux la loi normale que les rsidusde Pearson. Pour cette raison ces rsidus prennent gnralement des valeurs qui varient entre -2et 2. Nous pourrons construire un index plot pour dtecter des valeurs aberrantes. Ce graphiqueordonne les rsidus en fonction du numro de leur observation. Les points pour lesquels on observeon rsidu lev (hors de [2, 2] par exemple) devront faire lobjet dune tude approfondie.

> model plot(rstudent(model),type="p",cex=0.5,ylab="Rsidus studentiss par VC")

> abline(h=c(-2,2))

0 10 20 30 40 50

2

1

01

2

Index

Rs

idus

stu

dent

iss

par V

C

2634

Fig. 3.6 Index plot.

Graphique prdiction linaire/rsidus Ce graphique qui reprsente X en abscisse et enordonn permet de dtecter les valeurs aberrantes mais aussi les structurations suspectes. Si unestructuration suspecte apparat, il sera peut tre adquat dajouter une nouvelle variable afin deprendre en compte cette structuration. Dans le cas des donnes individuelles ce type de graphiquedonne toujours des structurations (Figure 3.7) et nest donc pas conseiller.



5 0 5 10

2

1

01

2

prvision linaire

Rs

idus

stu

dent

iss

par V

C

Fig. 3.7 Graphique prdiction/rsidus pour un modle logistique

Rsidus partiels Les rsidus partiels sont dfinis par

P.j =Yi pi

pi(1 pi) + jX.j

Lanalyse consiste tracer pour toutes les variables j les points avec en abscisse la variable j eten ordonne les rsidus partiels. Si le trac est linaire alors tout est normal. Si par contre unetendance non linaire se dgage, il faut remplacer la variable j par une fonction de celle ci donnantla mme tendance que celle observe.

> residpartiels prov ordre plot(donnees$log.acid.,residpartiels[,"log.acid."],type="p",cex=0.5,xlab="",ylab="")

> matlines(donnees$log.acid.[ordre],predict(prov)[ordre])

> abline(lsfit(donnees$log.acid.,residpartiels[,"log.acid."]),lty=2)

Le graphique 3.8 montre quaucune transformation nest ncessaire, les rsidus partiels tant r-partis le long de la droite ajuste.

Mallows (1986) propose dutiliser les rsidus partiels augments qui dans certaines situations per-mettent de mieux dgager cette tendance. Les rsidus partiels augments pour la jme variablencessitent un nouveau modle logistique identique mis part le fait quune variable explicativesupplmentaire est ajoute : Xp+1 = X

2j la j

me variable leve au carr. Le nouveau vecteur decoefficient du modle est estim et les rsidus partiels sont alors dfinis comme

PA.j =Yi pi

pi(1 pi) + jX.j + p+1X2.j.

Lanalyse des diagrammes est identique ceux des rsidus partiels. Pour une analyse plus compltesur lutilisation des rsidus, on pourra se reporter au chapitre 5 de louvrage de Collet (2003).



0.5 0.0 0.5

5

05

1015

20 26

Fig. 3.8 Rsidus partiels pour la variable log.acid., le trait continu reprsente le rsum liss desdonnes par lestimateur loess, le trait discontinu reprsente lestimateur linaire par moindre carr.

3.2.4 Points leviers et points influents

Ces notions sont analogues celles du modle linaire (voir Cornillon & Matzner-Lber (2007),chapitre 4).

Points leviers

Par dfinition les points leviers sont les points du design qui dterminent trs fortement leur propreestimation. Nous avons vu que lalgorithme destimation des paramtres effectue chaque tapeune rgression linaire et sarrte lorsque le processus devient stationnaire :

= (XW X)1XW z,

et la prdiction linaire est alors

X = X(XW X)1XW z = Hz,

o H est une matrice de projection selon la mtrique W . Comme nous transformons X parune fonction monotone, des X extrmes entranent des valeurs de p extrmes. Nous allons doncutiliser la mme mthode de diagnostic que celle de la rgression simple avec une nouvelle matricede projection H. Pour la ime prdiction linaire nous avons

[X]i = Hiizi +j 6=i

Hijzj.

Si Hii est grand relativement aux Hij, j 6= i alors la ime observation contribue fortement laconstruction de [X]i. On dira que le poids de lobservation i sur sa propre estimation vaut hii.

Comme H est un projecteur nous savons que 0 Hii 1. Nous avons alors les cas extrmessuivants : si Hii = 1, pi est entirement dtermin par Yi car hij = 0 pour tout j. si Hii = 0, Yi na pas dinfluence sur pi.



La trace dun projecteur tant gale la dimension du sous espace dans lequel on projette, on atr(H) =

iHii = p + 1. Donc en moyenne Hii vaut (p + 1)/n. Pour dire que la valeur de Hii

contribue trop fortement la construction de pi, il faut un seuil au del duquel le point est unpoint levier. Par habitude, si Hii > 2p/n ou si Hii > 3p/n alors le i

me point est dclar comme unpoint levier.

En pratique un trac de Hii est effectu et lon cherche les points dont le Hii est suprieur 3(p + 1)/n ou 2(p + 1)/n. Ces points sont leviers et leur valeur influe fortement sur leur propreprvision.

> p n plot(influence(model)$hat,type="h",ylab="hii")

> seuil1 abline(h=seuil1,col=1,lty=2)

> seuil2 abline(h=seuil2,col=1,lty=3)

0 10 20 30 40 50

0.0

0.1

0.2

0.3

0.4

0.5

Index

hii

34

9

Fig. 3.9 Points leviers.

Points influents

Les points influents sont des points qui influent sur le modle de telle sorte que si on les enlve, alorslestimation des coefficients sera fortement change. La mesure la plus classique dinfluence est ladistance de Cook. Il sagit dune distance entre le coefficient estim avec toutes les observations etcelui estim avec toutes les observations sauf une. La distance de Cook pour lindividu i est dfiniepar

Di =1

p+ 1((i) )XW X((i) ) r

2PiHii

(p+ 1)(1Hii)2 ,

o rPi est le rsidu de Pearson pour le ime individu.

Les distances de Cook sont gnralement reprsentes comme sur la figure 3.10. Si une distancese rvle grande par rapport aux autres, alors ce point sera considr comme influent. Il convientalors de comprendre pourquoi il est influent, soit



il est levier ; il est aberrant ; (les deux !)Dans tous les cas il convient de comprendre si une erreur de mesure, une diffrence dans la popu-lation des individus est lorigine de ce phnomne. Eventuellement pour obtenir des conclusionsrobustes il sera bon de refaire lanalyse sans ce(s) point(s).

0 10 20 30 40 50

0.0

0.2

0.4

0.6

0.8

Index

Dis

tanc

e de

Coo

k34

Fig. 3.10 Distances de Cook.


Chapitre 4

Modle logistique multi-classes

Nous traitons dans ce chapitre le cas o la variable expliquer Y prend plus de deux modalits.Pour simplifier les notations, on supposera que Y peut prendre k valeurs 1, . . . , k et on cherche tou-jours expliquer Y par p variables explicatives X = (1,X1, . . . ,Xp) qualitatives ou quantitatives.Nous distinguerons deux cas :

les modalits de Y sont ordonnes : il existe une hirarchie naturelle entre elles. Par exemplele degr de satisfaction relativement un produit, le degr dadhsion une opinion... Enbiostatistique, il peut sagir dun diagnostic sur ltat de sant (trs bonne, bonne, moyenne,mauvais sant), sur le stade dvolution dune maladie, ou encore sur la taille ou la nature dunetumeur (tumeur absente, bnigne, ou maligne). On parle dans ce cas de modle polytomiqueordonn ;

il nexiste pas de relation dordre sur les modalits de Y , la variable expliquer est purementnominale : accord pour un prt (oui, non, examen du dossier). On parle dans ce cas de modlepolytomique nominal o de modle multinomial.

4.1 Modle polytomique ordonn

4.1.1 Cas binaire

Plaons nous dabord dans le cas o Y est binaire (0 ou 1). Sans perte de gnralit, on supposeraque nous sommes en prsence dune seule variable explicative X. On introduit une variablealatoire centre et une variable latente (non observe) Y = 0 + 1x+ telle que Y |X = x vaut1 lorsque la variable latente Y est grande (suprieure un seuil s) et 0 sinon. Nous obtenons :

P(Y = 1|X = x) = P (0 + 1x+ > s) = P( < s+ 0 + 1) = F (0 + 1x)

o F est la fonction de rpartition de la variable et 0 = s + 0. Pour finir de spcifier lemodle, il reste choisir la fonction de rpartition F . Si on choisit

F (x) =1

1 + exp(x) =exp(x)

1 + exp(x), (4.1)

on obtient le modle logistique tudi dans les chapitres prcdents. Si F est la fonction de rpar-tition associe la loi normale centre rduite, nous obtenons alors le modle probit (voir section1.3 et figure 4.1).


52 Modle logistique multi-classes

4 2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Fig. 4.1 Fonctions de rpartition des lois normale (trait plein) et logistique (tirets).

4.1.2 Gnralisation

Le modle polytomique ordonn peut tre prsent comme une simple gnralisation du modledichotomique prsent dans la partie prcdente, avec cette fois Y prenant k modalits ordonnes.On se place toujours dans le cas dune seule variable explicative X, et nous allons maintenantintroduire non plus un seul, mais plusieurs seuils 1, . . . , k1 tels que :

(Y |X = x) =

1 si Y < 1j si j1 Y < j, j = 2, . . . , k 1k si Y k1

o Y = 1x+ .

Le choix de la fonction de rpartition logistique (4.1) conduit au modle :

P(Y j|X = x) = F (j 1x), j = 1, . . . , k 1ou encore

logit (P(Y j|X = x)) = j 1x, j = 1, . . . , k 1. (4.2)Si on est en prsence de p variables explicatives, le modle devient

logit (P(Y j|X = x)) = j 1x1 . . . pxp, j = 1, . . . , k 1, (4.3)ou encore

P(Y j|X = x)) = exp(j 1x1 . . . pxp)1 + exp(j 1x1 . . . pxp) .

Nous voyons qu travers une telle modlisation, seule la constante diffre suivant les diffrentsniveaux de Y . Ce modle ncessite donc lestimation de p + k 1 coefficients (p pentes et k 1constantes car

kj=1 P(Y = j|X = x) = 1).

RemarqueSuivant le logiciel les coefficients estims peuvent diffrer. La procdure LOGISTIC de SAS estimepar exemple les pentes bj = j. Sous R les fonctions polr, lmr et vgam des librairies MASS, Designet VGAM permettent de construire des modles logistiques pour expliquer une variable qualitativeordinale. Il est important de consulter laide de la fonction afin de connatre la signification descoefficients estims.


4.1 Modle polytomique ordonn 53

Exemple 4.1La fonction polr de la librairie MASS utilise un modle de la forme (4.2) et (4.3). Elle sutilise dela manire suivante :

#Simulation des donnees

> Y set.seed(145)

> X donnees library(MASS)

> library(VGAM) #pour la fonction logit

> model model

Call:

polr(formula = Y ~ X, data = donnees)

Coefficients:

X

-3.059502

Intercepts:

1|2 2|3

-3.0779038 -0.6120617

Residual Deviance: 21.48307

AIC: 27.48307

Les coefficients estimes sont = 3.059502, 1 = 3.0779038 et 2 = 0.6120617. On peutobtenir les probabilits a posteriori du p