Anne Universitaire 2008-2009
Rgression sur variables catgorielles
Laurent Rouvire
Universit Rennes 2Place du Recteur H. le Moal
CS 24307 - 35043 RennesTel : 02 99 14 18 21
Mel : [email protected]
Table des matires
1 Introduction 51.1 Rappels sur le modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Le modle linaire gnralis : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 La rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.2 La rgression log-linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.3 Gnralisation : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Exemples de fonctions de liens pour la rgression dune variable binaire . . . . . . . 12
2 Analyse discriminante logistique 152.1 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Equations du score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.2 Rappel sur lalgorithme de Newton-Raphson . . . . . . . . . . . . . . . . . . 182.1.3 Calcul des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Dimensions explicatives, variables explicatives . . . . . . . . . . . . . . . . . . . . . 192.2.1 Variable explicative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Variable explicative qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.3 Interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Interprtation des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 Prcision des estimations et tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Loi asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.3 Tests de nullit de q coefficients libres . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Un exemple avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.5.1 Modles simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.5.2 Encore dautres modles... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Slection et validation de modles 313.1 Slection ou choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1 Un outil spcifique : la dviance . . . . . . . . . . . . . . . . . . . . . . . . . 313.1.2 Test de dviance entre 2 modles embots . . . . . . . . . . . . . . . . . . . 343.1.3 Critre de choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.4 Apprentissage/validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.5 Validation croise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.1.6 Slection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Validation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.1 Test dadquation par la dviance . . . . . . . . . . . . . . . . . . . . . . . . 423.2.2 Test dHosmer Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.3 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Rgression sur variables catgorielles Laurent Rouvire
4 Table des matires
3.2.4 Points leviers et points influents . . . . . . . . . . . . . . . . . . . . . . . . . 47
4 Modle logistique multi-classes 514.1 Modle polytomique ordonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.1 Cas binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.1.2 Gnralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.1.3 Lgalit des pentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Modle multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.2 Estimation et interprtation des paramtres . . . . . . . . . . . . . . . . . . 56
Annexes 59A.1 Rappels sur la mthode du maximum de vraisemblance . . . . . . . . . . . . . . . . 59A.2 Echantillonnage Rtrospectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61A.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63A.4 Correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Bibliographie 71
Laurent Rouvire Rgression sur variables catgorielles
Chapitre 1
Introduction
Notations : X = (1,X1, . . . ,Xp) : variable alatoire explicative de dimension p + 1, x = (1,x1, . . . ,xp) uneralisation de X ;
Y variable (univarie) expliquer. (X1, Y1), . . . , (Xn, Yn) : un n-chantillon alatoire (iid et de mme loi que le couple (X,Y )), telque Xi = (Xi1, . . . , Xip) ;
(x1, y1), . . . , (xn, yn) une ralisation de (X1, Y1), . . . , (Xn, Yn). X : la matrice des observations :
X =
1 x11 . . . x1p...
......
...1 xn1 . . . xnp
.
1.1 Rappels sur le modle linaire
Le contexte
Nous cherchons expliquer une variable Y par p variables X = (1,X1, . . . ,Xp). Pour ce faire,
on dispose de n ralisations (x1, y1), . . . , (xn, yn) du couple (X,Y ). Le but est de modliser ladpendance de la variable rponse Y sur les variables explicatives X1, . . . ,Xp. Plusieurs raisonspeuvent motiver cette modlisation : la description : on veut un modle qui permette de dcrire la relation entre Y et X ; lvaluation des contributions relatives de chaque prdicteur pour expliquer Y ; la prdiction : prvoir la valeur de Y pour des nouvelles valeurs des variables explicatives.Le modle linaire classique scrit :
Y = X + = 0 + 1X1 + . . .+ pXp + ,
avec = (0, 1, . . . , p) Rp+1 et N (0, 2). On distingue alors deux cas :
Les variables Xi sont dterministes (non-alatoires) :
Y N (X , 2), E(Y ) = X ;
Les variables Xi sont alatoires :
(Y |X) N (X , 2), E(Y |X) = X .
Rgression sur variables catgorielles Laurent Rouvire
6 Introduction
Plaons nous maintenant dans le cas o la variable expliquer Y est qualitative ou de type facteur(sexe, couleur, prsence ou absence dune maladie...). Cette variable possde un nombre fini demodalits g1, . . . , gm. Le problme consiste expliquer lappartenance dun individu un groupe partir des p variables explicatives, on parlera alors de discrimination au lieu de rgression.
Il est bien entendu impossible de modliser directement la variable Y par une relation linaire(imaginons que Y soit le sexe dune personne ou la couleur de ces cheveux).
Afin de pallier cette difficult, on va sintresser aux probabilits P(Y = gk|X = x). Supposonspour simplifier que la variable Y prenne uniquement deux valeurs : 0 (groupe 0) ou 1 (groupe 1).La connaissance de P(Y = 1|X = x) implique celle de P(Y = 0|X = x) : il suffit par consquentde modliser la probabilit p(x) = P(Y = 1|X = x). On peut par exemple envisager une relationde la forme
p(x) = 0 + 1x1 + . . .+ pxp = x.
Cette approche possde plusieurs inconvnients :
Remarquons tout dabord que la variance de Y |X = x vaut p(x)(1 p(x)). Contrairement aumodle linaire traditionnel, cette variance nest pas constante et par consquent lhypothseclassique dhomoscdasticit des rsidus ne sera pas vrifie.
Le fait quaucune restriction ne soit effectue sur les implique que x peut prendre nimportequelle valeur sur R. Ce qui peut tre gnant pour lestimation dune probabilit (imaginez uneestimation du genre P(Y = 1|X = x) = 1297.56 ! ! !).
Pour ces raisons, nous devons tendre le modle linaire classique aux cas o :
Y peut tre une variable qualitative (prsence ou absence dune maladie, appartenance unecatgorie...) ;
les erreurs peuvent ne pas avoir la mme variance (saffranchir de lhypothse dhomoscdasti-cit).
1.2 Le modle linaire gnralis : GLM
1.2.1 La rgression logistique
Nous nous plaons tout dabord dans un contexte de classification binaire, cest--dire que noussupposons quil existe seulement deux groupes discriminer. Nous verrons dans le chapitre 4comment tendre les techniques des modles multiclasses (plus de deux groupes).
Variable explicative continue
Exemple 1.1Nous souhaitons expliquer la variable Y prsence (1)/ absence (0) dune maladie cardio-vasculaire(Chd) par lge des patients. Les donnes sont reprsentes sur la figure 1.1.
Laurent Rouvire Rgression sur variables catgorielles
1.2 Le modle linaire gnralis : GLM 7
* * * *
*
* * * *
*
* * *
*
* * *
*
* *
*
* * *
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
* *
* * *
*
* *
*
*
*
* *
*
* * * *
*
* * *
age
chd
20 30 40 50 60 70
0.0
0.2
0.4
0.6
0.8
1.0
Fig. 1.1 Reprsentation directe de Chd (note aussi Y , la variable expliquer) en fonction de lgeX.
Cette figure montre quil est difficile de modliser les donnes brutes, la variabilit de la variableCHD est leve pour tout ge. Une mthode permettant de rduire cette variabilit consiste regrouper les patients par classe dge. Nous obtenons le tableau suivant :
CHDAge n Absent Present Moyenne
]19 ;29] 10 9 1 0.1]29 ;34] 15 13 2 0.133333]34 ;39] 12 9 3 0.25]39 ;44] 15 10 5 0.333333]44 ;49] 13 7 6 0.461538]49 ;54] 8 3 5 0.625]54 ;59] 17 4 13 0.764706]59 ;69] 10 2 8 0.8
Tab. 1.1 Donnes regroupes en classe dge.
La liaison entre lge et la prsence de la maladie devient beaucoup plus claire. Il apparat en effetque lorsque lge augmente, la proportion dindividus atteint par la maladie augmente. La figure1.2 permet dvaluer cette liaison : elle apparat nettement sous la forme dune courbe sigmode(i.e. en forme de S). Il semblerait donc naturel de modliser cette proportion de malade parclasse dge en fonction de lge par une courbe sigmode.
Rgression sur variables catgorielles Laurent Rouvire
8 Introduction
oo
o
o
o
o
oo
age
chd
20 40 60 80
0.0
0.2
0.4
0.6
0.8
1.0
Fig. 1.2 Frquence de Chd par classe dge en fonction de lge X
La colonne moyenne du tableau 1.1 fournit une estimation de E(Y |X = x). Nous pouvons doncproposer un modle du type pour lesprance conditionnelle de Y |X = x de la forme :
E(Y |X = x) = h(x)o lallure de la courbe reprsentative de h est une sigmode.
Plusieurs fonctions h ont t proposes dans la littrature. Pour le modle logistique on considrela fonction h(x) = exp(x)/(1 + exp(x)), ce qui donne le modle
E(Y |X = x) = p(x) = exp(0 + 1x)1 + exp 0 + 1x
,
o encore
logit p(x) = log
(p(x)
1 p(x))
= 0 + 1x,
logit dsignant la fonction bijective et drivable de ]0, 1[ dans R : p 7 log(p/(1 p)) (voir figures1.3 et 1.4). Nous verrons quune telle modlisation permettra de retrouver un grand nombre desbonnes proprits du modle linaire.
La loi conditionnelle de la variable dintrt diffre entre le modle logistique et le modle linaire.Dans le modle de rgression linaire Y = 0 + 1x + , on fait lhypothse que les rsidus suivent une loi N (0, 2). On en dduit Y |x N (0+1x, 2). Pour le modle logistique, pour uneobservation x de la variable explicative, on peut exprimer la variable dintrt comme suit :
Y = p(x) + .
La quantit peut prendre simplement deux valeurs : si y = 1 alors = 1 p(x) et si y = 0alors = p(x). Par consquent prend pour valeur 1 p(x) avec probabilit p(x) et p(x) avecprobabilit 1 p(x) : Y |x suit une loi de Bernoulli de paramtre p(x).
Laurent Rouvire Rgression sur variables catgorielles
1.2 Le modle linaire gnralis : GLM 9
0.0 0.2 0.4 0.6 0.8 1.0
3
2
1
01
23
Fig. 1.3 logit
3 2 1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Fig. 1.4 Inverse de logit
Variable explicative qualitative
Il y a deux faons davoir des variables explicatives qualitatives. Tout dabord, la variable peuttre qualitative par nature (sexe, CSP). La deuxime manire consiste regrouper une variablecontinue en classes. Soit X une variable qualitative admettant m modalits, le modle logistiquepermettant dexpliquer une variable dichotomique Y par X scrit
logit p(x) = 0 + 111(x) + . . .+ m1m(x)
o 1j(x) dsignent les indicatrices
1j(x) =
{1 si x correspond la jme modalit de X0 sinon.
Avec un lger abus de notation, on crira
logit p(x) = x
avec = (0, 1, . . . , m) et x = (1,11(x), . . . ,1m(x)). Toutes les variables qualitatives sont d-coupes en variables indicatrices dans le modle, chaque modalit dune variable correspond uncoefficient. Nous verrons (section 2.2.2 et exercice A.2) (page 63) quen prsence dune variablequalitative, il est ncessaire dimposer une contrainte sur les coefficients du modle. Nous sommesmaintenant mme de dfinir le modle logistique dans un cadre gnral.
Dfinition 1.1 (Rgression logistique)Soit Y une variable binaire expliquer et X = (X1, . . . , Xp) Rp p variables explicatives. Lemodle logistique propose une modlisation de la loi de Y |X = x par une loi de Bernoulli deparamtre p(x) = P(Y = 1|X = x) telle que :
logp(x)
1 p(x) = 0 + 1x1 + . . .+ pxp = x, (1.1)
ou encorelogit p(x) = x,
logit dsignant la fonction bijective et drivable de ]0, 1[ dans R : p 7 log(p/(1 p)).On dduit de (1.1)
p(x) = P(Y = 1|X = x) = exp(x)
1 + exp(x).
Rgression sur variables catgorielles Laurent Rouvire
10 Introduction
Identifiabilit du modle
On rappelle que le modle est identifiable si pour 6= , les loi de Y |X = x associes et sontdiffrentes. Tout comme pour le modle linaire, une condition ncessaire pour pouvoir estimer lesparamtres est que lchantillon rende le modle identifiable : les lois {(Yi|X = xi), i = 1, . . . , n}associes et sont diffrentes. Comme Yi|X = xi suit une loi de Bernoulli de paramtre p(xi)et que la fonction logit est strictement croissante, cette condition quivaut lexistence dun xi telque xi 6= xi. Ce qui, comme pour le modle linaire, quivaut rang(X) = p+ 1. On supposerapar la suite que cette condition est vrifie.
RemarqueDans un modle logistique, nous effectuons deux choix pour dfinir le modle :
1. le choix dune loi pour Y |X = x, ici la loi de Bernoulli ;2. le choix de la modlisation de P(Y = 1|X = x) par
logit (P(Y = 1|X = x)) = x.La fonction logit est bijective et drivable. Elle est appele fonction de lien.
Remarquons galement que
E(Y |X = x) = P(Y = 1|X = x)
V(Y |X = x) = P(Y = 1|X = x)(1P(Y = 1|X = x)
)ce qui implique que la variance nest pas constante et varie selon la valeur x de X.
1.2.2 La rgression log-linaire
Dans le modle logistique la variable expliquer est une variable binaire. Le modle log-linairetraite le cas dune variable de comptage. Voici quelques exemples : nombre de catastrophes ariennes sur une priode donne ; nombre de voitures un feu rouge ; nombre daccidents par jour sur une autoroute...
Dfinition 1.2 (Rgression log-linaire)Soit Y une variable de comptage expliquer et X = (1,X1, . . . ,Xp) Rp+1 p + 1 variablesexplicatives. Le modle log-linaire propose une modlisation de la loi de Y |X = x par une loi depoisson de paramtre = (x) telle que :
logE(Y |X = x) = x.Pour une nouvelle mesure x effectue, le modle log-linaire va donc prdire exp(x).
RemarqueIci encore, deux choix sont effectus pour dfinir le modle :
1. le choix dune loi pour Y |X = x, ici la loi de Poisson ;2. le choix de la modlisation de E(Y |X = x) par
logE(Y |X = x) = x.La fonction log est bijective et drivable.
Laurent Rouvire Rgression sur variables catgorielles
1.2 Le modle linaire gnralis : GLM 11
1.2.3 Gnralisation : GLM
On peut rsumer les remarques prcdentes par le tableau :
Choix logistique log-linaire linaire
Y |X = x Bernoulli Poisson Normalemodlisation
de logit E(Y |X = x) = x logE(Y |X = x) = x E(Y |X = x) = xE(Y |X = x)
Une gnralisation de ces mthodes est appele GLM (Generalized Linear Model). LapprocheGLM consiste :
1. choisir une loi pour Y |X = x parmi un ensemble restreint de loi (les lois exponentiellesGLM) ;
2. choisir une fonction de lien g(.) parmi une ensemble rduit de fonctions bijectives et drivable.
3. la transformation de lesprance conditionnelle E(Y |X = x) par la fonction g est ensuitemodlise par une fonction qui nest autre quune combinaison linaire des variables expli-catives :
g (E(Y |X = x)) = (x) = x.On peut rsumer un modle GLM par le schma suivant :
A expliquercomposante alatoire
Y |X = x suit une loi fixe.
Lien
E(Y |X = x) dpend de(x) au travers de la fonc-tion g appele fonction delien
g(E(Y |X)) = (X)
g est une fonction inversible.
ExplicatifComposante systmatique
On modlise par une com-binaison linaire des Xj
(x) =
pj=1
xjj
Remarque1. Pour choisir un modle GLM il faut donc
choisir la loi de Y |X = x dans la famille exponentielle des GLM. choisir une fonction de lien inversible g.
2. Pour utiliser un modle GLM il faudra donc estimer les paramtres = (0, 1, . . . , p). Unefois cette estimation ralise, (x) est fix, ce qui fixe E(Y |X = x) = g1((x)).
Le tableau 1.2 donne quelques exemples de GLM.
Rgression sur variables catgorielles Laurent Rouvire
12 Introduction
Loi Nom du lien Fonction de lienBernoulli/Binomiale lien logit g() = logit () = log(/(1 ))Poisson lien log g() = log()Normale lien identit g() = Gamma lien rciproque g() = 1/
Tab. 1.2 Exemples de GLM.
1.3 Exemples de fonctions de liens pour la rgression dune
variable binaire
Dautres fonctions de lien que logit peuvent tre utilises dans le cas o la variable expliquer Yest binaire. On retrouve notamment dans la littrature les transformations : probit, qui nest autre que linverse de la fonction de rpartition de la loi normale centre rduite :
p [0, 1], probit(p) = avec 12
exp
(12u2)
du = p.
log-log dfinie par :p [0, 1], log-log(p) = log( log(1 p)).
Ces transformations sont reprsentes sur la figure 1.5
0.0 0.2 0.4 0.6 0.8 1.0
4
2
02
4
p
Fig. 1.5 Fonctions de liens : probit (trait plein), logit (tirets), log-log (pointills).
Des trois fonctions de lien prsentes, la transformation log-log est bien approprie aux cas olon souhaite modliser les probabilits de succs de manire asymtrique. Les transformationslogit et probit possdent des proprits identiques. Dans de nombreux cas, on prfre utiliser latransformation logistique. Plusieurs raisons motivent ce choix : dun point de vue numrique, la transformation logistique est plus simple manipuler (notam-ment pour lcriture des estimateurs du maximum de vraisemblance, voir section 2.1) ;
Laurent Rouvire Rgression sur variables catgorielles
1.3 Exemples de fonctions de liens pour la rgression dune variable binaire 13
on a une interprtation claire des coefficients en terme dodds ratio pour la transformationlogistique (voir section 2.3).
le modle logistique est particulirement bien adapt un schma dchantillonnage rtrospectif(voir annexe A.2)
Nous nous focaliserons dans la suite sur le modle logistique. Les diffrents rsultats obtenuspourront stendre aux autres modles GLM. Il est important de connatre les notations des GLMprsentes dans cette partie. Cest en effet sous cette forme l quelles sont prsentes dans lalittrature ainsi que dans la plupart des logiciels statistiques (notamment R).
Rgression sur variables catgorielles Laurent Rouvire
Chapitre 2
Analyse discriminante logistique
Nous rappelons que Y dsigne une variable expliquer binaire (qui prend 2 valeurs 0 ou 1 poursimplifier) ou un label qui dnote lappartenance un groupe et X1, . . . ,Xp dsignent p variablesexplicatives. On souhaite :
expliquer la variable Y laide des p variables explicatives X = (1,X1, . . . ,Xp) ; tant donne une nouvelle mesure x des p variables explicatives X, prdire le label y associ cette variable.
Nous avons vu dans le chapitre prcdent que le modle logistique scrit
logit p(x) = 0 + 1x1 + . . .+ pxp = x (2.1)
o = (0, . . . , p) et x = (1,x1, . . . ,xp). Nous nous posons le problme de lestimation desparamtres partir dun chantillon (x1, y1), . . . , (xn, yn). Les observations sont supposes ind-pendantes. Il y a deux structures de donnes :
les donnes individuelles : {(xi, yi), i = 1, . . . , n} o les xi sont tous diffrents, le design est{x1, . . . , xn} ;
les donnes rptes : {((xt, yit), i = 1, . . . , nt), t = 1, . . . , T}. Il y a nt 1 observations yit aupoint xt, le nombre total dobservations est n =
Tt=1 nt et le design est {(x1, n1), . . . , (xT , nT )}.
Les proprits du modle logistique sont trs proches pour ces deux types de donnes. Certainsconcepts tels que la forme de la vraisemblance o les tests dadquation par la dviance peuventnanmoins lgrement diffrer. Dans ce chapitre, nous nous focalisons sur le cas de donnes in-dividuelles (qui est le cas le plus frquent). Pour une tude plus approfondie du cas des donnesrptes, nous renvoyons le lecteur lannexe A.3 (pour lcriture de la vraisemblance) ou auxouvrages de Hosmer & Lemeshow (2000) et Collet (2003).
2.1 Estimation des paramtres
2.1.1 Equations du score
Nous allons utiliser lchantillon (x1, y1), . . . , (xn, yn) pour estimer les paramtres par la m-thode du maximum de vraisemblance (voir annexe A.1). Cette mthode consiste chercher =(0, 1, . . . , p) qui maximise la vraisemblance
ni=1
P(Y = yi|X = xi).
Rgression sur variables catgorielles Laurent Rouvire
16 Analyse discriminante logistique
Rappelons que par dfinition du modle logistique Y |X = x Ber(p(x)). Par consquent :ni=1
P(Y = yi|X = xi) =ni=1
pyii (1 pi)1yi
avec pi = P(Y = 1|X = xi). En passant au log nous avons alors
L() =ni=1
{yi log(pi) + (1 yi) log(1 pi)}
=ni=1
{yi log
(pi
1 pi
)+ log(1 pi)
}.
Daprs (2.1) nous obtenons
L() =ni=1
{yixi log(1 + exp(xi))}. (2.2)
En drivant par rapport au paramtre nous avons queL
() =
[L0
(), . . . ,Lp
()
]avec
Lj
() =ni=1
[yixij xij exp(x
i)
1 + exp(xi)
]
=ni=1
[xij(yi pi)] .
Ce qui donne en criture matricielle
L
() =ni=1
[xi(yi pi)] .
Une condition ncessaire doptimum (sur Rp) est lannulation des drives loptimum, nousobtenons lquation suivante (appele quation du score) :
S() =L
() =ni=1
xi {yi P(Y = 1|X = xi)} = X (Y P ) = 0, (2.3)
P est le vecteur de dimension n des P(Y = 1|X = xi) qui dpend de . On note une solutionde S() = 0.
Trouver explicitement nest pas possible. En effet, lquation (2.3) scrit :
x11y1 + . . .+ xn1yn = x11exp(1x11 + . . .+ px1p)
1 + exp(1x11 + . . .+ px1p)+ . . .+ xn1
exp(1xn1 + . . .+ pxnp)
1 + exp(1xn1 + . . .+ pxnp)......
x1py1 + . . .+ xnpyn = x1pexp(1x11 + . . .+ px1p)
1 + exp(1x11 + . . .+ px1p)+ . . .+ xnp
exp(1xn1 + . . .+ pxnp)
1 + exp(1xn1 + . . .+ pxnp).
Dans le cas de la rgression logistique (binaire), il existe une procdure spcifique dite IRLS(Iterative Reweighted Least Squares) issue de la procdure de Newton-Raphson.
Laurent Rouvire Rgression sur variables catgorielles
2.1 Estimation des paramtres 17
Dfinition 2.1Le nuage de points est dit : compltement sparable si Rp+1 : i tel que Yi = 1 xi > 0 et i tel que Yi = 0 xi < 0 ; quasi-compltement sparable si Rp+1 : i tel que Yi = 1 xi 0, i tel que Yi = 0 xi 0et {i : xi = 0} 6= ;
en recouvrement sil nest ni compltement sparable ni quasi-compltement sparable (voir figure2.1).
Fig. 2.1 Exemple de sparabilit complte (gauche), quasi-complte (milieu) et de recouvrement(droite).
La proposition suivante assure la convergence de lalgorithme IRLS vers la valeur .
Proposition 1 On suppose que le nuage de points est en situation de recouvrement et que les xisont des ralisations i.i.d. dune loi support compact. Alors
1. La log-vraisemblance L() est strictement concave : existe et est unique.2. La loi asymptotique de lestimateur du maximum de vraisemblance est donne par
n( ) N (0, I()1),
o I() est la matrice dinformation de Fisher au point :
I()ij = E[ 2ij
LY ()],
LY () dsignant la log-vraisemblance de au point Y .
Pour la preuve de la concavit, on pourra se rfrer au polycopi de Guyon (2005) ou larticle deAlbert & Anderson (1984). La loi asymptotique dcoule de la thorie du maximum de vraisemblance(voir annexe A.1). La concavit a une consquence numrique importante puisquelle justifie quunalgorithme itratif convergera bien vers la valeur de . Il ny a donc pas de risque de convergervers un maximum local non global et la convergence de lalgorithme ne dpend pas du pointdinitialisation de lalgorithme.
Rgression sur variables catgorielles Laurent Rouvire
18 Analyse discriminante logistique
2.1.2 Rappel sur lalgorithme de Newton-Raphson
La mthode de Newton-Raphson permet une rsolution numrique des quations du score. Onpart tout dabord dune valeur initiale arbitraire de , note 0. On note 1 = 0 + h une valeurcandidate pour tre solution de S() = 0, cest--dire S(0+h) = 0. Par un dveloppement limit lordre un de la fonction S, on obtient lapproximation suivante :
S(0 + h) S(0) + hS (0).Comme S(0 + h) = 0, on obtient pour h la valeur suivante :
h = [S (0)]1 S(0).Il vient
1 = 0 [2L
(0)
]1L
(0).
On itre le processus. La procdure se rsume de la manire suivante :
1. choix dun point de dpart 0 ;
2. On construit k+1 partir de k
k+1 = k + AkL|k ,o L|k est le gradient au point k et Ak = (2L|k)1 est la matrice de pas delalgorithme (linverse du hessien de L au point k)
Algorithme 1 maximisation de la vraisemblance
Require: 0
k 1repeatk+1 k + AkLkk k + 1
until k+1 k et/ou L(k+1) L(k)
2.1.3 Calcul des estimateurs
Calculons la matrice hessienne 2L ={
2Lrs
}1r,sp
:
2Lrs
= ni=1
xrixsi
exp(xi)
(1 + exp(xi))2=
ni=1
xrixsipi(1 pi),
par consquent
2L = 2L2
= ni=1
xixiP(Y = 1|X = xi)(1P(Y = 1|X = xi)).
On note pki la probabilit P(Y = 1|X = xi) estime ltape k de lalgorithme ;
Laurent Rouvire Rgression sur variables catgorielles
2.2 Dimensions explicatives, variables explicatives 19
P k le vecteur colonne de dimension n dont le ime lment est pki ; W k la matrice diagonale diag(pki (1 pki )).Il vient
(2L|k)1 = (XW kX)1. (2.4)Nous sommes maintenant mme de calculer k+1
k+1 = k + (XW kX)1X(Y P k)= (XW kX)1XW k(Xk +W k
1(Y P k))
= (XW kX)1XW kZk,
o Zk = Xk + W k1(Y P k). Cette quation est simplement une rgression pondre o les
poids W k dpendent de X et k. Les poids sont donc rvalus chaque tape de lalgorithme,une tape tant une simple rgression pondre. A la dernire tape k de lalgorithme, on noteW k
= W . On obtient lestimateur du maximum de vraisemblance :
= (XW k
X)1XW k
Zk
= (XW X)1XW Zk
.
2.2 Dimensions explicatives, variables explicatives
Les remarques formules dans cette partie sappliquent dans la plupart des modles de rgres-sion (modles linaires et danalyse de variance par exemple). Pour plus de dtails, on pourra serapporter aux ouvrages de Droesbeke et al (2007) et Cornillon & Matzner-Lber (2007).
Suivant la nature dune variable explicative, le nombre de dimensions explicatives du modle peutvarier. Plus prcisment, on dira que la dimension explicative du modle est gale au nombre decolonnes de la matrice du design X utilise dans lalgorithme destimation des paramtres (voirsection 2.1). Elle est obtenue en sommant les dimensions explicatives associes aux diffrentesvariables explicatives du modle, lesquelles varient suivant le nature de la variable explicative. Noustudions dans cette partie les dimensions explicatives pour des variables explicatives quantitatives,qualitatives. Le cas dinteraction sera ensuite abord.
2.2.1 Variable explicative continue
Cest le cas le plus simple puisque une variable explicative est reprsente par une seule colonnedans la matrice du design X. On estime donc un seul paramtre par variable quantitative.
2.2.2 Variable explicative qualitative
Tout comme pour le modle danalyse de variance, une variable qualitative est reprsente parles indicatrices associes aux diffrentes modalits. Considrons un modle o la seule variableexplicative est le sexe :
logit (P(Y = 1|X = x)) = 0 + F1F (x) + H1H(x), (2.5)
mais aussi
logit (P(Y = 1|X = x)) = (0 + F ) + (H F )1H(x).
Rgression sur variables catgorielles Laurent Rouvire
20 Analyse discriminante logistique
Il y a une infinit dcritures possibles... Le modle (2.5) correspond une matrice du design X trois colonnes o la premire colonne est une colonne de 1 et les deux dernires sont obtenuesen effectuant un codage disjonctif complet pour chaque individu (le ime terme de la 2me (resp.3me) colonne vaut 1 si le ime individu de lchantillon est une femme (resp. un homme)). Parconsquent, la somme des deuxime et troisime colonne vaut 1 ce qui rend lestimation impossiblepuisque la matrice X nest pas de plein rang (XWX nest donc pas inversible). Une solution pourpallier cette difficult consiste mettre une contrainte sur les coefficients H et F . La solutionsouvent utilise par les logiciels est de supprimer une des colonnes de la matrice X, ce qui revient considrer que le coefficient de la modalit associe cette colonne est nul. Cette modalit est prisecomme modalit de rfrence par rapport laquelle on mesure des dviations. Le choix de cettemodalit na bien entendu pas dinfluence sur le modle. Il en a cependant une sur la valeur descoefficients estims ainsi que sur leurs carts types. Ainsi le nombre de coefficients significativementdiffrents de 0 peut changer suivant le choix de la modalit de rfrence. Ceci montre clairementque, pour juger lapport dune variable qualitative, il nest pas pertinent dutiliser les tests designificativit des coefficients. Il sera prfrable de raliser un test entre modles embots (voirpage 34).
Exemple 2.1Considrons le cas dune variable explicative trois niveaux g1, g2, g3. Les observations sont rcol-tes dans les tableaux suivants (quivalents)
observation X Y
1 g1 12 g2 13 g3 14 g1 15 g2 06 g1 0
X #{Y = 1} #{Y = 0}g1 2 1g2 1 1g3 1 0
On effectue une rgression logistique sur R :
> model model
Call: glm(formula = Y ~ ., family = binomial, data = X)
Coefficients:
(Intercept) xg2 xg3
0.6931 -0.6931 17.8729
Degrees of Freedom: 5 Total (i.e. Null); 3 Residual
Null Deviance: 7.638
Residual Deviance: 6.592 AIC: 12.59
La modalit g1 est ici prise comme modalit de rfrence. Le modle estim scrit donc :
logit P(Y = 1|X = gj) =
0.6931 si j = 10 si j = 20.6931 + 17.8729 = 18.566 si j = 3.
Laurent Rouvire Rgression sur variables catgorielles
2.3 Interprtation des coefficients 21
ou encore
P(Y = 1|X = gj) =
exp(0.6931)1+exp(0.6391)
= 2/3 si j = 1
1/2 si j = 2exp(18.566)
1+exp(18.566)= 1.0000 si j = 3.
2.2.3 Interactions
Tout comme en analyse de la variance, on ne peut se contenter de modles purement additifs.Reprenons lexemple dvelopp dans Droesbeke et al (2007) (page 122). Nous considrons le caso la variable Y reprsente le fait de faire (cod 1) ou non (cod 0) de la couture. On dispose dedeux variables explicatives : lage et le sexe. Le modle purement additif scrit :
logit p(x) = 0 + 1age+ 21femme,
la modalit homme a t choisie comme modalit de rfrence. Une telle criture revient supposerque les pentes sont identiques pour les hommes et les femmes (voir Figure 2.2).
Hommes
Femmes
age
Fig. 2.2 Modle additif.
Hommes
Femmes
age
Fig. 2.3 Modle avec interaction.
Sachant que les hommes font trs rarement de la couture, il parait prfrable de pouvoir utiliserun modle du genre (voir Figure 2.3) :
logit p(x) = 0 + 1age+ 21femme + 3age1femme.
Ce modle revient considrer linteraction entre les variables age et sexe. On rappelle quedeux variables interagissent si leffet de lune sur Y diffre suivant les valeurs de lautre. Bienentendu, lajout dune interaction augmente la dimension explicative du modle. Le nombre decomposantes supplmentaires sobtient en faisant le produit du nombre de dimensions des variablesqui interagissent (ici les variables sexe et age sont de dimension 1, on rajoute donc une dimension).
2.3 Interprtation des coefficients
Nous avons reprsent sur la Figure 2.4 plusieurs reprsentations de la fonction x 7 exp(x)1+exp(x)
pourdiffrentes valeurs de . On remarque que : pour de faibles valeurs de on a une large plage de valeurs de x pour lesquelles la fonction sesitue aux alentours de 0.5 (la fonction est mme constante (0.5) dans le cas extrme = 0).Pour ces valeurs P(Y = 1|X = x) sera proche de 0.5 et on peut donc penser quil sera difficilede discriminer ;
Rgression sur variables catgorielles Laurent Rouvire
22 Analyse discriminante logistique
0.2
0.8
0.0
1.0
0.0
1.0
0.3
0.7
= 0 = 0.5
= 2 = 10
Fig. 2.4 P(Y = 1|X = x) pour diffrentes valeurs de .
lorsque augmente, la zone o la fonction est proche de 0.5 diminue et la fonction est prochede 0 ou 1 pour un grand nombre de valeurs de x. Par consquent, P(Y = 1|X = x) sera souventproche de 1 ou 0, ce qui risque de minimiser dventuelles erreurs de prdictions.
On peut interprter ainsi : plus est grand, mieux on discrimine. Cependant une telle interpr-tation dpend des valeurs que x prend (de son chelle). Cest pourquoi en gnral linterprtationdes coefficients seffectue en terme dodds ratio. Les odds ratio sont des outils souvent apprcisdans le domaine de lpidmiologie (mais pas toujours bien utiliss !).
Les odds ratio servent mesurer leffet dune variable continue ou le contraste entre les effetsdune variable qualitative. Lide gnrale est de raisonner en terme de probabilits ou de rapportde cotes (odds). Si on a, par exemple, une probabilit p = 1/4 de gagner un jeu, cela signifieque sur 4 personnes une gagne et les trois autres perdent, soit un rapport de 1 gagnant sur troisperdants, cest--dire p/(1 p) = 1/3. Ce rapport p/(1 p) varie entre 0 (0 gagnant) et linfini(que des gagnants) en passant par 1 (un gagnant pour un perdant).
Dfinition 2.2Lodds (chance) pour un individu x dobtenir la rponse Y = 1 est dfini par :
odds(x) =p(x)
1 p(x) , o p(x) = P(Y = 1|X = x).
Lodds ratio (rapport des chances) entre deux individus x et x est
OR(x, x) =odds(x)
odds(x)=
p(x)1p(x)
p(x)1p(x)
.
Les odds ratio peuvent tre utiliss de plusieurs manires :
1. Comparaison de probabilits de succs entre deux individus (voir Tableau 2.1) ;
Laurent Rouvire Rgression sur variables catgorielles
2.4 Prcision des estimations et tests 23
OR(x, x) > 1 p(x) > p(x)OR(x, x) = 1 p(x) = p(x)OR(x, x) < 1 p(x) < p(x)
Tab. 2.1 Rgles dinterprtation des odds ratio.
2. Interprtation en terme de risque relatif : dans le cas o p(x) et p(x) sont trs petitspar rapport 1, comme dans le cas dune maladie trs rare, alors on peut approximer lodd-ratio comme OR(x, x) p(x)/p(x) et interprter simplement. Par exemple si OR(x, x) = 4alors la rponse (maladie) est 4 fois plus probable dans le cas o X = x que dans le cas oX = x.
3. Mesure de limpact dune variable : pour le modle logistique
logit p(x) = 0 + 1x1 + . . .+ pxp,
il est facile de vrifier que
OR(x, x) = exp(1(x1 x1)) . . . exp(p(xp xp)).Pour tudier linfluence dune variable sur lodds ratio, il suffit de considrer deux observationx et x qui diffrent uniquement par la jme variable. On obtient alors
OR(x, x) = exp(j(xj xj)).Ainsi une variation de la jme variable dune unit (sur lchelle de cette variable) correspond un odds ratio exp(j) qui est uniquement fonction du coefficient j. Le coefficient j permetde mesurer linfluence de la jme variable sur le rapport p(x)/(1 p(x)) lorsque xj variedune unit, et ceux indpendamment de la valeur de xj. Une telle analyse peut se rvlerintressante pour tudier linfluence dun changement dtat dune variable qualitative.
Exemple 2.2Considrons lexemple o lon souhaite expliquer le fait davoir une mention au bac par la moyenneen math sur les deux premiers trimestres. On note Y la variable alatoire qui prend pour valeur 1 si lindividu a obtenu une mention, 0 sinon ; X1 la moyenne de lindividu en question au cours des deux premiers trimestres.Le modle logistique scrit
logit p(x) = 0 + 1x1.
On trouve une estimation de 1 gale log 2. Pour une note x1 fixe, le modle donne p(x) = 1/4(on rappelle que x = (1,x1)). On a donc odds(x) = 1/3 soit un rapport dune mention pour 3non mention (pour la note x1). Si on considre des individu ayant obtenu la note x1 + 1, il fautmultiplier lodds par 2 : odds(x) = 2/3 avec x = (1,x1 + 1).
2.4 Prcision des estimations et tests
2.4.1 Loi asymptotique
Nous avons obtenu dans la proposition 1 le comportement asymptotique de lestimateur du maxi-mum de vraisemblance :
n( ) N (0, I()1),
Rgression sur variables catgorielles Laurent Rouvire
24 Analyse discriminante logistique
o I() est la matrice dinformation de Fisher au point :
I()ij = E[ 2ij
LY ()],
et LY () dsigne la log-vraisemblance de au point Y . Un tel rsultat nest pas utilisable tel quelpuisque la matrice I() est inconnue. Dans la pratique, cette matrice est estime comme suit :
I()ij = 1n
nk=1
2
ijLYi() =
1
n
2
ij
nk=1
LYi() = 1
n
2
ijL(),
o L() est dfini par (2.2). tant inconnu, lestimateur de la matrice dinformation de Fisherest donn par :
I() = 1n(XW X).
2.4.2 Intervalles de confiance
On dduit facilement du paragraphe prcdent quun estimateur de la variance de j est donne
par le jme terme de la diagonale de (XW X)1. Notons 2j cet estimateur. On dduit que j/jsuit asymptotiquement une loi N (j, 1). Un intervalle de confiance de niveau 1 pour j estdonc donn par
IC(j) =[j u1/2j; j + u1/2j
],
o u1/2 reprsente le quantile de niveau (1 /2) de la loi normale N (0, 1).La validit de ces intervalles est toute relative puisquil sagit dune approximation valable asymp-totiquement. Il est toujours possible de complter cette tude par un bootstrap afin dobtenirdautres intervalles de confiance dans le cas ou ceux-ci sont particulirement importants. Cela dit,en pratique, on se contente de lintervalle de confiance bti grce la matrice dinformation deFisher.
2.4.3 Tests de nullit de q coefficients libres
La thorie du maximum de vraisemblance nous donnant la loi (asymptotique) des estimateurs,il est possible de tester la significativit des variables explicatives. Pour cela, trois tests sontgnralement utiliss : Le test de Wald ; Le test du score ; Le test du rapport de vraisemblance ou de la dviance.Les hypothses scrivent :
H0 : j1 = j2 = . . . = jq = 0 contre H1 : k {1, . . . , q} : jk 6= 0.Sous H0 les trois statistiques de test suivantes suivent asymptotiquement une loi du
2 q degrsde libert : Statistique du test de Wald :
(Q)(QI1n ()Q)1Q,o In() = nI() et Q est la matrice q (p+ 1) telle que Q = (j1, . . . , jq).
Laurent Rouvire Rgression sur variables catgorielles
2.5 Un exemple avec R 25
Statistique du score :S(H0)
I10 (H0)S(H0),o S est la fonction de score dfinie par 2.3 (page 16) et I10 (H0) et H0 sont respectivementles estimateurs de n fois la matrice dinformation de Fisher et du maximum de vraisemblancesous la contrainte H0.
Statistique de la dviance :2[L(H0) L()].
H0 est rejet au profit de H1 ds que ces statistiques dpassent le fractile dordre 1 de la loi du2 q degrs de libert. La figure 2.5 permet de visualiser les trois tests. Le test du score revient tester que la pente en H0 ( sous H0) est nulle, le test de Wald que lcart entre et H0 estnul et le test du rapport de vraisemblance que lcart entre les vraisemblances de ces deux pointsest nul.
0
0
max
Test du rapport des vraisemblances
Test du score
Test de Wald
Log-vraisemblance
Fig. 2.5 Rapport de vraisemblance, score, test de Wald.
Remarque La PROC LOGISTIC sous SAS ralise les trois tests pour H0 : 1 = 2 = . . . = p = 0. Pour les tests variable par variable ou paramtre par paramtre
H0 : j = 0 contre H1 : j 6= 0,la PROC LOGISTIC utilise le test de Wald.
2.5 Un exemple avec R
Le traitement du cancer de la prostate change si le cancer a atteint ou non les neuds lymphatiquesentourant la prostate. Pour viter une investigation lourde (ouverture de la cavit abdominale) uncertain nombre de variables sont considres comme explicative de la variable Y binaire : Y = 0le cancer na pas atteint le rseau lymphatique, Y = 1 le cancer a atteint le rseau lymphatique.Le but est dexpliquer Y par les variables suivantes :
Rgression sur variables catgorielles Laurent Rouvire
26 Analyse discriminante logistique
ge du patient au moment du diagnostic : age ; le niveau dacide phosphatase srique : acide ; Le rsultat dune analyse par rayon X, 0= ngatif, 1=positif : rayonx ; La taille de la tumeur, 0=petite, 1=grande : taille ; Ltat pathologique de la tumeur dtermine par biopsie (0=moyen, 1=grave) : grade ; Le logarithme nprien du niveau dacidit : log.acid.
age acide rayonx taille grade log.acid.
1 66 0.48 0 0 0 -0.73396918
2 68 0.56 0 0 0 -0.57981850
3 66 0.50 0 0 0 -0.69314718
4 56 0.52 0 0 0 -0.65392647
5 58 0.50 0 0 0 -0.69314718
6 60 0.49 0 0 0 -0.71334989
7 65 0.46 1 0 0 -0.77652879
8 60 0.62 1 0 0 -0.47803580
9 50 0.56 0 0 1 -0.57981850
10 49 0.55 1 0 0 -0.59783700
Tab. 2.2 Reprsentation des dix premiers individus.
2.5.1 Modles simples
Nous sommes en prsence de 6 variables explicatives X1, . . . ,X6 avec : X1, X2 et X6 quantitatives ; X3, X4 et X5 qualitatives (2 niveaux pour chacune).
Premier modle
Considrons tout dabord les trois variables explicatives qualitatives X = (X3,X4,X5) :
logit P(Y = 1|X = x) = 0 + 31{x3=1} + 41{x4=1} + 51{x5=1}.Ce modle possde 4 paramtres. Les sorties du logiciel R sont :
> model_quali model_quali
Call: glm(formula = Y ~ rayonx + taille + grade, family = binomial, data = donnees)
Coefficients:
(Intercept) rayonx1 taille1 grade1
-2.1455 2.0731 1.4097 0.5499
Degrees of Freedom: 52 Total (i.e. Null); 49 Residual
Null Deviance: 70.25
Residual Deviance: 52.78 AIC: 60.78
Si par exemple (x3,x4,x5) = (1, 0, 1), on aura alors :
logit P(Y = 1|X = x) = 0 + 3 + 5 = 2.1455 + 2.0731 + 0.5499 = 0.4785
Laurent Rouvire Rgression sur variables catgorielles
2.5 Un exemple avec R 27
et
P(Y = 1|X = x) = exp(0.4785)1 + exp(0.4785)
= 0.6174.
Ainsi, dans un contexte de prvision, nous assignerons le label 1 la nouvelle observation x.
Deuxime modle
Considrons maintenant le modle uniquement compos de variables quantitatives,
logit P(Y = 1|X = x) = 0 + 1x1 + 2x2 + 6x6.> model_quanti model_quanti
Call: glm(formula = Y ~ age + acide + log.acid., family = binomial, data = donnees)
Coefficients:
(Intercept) age acide log.acid.
12.34700 -0.02805 -9.96499 10.54332
Degrees of Freedom: 52 Total (i.e. Null); 49 Residual
Null Deviance: 70.25
Residual Deviance: 59.95 AIC: 67.95
Troisime modle
Le modle complet 6 variables scrit
logit P(Y = 1|X = x) = 0 + 1x1 + 2x2 + 31{x3=1} + 41{x4=1} + 51{x5=1} + 6x6.> model_complet model_complet
Call: glm(formula = Y ~ ., family = binomial, data = donnees)
Coefficients:
(Intercept) age acide rayonx1 taille1 grade1
10.08672 -0.04289 -8.48006 2.06673 1.38415 0.85376
log.acid.
9.60912
Degrees of Freedom: 52 Total (i.e. Null); 46 Residual
Null Deviance: 70.25
Residual Deviance: 44.77 AIC: 58.77
2.5.2 Encore dautres modles...
Comme dans le cas du le modle linaire on peut galement considrer des interactions entre lesvariables explicatives. Gnralement, on dit quil y a interaction entre deux facteurs F1 et F2 surune variable Y si leffet de lun des facteurs diffre selon la modalit de lautre. Remarquons quecette notion na rien voir avec celle de corrlation qui ne concerne que deux variables alors quelinteraction met en jeu une troisime variable Y .
Rgression sur variables catgorielles Laurent Rouvire
28 Analyse discriminante logistique
Exemple 2.3 (Construction dinteraction)On sintresse leffet de deux traitements X1 et X2 sur le rhume. Le traitement X1 consiste prendre intervalle de temps rguliers deux verres de cognac et X2 reprsente un traitement auxantibiotiques (il nest pas difficile de comprendre lintrt denvisager une interaction). La variablerponse Y correspond ltat du patient (1 si malade, 0 si bonne sant). Nayant pas encore trouvsuffisamment de volontaires pour raliser ltude, on simule un chantillon suivant le modle
1. deux facteurs X1 et X2 deux niveaux quiprobables ;
2. la loi de Y conditionnellement X1 et X2 est donne dans le tableau 2.3.
0 1
0 B(0.95) B(0.05)1 B(0.05) B(0.95)
Tab. 2.3 Loi de Y (B dsigne la loi de Bernoulli).
On estime les pourcentages de mal classs sur un chantillon indpendant (voir section 3.1.4) eton reporte dans le tableau suivant les pourcentages de mal classs pour les modles sans et avecinteraction. Nous voyons lintrt dinclure une interaction pour cet exemple.
Sans 0.54
Avec 0.065
Tab. 2.4 Pourcentages de mal classs.
Pour lexemple du cancer de la prostate, le modle avec toutes les interactions dordre 2 scrit :
> model_inter model_inter
Call: glm(formula = Y ~ .^2, family = binomial, data = donnees)
Coefficients:
(Intercept) age acide rayonx1
2.843e+17 -4.229e+15 -3.117e+17 -5.453e+16
taille1 grade1 log.acid. age:acide
2.516e+16 -5.778e+15 2.026e+17 4.665e+15
age:rayonx1 age:taille1 age:grade1 age:log.acid.
2.077e+13 -5.245e+13 -1.670e+14 -2.869e+15
acide:rayonx1 acide:taille1 acide:grade1 acide:log.acid.
5.572e+16 -2.420e+16 2.336e+16 -5.687e+15
rayonx1:taille1 rayonx1:grade1 rayonx1:log.acid. taille1:grade1
1.129e+15 -1.176e+15 -4.004e+16 -5.496e+15
taille1:log.acid. grade1:log.acid.
8.625e+15 -1.228e+16
Degrees of Freedom: 52 Total (i.e. Null); 31 Residual
Null Deviance: 70.25
Residual Deviance: 504.6 AIC: 548.6
Laurent Rouvire Rgression sur variables catgorielles
2.5 Un exemple avec R 29
On peut vrifier que ce modle ncessite lestimation de 22 paramtres (1+6+(62
)). Bien entendu,
dautres sous-modles avec interactions peuvent tre utiliss. De plus, nous pouvons nous demandersi toutes les variables sont bien explicatives ? Ds lors, des mthodes slection et validation demodles doivent tre envisages.
Rgression sur variables catgorielles Laurent Rouvire
Chapitre 3
Slection et validation de modles
Ce chapitre se divise en deux parties :
1. Slection : Etant donns M modles M1, . . .MM , comment choisir le meilleur partirde lchantillon dont on dispose.
2. Validation : Est-ce que le modle slectionn est bon ? En statistique cette question peuttre aborde de diffrentes faons : Est-ce que la qualit dajustement globale est satisfaisante : le modle dcrit-il bien lesvaleurs observes ? Ce type de question fait lobjet des tests dajustement ou dadquation (goodness of fit). Lajustement peut tre aussi regard observation par observation (individus aberrants)par des mthodes graphiques (analyse des rsidus) ou analytiques.
Est-ce que les hypothses sont vrifies ? Les mthodes sont essentiellement graphiques(analyse des rsidus).
Linfluence des observations sur lestimation des paramtres peut tre aussi envisage (dis-tance de Cook, robustesse).
Dans ce chapitre nous allons traiter ces questions travers lexemple du modle logistique. Len-semble des mthodes prsentes peut stendre dautres problmatiques de slection-validationde modles.
3.1 Slection ou choix de modle
Si on se restreint des modles logistiques, slectionner un modle revient choisir les variables(interactions inclues) qui vont constituer le modle.
3.1.1 Un outil spcifique : la dviance
Il est difficile de se faire une ide sur lajustement en se basant sur la valeur vraisemblance puis-quelle dpend (entre autres) de la taille de lchantillon. Pour la rgression logistique, un outilspcifique est introduit : la dviance. Elle compare la vraisemblance obtenue celle dun modlede rfrence : le modle complet (ou modle satur). Ce modle possde autant de paramtres quede points du design et vrifie : Psat(Y = yi|X = xi) = 1 si on est en prsence de donnes individuelles. Psat(Y = yi|X = xi) = yt o yt = st/nt, st dsignant le nombre de succs au point xt et nt lenombre de rptitions au point xt, si on est en prsence de donnes rptes.
Rgression sur variables catgorielles Laurent Rouvire
32 Slection et validation de modles
Ce modle est le modle le plus complexe (en terme de nombre de coefficients) puisquil proposeun coefficient diffrent pour chaque point du design. Tous les autres modles sont embots danscelui-ci.
La dviance est dfinie par :
D = 2 (Lsature L()) 0.La dviance est gal 2 fois une diffrence de vraisemblance. Elle constitue un cart en terme delog-vraisemblance entre le modle satur dajustement maximum et le modle considr.
-
Ajustementparfait
0 Dviance
bon moyen mauvais Qualit dajustement
On rappelle que pour des donnes individuelles la log-vraisemblance scrit
L() = log{
ni=1
P(Y = yi|X = xi)}
=ni=1
yi log(pi) + (1 yi) log(1 pi).
Pour le modle satur, il nexiste aucune incertitude et la probabilit estime par le modle aupoint X = xi est donc 1 pour le groupe observ et 0 sinon :
P(Y = j|X = xi) ={
1 si yi = j0 sinon.
ou encore P(Y = yi|X = xi) = 1.
Par consquent Lsature = 0 et la dviance est gale deux fois loppos de la log-vraisemblance.RemarqueSi maintenant plusieurs observations sont effectues au mme point du design (voir annexe A.3),la log vraisemblance du modle logistique scrit :
L() =Tt=1
log
(ntst
)+
Tt=T
nt {yt log(p(xt)) + (1 yt) log(1 p(xt))}
o nt et st dsignent respectivement le nombres dobservations et de succs au point xi. Le modlesatur vrifie
P(Y = 1|X = xt) = yt, o yt = st/nt,par suite,
Lsature =Tt=1
log
(ntst
)+
Tt=1
nt {yt log(yt) + (1 yt) log(1 yt)}
La dviance est donc gale
D = 2Tt=1
nt
(yt log
ytp(xt)
+ (1 yt) log 1 yt1 p(xt))
).
Laurent Rouvire Rgression sur variables catgorielles
3.1 Slection ou choix de modle 33
Exemple 3.1 (calcul de dviance)Considrons lexemple du cancer de la prostate et calculons dabord la dviance pour le modleY~age+acide. Nous somme ici en prsence de donnes individuelles, on obtient la dviance via lescommandes :
> mod1 #calcul de la vraisemblance
> prev vrais vrais[donnees$Y==1] vrais[donnees$Y==0] vrais dev dev
[1] 65.72393
Bien entendu, le logiciel peut retourner directement la valeur de la dviance
> mod1$deviance
[1] 65.72393
Si maintenant on considre le modle Y~age+taille, nous somme en prsence de donnes rptes.Les donnes se trouvent dans le fichier donnees_bin_age_taille.txt dont voici les premireslignes :
"age" "taille" "Y1" "Y0"
49 "0" 0 1
50 "0" 1 0
51 "0" 0 2
52 "0" 0 1
56 "0" 1 3
58 "0" 0 2
Les deux premires colonnes reprsentent les valeurs des variables explicatives. On retrouve ensuite(colonne Y1) le nombre de rponses Y=1 et (colonne Y0) le nombre de rponses Y=0. Le modle estconstruit via la commande :
> donnees1 model1 prev ni ti ybi #calcul des termes combinatoires (facultatif)
> vect_comb for (i in 1:nrow(donnees1)){
Rgression sur variables catgorielles Laurent Rouvire
34 Slection et validation de modles
+ vect_comb[i] vect vrais_model1 #modele sature
> vect_sat vect_sat[is.na(vect_sat)] vrais_modelsat #on deduit la deviance
> 2*(vrais_modelsat-vrais_model1)
[1] 37.15260
On retrouve cette valeur directement
> model1$deviance
[1] 37.15260
3.1.2 Test de dviance entre 2 modles embots
Rappelons que par dfinition un modle est embot dans un autre plus gnral (ou plus grand)lorsquil est un cas particulier de ce modle plus gnral.
Exemple 3.2Dans le cas de la rgression simple, le modle
y = 0 + 1x1 + ,
est un cas particulier du modle
y = 0 + 1x1 + 2x2 + .
En effet il suffit de poser que 2 = 0 dans le second modle pour retrouver le premier.
Exemple 3.3On a la mme notion de modles embots pour la rgression logistique. Par exemple, les modles
logit (P(Y = 1|X = x)) = 0 + 1x1 + 2x2et
logit (P(Y = 1|X = x)) = 0 + 1x1 + 2x2 + 3x3sont embots lun dans lautre.
Pour comparer deux modles embots M1 M2 nous allons comparer leur dviance D1 et D2.On a alors deux cas : La diffrence est grande le fait de passer dun modle simple (petit) un modle plus complexe(plus gnral ou plus grand) a donc apport un cart de dviance significatif le modle plusgnral est acceptable.
La diffrence est faible le modle simple et celui plus complexe sont voisins et par souci deparcimonie le modle simple est conserv.
Laurent Rouvire Rgression sur variables catgorielles
3.1 Slection ou choix de modle 35
Il nous faut bien entendu dterminer un seuil partir duquel on pourra dire que la diffrence dedviance est petite ou grande. Pour ce faire, on construit un test dans lequel nous allons chercherla loi de la diffrence de dviance sous H0 (lhypothse selon laquelle le modle simple est vrai).
Comparer les dviances des deux modles candidats revient comparer leurs vraisemblances. Parsuite, sous les mmes hypothses que celles de la proposition 1, D = D1 D2 = Dpetit Dgrandsuit asymptotiquement une loi du 2 p2 p1 degrs de libert o p1 est le nombre de paramtresdu modle simple et p2 celui du modle complexe. Le test se droule alors de la manire classique
1. Les hypothses sont fixes H0 le modle simple p1 paramtres est adquat ; H1 le modle complexe p2 paramtres est adquat.
2. est choisi (en gnral 5% ou 1%)
3. Lobservation de D est calcule, notons la Dobs
4. Calcul du quantile de niveau (1 ) de la loi du 2(p2 p1), not q1(p2 p1). Si Dobs > q1(p2 p1) alors H0 est repouss au profit de H1, le modle M1 sera alorsrejet au profit du modle M2.
Si Dobs q1(p2 p1) alors H0 est conserv, le modle M1 est slectionn..
3.1.3 Critre de choix de modles
Le test que nous venons dtudier permet de slectionner un modle parmi deux modles embots.Or, partir de p variables explicatives, il est possible de construire un grand nombre de modleslogistiques qui ne sont pas forcment embots. Lutilisation dun simple test de dviance se rvlealors insuffisante. On a recours des critres de choix de modles qui permettent de comparer desmodles qui ne sont pas forcment embots les uns dans les autres.
Les critres AIC et BIC sont les plus utiliss. Ces critres sont bass sur la philosophie suivante :plus la vraisemblance est grande, plus grande est donc la log-vraisemblance et meilleur est lemodle. Cependant la vraisemblance augmente avec la complexit du modle, et choisir le modlequi maximise la vraisemblance revient choisir le modle satur. Ce modle est clairement sur-paramtr, il sur-ajuste les donnes (overfitting).
Exemple 3.4On considre un chantillon de taille n = 100 simul suivant le modle :
Xi N (0, 1), Ui U [0, 1], et Yi ={
1Ui0.25 si Xi 01Ui0.25 si Xi 0
Les donnes sont reprsentes sur la figure 3.1 : environ 3/4 des labels valent 0 pour les valeurs deXi ngatives et 1 pour les valeurs positives. Le modle satur ajuste parfaitement les observations.Nous voyons cependant quil est difficile, pour ne pas dire impossible utiliser dans un contextede prvision. De plus le modle satur possde ici n = 100 paramtres tandis que le modlelogistique nen possde que 2. Ceci est nettement plus avantageux pour expliquer Y dun point devue descriptif.
Pour choisir des modles plus parcimonieux, une stratgie consiste pnaliser la vraisemblancepar une fonction du nombre de paramtres.
Rgression sur variables catgorielles Laurent Rouvire
36 Slection et validation de modles
Par dfinition lAIC (Akaike Informative Criterion) pour un modle p paramtres est
AIC = 2L+ 2p.
Le critre de choix de modle le BIC (Bayesian Informative Criterion) pour un modle pparamtres estims sur n observations est dfini par
BIC = 2L+ p log(n).
On choisira le modle qui possde le plus petit AIC ou BIC. Lutilisation de ces critres est simple.Pour chaque modle concurrent le critre de choix de modle est calcul et le modle qui prsentele plus faible est slectionn.
RemarqueRemarquons que certains logiciels utilisent AIC et BIC il est donc prudent de bien vrifierdans quel sens doivent tre optimiss ces critres (maximisation ou minimisation). Ceci peut trefait aisment en comparant un modle trs mauvais (compos uniquement de la constante parexemple) un bon modle et de vrifier dans quel sens varie les critres de choix.
+ +
+
+++
+
+ ++++++
+
++++++
+
++++++++
+
+++++++++++
+
+++++
++++++++++++++++++++
+
+++
+
+ ++
+
++++++++++++
+
+
+
++++ + +
2 0 2
0.01.0
X
Y 0.5
+ +
+
+++
+
+ ++++++
+
++++++
+
++++++++
+
+++++++++++
+
+++++
++++++++++++++++++++
+
+++
+
+ ++
+
++++++++++++
+
+
+
++++ + +
2 0 2
0.01.0
X
Y
2 0 2
0.01.0
X
Y
2 0 2
0.01.0
0.5
Fig. 3.1 Gauche : Reprsentation des observations (gauche). Droite : Trac des modles saturs(pointills) et logistique (trait plein).
3.1.4 Apprentissage/validation
Un moyen naturel de slectionner un modle consisterait :
1. estimer les pourcentages de mal classs de tous les modles candidats laide de lchantillon ;
2. choisir le modle qui possde la plus petite estimation.
Dans le cas dobservations binaires, un estimateur du pourcentage de mal classs est
1
n
ni=1
1{Yi(j) 6=Yi},
Laurent Rouvire Rgression sur variables catgorielles
3.1 Slection ou choix de modle 37
o Yi(j) dsigne la ime prdiction (celle associe Xi) du j
me modle.
Nous avons vu que le modle satur ajuste de manire parfaite les donnes, ce qui signifie queson pourcentage de mal classs est nul. Lutilisation dun tel critre semble alors peu pertinente.La faiblesse de ce critre tient du fait que le mme chantillon (x1, y1), . . . , (xn, yn) est utilis pour : construire le modle (estimer ses paramtres) ; estimer le taux derreurs.Ceci introduit un biais dans lestimation du pourcentage de mal classs. La procdure apprentissage-validation saffranchit de ce problme en sparant de manire alatoire les donnes (X1, Y1), . . . , (Xn, Yn)en deux parties distinctes : (Xi, Yi), i I un chantillon dapprentissage de taille ; (Xi, Yi), i Im un chantillon de validation de taille m tel que +m = n,o I Im = {1, . . . , n} et I Im = . Lchantillon dapprentissage est utilis pour construireles modles concurrents (pour estimer les paramtres des diffrents modles logistiques envisags).Lchantillon de validation est ensuite utilis pour estimer les pourcentages de mal classs desdiffrents modles. Plus prcisment, une fois les paramtres des diffrents modles estims, chaquemodle est appliqu sur les individus du deuxime chantillon. Pour chaque modle j nous obtenonsune prvision pour chaque observation i de lchantillon de validation Yi(j). Cette prvision estensuite compare la valeur observe Yi. Le pourcentage de mal classs est alors estim par (voirfigure 3.2) :
MC(j) =1
m
iIm
1{Yi(j) 6=Yi}.
On choisira bien entendu le modle pour lequel le critreMC sera minimum. Si les modles concur-rents sont tous des modles logistiques, nous avons pour chaque modle j et chaque observation ide lchantillon Im une estimation de la probabilit :
Pj(Y = 1|X = xi).
Une prvision peut tre obtenue suivant la rgle
Yi(j) =
{1 si Pj(Y = 1|X = xi) > 0.50 sinon.
Le tableau 3.1 compare les pourcentages de mal classs des modles satur et logistique de lexemplede la figure 3.1. La procdure qui utilise un seul chantillon pour calculer le taux de mal classs vaainsi slectionner le modle satur, ce nest pas le cas de la procdure Apprentissage-Validation quifournit des estimations des taux derreurs plus prcises et qui slectionnera le modle logistique.
Satur Logistique
Sans AV 0 0.146avec AV 0.244 0.160
Tab. 3.1 Pourcentages de mal classs des modles saturs et logistique de lexemple de la Figure 3.1avec et sans la procdure apprentissage-validation (les deux chantillons de mme taille)
Cette procdure semble la plus indique pour choisir un modle. Il faut nanmoins la nuancer carelle requiert beaucoup de donnes
Rgression sur variables catgorielles Laurent Rouvire
38 Slection et validation de modles
Validation
X
Y
YSparation
Valeurs observes
Toutes les variables
Donnes de dpart
Apprentissage
Uniquement les X
Y
Estimations des modlesconcurrents
Valeurs prdites (pour tous les modles concurrents)
Fig. 3.2 Procdure dapprentissage/validation.
dans lchantillon dapprentissage pour estimer le modle et ainsi ne pas trop pnaliser lesmodles avec beaucoup de variables dont les coefficients seront moins bien estims ;
dans lchantillon de validation pour bien valuer la capacit de prvision.
De plus il nexiste pas de rgle pour choisir les tailles des deux chantillons.
3.1.5 Validation croise
Lorsque lon na pas assez de donnes pour lapprentissage/validation, on peut avoir recours uneprocdure de validation croise. Le principe est de moyenner le pourcentage de mal classs laide de plusieurs dcoupages de lchantillon. Plus prcisment, on divise lchantillon initial enK sous chantillons Ek de mme taille et on effectue K procdures apprentissage-validation pourlesquelles :
lchantillon test sera constitu dune division Ek ; lchantillon dapprentissage sera constitu de lensemble des autres divisions EEk (voir figure3.3).
On obtient ainsi une prvision pour chaque individu de la division Ek et une fois les K procduresapprentissage-validation effectues, on a une prvision pour tous les individus de lchantillon.Il suffit alors de comparer ces prvisions aux valeurs observes pour obtenir une estimation dupourcentage de mal classs. Le modle retenu sera le modle qui conduit lestimation minimale.
Bien entendu le choix du nombre K parties nest pas anodin.
Plus K est faible, plus la capacit de prvision sera value dans de nombreux cas puisque lenombre dobservations dans la validation sera lev, mais moins lestimation sera prcise ;
Au contraire, un K lev conduit peu dobservations dans la validation et donc une plusgrande variance dans les pourcentages de mal classs.
Laurent Rouvire Rgression sur variables catgorielles
3.1 Slection ou choix de modle 39
E1
E2
Ek
EK
XY
Fig. 3.3 Dcoupage de lchantillon pour la validation croise. Lchantillon dapprentissage corres-pond la partie hachure.
RemarqueSous R, la librairie boot permet destimer le pourcentage de mal classes par validation croise.Si, par exemple, on considre le modle compos des 6 variables explicatives sur les donnes ducancer de la prostate, on obtient :
> modele library(boot)
> cout 0.5))}
> cv.glm(donnees,modele,cout)$delta[1]
1
0.3396226
3.1.6 Slection automatique
Les procdures que nous venons dtudier permettent de slectionner un modle partir dunefamille de modles donne. Une autre approche de la slection de modle consiste chercherparmi les variables X1, . . . ,Xp, celles qui expliquent le mieux Y . Par exemple, pour la rgressionlogistique, nous pourrions nous poser le problme de chercher le meilleur sous-ensemble des pvariables explicatives pour un critre C donn (AIC, BIC...). Le nombre de sous ensembles dep variables tant 2p, nous serions en prsence de 2p modles logistiques possibles, cest--dire 2p
modles diffrents. Bien entendu, nous slectionnerions le modle qui optimiserait le critre C.Cependant, dans de nombreuses situations, p est grand et par consquent le nombre de modlesconsidrs est trs grand. Les algorithmes doptimisation du critre C deviennent trs coteuxen temps de calcul. On prfre alors souvent utiliser des mthodes de recherche pas pas.
Rgression sur variables catgorielles Laurent Rouvire
40 Slection et validation de modles
Modle courant M0 retenu
Modle de dpart
Modle slectionn =M1
Modle en cours = M0
Comparaison AIC modele M0 et modele M1
Choix parmi tous les modles (+ petit AIC)
AIC M0 moins bon Ajout dun coefficient
AIC M0 meilleur
M1 devient M0
Fig. 3.4 Technique ascendante utilisant lAIC.
Recherche pas pas, mthode ascendante (forward selection)
A chaque pas, une variable est ajoute au modle.
Si la mthode ascendante utilise un test de dviance, nous rajoutons la variable Xj dont la valeurp (probabilit critique) associe la statistique de test de dviance qui compare les 2 modlesest minimale. Nous nous arrtons lorsque toutes les variables sont intgres ou lorsque la valeurp est plus grande quune valeur seuil.
Si la mthode ascendante utilise un critre de choix, nous ajoutons la variable Xj dont lajout aumodle conduit loptimisation la plus grande du critre de choix. Nous nous arrtons lorsquetoutes les variables sont intgres ou lorsque quaucune variable ne permet loptimisation ducritre de choix (voir aussi Figure 3.4).
Recherche pas pas, mthode descendante (backward selection)
A la premire tape toutes les variables sont intgres au modle.
Si la mthode descendante utilise un test de dviance, nous liminons ensuite la variable Xj dontla valeur p associe la statistique de test de dviance est la plus grande. Nous nous arrtonslorsque toutes les variables sont retires du modle ou lorsque la valeur p est plus petite quunevaleur seuil.
Si la mthode descendante utilise un critre de choix, nous retirons la variable Xj dont le retraitdu modle conduit laugmentation la plus grande du critre de choix. Nous nous arrtonslorsque toutes les variables sont retires ou lorsque quaucune variable ne permet laugmentationdu critre de choix.
Laurent Rouvire Rgression sur variables catgorielles
3.1 Slection ou choix de modle 41
Recherche pas pas, mthode progressive (stepwise selection)
Idem que lascendante, sauf que lon peut liminer des variables dj introduites. En effet, il peutarriver que des variables introduites au dbut de lalgorithme ne soient plus significatives aprsintroduction de nouvelles variables. Remarquons quen gnral la variable constante est toujoursprsente dans le modle.
Exemple 3.5Reprenons lexemple des donnes du cancer de la prostate. Nous allons slectionner des modlespar les diffrentes approches pas pas.
1. Mthode ascendante : le modle initial est constitu uniquement de la variable age.
> model_age model_asc model_asc
Call: glm(formula = Y ~ age + rayonx + taille + log.acid., family = binomial,
data = donnees)
Coefficients:
(Intercept) age rayonx1 taille1 log.acid.
2.65636 -0.06523 2.08995 1.75652 2.34941
Degrees of Freedom: 52 Total (i.e. Null); 48 Residual
Null Deviance: 70.25
Residual Deviance: 47.68 AIC: 57.68
2. Mthode descendante : le modle initial est ici constitu de toutes les variables (sansinteractions).
> modelcomplet model_des model_des
Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,
data = donnees)
Coefficients:
(Intercept) acide rayonx1 taille1 log.acid.
9.067 -9.862 2.093 1.591 10.410
Degrees of Freedom: 52 Total (i.e. Null); 48 Residual
Null Deviance: 70.25
Residual Deviance: 46.43 AIC: 56.43
3. Mthode progressive : le modle initial est ici constitu de toutes les variables (sansinteractions).
> model_pro model_pro
Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,
data = donnees)
Coefficients:
(Intercept) acide rayonx1 taille1 log.acid.
Rgression sur variables catgorielles Laurent Rouvire
42 Slection et validation de modles
9.067 -9.862 2.093 1.591 10.410
Degrees of Freedom: 52 Total (i.e. Null); 48 Residual
Null Deviance: 70.25
Residual Deviance: 46.43 AIC: 56.43
On peut galement mettre des variables dinteractions parmi les variables candidates.
> model_pro1 model_pro1
Call: glm(formula = Y ~ acide + rayonx + taille + grade + log.acid. + taille:grade +
taille:log.acid. + acide:grade, family = binomial,data = donnees)
Coefficients:
(Intercept) acide rayonx1 taille1
49.385 -49.186 3.135 -2.635
grade1 log.acid. taille1:grade1 taille1:log.acid.
1.227 53.329 -14.264 -21.719
acide:grade1
17.629
Degrees of Freedom: 52 Total (i.e. Null); 44 Residual
Null Deviance: 70.25
Residual Deviance: 26.47 AIC: 44.47
Nous voyons sur cet exemple que suivant le choix de la mthode pas pas et du modle initial, lesmodles slectionns diffrent. La slection dun seul modle peut seffectuer en deux temps :
1. On slectionne un nombre faible (entre 5 et 10 par exemple) de modles candidats via desalgorithmes pas pas ;
2. On choisit le modle qui minimise un critre de choix (AIC, BIC, ou pourcentage de malclasss).
Une fois le modle choisi, il est ncessaire de mener une tude plus approfondie de ce dernier quipermettra de le valider ou de laffiner (suppression de points aberrants, analyse des rsidus...).
3.2 Validation du modle
3.2.1 Test dadquation par la dviance
Ce test permet de valider un modle p paramtres. Les hypothses nulle et alternative sont : H0 le modle considr p paramtres est adquat ; H1 le modle considr p paramtres nest pas adquat.Ici, nous allons comparer le modle satur au modle considr au moyen de la dviance. Noussavons que si la dviance est grande, alors le modle considr est loin du modle satur et que par cons-quent il najuste pas bien les donnes ;
Par contre si la dviance est proche de 0, le modle considr sera adquat.Pour quantifier cette notion de proche de 0 et de grande dviance, la loi de la dviance sousH0 (le modle considr est le vrai modle) va nous tre utile. En effet si H0 est vraie, le modleconsidr est vrai par dfinition. La dviance sera rpartie sur R+ mais avec plus de chance dtre
Laurent Rouvire Rgression sur variables catgorielles
3.2 Validation du modle 43
proche de 0. Par contre si H0 nest pas vraie la dviance sera rpartie sur R+ mais avec plus de
chance dtre loigne de 0. Il nous faut donc connatre la loi de la dviance sous H0.
La dviance est une diffrence de log-vraisemblance entre deux modles embots. Il dcoule que lastatistique D suit asymptotiquement une loi du 2(n p) degrs de libert, o p est le nombre deparamtres du modle et n le nombre de points du design. Le test se droule alors de la manireclassique :
1. Les hypothses sont fixes H0 le modle considr p paramtres est adquat (cette hypothse se traduit par unehypothse qui fixe zro les coefficients prsents dans le modle satur mais pas dans lemodle en question).
H1 le modle considr p paramtres nest pas adquat
2. est choisi (en gnral 5% ou 1%)
3. Lobservation de D est calcule, notons la Dobs
4. Calcul du quantile de niveau (1 ) de la loi du 2(n p), not q1(n p). Si Dobs > q1(n p) alors H0 est repouss au profit de H1, le modle considr nest pasadquat.
Si Dobs q1(n p) alors H0 est conserv, le modle considr est adquat.
0 2 4 6 8 100.00
0.05
0.10
0.15
0.20
0.25
D
densit
H0 conserv H0 repouss
Fig. 3.5 Test de dviance, la droite horizontale reprsente le seuil de rejet Dc = q1(n p).
RemarqueLa validit de la loi et donc du test nest quasymptotique, il est donc ncessaire davoir un peude recul quant aux conclusions. Ce test ne peut tre utilis uniquement en prsence de donnesrptes. En effet, lapproximation de la loi de la dviance par une loi du 2 est dautant plusvalable lorsque le nombre de rptitions aux points du design est grand. En prsence de donnesindividuelles (aucune rptition sur les points du design), D ne suit pas une loi du 2 : le testdadquation dHosmer Lemeshow est alors conseill.
3.2.2 Test dHosmer Lemeshow
Ce test permet de vrifier ladquation dun modle en prsence de donnes individuelles. Il sef-fectue de la manire suivante (voir Hosmer & Lemeshow (2000), chapitre 5).
1. Les probabilits pi sont ordonnes par ordre croissant (pi est la probabilit P(Y = 1|X = xi)estime par le modle) ;
Rgression sur variables catgorielles Laurent Rouvire
44 Slection et validation de modles
2. Ces probabilits ordonnes sont ensuite spares en K groupes de taille gale (on prendsouvent K = 10 si n est suffisamment grand). On note mk les effectifs du groupe k ; ok le nombre de succs (Y = 1) observ dans le groupe k ; k la moyenne des pi dans le groupe k.
La statistique de test est alors
C2 =Kk=1
(ok mkk)2mkk(1 k) .
Le test se conduit de manire identique au test de dviance, la statistique C2 suivant approxima-tivement un 2 K 1 degrs de libert.
3.2.3 Analyse des rsidus
Les diffrents types de rsidus
A limage de la rgression plusieurs types de rsidus sont proposs par les logiciels. Le premier,le plus simple calculer est tout simplement Yi pi. Ces rsidus sont appels rsidus bruts. Ilspermettent de mesurer lajustement du modle sur chaque observation. Ces rsidus nayant pas lamme variance, ils sont difficiles comparer. En effet, on rappelle que V(Y |X = xi) = pi(1 pi).Par consquent, la variance de tels rsidus risquent dtre leves pour des valeurs de pi prochesde 1/2. Un moyen de pallier cette difficult est de considrer les rsidus de Pearson
Yi pipi(1 pi)
. (3.1)
Par dfinition on standardise les rsidus par la variance thorique de Yi. Cependant, pi tantalatoire, on a V(Yi pi) 6= V(Yi pi). En effet, en notant
i = Yi pi
i = Yi pion a
Hypothses Ralit
E(i) = 0 E(i) 0
V(i) = pi(1 pi) V(i) = pi(1 pi)(1 hii)o hii est llment de la i
me ligne et de la ime colonne de la matrice H = X(XW X)1XW .
Il est par consquent intressant de considrer la version standardise des rsidus de Pearson
Yi pipi(1 pi)(1 hii)
,
Les rsidus de dviance sont dfinis par
signe(Yi pi)
2(LYi(sature) LYi()),
Laurent Rouvire Rgression sur variables catgorielles
3.2 Validation du modle 45
o LYi()) est la log-vraisemblance associe lobservation Yi (et non pas toutes les observations)du modle en question et LYi(sature) son homologue pour le modle satur. L encore pour tenircompte de la variabilit ces rsidus sont standardiss :
signe(Yi pi)
2(LYi(sature)(Yi) LYi())1 hii .
Ces deux types de rsidus de dviance sont ceux qui sont en gnral conseills.
Examen des rsidus
Index plot Pour le modle logistique les rsidus de dviance sont souvent prfrs. De nom-breuses tudes exprimentales ont montr quils approchent mieux la loi normale que les rsidusde Pearson. Pour cette raison ces rsidus prennent gnralement des valeurs qui varient entre -2et 2. Nous pourrons construire un index plot pour dtecter des valeurs aberrantes. Ce graphiqueordonne les rsidus en fonction du numro de leur observation. Les points pour lesquels on observeon rsidu lev (hors de [2, 2] par exemple) devront faire lobjet dune tude approfondie.
> model plot(rstudent(model),type="p",cex=0.5,ylab="Rsidus studentiss par VC")
> abline(h=c(-2,2))
0 10 20 30 40 50
2
1
01
2
Index
Rs
idus
stu
dent
iss
par V
C
2634
Fig. 3.6 Index plot.
Graphique prdiction linaire/rsidus Ce graphique qui reprsente X en abscisse et enordonn permet de dtecter les valeurs aberrantes mais aussi les structurations suspectes. Si unestructuration suspecte apparat, il sera peut tre adquat dajouter une nouvelle variable afin deprendre en compte cette structuration. Dans le cas des donnes individuelles ce type de graphiquedonne toujours des structurations (Figure 3.7) et nest donc pas conseiller.
Rgression sur variables catgorielles Laurent Rouvire
46 Slection et validation de modles
5 0 5 10
2
1
01
2
prvision linaire
Rs
idus
stu
dent
iss
par V
C
Fig. 3.7 Graphique prdiction/rsidus pour un modle logistique
Rsidus partiels Les rsidus partiels sont dfinis par
P.j =Yi pi
pi(1 pi) + jX.j
Lanalyse consiste tracer pour toutes les variables j les points avec en abscisse la variable j eten ordonne les rsidus partiels. Si le trac est linaire alors tout est normal. Si par contre unetendance non linaire se dgage, il faut remplacer la variable j par une fonction de celle ci donnantla mme tendance que celle observe.
> residpartiels prov ordre plot(donnees$log.acid.,residpartiels[,"log.acid."],type="p",cex=0.5,xlab="",ylab="")
> matlines(donnees$log.acid.[ordre],predict(prov)[ordre])
> abline(lsfit(donnees$log.acid.,residpartiels[,"log.acid."]),lty=2)
Le graphique 3.8 montre quaucune transformation nest ncessaire, les rsidus partiels tant r-partis le long de la droite ajuste.
Mallows (1986) propose dutiliser les rsidus partiels augments qui dans certaines situations per-mettent de mieux dgager cette tendance. Les rsidus partiels augments pour la jme variablencessitent un nouveau modle logistique identique mis part le fait quune variable explicativesupplmentaire est ajoute : Xp+1 = X
2j la j
me variable leve au carr. Le nouveau vecteur decoefficient du modle est estim et les rsidus partiels sont alors dfinis comme
PA.j =Yi pi
pi(1 pi) + jX.j + p+1X2.j.
Lanalyse des diagrammes est identique ceux des rsidus partiels. Pour une analyse plus compltesur lutilisation des rsidus, on pourra se reporter au chapitre 5 de louvrage de Collet (2003).
Laurent Rouvire Rgression sur variables catgorielles
3.2 Validation du modle 47
0.5 0.0 0.5
5
05
1015
20 26
Fig. 3.8 Rsidus partiels pour la variable log.acid., le trait continu reprsente le rsum liss desdonnes par lestimateur loess, le trait discontinu reprsente lestimateur linaire par moindre carr.
3.2.4 Points leviers et points influents
Ces notions sont analogues celles du modle linaire (voir Cornillon & Matzner-Lber (2007),chapitre 4).
Points leviers
Par dfinition les points leviers sont les points du design qui dterminent trs fortement leur propreestimation. Nous avons vu que lalgorithme destimation des paramtres effectue chaque tapeune rgression linaire et sarrte lorsque le processus devient stationnaire :
= (XW X)1XW z,
et la prdiction linaire est alors
X = X(XW X)1XW z = Hz,
o H est une matrice de projection selon la mtrique W . Comme nous transformons X parune fonction monotone, des X extrmes entranent des valeurs de p extrmes. Nous allons doncutiliser la mme mthode de diagnostic que celle de la rgression simple avec une nouvelle matricede projection H. Pour la ime prdiction linaire nous avons
[X]i = Hiizi +j 6=i
Hijzj.
Si Hii est grand relativement aux Hij, j 6= i alors la ime observation contribue fortement laconstruction de [X]i. On dira que le poids de lobservation i sur sa propre estimation vaut hii.
Comme H est un projecteur nous savons que 0 Hii 1. Nous avons alors les cas extrmessuivants : si Hii = 1, pi est entirement dtermin par Yi car hij = 0 pour tout j. si Hii = 0, Yi na pas dinfluence sur pi.
Rgression sur variables catgorielles Laurent Rouvire
48 Slection et validation de modles
La trace dun projecteur tant gale la dimension du sous espace dans lequel on projette, on atr(H) =
iHii = p + 1. Donc en moyenne Hii vaut (p + 1)/n. Pour dire que la valeur de Hii
contribue trop fortement la construction de pi, il faut un seuil au del duquel le point est unpoint levier. Par habitude, si Hii > 2p/n ou si Hii > 3p/n alors le i
me point est dclar comme unpoint levier.
En pratique un trac de Hii est effectu et lon cherche les points dont le Hii est suprieur 3(p + 1)/n ou 2(p + 1)/n. Ces points sont leviers et leur valeur influe fortement sur leur propreprvision.
> p n plot(influence(model)$hat,type="h",ylab="hii")
> seuil1 abline(h=seuil1,col=1,lty=2)
> seuil2 abline(h=seuil2,col=1,lty=3)
0 10 20 30 40 50
0.0
0.1
0.2
0.3
0.4
0.5
Index
hii
34
9
Fig. 3.9 Points leviers.
Points influents
Les points influents sont des points qui influent sur le modle de telle sorte que si on les enlve, alorslestimation des coefficients sera fortement change. La mesure la plus classique dinfluence est ladistance de Cook. Il sagit dune distance entre le coefficient estim avec toutes les observations etcelui estim avec toutes les observations sauf une. La distance de Cook pour lindividu i est dfiniepar
Di =1
p+ 1((i) )XW X((i) ) r
2PiHii
(p+ 1)(1Hii)2 ,
o rPi est le rsidu de Pearson pour le ime individu.
Les distances de Cook sont gnralement reprsentes comme sur la figure 3.10. Si une distancese rvle grande par rapport aux autres, alors ce point sera considr comme influent. Il convientalors de comprendre pourquoi il est influent, soit
Laurent Rouvire Rgression sur variables catgorielles
3.2 Validation du modle 49
il est levier ; il est aberrant ; (les deux !)Dans tous les cas il convient de comprendre si une erreur de mesure, une diffrence dans la popu-lation des individus est lorigine de ce phnomne. Eventuellement pour obtenir des conclusionsrobustes il sera bon de refaire lanalyse sans ce(s) point(s).
0 10 20 30 40 50
0.0
0.2
0.4
0.6
0.8
Index
Dis
tanc
e de
Coo
k34
Fig. 3.10 Distances de Cook.
Rgression sur variables catgorielles Laurent Rouvire
Chapitre 4
Modle logistique multi-classes
Nous traitons dans ce chapitre le cas o la variable expliquer Y prend plus de deux modalits.Pour simplifier les notations, on supposera que Y peut prendre k valeurs 1, . . . , k et on cherche tou-jours expliquer Y par p variables explicatives X = (1,X1, . . . ,Xp) qualitatives ou quantitatives.Nous distinguerons deux cas :
les modalits de Y sont ordonnes : il existe une hirarchie naturelle entre elles. Par exemplele degr de satisfaction relativement un produit, le degr dadhsion une opinion... Enbiostatistique, il peut sagir dun diagnostic sur ltat de sant (trs bonne, bonne, moyenne,mauvais sant), sur le stade dvolution dune maladie, ou encore sur la taille ou la nature dunetumeur (tumeur absente, bnigne, ou maligne). On parle dans ce cas de modle polytomiqueordonn ;
il nexiste pas de relation dordre sur les modalits de Y , la variable expliquer est purementnominale : accord pour un prt (oui, non, examen du dossier). On parle dans ce cas de modlepolytomique nominal o de modle multinomial.
4.1 Modle polytomique ordonn
4.1.1 Cas binaire
Plaons nous dabord dans le cas o Y est binaire (0 ou 1). Sans perte de gnralit, on supposeraque nous sommes en prsence dune seule variable explicative X. On introduit une variablealatoire centre et une variable latente (non observe) Y = 0 + 1x+ telle que Y |X = x vaut1 lorsque la variable latente Y est grande (suprieure un seuil s) et 0 sinon. Nous obtenons :
P(Y = 1|X = x) = P (0 + 1x+ > s) = P( < s+ 0 + 1) = F (0 + 1x)
o F est la fonction de rpartition de la variable et 0 = s + 0. Pour finir de spcifier lemodle, il reste choisir la fonction de rpartition F . Si on choisit
F (x) =1
1 + exp(x) =exp(x)
1 + exp(x), (4.1)
on obtient le modle logistique tudi dans les chapitres prcdents. Si F est la fonction de rpar-tition associe la loi normale centre rduite, nous obtenons alors le modle probit (voir section1.3 et figure 4.1).
Rgression sur variables catgorielles Laurent Rouvire
52 Modle logistique multi-classes
4 2 0 2 4
0.0
0.2
0.4
0.6
0.8
1.0
Fig. 4.1 Fonctions de rpartition des lois normale (trait plein) et logistique (tirets).
4.1.2 Gnralisation
Le modle polytomique ordonn peut tre prsent comme une simple gnralisation du modledichotomique prsent dans la partie prcdente, avec cette fois Y prenant k modalits ordonnes.On se place toujours dans le cas dune seule variable explicative X, et nous allons maintenantintroduire non plus un seul, mais plusieurs seuils 1, . . . , k1 tels que :
(Y |X = x) =
1 si Y < 1j si j1 Y < j, j = 2, . . . , k 1k si Y k1
o Y = 1x+ .
Le choix de la fonction de rpartition logistique (4.1) conduit au modle :
P(Y j|X = x) = F (j 1x), j = 1, . . . , k 1ou encore
logit (P(Y j|X = x)) = j 1x, j = 1, . . . , k 1. (4.2)Si on est en prsence de p variables explicatives, le modle devient
logit (P(Y j|X = x)) = j 1x1 . . . pxp, j = 1, . . . , k 1, (4.3)ou encore
P(Y j|X = x)) = exp(j 1x1 . . . pxp)1 + exp(j 1x1 . . . pxp) .
Nous voyons qu travers une telle modlisation, seule la constante diffre suivant les diffrentsniveaux de Y . Ce modle ncessite donc lestimation de p + k 1 coefficients (p pentes et k 1constantes car
kj=1 P(Y = j|X = x) = 1).
RemarqueSuivant le logiciel les coefficients estims peuvent diffrer. La procdure LOGISTIC de SAS estimepar exemple les pentes bj = j. Sous R les fonctions polr, lmr et vgam des librairies MASS, Designet VGAM permettent de construire des modles logistiques pour expliquer une variable qualitativeordinale. Il est important de consulter laide de la fonction afin de connatre la signification descoefficients estims.
Laurent Rouvire Rgression sur variables catgorielles
4.1 Modle polytomique ordonn 53
Exemple 4.1La fonction polr de la librairie MASS utilise un modle de la forme (4.2) et (4.3). Elle sutilise dela manire suivante :
#Simulation des donnees
> Y set.seed(145)
> X donnees library(MASS)
> library(VGAM) #pour la fonction logit
> model model
Call:
polr(formula = Y ~ X, data = donnees)
Coefficients:
X
-3.059502
Intercepts:
1|2 2|3
-3.0779038 -0.6120617
Residual Deviance: 21.48307
AIC: 27.48307
Les coefficients estimes sont = 3.059502, 1 = 3.0779038 et 2 = 0.6120617. On peutobtenir les probabilits a posteriori du p
Top Related