Modèlesderégressionlogistique...

148
Université de Tunis El Manar Faculté des Sciences économiques et de Gestion de Tunis Thèse En vue de l’obtention du grade de Docteur en Sciences Économiques Modèles de régression logistique semi paramétriques à effets aléatoires : Estimation, test polynomial et score de détresse Présentée et soutenue publiquement par Sami MESTIRI Sous la direction de Monsieur le professeur Abdeljelil FARHAT Devant le jury composé de Président : .............................................., .................................. Membres : Monsieur Abdeljelil FARHAT , Professeur à la FSEG de Mahdia .............................................., .................................... .............................................., ..................................... .............................................., ..................................... Année Universitaire 2010-2011

Transcript of Modèlesderégressionlogistique...

Page 1: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Université de Tunis El Manar

Faculté des Sciences économiques et de Gestion de Tunis

Thèse

En vue de l’obtention du grade de

Docteur en Sciences Économiques

Modèles de régression logistiquesemi paramétriques à effets aléatoires :

Estimation, test polynomial et score de détresse

Présentée et soutenue publiquement par

Sami MESTIRI

Sous la direction de Monsieur le professeur

Abdeljelil FARHAT

Devant le jury composé de

Président :

.............................................., ..................................

Membres :

Monsieur Abdeljelil FARHAT , Professeur à la FSEG de Mahdia

.............................................., ....................................

.............................................., .....................................

.............................................., .....................................

Année Universitaire 2010-2011

Page 2: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L’université n’entend donner aucune approbation ou improbation aux opi-

nions émises dans les thèses ; ces opinions doivent être considérées comme

propres à leurs auteurs.

Page 3: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Remerciements

Au terme de ce travail, je tiens à exprimer mes plus sincères remerciements

à Monsieur le Professeur Abdeljelil FARHAT d’avoir bien voulu diriger

ce travail de thèse. Sa disponibilité, ses encouragements et les nombreuses

discussions que j’ai eu avec lui ont largement contribué à l’élaboration de ce

travail.

Ce travail a été réalisé au sein de l’unité de recherche Économie Appliquée

et Simulation (EAS) à la faculté des Sciences Économiques et Gestion de

Mahdia. Il me plait en ce moment d’adresser mes remerciements à tous ceux

qui, d’une manière ou d’une autre, ont contribué à l’aboutissement de ce

travail et à rendre meilleures ces années de thèse.

J’exprime ma très profonde reconnaissance à l’unité de recherche EAS

qui m’a accueilli chaleureusement et qui m’a fourni un climat prospère pour

la réalisation de ce travail. Mes participations aux colloques nationaux et

internationaux m’ont servi pour mener à terme cette thèse. Je dois également

témoigner toute ma gratitude et ma sympathie envers toute personne qui a

contribué de prés ou de loin à la réalisation de ce travail de recherche. Je

remercie infiniment mes coauteurs et tous mes collègues de FSEG de Mahdia.

Enfin, je voudrais remercier tous ceux qui m’ont soutenu tout au long de

ma thèse, que se soit d’un point de vue scientifique ou d’un point de vue

matériel. En particulier, cette thèse est dédiée à mon parent Thar et à ma

mère Rachida qui mont soutenu pendant toute de mes études et ces quelques

mots ne suffiront jamais à exprimer tout ce que je leurs dois.

ii

Page 4: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Résumé

Cette thèse s’inscrit dans une perspective de mise en place d’une méthode

d’estimation simple et robuste des modèles de régression logistique semi pa-

ramétriques à effets aléatoires. Pour cela, nous avons suivi une démarche

qui consiste à transformer le modèle semi paramétrique sous la forme d’un

modèle de régression logistique à effets aléatoires totalement paramétrique

et à traiter l’inverse du paramètre de lissage comme une composante de la

variance. En d’autres termes, nous avons proposé d’approximer la fonction

non paramétrique par un polynôme du degré fixe.

Le choix de degré de ce polynôme est une proposition qui nécessite d’être

vérifiée par un test d’hypothèse. Zhang et Lin (2003) ont développé une sta-

tistique du score pour tester le degré de polynôme a travers le test de la nullité

de l’écart type de l’effet aléatoire. La distribution de cette statistique est ap-

proximée par la combinaison des lois de Khi-deux. Leurs études de simulation

ont montré que la performance de test du score est moins satisfaisante lorsque

la variable expliquée est qualitative. Ce résultat est dû principalement à la

mauvaise approximation de la fonction de vraisemblance et à l’utilisation de

l’hypothèse de la normalité pour déterminer la distribution statistique du

score.

Pour améliorer la performance de test du score, nous avons développé

iii

Page 5: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

une procédure basée sur la simulation de Monte Carlo. Cette nouvelle pro-

cédure permet de dériver une p-valeur exacte du test polynômial pour un

modèle de régression logistique à effets aléatoires. Ainsi, nous avons exploité

le fait que la statistique du score est une fonction pivotale sous l’hypothèse

nulle pour appliquer la technique du test de Monte Carlo Randomisé (MCR)

Dufour (2006). L’efficacité de cette approche proposée est illustrée à travers

une expérience de simulation. Les résultats empiriques obtenus prouvent que

le test du score asymptotique pour le modèle de régression logistique semi

paramétrique à effets aléatoires n’est pas fiable par contre le test de MCR

réalise un meilleur contrôle de la taille et a une puissance plus élevée. De plus,

il est important de souligner que la procédure de MCR avec les installations

informatiques modernes, est facile à mettre en oeuvre.

Le modèle de régression logistique à effets aléatoires a été illustré à tra-

vers une application réelle concernant l’anticipation de la détresse financière

des entreprises tunisiennes. En considérant la détresse financière comme une

variable expliquée qualitative, nous avons utilisé le modèle de régression lo-

gistique à effets aléatoires pour déduire une fonction de score. Cette nouvelle

fonction de score permet de capturer des effets inaperçus qui sont dûs à

l’hétérogénéité des entreprises de la population étudiée. En d’autres termes,

nous avons mis en évidence les déterminants non observables de la détresse

financière de chaque secteur de l’échantillon étudié.

D’une deuxième étape, nous avons réalisé une recherche exploratoire sur

des nouvelles relations fonctionnelles entre les ratios et la probabilité de la

détresse. Ces relations fonctionnelles ont permis de déduire une fonction de

score estimée à partir du modèle de régression logistique semi paramétrique.

Par la suite, nous avons présenté le modèle logistique semi paramétrique

iv

Page 6: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

comme un modèle alternatif flexible pour la prévision de faillite.

Une fois la fonction de score est élaborée, nous avons montré que ce modèle

jouit d’un pouvoir discriminant et prédictif. Pour cela, nous avons utilisé un

processus de validation. Ce processus sert à estimer les performances futures

du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons

élaboré la courbe de ROC pour chacun des modèles du score construit.

Dans notre étude, nous avons visé plus particulièrement à attirer l’at-

tention, d’un part sur l’aspect non linéaire des relations entre les ratios et

la probabilité de la détresse et d’un autre part sur le caractère temporel et

spatial de la fonction de scoring notamment sur le niveau de la pondération

des ratios.

v

Page 7: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Table des matières

1 Modèles linéaires à effets aléatoires 11

1.1 Modèle de régression linéaire multivariée . . . . . . . . . . . . 13

1.1.1 Le modèle et les hypothèses . . . . . . . . . . . . . . . 13

1.1.2 L’estimation du modèle linéaire . . . . . . . . . . . . . 14

1.1.3 Les tests d’hypothèses . . . . . . . . . . . . . . . . . . 15

1.2 Spécification du modèle linéaire à effets aléatoires . . . . . . . 17

1.2.1 Formulation du modèle linéaire à effets aléatoires . . . 17

1.2.2 Les hypothèses du modèle linéaire à effets aléatoires . . 19

1.3 Estimation du modèle linéaire à effets aléatoires . . . . . . . . 21

1.3.1 La méthode du maximum de vraisemblance . . . . . . 21

1.3.2 La méthode du maximum de vraisemblance robuste . . 24

1.4 Diagnostic du modèle linéaire à effets aléatoires . . . . . . . . 28

1.5 Application : l’analyse de niveau du cholestérol . . . . . . . . 31

1.5.1 La structure des données . . . . . . . . . . . . . . . . . 31

1.5.2 Le modèle étudié . . . . . . . . . . . . . . . . . . . . . 33

1.5.3 Les résultats d’estimation . . . . . . . . . . . . . . . . 34

1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2 Modèles linéaires semi paramétriques à effets aléatoires 39

vi

Page 8: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

2.1 La spécification du modèle linéaire semi paramétrique à effets

aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.1.1 Les bases de fonctions de B-splines . . . . . . . . . . . 42

2.1.2 Les bases de fonctions puissances tronquées . . . . . . 44

2.2 Estimation du modèle semi paramétrique à effets aléatoires . . 46

2.2.1 la méthode du maximum de vraisemblance pénalisée . 46

2.3 Le diagnostic du modèle semi paramétrique à effets aléatoires . 49

2.4 Le test polynomial . . . . . . . . . . . . . . . . . . . . . . . . 52

2.4.1 Le test du score asymptotique . . . . . . . . . . . . . . 53

2.4.2 Le test du rapport de vraisemblance . . . . . . . . . . 55

2.5 Étude de simulation . . . . . . . . . . . . . . . . . . . . . . . 58

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3 Modèle de régression logistique à effets aléatoires 64

3.1 Spécification du modèle de régression logistique à effets aléatoires 65

3.2 L’estimation du modèle de régression logistique à effets aléatoires 68

3.2.1 La méthode de la quasi- vraisemblance pénalisée . . . . 71

3.2.2 L’algorithme Monte Carlo EM . . . . . . . . . . . . . . 74

3.3 Diagnostic du modèle de régression logistique à effets aléatoires 77

3.4 Application : Anticipation de la détresse financière . . . . . . . 82

3.4.1 La structure des données . . . . . . . . . . . . . . . . . 84

3.4.2 La fonction de régression logistique à effets aléatoires

du score de détresse . . . . . . . . . . . . . . . . . . . . 85

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4 Modèle de régression logistique semi paramétrique à effets

aléatoires 92

vii

Page 9: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

4.1 Spécification du modèle de régression logistique semi paramé-

trique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 93

4.2 Estimation du modèle de régression logistique semi paramé-

trique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 97

4.3 Le diagnostic du modèle de régression logistique semi paramé-

trique à effets aléatoires . . . . . . . . . . . . . . . . . . . . . 98

4.4 Le test polynomial . . . . . . . . . . . . . . . . . . . . . . . . 100

4.4.1 Le test du score . . . . . . . . . . . . . . . . . . . . . . 101

4.4.2 Le test de Monte Carlo Randomisé . . . . . . . . . . . 103

4.5 Etude de simulation . . . . . . . . . . . . . . . . . . . . . . . 107

4.6 Application : Anticipation de la détresse financière . . . . . . . 111

4.6.1 La fonction logistique semi paramétrique de score . . . 113

4.7 La validation des fonctions de score de la détresse . . . . . . . 117

4.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

viii

Page 10: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Table des figures

1.1 Fonction d’Huber pour c=1.5 . . . . . . . . . . . . . . . . . . 27

1.2 Le niveau du cholestérol de 200 individus observé tous les deux

ans sur une période de dix ans . . . . . . . . . . . . . . . . . . 32

1.3 Les nuages des points des statistiques de la distance du Cook

du modèle (1.37) . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.1 Les fonctions fc(x) avec c = (0, 1, 2, 3, 4) simulées pour tester

le degré du polynôme dans le modèle linéaire semi paramétrique 59

4.1 Les fonctions fc(x) avec c = (0, 1, 2, 3, 4) simulées pour tester

le degré de polynôme dans le modèle de régression logistique

semi paramétrique . . . . . . . . . . . . . . . . . . . . . . . . 109

4.2 Les nuages des points des variables explicatives et de leurs

logits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

4.3 La courbe de la fonction estiméef(R21) . . . . . . . . . . . . . 123

4.4 Les courbes ROC des modèles établis . . . . . . . . . . . . . . 124

ix

Page 11: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Liste des tableaux

1.1 Comparaison des structures des données . . . . . . . . . . . . 12

1.2 Les paramètres estimés par la méthode du maximum de vrai-

semblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1.3 Les paramètres estimés par la méthode du maximum de vrai-

semblance robuste . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.1 Niveaux et puissances empiriques des trois tests de la linéarité

de la fonction f dans le modèle (2.29) où N = 2 et n=5 . . . . 61

2.2 Niveaux et puissances empiriques des trois tests de la linéarité

de la fonction f dans le modèle (2.29) où N = 4 et n=5 . . . . 62

3.1 Le nombre des entreprises par secteur . . . . . . . . . . . . . . 89

3.2 Les coefficients estimés des effets aléatoires . . . . . . . . . . . 90

3.3 Les coefficients estimés des effets aléatoires . . . . . . . . . . . 91

4.1 Niveaux et puissances empiriques de deux tests de linéarité de

la fonction f dans le modèle (4.20) avec N = 2 et n=5 . . . . . 110

4.2 Niveaux et puissances empiriques de deux tests de linéarité de

la fonction f dans le modèle (4.20) avec N = 4 et n=5 . . . . . 110

4.3 les estimateurs du modèle de régression logistique semi para-

métrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

4.4 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . 118

1

Page 12: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

4.5 Matrice de confusion des modèles estimés pour l’échantillon

test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

2

Page 13: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Introduction générale

Dans les sciences sociales, et particulièrement en économie, l’objectif de

la modélisation d’un phénomène est de mieux comprendre la nature et le

fonctionnement des systèmes étudiés. L’un des rôles d’un modèle est de per-

mettre aux agents (ménages, entreprises et État) d’intervenir de manière plus

efficace à travers des modèles statistiques. En effet, un modèle statistique est

une présentation formalisée d’un phénomène sous la forme d’une équation

dont les variables sont des grandeurs physiques ou économiques. L’objectif

d’un modèle est de représenter les traits les plus marquants d’une réalité

qu’on cherche à styliser. Le modèle est donc l’outil qui permet de décrire et

de comprendre des relations qui caractérisent certaines variables.

Bien entendu, les qualités descriptives du modèle retenu dépendent de

plusieurs facteurs : par exemple, la qualité du plan d’expérience, la taille de

l’échantillon et la qualité de la prise des mesures, avec lesquels le statisticien

doit composer une fois les données recueillies. Mais, les qualités dépendent

essentiellement de la spécification de ce modèle.

La construction d’un modèle consiste à déterminer une forme fonction-

nelle entre les variables. Cette forme devrait refléter d’une meilleure façon, la

relation de causalité entre ces variables. La régression linéaire est la forme la

3

Page 14: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

plus usuelle compt tenu de sa simplicité de calcul et d’interprétation. Dans

le modèle de régression linéaire, on postule l’existence d’une relation linéaire

entre une variable expliquée et des variables explicatives. En fait, lorsqu’il

s’agit de modéliser des phénomènes naturels, l’utilisation du modèle linéaire

et de l’hypothèse de normalité des erreurs s’impose dans de nombreuses situa-

tions. Malgré cette prédominance bien justifiée par la simplicité attractive,

il existe un certain nombre de phénomènes observés difficilement modéli-

sables par la loi Normale et la régression linéaire des effets. C’est le cas, par

exemple, de l’observation si l’individu dans une population a bien supporté

ou non une telle expérience. Ainsi, afin d’établir une analyse satisfaisante des

variables qualitatives ayant des interactions non linéaires avec d’autres va-

riables, il est approprié de recourir au "Modèle de régression logistique semi

paramétrique".

Sur un autre plan, dans plusieurs études, les données observées d’échan-

tillons sont des données groupées et sont le plus souvent corrélées entre-elles.

Ce groupement peut être la conséquence des mesures répétées dans les études

longitudinales. La modélisation des effets peut être utilisée dans l’explication

du phénomène étudié et mènera à son enrichissement. Dans ce cas, le modèle

de régression logistique classique prend une nouvelle structure et peut être

défini comme un " Modèle de régression logistique à effets aléatoires".

Par ailleurs, les méthodes statistiques reposent habituellement sur des

postulats qui doivent être respectés pour que le modèle obtenu soit validé.

La plupart des méthodes développées au début de l’apparition de la statis-

tique et encore utilisées de nos jours font appel à des postulats contraignants

qui restreignent considérablement l’étendue des applications que l’on peut

4

Page 15: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

faire. Heureusement, l’augmentation constante de la puissance de calculs par

des ordinateurs permet d’assouplir certains de ces postulats et ce qui permet

d’obtenir des modèles flexibles susceptibles de bien représenter la réalité. Les

méthodes de régression non paramétriques sont un bon exemple de l’apport

des outils informatiques dans l’avancement des méthodes statistiques et se-

ront présentées dans cette thèse. Dans le cas où la représentation graphique

du nuage de points qui relient la variable expliquée et la variable explicative

nous fournit des informations floues sur l’allure de la courbe de régression,

l’utilisation des méthodes de régression non paramétriques s’impose. En fait,

ces dernières sont des techniques très adéquates pour le traitement des don-

nées et l’inférence non linéaire.

La partie explicative du modèle de régression logistique peut être raffinée

par la combinaison linéaire de ces trois types d’effets : les effets fixés pa-

ramétriques, les effets fixés non paramétriques et les effets aléatoires. Cette

combinaison a donné naissance aux " Modèles de régression logistique semi

paramétriques à effets aléatoires". Ces modèles permettent une modélisa-

tion flexible des effets des variables explicatives en remplaçant le prédicteur

linéaire dans le modèle de régression logistique par une combinaison des fonc-

tions non paramétriques et des effets aléatoires.

Une étape importante dans la modélisation économétrique est de véri-

fier statistiquement l’adéquation de la spécification du modèle proposé. Par

exemple, il s’agit de vérifier si la relation entre une variable expliquée et une

variable explicative est linéaire. La vérification de l’adéquation de la forme

paramétrique imposée sur les variables explicatives peut être réalisée dans le

cadre d’un test d’hypothèse, où des classes du modèle sont choisies comme

5

Page 16: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

des solutions alternatives. Ce test d’hypothèse consiste à vérifier le degré du

polynôme dans le modèle de régression logistique transformé. L’application

de ce test est basée sur la transformation de la fonction de lissage sous la

forme d’un modèle linéaire à effets aléatoires et sur le traitement de l’inverse

du paramètre de lissage comme une composante de la variance. Par suite, le

test d’hypothèse de degré du polynôme revient à réaliser un test de la nullité

de la variance de l’effet aléatoire. La prise de décision sur l’acceptation ou le

rejet de l’hypothèse nulle se base généralement sur le calcul d’une statistique

adaptée au problème telle que la statistique du rapport de vraisemblance

utilisée par Crainiceanu (2004) ou la statistique du score utilisée par Zhang

et Lin (2003).

En particulier, Zhang et Lin (2003) ont utilisé le test du score pour vé-

rifier le degré d’un polynôme dans le modèle de régression logistique semi

paramétrique à effets aléatoires. La distribution de la statistique du score est

approximée par une combinaison des lois de Khi-deux. Les études de simula-

tion effectuées par Zhang et Lin (2003) ont montré que le test du score doit

être appliqué avec réserve étant donné que ce test a une faible puissance.

Pour dépasser cette lacune, nous avons proposé d’améliorer la performance

de test du score.

Le test de spécification que nous avons proposé, est réalisé en utilisant des

procédures de simulation appliquées dans le contexte du modèle logistique

semi paramétrique à effets aléatoires. Pour aboutir à cet objectif, nous avons

adapté la méthode du test de Monte Carlo Randomisé (MCR) développé par

Dufour (2006) pour résoudre le problème du contrôle de la puissance de test

du score. L’approche de MCR nous permet d’introduire un nouveau test qui

6

Page 17: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

diffère des tests existants dans la littérature en deux aspects. Premièrement,

ce test est exact puisque la probabilité de rejeter l’hypothèse nulle, sachant

qu’elle est vraie, est toujours égale au niveau nominal. Deuxièmement, cette

approche permet d’obtenir un test aléatoire basé sur la simulation des sta-

tistiques du test sous l’hypothèse nulle et en utilisant un nombre restreint

d’essais.

Dans la modélisation des données groupées, un ou quelques groupes peuvent

avoir un impact exagéré sur l’estimation du modèle. Ainsi, depuis quatre dé-

cennies, un intérêt croissant se manifeste dans la proposition des méthodes

de détection des données douteuses ou erronées (données aberrantes). Ceci

est dû au souci d’avoir des données expérimentales fiables pour mener des

analyses statistiques meilleures. L’analyse des résidus constitue un outil im-

portant pour évaluer l’adéquation d’un modèle statistique à l’ajustement des

données. En fait, une observation aberrante est une observation dont le ré-

sidu (en valeur absolue) est plus élevé que la majorité. Plusieurs approches

ont proposé une variété d’indicateurs pour mettre en évidence l’impact d’une

unité ou d’une observation sur la qualité du modèle estimé. Dans cette thèse,

nous avons essayé de développer des statistiques de la distance de Cook per-

mettant d’évaluer l’effet de l’élimination d’un groupe d’observations sur les

paramètres estimés du modèle logistique semi paramétrique à effets aléa-

toires.

Dans un premier temps, nous avons présenté le développement théorique

de notre travail en exposant les trois étapes suivantes :

-Présenter le modèle de régression logistique semi paramétrique à effets aléa-

toires.

7

Page 18: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

-Déterminer une méthode d’estimation de ces paramètres.

-Développer un test polynomial.

Dans un deuxième temps, nous appliquons le modèle proposé pour recal-

culer la fonction de score d’Altman (1968) qui sert à classer les entreprises en

deux classes : une classe des entreprises saines et une classe des entreprises en

détresse. La prévision de la détresse financière des entreprises revêt une im-

portance majeure pour ceux qui y sont impliqués (actionnaires, gestionnaires,

salariés, prêteurs, fournisseurs, clients et surtout l’État).

La grande majorité des travaux sur la faillite ou la détresse s’appuie sur

des outils d’analyse statistique de grandeurs comptables et de ratios finan-

ciers pour discriminer les entreprises saines des entreprises défaillantes. Elle

débouche sur un calcul de score qui est un indicateur de synthèse censé don-

ner en un chiffre, qui peut être considère comme un degré de défaillance

possible d’un débiteur.

Par ailleurs, précisons que Altman (1968) a établi la prévision de la faillite

des entreprises américaines en utilisant l’analyse discriminante linéaire. En

considérant des données comptables et financières des entreprises tunisiennes

et en considérant la détresse financière comme une variable expliquée, nous

avons déduit une fonction de score à partir du modèle logistique à effets aléa-

toires. L’objectif de ce modèle est de capturer des effets inaperçus qui sont dûs

à l’hétérogénéité des entreprises de la population étudiée. En d’autres termes,

nous visons à mettre en évidence les déterminants non observables de la dé-

tresse financière de chaque secteur de l’échantillon étudié. Afin d’améliorer

le pouvoir prédictif de la fonction de score, nous avons réalisé une recherche

8

Page 19: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

exploratoire de nouvelles relations fonctionnelles entre les ratios et la proba-

bilité de la détresse. Ces relations fonctionnelles ont permis de déduire une

fonction de score estimée à partir du modèle de régression logistique semi

paramétrique.

Dans ce travail, notre objectif principal est de présenter le modèle de ré-

gression logistique semi paramétrique comme un modèle alternatif et flexible

pour la prévision de la détresse. Une fois la fonction de score est élaborée

et le degré de polynôme est testé, nous nous intéresserons à montrer que ce

nouveau modèle jouit d’un pouvoir discriminant et prédictif.

Cette thèse se compose de quatre chapitres. Dans le premier chapitre,

nous présentons le modèle linéaire à effets aléatoires tout en mettant l’accent

sur l’apport de la méthode d’estimation du maximum de vraisemblance ro-

buste. En plus, nous réalisons aussi une étude par un modèle linéaire à effets

aléatoires ajusté aux données du niveau de Cholestérol.

Dans le deuxième chapitre, nous définissons le modèle linéaire semi para-

métrique à effets aléatoires comme une extension du modèle linéaire à effets

aléatoires. Ce nouveau modèle permet de modéliser des relations de causalité

non linéaires entre une variable expliquée longitudinale et des variables ex-

plicatives en approximant une fonction de lissage non paramétrique par un

polynôme du degré fixe. Le choix du degré de ce polynôme est une proposition

qui nécessite d’être vérifiée par un test d’hypothèse.

Dans le troisième chapitre, nous donnons une idée assez claire sur les

diverses techniques d’estimations des paramètres inconnus du modèle de ré-

gression logistique à effets aléatoires. Par la suite, nous réalisons une applica-

9

Page 20: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

tion à partir des données réelles des entreprises tunisiennes sur l’anticipation

de la détresse financière.

Le dernier chapitre est consacré à la présentation du modèle de régres-

sion logistique semi paramétrique à effets aléatoires en mettant l’accent sur

l’apport de test de Monte Carlo Randomisé (MCR) dans la confirmation du

choix de degré de polynôme. Le modèle de régression logistique semi paramé-

trique a été illustré à travers une application réelle concernant l’anticipation

de la détresse financière des entreprises tunisiennes.

10

Page 21: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Chapitre 1

Modèles linéaires à effets

aléatoires

Dans les études économétriques classiques, les données de variables peuvent

être classées sous la forme d’une série temporelle ou bien sous la forme d’une

coupe transversale. Les séries temporelles sont analysées sous l’hypothèse

que les individus sont homogènes, alors qu’on suppose pour les données en

coupes transversales un comportement individuel statique. La vérification de

l’existence d’une relation de causalité entre les variables univariées se réalise

souvent par le modèle de régression linéaire.

Dans certaines études économétriques, les données observées de l’échan-

tillon sont stratifiées ou groupées. Ce regroupement peut être la conséquence

des mesures répétées. On utilise le terme « données longitudinales » pour

qualifier les mesures répétées dans le temps sur un ensemble d’unités. Les

données longitudinales sont dites balancées, si les mesures sont enregistrées

pendant des intervalles réguliers et pour un même nombre de mesure par

individu. La table (1.1) illustre la structure des données groupées par cinq

11

Page 22: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

balancées de deux variables X et Y .

Etude classique Etude longitudinale

Individus Données Groupes Données

1 x1 1 x11, x12, .., x15

y1 y11, y12, .., y15

2 x2 2 x21, x22, .., x25

y2 y21, y22, .., y25

Tab. 1.1 – Comparaison des structures des données

Dans une étude longitudinale, la relation de causalité entre les variables

est adéquatement exprimée à travers les modèles linéaires à effets aléatoires.

Dans ces modèles, deux types de facteurs peuvent influencer les valeurs de

la variable d’intérêt. Ces facteurs peuvent avoir deux natures : fixes ou aléa-

toires. Les facteurs à effets fixes ont un nombre fini de niveaux et les données

se répartissent sur ces différents niveaux. On souhaite en retirer une informa-

tion concernant l’effet de chaque niveau sur la variable d’intérêt. Par contre,

les facteurs à effets aléatoires ont un nombre potentiellement infini de ni-

veaux. Dans ce cas, les données se répartissent sur un échantillon aléatoire

de ces niveaux. La façon dont chacun des niveaux influe sur le résultat ne

présente pas d’intérêt. En revanche, on souhaite connaître la part de la va-

riabilité induite par ces effets.

12

Page 23: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

1.1 Modèle de régression linéaire multivariée

Nous commençons cette section par une description du modèle de ré-

gression linéaire multivariée. Nous abordons ensuite de façon succincte la

question de l’estimation des paramètres de ce modèle par la méthode des

moindres carrés ordinaires.

1.1.1 Le modèle et les hypothèses

Dans le modèle de régression linéaire multivariée, on postule l’existence

d’une liaison statistique linéaire entre un vecteur aléatoire d’une variable

expliquée notée Y de taille n et une matrice X des variables explicatives non

aléatoires de dimension (n, p). Le modèle linéaire standard traduisant une

relation linéaire entre Y et X s’écrit sous la forme suivante :

Y = Xβ + ε. (1.1)

où β est un vecteur inconnu de taille p des coefficients et ε est un vecteur

de taille n d’erreurs de spécification. L’estimation du modèle (1.1) nécessite

préalablement la formulation de deux hypothèses concernant le terme aléa-

toire ε :

Hyp1 : les effets des facteurs autre que X se compensent c.à.d E(ε) = 0.

Hyp2 : l’hypothèse d’homoscèdasticité et de non autocorrélation des erreurs

c.à.d V (ε) = σ2In.

13

Page 24: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

1.1.2 L’estimation du modèle linéaire

Les paramètres inconnus du modèle (1.1) sont β et σ2. Si on suppose l’in-

dépendance entre les individus, l’estimation de β par la méthode des moindres

carrés ordinaires est une valeur β qui minimise la somme des carrées rési-

duelles :

SCR = (Y −Xβ)′(Y −Xβ). (1.2)

Le principe de la méthode des moindres carrés ordinaires consiste à mini-

miser les sommes des carrées résiduelles, par rapport aux paramètres inconnus

du modèle. La résolution de ce programme d’optimisation permet d’obtenir

l’estimateur suivant :

β = (X′X)−1X

′Y. (1.3)

D’après le théorème de Gauss-Markov, β est le meilleur estimateur li-

néaire sans biais (BLUE, pour Best Linear Unbiased Estimator). En effet,

ce théorème prouve que β possède la variance minimale dans la classe des

estimateurs linéaires centrés sans biais. Selon Greene (1991), la matrice de

variance-covariance de β a la forme suivante :

V (β) = σ2(X′X)−1. (1.4)

Concernant l’estimation du paramètre de la partie aléatoire σ2, un esti-

mateur centré est calculé selon cette relation :

14

Page 25: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

σ2 =SCR

n− p. (1.5)

1.1.3 Les tests d’hypothèses

Le rôle de l’économétrie est de confirmer ou d’infirmer empiriquement

l’influence des variables X sur la variable Y en se basant sur des données ob-

servées. A cet effet, nous avons besoin de recourir à l’étude inférentielle sur les

paramètres du modèle. Ainsi, pour construire des intervalles de confiance ou

des tests d’hypothèses, il faut ajouter une hypothèse sur la distribution des

erreurs. En effet, nous supposons que les erreurs sont indépendantes et iden-

tiquement distribuées selon la loi Normale d’espérance nulle et de variance

σ2 :

ε ∼ N(0, σ2In). (1.6)

Comme conséquence de la normalité des erreurs, nous obtenons :

β ∼ N(β, σ2(X′X)−1). (1.7)

Cependant, les tests individuels ne peuvent pas être élaborés en utilisant

les statistiques distribuées selon la loi Normale, étant donné que la variance

des erreurs σ2 est inconnue. Pour contourner ce problème nous recourons à

la statistique suivante :

SCR

σ2∼ χ2(n− p). (1.8)

15

Page 26: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Ceci permet d’effectuer les tests individuels à partir des statistiques distri-

buées selon la loi de Student où la variance σ2 est remplacée par son estima-

teur sans biais σ2. Il s’en suit que :

βp − βp√V (βk)

∼ t(n− p). (1.9)

Dans ce qui suit, nous présentons deux types de tests individuels :

a-Le test de significativité statistique du paramètre β

Le test de significativité statistique du paramètre β consiste à vérifier si

les variables explicatives X possèdent un effet multiplicateur significatif sur

la variable expliquée Y . Il s’agit d’un test avec le corps d’hypothèse suivant :

H0 : β = 0

H1 : β 6= 0

b-Le test d’a priori théorique

Le test d’a priori théorique comme par exemple β est égal à une constante.

Les coefficients testés prennent des valeurs réelles particulières selon l’ap-

préhension théorique du modèle étudié. Dans ce cas, nous testons les corps

d’hypothèses suivants :

H0 : β = β0

H1 : β 6= β0

On rejette H0 lorsque |tc| > t1−α

2n−p avec tc = βp−β0√

V (βp)est l’estimation de

la statistique du test à partir de l’échantillon utilisé et t1−α

2n−p est le quantile

d’ordre 1 − α2de la loi de Student de degré de liberté égal à n − p. Le test

de Student des coefficients est généralement utilisé pour vérifier les hypo-

16

Page 27: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

thèses théoriques. Mais, ce test n’est valable que lorsque l’hypothèse Hyp2

est vérifiée, c’est-à-dire le terme d’erreur est vraiment un bruit blanc (ni

autocorrelation ni hétéroscédasticité).

1.2 Spécification du modèle linéaire à effets aléa-

toires

Dans cette section, nous donnons une description du modèle linéaire à

effets aléatoires. Nous abordons ensuite la question de l’estimation des para-

mètres au sein de ce modèle et en présentant deux méthodes d’estimation :

la méthode du maximum de vraisemblance et la méthode du maximum de

vraisemblance robuste.

1.2.1 Formulation du modèle linéaire à effets aléatoires

Le modèle linéaire à effets aléatoires constitue un outil puissant et flexible

pour modéliser la relation de causalité entre les variables longitudinales. Ce

modèle vise à rendre compte simultanément de la dynamique du compor-

tement individuel et de l’éventuelle hétérogénéité. Selon Verbeke et Molen-

berghs (2000), le modèle linéaire à effets aléatoires résulte de la combinaison

des deux modèles obtenus en deux étapes.

Dans la première étape, on considère le vecteur Yi = (yi1, ..., yin)′des

réponses relatives à l’individu i = 1, ..., N . On suppose que Yi vérifie le modèle

de régression linéaire suivant :

Yi = Zi βi + εi, (1.10)

17

Page 28: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

où Zi est une matrice des variables explicatives connues de dimension (n, q)

et qui permet d’expliquer la vatiation de la variable expliquée de l’individu

i, βi est un vecteur de taille q des coefficients inconnus spécifique à l’individu

i alors εi est un vecteur de taille n, composé par des termes d’erreurs.

Dans la deuxième étape, le vecteur βi est décomposé en deux facteurs :

un facteur commun pour tous les individus et un facteur spécifique à chaque

individu.

βi = Ki β + bi, (1.11)

où Ki est une matrice de dimension (q, p) des variables explicatives connues,

β est un vecteur de taille p des coefficients de régression inconnus et communs

pour tous les individus. Par suite, on peut exprimer la variabilité entre les

individus comme suit :

Yi = Zi Ki β + Zi bi + εi. (1.12)

En supposant que Xi = ZiKi, l’équation (1.12) s’écrit sous la forme suivante :

Yi = Xi β + Zi bi + εi, (1.13)

où β est un vecteur des effets fixes et bi est un vecteur des effets aléatoires

relatif à l’individu i.

18

Page 29: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Le modèle (1.13) est nommé modèle linéaire à effets aléatoires dans lequel

le vecteur des mesures répétées de chaque individu suit un modèle de régres-

sion linéaire. Le vecteur des paramètres β est un vecteur commun à toute la

population alors que le vecteur des paramètres bi est un vecteur spécifique

individuel.

Afin d’alléger l’écriture et de faciliter l’expression de certains résultats,

nous recourons à la formulation matricielle. Le modèle (1.13) est exprimé

sous la forme suivante :

Y = X β + Z b + ε, (1.14)

où Y est un vecteur de taille (N.n) des variables expliquées, X est une matrice

connue de plein rang de dimension (N.n, p), composée par des p variables

explicatives, β est un vecteur inconnu de taille p des coefficients des effets

fixes, Z est une matrice connue de dimension (N.n, N) composée par des

valeurs 1 et 0, b est un vecteur inconnu de taille N des coefficients des effets

aléatoires et ε est un vecteur des erreurs de spécification.

1.2.2 Les hypothèses du modèle linéaire à effets aléa-

toires

Le modèle linéaire à effets aléatoires peut être aussi défini comme un

modèle à erreurs composées. Les sources de la variation dans ce modèle se

composent de deux éléments : les effets aléatoires bi et le terme des erreurs εi.

Le premier présente la variation intergroupes par contre le deuxième présente

la variation intragroupes. Avant d’estimer les paramètres du modèle linéaire

19

Page 30: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

à effets aléatoires, il faut supposer les trois hypothèses suivantes :

Hyp1 : εi ∼ N(0, Σi), avec Σi(n,n) est une matrice de variance covariance

qui caractérise les variances et les corrélations entre des variables aléatoires

εi mesurées intragroupes. En général, on suppose que les variations indivi-

duelles dans un même groupe sont identiques et indépendantes et que les

mesures sont supposées suffisamment éloignées dans le temps ce qui donne

que les corrélations entre les individus sont négligeables. Ces postulats nous

permettent d’admettre que les termes d’erreurs εi suivent la loi Normale

N(0, σ2εIn).

Hyp2 : bi ∼ N(0, Gθ), avec Gθ est une matrice de variance covariance de

dimension (n, n) qui caractérise la variabilité intergroupes. Généralement,

les variances des effets aléatoires sont supposées égales pour tous les groupes.

Dans ce cas, la matrice peut prendre la forme Gθ = θIn.

Hyp3 : les effets aléatoires bi et les termes d’erreurs εi sont indépendants.

Sous les hypothèses Hyp1, Hyp2 et Hyp3, la variable expliquée Y a la

propriété suivante :

Y ∼ N(Xβ, V ) où V = σ2εI + ZGθZ

′, (1.15)

où V est une matrice des variances covariances des observations de taille

(N.n, N.n), supposée symétrique, définie positive et dépendante d’un vecteur

des paramètres γ = (σ2ε , θ).

20

Page 31: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

1.3 Estimation du modèle linéaire à effets aléa-

toires

Dans la section précédente, nous avons présenté une formulation du mo-

dèle linéaire à effets aléatoires. La détermination de l’ampleur du lien entre

des variables longitudinales et du niveau de l’hétérogénéité des groupes se

réalise par l’estimation les coefficients des effets fixes β et les paramètres des

effets aléatoires b. La méthode du maximum de vraisemblance a été souvent

utilisée par plusieurs auteurs pour l’estimation des paramètres du modèle

linéaire à effets aléatoires. Nous citons, à titre d’exemple, Harvey (1970),

Greene (1991) et Foulley et al. (2000). Cependant, des études de simula-

tion réalisées par Richardson et Welsh (1995) ont montré que la méthode du

maximum de vraisemblance ne résiste pas aux observations aberrantes. En

effet, la présence des observations aberrantes peut sérieusement biaiser les

estimateurs.

Dans ce qui suit, nous rappelons les procédures de la détermination des

estimateurs de paramètres du modèle linéaire à effets aléatoires par la mé-

thode du maximum de vraisemblance. Ensuite, nous présentons la méthode

du maximum de vraisemblance robuste comme une approche alternative d’es-

timation.

1.3.1 La méthode du maximum de vraisemblance

La variance totale V est scindée en plusieurs composantes θ que l’on ap-

pelle composantes de la variance. Le vecteur des effets fixes β ainsi que le

vecteur des paramètres de variance θ sont inconnus et il s’agit de les estimer.

Il est important de noter ici que, en pratique, nous n’observons pas directe-

21

Page 32: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

ment les effets aléatoires b. Ils sont indirectement observés dans les données.

L’approche du maximum de vraisemblance [(ML) pour Maximum Likelihood]

utilise le concept classique de la fonction de vraisemblance. L’estimation des

composantes de la variance par l’approche ML conduit à des systèmes non li-

néaires avec contraintes. Outre le fait que rien ne nous assure la positivité des

estimations pas à pas, il n’est pas certain non plus que ces systèmes mènent à

un maximum global de la fonction de vraisemblance. D’autres alternatives à

la résolution itérative de ces systèmes ont été proposées tel que l’algorithme

de Henderson (1975).

Au cours de ses travaux, Henderson (1975) a été amené à prédire des réa-

lisations non observées d’un effet aléatoire à l’intérieur d’un modèle linéaire

à effets aléatoires. Ainsi la prédiction de b devient un élément important et

indispensable. Cette prédiction de b est ensuite utilisée pour l’estimation des

composantes de la variance. Il existe plusieurs manières de prédire b. Celle

qui a été considérée ici est nommée par le meilleur prédicteur linéaire sans

biais [(BLUP) pour Best Linear Unbiaised Predictor]. Cette prédiction b est

une fonction linéaire des données, non biaisée E(b) = b et la meilleure au

sens des carrés moyens E((b− b)′(b− b)) est minimum.

La méthode de Henderson propose des équations permettant d’obtenir si-

multanément le meilleur estimateur linéaire sans biais [(BLUE) pour Best Li-

near Unbiaised Estimator] de β (notée β équivalente au maximum de vraisem-

blance sous des hypothèses de normalité adéquates) et la prédiction BLUP

de b. Pour former ce système d’équations, la distribution jointe de Y et b est

maximisée en β et b. Ainsi, après avoir utilisé sa distribution pour construire

la fonction de vraisemblance, b joue alors le rôle de paramètre.

22

Page 33: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Compte tenu des hypothèses Hyp1, Hyp2 et Hyp3, la distribution jointe

s’écrit :

f(y, b) = (2πθ)−1/2 exp{−1

2[(Y −Xβ−Zb)

′(Y −Xβ−Zb)+ b

′Gθb]} (1.16)

Le calcul des estimateurs du maximum de vraisemblance des paramètres

du modèle (1.14) se réalise selon une procédure itérative. A l’étape initiale

k = 0, il faut choisir des valeurs des composantes de la variance σ2(0) =

(σ(0)ε , θ(0))

′ . A l’étape k, les estimateurs des coefficients des effets fixes β et

les coefficients des effets aléatoires b sont déduits à partir de ce système

d’équations normales qui sont déduit de l’équation (1.16) :

X

′X X

′Z

Z′X V (k)

β(k)

u(k)

=

X

′Y

Z′Y

(1.17)

avec u(k) = θ(k)b(k) et V (k) = σ2(k)ε In + ZG

(k)θ Z

′ .

Ces équations sont souvent appelées : équations du modèle mixte ou

[(MME) pour Mixed Model Equations] ou encore équations de Henderson

qui servent à déterminer les solutions du système (1.17). Les estimateurs du

maximum de vraisemblance de tous les paramètres du modèle (1.14) sont

déterminés itérativement selon les formules suivantes :

β(k+1) =(X

′V (k)−1

X)−1 (

X′V (k)−1

Y)

et (1.18)

23

Page 34: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

b(k+1) = θ(k)Z′V (k)−1

(Y −Xβ(k)). (1.19)

Dans le système (1.17), la matrice V dépend des valeurs σ2ε et θ toutes

inconnues. L’estimation de ces composantes est donc nécessaire. A partir

des équations de maximum du vraisemblance déterminées par Searle et al.

(1992), on construit les procédures itératives suivantes :

θ(k+1) =u(k)′u(k)

n− tr(σ2(k+1)ε V (k)−1)

et (1.20)

σ2(k+1)ε =

y′(y −Xβ(k) − Zu(k))

n. (1.21)

Cette procédure itérative s’arrête si la condition∥∥σ2(k) − σ2(k+1)

∥∥ < ε est

vérifiée, avec σ2(k) = (σ2(k)ε , θ(k))

′ et ε est un seuil de précision donné.

La procédure d’estimation alterne alors entre :

1-pour des valeurs de σ2 connues, la résolution d’équations (1.18) et (1.19).

2-pour des valeurs de β et b, la résolution d’équations (1.20) et (1.21).

1.3.2 La méthode du maximum de vraisemblance ro-

buste

La méthode d’estimation du modèle linéaire à effets aléatoires présentée

dans la section précédente n’est pas résistante aux observations aberrantes.

En fait, La fonction objective du maximum de vraisemblance est une fonction

24

Page 35: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

croissante des carrées de résidus définis par les différences entre les observa-

tions réelles et les ajustements estimés. Par conséquent, les points aberrants

sont les observations qui ont des résidus arbitrairement élevés. Ces points

peuvent avoir une influence infiniment forte sur l’estimation du maximum de

vraisemblance. Pour surmonter ce problème, Rocke (1991) et Fellner (1986)

ont proposé d’utiliser les estimateurs robustes. Quelques améliorations de ces

estimateurs et des études comparatives par la méthode de Monte Carlo ont

été réalisées par Huggins (1993) et Richardson (1997).

Sous l’hypothèse que les effets aléatoires suivent la loi Normale N(0, θIn)

et que les termes des erreurs suivent la loi Normale N(0, σ2εIn), la fonction de

log- vraisemblance du modèle linéaire à effets aléatoires a la forme suivante :

− 2L(γ; Y ) = −n ln(2π)− ln(det V )− εε′, (1.22)

où ε = V −1/2(Y −Xβ) est le résidu standardisé.

Selon l’approche de Huggins (1993), une estimation robuste consiste à

remplacer la fonction quadratique de ε par une fonction bornée qui croit len-

tement afin de bondir l’influence des observations aberrantes. Par conséquent,

la fonction de log -vraisemblance robuste est donnée par :

− 2η(γ; Y ) = ln(2π)− κ1 ln(det V )− ρ(ε), (1.23)

où κ1 = E(εψ(ε)) est un facteur de correction d’uniformité. Par exemple, si

ε suit la loi Normale standard alors κ1 = Pr(|ε| ≤ c).

25

Page 36: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Pour le choix de la fonction ρ, nous adoptons cette fonction proposée par

Huber (1981) :

ρ(ε) =

12ε2 si |ε| ≤ c

c |ε| − 12c2 si |ε| > c

(1.24)

Avec c est une constante fixée.

Un estimateur robuste de paramètre β peut être déterminé par l’algo-

rithme de Newton-Raphson en utilisant les dérivées premières et secondes de

la fonction du log-vraisemblance (1.23). Mathématiquement, l’équation de

Newton-Raphson s’écrit :

β(h+1) = β(h) −[∂2 log η(γ, y)

∂β∂β ′

]−1

β=β(h)

∗[∂ log η(γ, y)

∂β

]′

β=β(h)

(1.25)

avec ∂ log η∂β

= X′V −1/2ψ[V −1/2(y−Xβ)] et ∂2 log η

∂β∂β′ = X′V −1/2ΛV −1/2 où Λ est

une matrice diagonale composée par λii = 1 si |ε| ≤ c et λii = 0 sinon.

Les estimateurs du maximum de vraisemblance robustes des composantes

de la variance ont été développés par Richardson et Welsh (1995) selon ces

deux formules :

θ(k+1) =ψ(u(k))

′u(k)

κ1(n− tr(σ2(k+1)ε V (k)−1))

et (1.26)

26

Page 37: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

σ2(k+1)ε =

ψ(y −Xβ(k) − Zu(k))′y

κ1n(1.27)

avec ψ(ε) est la dérivée de la fonction d’Huber ρ est égale à :

ψ(ε) =

−c si ε ≤ c

ε si ε ∈ [−c, c]

c si ε ≥ c

(1.28)

La figure (1.1) est une présentation graphique de la fonction ψ(ε) pour

c = 1.5.

−6 −4 −2 0 2 4 6−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

ε

ψ(ε

)

fonction de Huber pour c=1.5

Fig. 1.1 – Fonction d’Huber pour c=1.5

27

Page 38: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

1.4 Diagnostic du modèle linéaire à effets aléa-

toires

Dans l’analyse économétrique, la détection des observations aberrantes

est une étape importante pour obtenir le meilleur ajustement des données.

Diverses approches de diagnostic ont été proposées par des chercheurs tels

que Cook et Weisberg (1983), Beckman et al. (1987) et Chatterjee et Hadi

(1986). La distance de Cook est un outil statistique de diagnostic très utilisée

vu sa simplicité. Cette distance a été introduite par Cook (1977) pour mesu-

rer l’effet de chaque observation sur l’estimation obtenue du modèle linéaire

simple. L’une des extensions de la distance de Cook a été développée par

Christensen et al. (1992) pour identifier si, à un instant donné, une observa-

tion individuelle est susceptible d’influencer les estimateurs des paramètres

du modèle linéaire à effets aléatoires.

L’approche de Cook (1977) consiste à calculer la distance entre deux va-

leurs de l’estimateur β obtenues avec et sans la iieme observation afin de

mesurer l’influence d’une telle observation sur l’estimateur β d’un modèle

linéaire simple. Cependant, pour le modèle linéaire à effets aléatoires l’élimi-

nation des observations individuelles n’est pas appropriée. Par conséquent, il

est naturel de considérer l’élimination des groupes d’observations. En suivant

l’approche de Cook (1977), nous définissons la distance CDi(β) comme un

indicateur pour évaluer l’effet de l’élimination d’un groupe d’observations sur

le paramètre estimé β :

Définition 1.4.1. En notant par β l’estimateur par la méthode du maximum

de vraisemblance du modèle (1.14) et par β(i) l’estimateur par la méthode du

28

Page 39: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

maximum de vraisemblance sur des données sans le iieme groupe d’observa-

tions, alors la distance CDi(β) est définie par l’équation suivante :

CDi(β) =1

p

(β − β(i)

)′ (X

′V −1X

)(β − β(i)

). (1.29)

Pour déterminer la valeur de β(i) sans refaire le calcul d’estimation, Ba-

nerjee et Frees (1997) ont développé le théorème suivant :

Théoréme 1.4.1. En considérant X = V 1/2X; X′i = V

1/2i Xi, E

′i = V

−1/2i Ei

tel que E = Y − Xβ et Hi = Xi

(X

′X

)−1

X′i pour i = 1, ..., N des trans-

formations de variables du modèle (1.14), alors β(i) s’écrit sous la forme

suivante :

β(i) = β −(X

′X

)−1

X′i(I − Hi)Ei

∣∣∣β = β, bi = bi (1.30)

Soient Xi = (xi1, ..., xin) une ligne de la matrice X correspondante au iieme

groupe d’observations, X = (Xi, X′(i)) une partition de la matrice X et Y =

(Yi, Y′(i)) une partition du vecteur Y ainsi on obtient

X′(i)V(i)X(i) = X

′V X −X

′iViXi et X

′(i)V(i)Y(i) = X

′V Y −X

′iViYi.

En appliquant, la formule de l’inverse de matrice citée par Searle (1982),

on obtient :

(X′(i)V(i)X(i))

−1 = (X′V X)−1 + (X

′V X)−1Xi(V

−1i + Xi(X

′V X)−1X

′i)−1Xi.

(1.31)

29

Page 40: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

En supposant que X = V 1/2X = (X′1, ..., X

′N) ; X

′i = V

1/2i Xi, E

′i = V

−1/2i Ei

et Hi = Xi

(X

′X

)−1

X′i pour i = 1, ..., N alors l’équation (1.31) devient :

(X′(i)V(i)X(i))

−1 =(X

′X

)−1

+(X

′X

)−1

X′i(I − Hi)

−1Xi

(X

′X

)−1

. (1.32)

L’estimateur β(i) est calculé en utilisant le développement suivant :

β(i) =(X

′(i)V(i)X(i)

)−1

(X′(i)V(i)Y(i))

=

[(X

′X

)−1

+(X

′X

)−1

X′i(I − Hi)

−1Xi

(X

′X

)−1] [

X′Y − X

′i Yi

]

= β −(X

′X

)−1

X′i(I − Hi)

−1Ei. (1.33)

En remplaçant l’équation (1.33) dans l’équation (1.30), on obtient cette

formule pratique permettant de calculer la distance de Cook :

CDi(β) = E′i(I − Hi)

−1Hi(I − Hi)−1Ei. (1.34)

L’équation (1.34) de la distance de Cook est semblable à celle du modèle

de la régression linéaire multivariée. D’un autre coté, les valeurs calculées de

CDi(β) peuvent être comparées à des points d’une distribution Chi-deux χ2p

avec un calibrage approximatif.

30

Page 41: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

1.5 Application : l’analyse de niveau du choles-

térol

L’analyse des données groupées par le modèle linéaire à effets aléatoires

est une technique assez récente. Nous avons effectué des recherches dans la

littérature qui nous ont incité à conclure qu’il n’existe pas d’étude de cas bien

approfondie. Notre démarche dans l’analyse des données groupées est totale-

ment empirique. En résumé, nous distinguerons trois étapes dans la démarche

que nous proposons. Au niveau de la première étape, nous introduisons les

facteurs fixes et les facteurs aléatoires dans le modèle. Ensuite, nous passons

à l’estimation des paramètres du modèle par la méthode du maximum de

vraisemblance. Au niveau de la troisième étape, les observations aberrantes

ou atypiques sont détectées par l’analyse de la statistique de la distance de

Cook de chaque groupe.

L’utilité du modèle linéaire à effets aléatoires sera illustrée par une appli-

cation concernant l’analyse des données du niveau de cholestérol collectées

par Zhang et al. (1998). Ainsi, nous traitons un modèle linéaire à un seul

effet aléatoire ajusté aux données du niveau du cholestérol.

1.5.1 La structure des données

Dans le but d’étudier les caractéristiques du cholestérol, Zhang et al.

(1998) ont enregistré le niveau du cholestérol de 2634 participants tous les

2 ans pour une période de 10 ans. Dans notre étude, comme un exemple

illustratif, nous utilisons seulement les données de 200 individus tirées aléa-

toirement. L’objectif de cette étude est de déterminer les facteurs qui ont un

impact sur le niveau du cholestérol. Cette étude vise à trouver des éléments

31

Page 42: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

de réponses à ces questions :

1. Quel est le taux moyen de variation du niveau du cholestérol en fonction

de l’âge ?

2. Est ce que la variation du niveau de cholestérol dépend du sexe ?

3. Si le niveau du cholestérol dépend du sexe, voir si c’est élevé pour les

hommes que pour les femmes ?

0 1 2 3 4 5 6 7 8 9 10100

150

200

250

300

350

400

450

500

Années

chol

ster

ol

Fig. 1.2 – Le niveau du cholestérol de 200 individus observé tous les deux

ans sur une période de dix ans

La figure (1.2) indique bien que :

-Chaque individu a en moyenne cinq observations (par contre dans une étude

transversale chaque individu n’a qu’une seule observation).

-Les données ne sont pas balancées. Quelques individus ont des observations

manquantes.

32

Page 43: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

- Chaque individu a sa propre ligne de trajectoire avec probablement des

constantes différentes, ce qui implique deux sources de variations : des varia-

tions individuelles et des variation temporelles.

- La tendance du niveau de cholestérol varie linéairement en fonction du

temps pour la plupart des individus.

-Le niveau du cholestérol enregistré au temps initial se diffère d’un individu

à un autre. L’existence d’une différence peut être expliquée par un facteur

de hétérogénéité modélisable par un effet aléatoire.

1.5.2 Le modèle étudié

Soit yit le niveau du cholestérol observé pour l’individu i = 1, .., 200 me-

suré à la date t = (0, 2, 4, 6, 8, 10). D’après la figure (1.2), nous constatons

que le niveau du cholestérol varie linéairement en fonction du temps fini pour

chaque individu. Par conséquent, nous supposons que yit vérifie le modèle de

régression linéaire suivant :

yit = ai + β t + εit, (1.35)

Étant donné que chaque individu a sa propre ligne de trajectoire avec

probablement des constantes différentes, il existe alors deux sources de varia-

tions : intergroupes et intragroupes. Nous pouvons considérer le coefficient

ai comme une variable aléatoire (puisque l’individu est un sujet aléatoire tiré

de la population). L’effet aléatoire ai traduit le fait que le niveau du cho-

lestérol au temps initial varie d’un individu à un autre. On suppose d’une

part l’existence d’une liaison entre le niveau de cholestérol au temps initial

et les variables sexe et age. Ainsi, la variable aléatoire ai peut être reformulée

33

Page 44: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

comme suit :

ai = β0 + sexeiβ1 + ageiβ2 + bi, (1.36)

où ai représente le niveau du cholestérol réel mais inaperçu de l’individu i, β0

est le niveau moyen du cholestérol de toute la population enregistré au temps

initial t = 0 et bi est le niveau du cholestérol spécifique de l’individu i. Nous

supposons que bi suit la loi Normale N(0, σ2bI). En substituant l’expression

(1.36) dans le modèle (1.35), nous obtenons :

yit = β0 + β1sexei + β2agei + β3t + bi + εit, (1.37)

où β1 et β2 représente respectivement l’effet du sexe et l’effet de l’âge sur le

niveau de cholestérol.

1.5.3 Les résultats d’estimation

Le modèle de régression à effet aléatoire (1.37) ajusté aux données du

niveau du cholestérol a été estimé par la méthode du maximum de vraisem-

blance en utilisant la procédure (lme) du logiciel R (Voir annexe 1). Afin

d’examiner l’influence d’un individu sur les estimations des paramètres du

modèle, nous avons calculé les statistiques de Cook selon la formule (1.34).

Les nuages des points de la distance du Cook du modèle (1.34) sont présentés

dans la figure (1.3).

Les individus 4, 130 et 195 ont les valeurs de la distance du Cook les plus

34

Page 45: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

0 50 100 150 200−2

0

2

4

6

8

10

12

14

16x 10

−5

Individus

CD

i(β)

Fig. 1.3 – Les nuages des points des statistiques de la distance du Cook du

modèle (1.37)

élevées. Donc, ils peuvent être considérés comme les individus plus influents

(ou individus aberrants). Par la suite, il faut les éliminer de la base de données

et recalculer les estimations des paramètres.

La table (1.2) récapitule les résultats d’estimation des paramètres de

l’équation du modèle (1.37) par la méthode du maximum de vraisemblance

après l’élimination des points aberrants.

Le coefficient du constant fixe β0 = 157.563 représente une estimation du

35

Page 46: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Estimation Écart type t-valeurs p-valeurs

β0 157.563 15.208 10.360 0.000

β1 -1.292 5.536 -0.233 0.815

β2 1.498 0.351 4.262 0.000

β3 2.816 0.202 13.903 0.000

Tab. 1.2 – Les paramètres estimés par la méthode du maximum de vraisem-

blance

niveau minimal du cholestérol. Après l’ajustement du niveau de cholestérol yij

au sexe, nous constatons que le niveau du cholestérol des mâles est inférieur à

celui des femelles, la différence est égale à 1.292 unités. Après l’ajustement du

niveau du cholestérol yij à l’âge, nous remarquons que l’accroissement moyen

de l’âge d’un an engendre une augmentation de 1.498 unités du niveau du

cholestérol.

En ce qui concerne l’estimation de l’effet aléatoire, nous avons obtenu

l’écart type de l’effet aléatoire σb = 37.492. Ce qui indique que le niveau

du cholestérol varie d’un individu à un autre avec une amplitude qui peut

atteindre 38 unités.

La table (1.3) récapitule les résultats d’estimation du modèle (1.37) par

la méthode du maximum de vraisemblance robuste. Pour les estimateurs ro-

bustes, nous avons utilisé la fonction d’Huber avec deux valeurs : pour l’esti-

mation du paramètre de location c = 1.34 et pour l’estimation du paramètre

de l’échelle c = 0.2.

D’après les résultats énoncés dans la table (1.3), nous constatons que les

paramètres estimés par la méthode robuste ont des valeurs proches à celles

36

Page 47: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Estimation Écart type t-valeurs p-valeurs

β0 142.343 13.107 11.360 0.000

β1 -1.242 4.436 -0.833 0.615

β2 1.521 0.251 3.392 0.000

β3 2.731 0.201 12.203 0.000

Tab. 1.3 – Les paramètres estimés par la méthode du maximum de vraisem-

blance robuste

estimées par la méthode non robuste. Ceci, peut être expliqué par le fait que

le nombre des points aberrants est faible comme l’indique la figure (1.3).

1.6 Conclusion

Dans ce chapitre, nous avons présenté le modèle linéaire à effets aléatoires

qui permet de traiter des données groupées continues tout en mettant l’ac-

cent sur l’apport de la méthode d’estimation du maximum de vraisemblance

robuste. Pour minimiser l’influence des observations aberrantes, nous avons

utilisé la fonction de Huber. Cependant, il existe des autres choix alterna-

tifs. Nous pouvons citer, à titre d’exemple, la fonction du bisquare de Tukey

Huggins (1993) qui pourra être un exercice pour faire une comparaison de

l’efficience théorique ou empirique de divers choix. Nous avons aussi déve-

loppé une méthode de diagnostic pour le modèle linéaire à effets aléatoires.

En fait, nous avons examiné l’effet de l’élimination des groupes d’observations

sur les paramètres du modèle linéaire à effet aléatoires.

Lorsqu’il s’agit de modéliser des phénomènes naturels, l’utilisation du

modèle linéaire et de l’hypothèse de normalité des erreurs s’impose dans

de nombreuses situations. L’utilisation du modèle linéaire, dans le cas de

37

Page 48: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

variable expliquée longitudinale et qualitative peut engendre une mauvaise

spécification. Ainsi, afin d’établir une analyse plus satisfaisante d’une va-

riable longitudinale et qualitative, il est approprié de recourir au modèle de

régression logistique à effets aléatoires qui sera présenté dans les chapitres

suivants.

38

Page 49: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Chapitre 2

Modèles linéaires semi

paramétriques à effets aléatoires

Parfois, la représentation graphique du nuage de points des variables in-

dique que le lien entre les variables n’est pas linéaire. Le choix d’un modèle

paramétrique n’est souvent qu’un procédé simplificateur commode, amenant

des erreurs de spécification. Pour s’affranchir du cadre paramétrique, l’idée

naturelle est d’utiliser un modèle plus large, " modèle non paramétrique ",

où les variables explicatives sont caractérisées par des fonctions. Identifier

la relation de causalité qui régit les variables revient dès lors à estimer ces

fonctions. Cette approche a connu un développement important durant les

trente dernières années mais s’est finalement révélée décevante en pratique,

car les estimateurs proposés ne deviennent performants qu’en présence de très

grands échantillons, notamment lorsqu’on veut les utiliser pour identifier les

modèles de régression multiple.

Pour pallier au problème précédent, on introduit une méthode de "ré-

duction de dimension". Développée depuis une dizaine d’années, elle a pour

39

Page 50: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

but de rendre plus performantes les techniques non paramétriques d’estima-

tion d’une régression en postulant une modélisation semi-paramétrique. Par

conséquent, on échappe à la nécessité de disposer de très gros échantillons

de variables continues pour une mise en oeuvre pratique performante. Ce

chapitre introduira le modèle linéaire semi paramétrique à effets aléatoires et

la méthode d’estimation de la fonction de régression définie, en détaillant sa

performance.

2.1 La spécification du modèle linéaire semi pa-

ramétrique à effets aléatoires

Le modèle linéaire semi paramétrique à effets aléatoires est une extension

du modèle linéaire à effets aléatoires. Ce nouveau modèle permet de modé-

liser les relations de causalité entre les variables longitudinales. Ce nouveau

modèle permet d’éviter la nécessité de disposer d’un échantillon de variables

continues de grande taille pour une mise en oeuvre pratique performante.

En plus, il fournit une formulation flexible pour modéliser la dépendance des

variables longitudinales..

Le modèle linéaire semi paramétrique à effets aléatoires se compose de

deux types de fonctions. La première est supposée une fonction linéaire pa-

ramétrique, alors que la deuxième est supposée une fonction inconnue non

paramétrique puisque qu’on ignore la forme de la régression entre la variable

explicative X et la variable expliqué Y .

Considérons une étude de causalité entre les variables Y , X et S. Soit

yij une réalisation de la variable expliquée continue Y pour la jieme obser-

40

Page 51: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

vation (j = 1, ..., n) du iieme groupe (i = 1, .., N), sij vecteur de taille p des

réalisations de variables explicatives S, xij la valeur prise par la composante

de la matrice X et zij un vecteur de taille q associés aux effets aléatoires b.

Le vecteur sij est supposé avoir une relation linéaire avec yij. Par contre, la

réalisation xij est transformée par une fonction inconnue étant donné qu’on

ignore la forme de régression entre X et Y . Mathématiquement, l’observa-

tion yij dépend de sij et xij à travers ce modèle semi paramétrique à effets

aléatoires :

yij = f(xij) + s′ijα + z

′ijbi + εij, (2.1)

où α est un vecteur de taille p des coefficients de régression inconnus, f(xij)

est une fonction de lissage de xij deux fois différentiable, bi est un vecteur

des effets aléatoires individuels et εij est un bruit aléatoire.

Les cas spéciaux du modèle (2.1) peuvent être d’intérêt pour réaliser

quelques applications. Si les variables sont mesurées pour un seul groupe,

le modèle (2.1) se réduit à un modèle partiellement linéaire tel qu’il a été

considéré par Heckman (1986), Speckman (1988) et par He et Shi (1996). Si

la fonction f est éliminée, le modèle (2.1) devient un modèle linéaire à un

seul effet aléatoire, tel qu’il a été présenté dans le premier chapitre.

Dans le modèle (2.1), la fonction f est un opérateur de lissage qui se définit

formellement comme une fonction permettant de passer d’une représentation

discrète d’une fonction [un nuage de points (xi, yi) dans (R × R)] à une

représentation continue de celle-ci : x 7→ y = f(x) où f est une fonction

continue de R à valeurs dans R. Ainsi, f est une fonction réelle possédant à

41

Page 52: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

la fois des propriétés d’approximation, d’interpolation et de lissage :

(a) approximation : en toute valeur xi dans l’échantillon, la valeur évaluée

f(xi) doit être proche de la valeur yi.

(b) interpolation : en toute nouvelle valeur x non incluse dans l’échantillon,

la valeur évaluée f(x) existe et doit tenir compte des valeurs y aux points

voisins.

(c) lissage : la fonction f(x) doit posséder un degré de régularité suffisant.

Par ailleurs, placé dans un contexte de statistique inférentielle, afin de

construire un modèle non paramétrique, l’expérimentateur choisit générale-

ment un espace approprié de fonctions auquel f est censée appartenir. Ce

choix est motivé par des propriétés de lissage de la fonction de régression.

Les données sont utilisées pour la détermination de cette fonction inconnue.

La fonction de spline est un opérateur de lissage permettant de déterminer

la forme de la fonction f . Par définition, la fonction de spline est une collection

des polynômes par morceaux. Mathématiquement, on désigne par {κ1, ..., κK}un ensemble de K points dans un intervalle [a, b]. Ces points κk sont appelés

des noeuds permettant de construire des bases. Il y a de nombreuses façons

de définir des bases de fonctions de splines. Nous exposons à présent les bases

de fonctions de B-splines et les bases de fonctions puissances tronquées.

2.1.1 Les bases de fonctions de B-splines

DeBoor (1978) a défini un espace composé par des morceaux de polynômes

connectés d’une manière spéciale et qu’il a appelé les B-splines . Ces bases

prennent des valeurs positives sur des intervalles adjacents de la partition et

42

Page 53: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

des valeurs nulles pour les autres intervalles. En plus, les bases des fonctions

de B-splines ne dépendent pas de la variable expliquée. Par contre, elles

dépendent du nombre et de la position de noeuds (nous fixons généralement

des intervalles équidistants et de degré d’ordre trois).

DeBoor (1978) a écrit un algorithme pour déterminer les bases des fonc-

tions de B-splines du degré quelconque à partir des B-splines du degré infé-

rieur. Techniquement, une base des fonctions de B-splines d’ordre p est un

polynôme de degré (p − 1). Étant donné un ordre fixé p, la fonction de B-

spline d’ordre p, notée par Bk,p(x), k = p−1, ..., K se construit récursivement

à partir des fonctions de base B-spline Bk,p−1(x) d’ordre p − 1. La formule

de récurrence est basée sur les différences divisées et s’écrit sous la forme

suivante :

Bk,p(x) =x− κk

κk+p−1 − κk

Bk,p−1(x) +κk − x

κk+p − κk+1

Bk+1,p−1(x) (2.2)

L’utilisation de cette formule maniable, nécessite la connaissance du point

initial dans la récurrence de la base des fonctions de B-splines de premier

ordre Bk,1 qui par convention est défini comme une fonction indicatrice :

Bk,1(x) =

1 si x ∈ [κk, κk+1]

0 sinon(2.3)

En utilisant les équations (2.2) et (2.3), il est facile d’évaluer une base de

fonctions B-splines donnée à un point quelconque x ∈ [κk, κk+1].

43

Page 54: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Nous remarquons que la fonction des bases B-splines vérifie les propriétés

souhaitables du support de n’importe quelle base pour l’espace des splines.

D’ailleurs, la fonction f dans le modèle (2.1) peut être construite par la

combinaison linéaire des bases de fonction B-spline.

f(xij) =K∑

k=1

akBk(xij) = B(xi)a (2.4)

où B(xi) est la iieme ligne de la matrice des bases de fonction B-splines et

a = (a1, .., a′K) est un vecteur des coefficients inconnus associés aux bases.

2.1.2 Les bases de fonctions puissances tronquées

Les bases de fonctions puissances tronquées sont des bases relativement

intuitives de fonctions de spline. En utilisant le théorème de Taylor, la fonc-

tion de lissage f(x) est générée sous la forme suivante :

f(x) =H∑

h=1

δhxh +

K∑

k=1

ak(x− κk)+, avec κk < x < κk+1 (2.5)

où x+ = max(0; x) et κ1, ..., κK est un ensemble de noeuds distincts. Le

nombre de noeuds K doit être assez élevé pour assurer l’exigibilité de la

courbe. Les noeuds sont choisis comme quantiles de x avec les probabilités

1/(K + 1), ..., K/(K + 1).

En remplaçant l’équation (2.5) dans le modèle (2.1), nous obtenons un

modèle totalement paramétrique composé par les bases de fonctions puis-

sances tronquées :

44

Page 55: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

yij =H∑

h=1

δhxh +

K∑

k=1

ak(xij − κk)+ + s′ijα + z

′ijbi + εij (2.6)

Nous désignons par :

a) yi = (yi1, .., yin)′ un vecteur composé des variables expliquées correspon-

dant à l’individu i,

b) Bi =

(xi1 − κ1)+ ... (xi1 − κK)+

: :

(xin − κ1)+ ... (xin − κK)+

une matrice de dimension (n,K)

composée par des bases de l’individu i,

c) Zi = (1, ..., 1)′ un vecteur d’incidence de taille n associé à l’effet aléatoire

de l’individu i.

Soient Y = (y1, ..., yN)′ , b = (b1, ..., bN)

′ , a = (a1, ..., ak)′ , β = (δ0, ..., δh, α)

et ε = (ε1, ..., εN)′ les vecteurs obtenus à partir de l’empilement des N vec-

teurs. Soient X = (x, ..., xh, s), B = (B1, ..., BN) les matrices obtenues à

partir de l’empilement des N matrices et Z est une matrice diagonale dont

les composantes sont Z1,...,ZN , alors le modèle (2.6) s’écrit sous la forme

matricielle suivante :

Y = Xβ + Ba + Zb + ε (2.7)

Le modèle semi paramétrique (2.1) a été transformé sous la forme d’un

modèle linéaire totalement paramétrique (2.7) en utilisant les bases de fonc-

tions puissances tronquées. Dans le modèle (2.7), les paramètres inconnus à

estimer sont β, a et b.

45

Page 56: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

2.2 Estimation du modèle semi paramétrique à

effets aléatoires

Dans cette section, nous visons à déterminer une fonction de lissage qui

fournit un meilleur ajustement des variables observées. Pour réaliser cette

tache, nous présentons une démarche qui consiste à transformer la fonction

de lissage sous la forme d’un polynôme de degré fixe, en utilisant les bases

de fonctions puissances tronquées. L’étape suivante consiste à estimer les

coefficients de lissage par la méthode du prédicteur linéaire sans biais tel

qu’il a été présenté dans le premier chapitre.

2.2.1 la méthode du maximum de vraisemblance péna-

lisée

Dans la section précédente, le modèle semi paramétrique (2.1) a été trans-

formé sous la forme d’un modèle linéaire totalement paramétrique en utilisant

les bases de fonctions puissances tronquées. On propose d’estimer les para-

mètres du modèle transformé (2.7) par la méthode du maximum de vraisem-

blance. Étant donné le vecteur d’erreur ε suit la loi Normale N(0, σ2εI) et

l’effet aléatoire b suit la loi Normale N(0, θI), la fonction du log- vraisem-

blance des paramètres β et a est :

l(β, a) = −n

2− 1

2σ2ε

(Y −Xβ −Ba)′(Y −Xβ −Ba)−1

2b′Gθb (2.8)

Néanmoins, un ajustement linéaire ne sera pas généralement optimal en

terme de réduction des carrés de déviations des données observées. Afin de

46

Page 57: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

tenir compte d’une flexibilité suffisante de la fonction f et évitant la sures-

timation, Eilers et Marx (1996) ont proposé d’utiliser les fonctions de bases

pénalisées. Ainsi, ils ont ajouté une fonction de pénalité à la fonction de

vraisemblance :

L(β, a) = l(β, a) + λ

∫ (f′′(x)

)2

dx (2.9)

où λ est un paramètre de lissage qui détermine l’importance relative de la

qualité de lissage des données observées. Dans la pratique, le paramètre λ

permet à l’utilisateur de contrôler le niveau de régularité souhaité.

Eilers et Marx (1998) ont développé une nouvelle forme du terme de

pénalité en calculant les différences de coefficients des bases adjacents. Ainsi,

la nouvelle forme de la pénalité est la suivante :

∫ (f′′(x)

)2

dx =K∑

k=1

(∆2ak

)2 (2.10)

où ∆ak = ak − ak−1 est l’opérateur de la différence première et

∆2ak = ∆(∆ak) = ak − 2ak−1 + ak−2 est l’opérateur de la différence seconde.

Sous la forme matricielle, la différence d’ordre 2 peut être écrite

∆2a = D2a où D2 est une matrice diagonale de l’opérateur différence. Les

estimateurs du maximum de vraisemblance pénalisés des paramètres β et a

sont obtenus par la maximisation de la fonction suivante :

47

Page 58: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L(β, a) = l(β, a)− λ

2a′D′Da (2.11)

En divisant l’équation (2.11) par σ2ε et en supposant que a ∼ N(0, τI)

avec τ = σ2ε/λ, l’estimation du modèle semi paramétrique revient à estimer

un modèle linéaire à effets aléatoires. Ainsi, le modèle semi paramétrique à

effets aléatoires (2.1) peut être traité comme un modèle linéaire à effets aléa-

toires, puisque que le terme de pénalité dans le log- vraisemblance pénalisé

(2.11) a une forme quadratique. Cette représentation par le modèle linéaire à

effets aléatoires est une technique simple et utile pour l’estimation au même

temps des paramètres de lissage et des composantes de la variance. Plus des

détails se trouve dans l’article de Wand et Ngo (2003), qui ont discuté la

représentation du modèle linéaire à effets aléatoires par des bases pénalisées.

En suivant l’approche de Wand et Ngo (2003), le modèle transformé (2.7)

est traité comme un modèle linéaire à effets aléatoires puisque qu’on suppose

que le vecteur a est un vecteur d’effets aléatoires dont la distribution est la

loi Normale N(0, τI) alors que b est un vecteur d’effets aléatoires qui suit

la loi Normale N(0, σ2bI). Dans le modèle (2.7), les paramètres inconnus β,

a et b seront estimés en utilisant la méthode de maximum de vraisemblance

et précisément la méthode de Henderson telle que ça a été décrite dans le

chapitre précédent.

La courbe de f(x) peut être construite par l’association des matrices de

conception avec leurs coefficients estimés. La fonction f est alors estimée

par :

48

Page 59: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

f(x) = Xβ + Ba + Zb (2.12)

où β, b et a sont les estimateurs de β, b et a par la méthode de maximum

de vraisemblance. La matrice de variabilité des composantes linéaires et de

lissage peut être calculée par :

C = cov

β

a

= σ2

ε

X

′X X

′Z

Z′X Z

′Z + F

(2.13)

où F = diag(In,σ2

ε

σ2b1

In, .., σ2ε

σ2bk

In), voir Carroll et Raymond (2003). L’intervalle

de confiance pour une valeur de f en un point spécifique tk et pour un nombre

élevé d’observations, se calcule alors comme suit :

f(tk)± t1−α2

√(f(tk)− f(tk)) = f(tk)± t1−α

2

√ltkCl

′tk

(2.14)

où ltk est la ligne correspondante à [X|Z], C est construit en utilisant les

variances estimées et t1−α2est le quantile de la loi Student à n degrés de

liberté correspondant à la probabilité 1− α2.

2.3 Le diagnostic du modèle semi paramétrique

à effets aléatoires

Nous commençons tout d’abord par rappeler la formule de la distance

de Cook pour un modèle linéaire classique : Y = Zγ + ε, ou Y est un

49

Page 60: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

vecteur de dimension n de la variable expliquée, Z est une matrice (n, q)

composée par les variables explicatives, γ est un vecteur de dimension q

des coefficients inconnus et ε est un vecteur de dimension n des variables

aléatoires indépendantes ayant la moyenne nulle et la matrice de variance

covariance σ2In. Notons par Y(i) et Z(i) le vecteur Y et la matrice Z après

l’élimination de l’observation i.

Soit γ = (ZT Z)−1ZT Y l’estimateur des moindres carrés de γ et Y = HY ,

où H = Z(ZT Z)−1ZT est la matrice chapeau. Soit s2 = eT e/(n− q), où e =

Y − Y est un vecteur résiduel. La distance de Cook pour mesurer l’influence

de la iieme observation est définie par :

Di =1

qs2(γ − γ(i))

T ZT Z(γ − γ(i)) (2.15)

En utilisant le fait que

γ − γ(i) = (ZT Z)−1Ziei/(1− hii) (2.16)

et en écrivant hij = ZTi (ZT Z)−1Zj, l’équation (2.15) devient :

Di =1

qs2

e2i hii

(1− hii)2(2.17)

Pour définir la distance de Cook de la fonction f(xij) dans le modèle

(2.1), nous considérons le modèle (2.7) composé par les bases B-splines. Nous

définissons a(k) l’estimateur de a où le kieme individu est éliminé. Soit f(k)(λ)

50

Page 61: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

la fonction estimée par B-spline f(λ) tel que le kieme individu est éliminé. Si

on élimine l’individu k, le changement de la courbe de la fonction f dans le

modèle (2.1) est mesuré par la distance de Cook :

Ck(f) =1

K

∥∥∥f(λ)− f(k)(λ)∥∥∥

2

=1

K(a(λ)− a(k)(λ))

′B′B(a(λ)− a(k)(λ)) (2.18)

où a(k)(λ) = (B′(k)B(k) + λD

′dDd)

−1B′(k)y(k) est l’estimateur du vecteur a sa-

chant que le kieme individu est éliminé. Soit B(k) une matrice où la kieme ligne

de la matrice B est éliminée et Y(k) un vecteur sans la kieme composante. En

appliquant l’approche de Cook, nous trouvons :

a(λ)− a(k)(λ) = (B′B)−1B

′k(I − Pk)

−1ek (2.19)

où ek = (ek1, ..., ekn)T tel que ek1 = yk1 − yk1 est un terme de résidus et

Pk = Bk(B′B)−1B

′k et Bk = (Bk1, ..., Bkn)

′ . En remplaçant l’équation (2.19)

dans l’équation (2.18), nous obtenons une formule simple de la distance du

Cook de la fonction f :

Ck(f) =1

Ke′k(I − Pk)

−1Pk(I − Pk)−1ek (2.20)

51

Page 62: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

2.4 Le test polynomial

Comme la fonction de lissage a été approximée par un polynôme de degré

h, il parait naturel de tester l’adéquation du choix de ce degré pour modé-

liser la relation de causalité entre ces variables. Le test polynomial est une

technique statistique permettant de choisir une forme particulière d’ajuste-

ment d’une variable expliquée étant donné les variables explicatives et par

suite de vérifier le type de la relation appropriée entre les variables (linéaire,

quadratique).

Le test polynomial est souvent utilisé pour vérifier si la relation de cau-

salité entre les variables d’un phénomène étudié est adéquatement modéli-

sée par un polynôme du degré donné. En d’autre terme, le test polynomial

consiste à examiner si la fonction non paramétrique f(x) dans le modèle

(2.1) est un polynôme de degré h. Par exemple, si h = 1, il s’agit de vérifier

si f(x) est une fonction paramétrique linéaire. Selon la spécification de l’al-

ternative non paramétrique et de la nature de l’opérateur de lissage utilisé,

diverses statistiques ont été développées pour tester l’adéquation de la forme

paramétrique des effets des variables explicatives.

Dans la section précédente, nous avons transformé le modèle linéaire semi

paramétrique (2.1) à la structure du modèle linéaire à effets aléatoires totale-

ment paramétrique composé par les fonctions de bases tronquées. La fonction

non paramétrique f(x) dans le modèle linéaire semi paramétrique (2.1) est un

polynôme du degré h si est seulement si a = 0. Ainsi, le degré du polynôme

est une proposition qui nécessite d’être vérifiée par un test d’hypothèse. Par

la suite tester si le degré du polynôme est égale à h revient à tester si la

composante de la variance τ est égale à zéro, selon ce corps d’hypothèse :

52

Page 63: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

H0 : τ = 0 contre HA : τ > 0 (2.21)

Étant donné que le coefficient a dans le modèle (2.7) est un effet aléatoire

d’espérance nulle et de matrice variance- covariance τI, l’hypothèse nulle H0

induit que tous les coefficients de lissage ak sont nuls. Ainsi, l’acceptation de

l’hypothèse nulle H0 permet de s’assurer que la fonction f(x) est un polynôme

de degré h.

Dans cette section, nous présentons le test du score asymptotique déve-

loppé par Zhang et Lin (2003). Ensuite, nous révisons le test du rapport de

vraisemblance exact développé par Crainiceanu et al. (2005).

2.4.1 Le test du score asymptotique

Le test du score est un test paramétrique asymptotique associé généra-

lement à la fonction de vraisemblance. En plus, le test du score consiste à

calculer une statistique en fonction des paramètres estimés sous l’hypothèse

nulle. Zhang et Lin (2003) ont développé une statistique du score pour tester

l’hypothèse nulle H0 : τ = 0. Cette statistique s’écrit sous la forme suivante :

Uτ (γ) = ∂l(τ,γ;Y )∂τ

∣∣∣τ=0,γ=γ

= 12

{(Y −Xβ)

′V −1BB

′V −1(Y −Xβ)− tr(V −1BB

′)}∣∣

γ=γ

(2.22)

où l(τ, γ; Y ) est la fonction de log-vraisemblance du modèle linéaire à effets

aléatoires (2.7),γ = (β, θ, σ2ε)′ est un vecteur des paramètres du modèle (2.7)

estimés sous l’hypothèse nulle par la méthode du maximum de vraisemblance

53

Page 64: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

et V = θZZ′+ σ2

εI est une matrice de variance covariance de la variable

expliquée du modèle (2.7) estimé sous l’hypothèse nulle.

Afin d’étudier la distribution asymptotique de la statistique Uτ (γ), il suffit

d’écrire cette statistique sous la forme suivante :

Uτ (γ) = (Y −Xβ)′M(Y −Xβ)− tr(V 1/2MV 1/2)

= y′V 1/2MV 1/2y − tr(V 1/2MV 1/2)

tel que M = 12V −1BB

′V −1 et y = V −1/2(Y −Xβ)

Soient γ1 ≥ ... ≥ γr > 0 les valeurs propres ordonnées non nulles de

la matrice V 1/2MV 1/2 et Ψ est une matrice diagonale, dont les éléments

diagonaux sont γi. Soit H une matrice de dimension (r, n) composée par

les vecteurs propres associés aux γi tel que HH′

= I, en supposant Hy =

(Z1, ..., Zr)′ , on obtient alors :

Uτ (ψ) = y′HΨH

′y − tr(Ψ) =

r∑i=1

γi(Z2i − 1) (2.23)

Comme Zi sont des variables aléatoires indépendantes suivant la loi Nor-

male standard alors la statistique Uτ (ψ) est approximée par la combinaison

des lois de Chi-deux de degré un.

Étant donné que la détermination de la fonction de densité d’une com-

binaison de lois Chi-deux est compliquée, Zhang et Lin (2003) ont utilisé la

54

Page 65: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

méthode de Satterthwaite pour approximer la distribution Uτ (ψ) par la loi

de Khi-deux mesurée κχ2ν . Ainsi, la statistique transformée S(γ) = Uτ (y;γ)

κest

approximée par la loi de Khi-deux χ2ν avec un degré de liberté ν = 2e2

Iιιou

κ = Iιι

2eest un paramètre d’échelle et tel que :

e =1

2tr(PBB

′),

Iιι = Itt − ItvI−1vv Itv,

Itt =1

2tr(PBB

′)2,

Itv =1

2tr(PBB

′V −1∂V

∂v)

et

Ivv =1

2tr(P

∂V

∂vV −1∂V

∂v).

2.4.2 Le test du rapport de vraisemblance

* Le test du rapport de vraisemblance ((LRT ), pour Likelihood Ratio

Test) est une approche permettant d’accepter ou de rejeter l’hypothèse nulle

H0. La statistique LRT est calculée selon la formule suivante :

LRT = supHA∪H0

L(β, σ2ε , τ)− sup

H0

L(β, σ2ε , τ) (2.24)

55

Page 66: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

tel que L(β, σ2ε , τ) est la fonction du log-vraisemblance des paramètres incon-

nus du modèle linéaire à effets aléatoires (2.7). Au lieu d’utiliser la statistique

LRT , un choix alternatif est d’appliquer la statistique du rapport de vrai-

semblance restreint (RLRT , pour Restricted Likelihood Ratio Test) qui a la

forme suivante :

RLRT = supHA∪H0

REL(β, σ2ε , τ)− sup

H0

REL(β, σ2ε , τ) (2.25)

tel que REL(β, σ2ε , τ) est la fonction log-vraisemblance restreinte des para-

mètres inconnus du modèle linéaire à effets aléatoires (2.19).

Stram et Lee (1994) ont montré que sous la condition que les variables

expliquées sont indépendantes et identiquement distribuées, la statistique du

rapport de vraisemblance suit asymptotiquement une combinaison de lois de

Chi-deux (0.5χ20 + 0.5χ2

1). Cependant dans notre étude, les variables expli-

quées du modèle transformé (2.19) sont dépendantes puisque les données sont

groupées. Selon Pinheiro et Bates (2000), sous l’hypothèse nulle H0 les statis-

tiques LRT et RLRT ne suivent pas asymptotiquement la loi 0.5χ20 + 0.5χ2

1

comme a été suggérée par Self et Liang (1987) et Stram et Lee (1994).

En supposant que leurs statistiques suivent asymptotiquement une com-

binaison de χ20 et χ2

1, les résultats du test de LRT ou RLRT doivent être

interprétés avec réserve. Pour dépasser cette lacune, Crainiceanu et Ruppert

(2004) ont développé un algorithme qui permet de déterminer la distribu-

tion exacte de la statistique de LRT ou de RLRT . Cet algorithme se résume

comme suit :

56

Page 67: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Étape 1 : générer une grille des valeurs de τ où 0 = τ1 < τ2 < .. < τm.

Étape 2 : simuler des K variables aléatoires indépendantes ω21, ..., ω

2K de la

loi χ21 et calculer SK =

∑Ks=1 ω2

s .

Étape 3 : indépendamment de l’étape 1, simuler Xn,K,p =∑n−p

s=K+1 ω2s avec

ω2s ∼ χ2

1

Étape 4 : indépendamment des étapes 1 et 2, simuler Xq =∑q

s=1 u2s avec

u2s ∼ χ2

1

Étape 5 : pour chaque point de la grille τi, calculer :

Nn(τi) =K∑

s=1

τiµs,n

1 + τiµs,n

ω2s , Dn(τi) =

K∑s=1

ω2s

1 + τiµs,n

Xn,K,d (2.26)

Étape 6 : obtenir τmax qui maximise fn(τi) pour τ1, τ2, ..., τm, tel que :

fn(τ) = n log

{1 +

Nn(τ)

Dn(τ)

}−

K∑s=1

log(1 + τζs,n) (2.27)

Étape 7 : calculer la statistique LRTn = fn(τmax) + n log(1 + Xq

SK+Xn,K,d) où

LRTn = fn(τmax) si q = 0. Pour la statistique RLRT , on calcule :

RLRTn = supτ≥0

[(n− p− d− 1) log

{1 +

Nn(τ)

Dn(τ)

}−

K∑s=1

log(1 + τµs,n)

]

(2.28)

Les paramètres µs,n et ζs,n sont définis comme les K valeurs propres des

matrices Z′P0Z et Z

′Z respectivement, avec P0 = In −X(X

′X)−1X

′ .

57

Page 68: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

2.5 Étude de simulation

Le test de score et le test du rapport de vraisemblance sont deux procé-

dures largement utilisées pour prendre la décision d’accepter ou de rejeter des

hypothèses. Comme nous l’avons déjà montré dans la section précédente, le

test du rapport de vraisemblance et le test du score sont deux outils pouvant

être utilisés pour tester le degré du polynôme dans un modèle semi paramé-

trique à effets aléatoires. Cependant, dans la littérature, aucune comparaison

entre ces deux tests n’a été réalisée. Pour cela, nous entreprenons une étude

de simulation pour l’évaluation de la performance des deux procédures du

test polynomial.

Comme un exemple illustratif, nous considérons de tester si une variable

explicative est reliée linéairement avec une variable expliquée. Le test poly-

nomial consiste à tester si les fonctions dans le modèle de régression sont non

paramétriques. Mais, ce test ne peut pas être résolu directement. Ainsi, l’idée

est de transformer le modèle semi paramétrique à effets aléatoires à la struc-

ture du modèle linéaire à effets aléatoires totalement paramétrique composé

par les bases de fonctions puissances tronquées. En considérant que l’inverse

du paramètre de lissage est un effet aléatoire, le test polynomial devient un

test de nullité de la variance de l’effet aléatoire.

Conditionnellement aux effets aléatoires du groupe bi ∼ N(0, σbI) avec

σb = 0.5 et σb = 1, les observations yij avec i = 1, ..., N et j = 1, ..., n de

la variable expliquée continue Y ont été générées respectivement selon ce

modèle composé par un seul effet fixe et un seul effet aléatoire :

yij = α0 + sijα1 + f(xij) + zijbi + εij, (2.29)

58

Page 69: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

où sij est une observation de la variable explicative S générée selon la loi

Normale N(0, 0.1) et xij est une observation de la variable explicative X

générée selon la loi Uniforme U [0, 1]. Les vraies valeurs des paramètres α0 et

α1 ont été prises α0 = 1 et α1 = 2. Deux tailles d’échantillon ont été utilisées

(N = 2, n = 5) et (N = 4, n = 5). Cinq fonctions de f(x) ont été considérées

fc(x) = (0.25c)x. exp(2 − 2x) − x + 0.5, pour c = (0, 1, 2, 3, 4). Notons que

lorsque c = 0 alors fc(x) est une fonction linéaire de la variable x et plus le

paramètre c croit plus la fonction fc(x) se dévie de la forme linéaire, comme

l’indique la figure (2.1) qui représente les courbes de fonctions fc(x).

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2−1.5

−1

−0.5

0

0.5

1

1.5

x

f(x) c=2 c=3

c=0 c=1c=4

Fig. 2.1 – Les fonctions fc(x) avec c = (0, 1, 2, 3, 4) simulées pour tester le

degré du polynôme dans le modèle linéaire semi paramétrique

Pour chaque ensemble de données simulées, le test du rapport de vrai-

semblance restreint asymptotique (RLRT.asy), le test du rapport de vraisem-

blance restreint exact (RLRT.exa) et le test du score asymptotique (SCO.asy)

sont formulés à partir du modèle linéaire transformé, tout en comparant leurs

59

Page 70: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

puissances. Les résultats de simulation sont basés sur 1000 réplications.

Pour tester que f(x) est une fonction linéaire de x, la taille empirique

et la puissance de chaque procédure du test polynomial sont calculées en

fixant l’hypothèse nulle H0 : c = 0 contre une hypothèse alternative H1 : c 6=0. Pour transformer le modèle semi paramétrique à un modèle totalement

paramétrique, nous avons construit des bases splines tronquées en utilisant

20 noeuds. Le nombre d’essais pour établir le test du MCR est égal à 19.

Toutes les expériences ont été exécutées avec le logiciel R (Voir annexe 2).

Les résultats de simulation sont présentés dans les tables (2.1) et (2.2).

Ces deux tables rapportent les pourcentages des rejets de l’hypothèse nulle

par rapport à 1000 réplications pour les niveaux nominaux de 5% et 10%.

En examinant les résultats de simulation, nous constatons que le niveau

empirique de test RLRT.asy est égal à 0.032 qui est nettement différent de

niveau nominal 0.05. Ces résultats sont conformes avec les constatations de

Pinheiro et Bates (2000). Par contre, le test RLRT.exa a un niveau empirique

de l’ordre de (0.049) qui est très proche du niveau nominal 0.05. Le niveau

empirique du RLRT.asy n’a pas changé lorsque le niveau nominal a été

augmenté de 0.05 à 0.1. La comparaison entre les deux tables (2.1) et (2.2),

nous induit à conclure que l’augmentation de la taille d’échantillon rend les

niveaux empiriques des tests plus proches des niveaux nominaux, tandis que

la variance de l’effet spécifique semble avoir une faible influence sur ces tests.

En ce qui concerne la puissance, nous constatons que le test RLRT.exa et

le test du SCO.asy ont une puissance élevée. En outre, nous remarquons que

l’augmentation de la variance de l’effet spécifique entraîne une diminution

de la puissance des deux tests. Comme il est prévu, l’augmentation de la

60

Page 71: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Niveaux σb Tests Tailles Puissances

nominaux c = 0 c = 1 c = 2 c = 3 c = 4

0.05 0.5 RLRT.asy 0.032 0.163 0.685 0.829 1.000

RLRT.exa 0.049 0.419 0.927 1.000 1.000

SCO.asy 0.066 0.401 0.936 1.000 1.000

1 RLRT.asy 0.061 0.068 0.098 0.473 0.793

RLRT.exa 0.049 0.135 0.492 0.737 0.921

SCO.asy 0.060 0.158 0.445 0.762 0.917

0.1 0.5 RLRT.asy 0.032 0.158 0.696 0.990 1.000

RLRT.exa 0.115 0.541 0961 0.999 1.000

SCO.asy 0.138 0.205 0.910 0.950 1.000

1 RLRT.asy 0.062 0.194 0.285 0.473 0.782

RLRT.exa 0.105 0.231 0.578 0.837 0.971

SCO.asy 0.112 0.242 0.556 0.832 0.810

Tab. 2.1 – Niveaux et puissances empiriques des trois tests de la linéarité de

la fonction f dans le modèle (2.29) où N = 2 et n=5

taille d’échantillon améliore la puissance globale. Nous indiquons aussi que la

puissance du RLRT.exa n’est pas changée lorsque le niveau nominal s’accroît.

En général, les résultats obtenus de cette étude de simulation ont montré la

supériorité du test RLRT.exa par rapport au test RLRT.asy et au test du

SCO.asy en terme de puissance.

En comparant le test RLRT.exa avec le test SCO.asy, le test SCO.asy

a au moins deux avantages principaux. D’abord, le test RLRT.exa nécessite

des calculs informatiques plus intensifs que le test SCO.asy, sachant que la

dérivation des distributions nulles des statistiques de RLRT demande la si-

mulation de 1000 réplications à chaque fois. Deuxièmement, le test RLRT.exa

61

Page 72: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Niveaux σb Tests Tailles Puissances

nominaux c = 0 c = 1 c = 2 c = 3 c = 4

0.05 0.5 RLRT.asy 0.041 0.210 0.320 0.710 0.812

RLRT.exa 0.052 0.675 0.927 1.000 1.000

SCO.asy 0.057 0.661 0.890 0.905 1.000

1 RLRT.asy 0.068 0.151 0.364 0.811 0.883

LRT.exa 0.059 0.221 0.680 0.737 0.991

SCO.asy 0.062 0.210 0.510 0.762 0.817

0.1 0.5 RLRT.asy 0.071 0.217 0.412 0.920 1.000

RLRT.exa 0.102 0.762 0.995 1.000 1.000

SCO.asy 0.119 0.731 0.810 0.900 1.000

1 RLRT.asy 0.068 0.115 0.364 0.473 0.782

RLRT.exa 0.107 0.331 0.555 0.937 0.971

SCO.asy 0.119 0.273 0.432 0.812 0.810

Tab. 2.2 – Niveaux et puissances empiriques des trois tests de la linéarité de

la fonction f dans le modèle (2.29) où N = 4 et n=5

n’est pas encore développé pour des modèles plus compliqués tels que le mo-

dèle linéaire généralisé à effets aléatoires, tandis que la méthode du test de

score est flexible et peut être adaptée pour plusieurs situations.

Dans la simulation courante, nous avons seulement considéré un test de

linéarité. Comme extension de ce travail, nous pouvons réaliser un test poly-

nômial de degré plus élevé (h > 1) en considérant des différentes valeurs de

h.

62

Page 73: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

2.6 Conclusion

Dans ce chapitre, nous avons défini le modèle linéaire semi paramétrique

à effets aléatoires comme une extension du modèle linéaire à effets aléatoires.

Ce nouveau modèle permet d’analyser les données groupées d’une variable

expliquée ayant des relations de causalité non linéaires avec des variables

explicatives à travers une fonction de lissage non paramétrique.

La fonction de lissage a été approximée par un polynôme de degré fixe.

Le choix du degré de ce polynôme est une proposition qui nécessite d’être

vérifiée par un test d’hypothèse. Ainsi, nous avons réalisé une comparaison

entre le test du rapport de vraisemblance asymptotique et le test du rapport

de vraisemblance exact et le test du score asymptotique. A travers des études

de simulation, les résultats empiriques obtenus ont montré la supériorité du

test du rapport de vraisemblance exact par rapport au test du rapport de

vraisemblance asymptotique et celui de test du score asymptotique au niveau

de la puissance.

63

Page 74: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Chapitre 3

Modèle de régression logistique à

effets aléatoires

L’intérêt d’une étude statistique réside dans la détermination des facteurs

qui expliquent un phénomène donné. La régression logistique est l’une des

techniques statistiques qui a pour objectif, de produire un modèle permettant

de prédire les probabilités des modalités prises par une variable catégorielle,

le plus souvent binaire, à partir d’une série de variables explicatives continues

et/ou discrètes.

D’un autre côté, dans tout relevé d’expérience, on constate que les don-

nées présentent une certaine variabilité. Ainsi les modèles à effets aléatoires

constituent un moyen sophistiqué pour étudier la variabilité des données.

En introduisant des effets aléatoires dans la modélisation, on arrive à préci-

ser les diverses sources de variation. En effet, la variation totale est divisée

en deux parties : la variation due aux effets aléatoires et celle qu’on affecte

aux erreurs. L’introduction des effets aléatoires dans le modèle de régression

logistique a donné naissance au modèle de régression logistique à effets aléa-

64

Page 75: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

toires. Ce nouveau modèle permet d’établir une relation de causalité entre les

données groupées d’une variable expliquée qualitative et celles des variables

explicatives.

3.1 Spécification du modèle de régression logis-

tique à effets aléatoires

Dans quelques études, nous nous intéressons à modéliser des comporte-

ments décisionnels où la variable expliquée peut prendre deux modalités selon

la décision prise par un individu ou une entreprise d’avoir ou de ne pas avoir

une action donnée.

Une variable qualitative peut provenir d’une variable continue par codi-

fication : si yi est supérieur à un seuil alors on attribue le code 1 et le code 0

sinon. Par exemple, on observe si l’individu a bien ou non supporté une ex-

périence. Dans ce cas, pour chacun individu i = 1, ..., n, la variable expliquée

observée yi est binaire.

Il est clair qu’on ne peut pas utiliser la loi Normale dans la modélisation

de ce type de variables qualitatives. En fait, comme yi ne peut prendre que

deux valeurs (0 ou 1), la perturbation εi prend la valeur 1 − (Xβ)i avec la

probabilité pi et la valeur −(Xβ)i avec la probabilité 1 − pi. Par la suite,

la perturbation εi admet obligatoirement une loi discrète ce qui, interdit

l’hypothèse de normalité. Par conséquent, le modèle linéaire classique n’est

pas adéquat pour formaliser la dépendance de la variable expliquée de nature

qualitative vis-à-vis des valeurs prises par des facteurs explicatifs. Ainsi, on

propose le modèle de régression logistique qui consiste à modéliser la moyenne

65

Page 76: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

conditionnelle de la variable expliquée étant donné les variables explicatives

E(Y |X) au lieu de la variable expliquée Y elle-même. Comme les données

de la variable expliquée yi sont binaires, alors Y suit la loi de Bernoulli de

paramètre p = P (yi = 1). Pour modéliser cette probabilité, on suppose que

la décision repose sur la valeur prise par une variable inobservable y∗i appelée

variable latente, selon le schéma suivant :

On observe yi = 1 lorsque y∗i ≥ 0

On observe yi = 0 lorsque y∗i < 0(3.1)

En réalité, on ne dispose pas des informations sur la variable latente y∗i

qui permettent à l’individu de prendre la décision (choix de 1 ou 0). Pour

rendre le modèle estimable, on suppose que cette variable latente dépend

linéairement d’un certain nombre de variables explicatives :

y∗i = (Xβ)i + εi. (3.2)

Les perturbations εi sont supposées indépendantes, d’espérances nulles

et elles suivent une même loi ayant une fonction de répartition F . Cette

hypothèse d’indépendance se traduit par la condition que les observations

doivent être différentes. En utilisant les équations (3.1) et (3.2), nous pouvons

déduire une relation entre la moyenne E(Y |X) et le prédicteur linéaire (Xβ)i.

On peut alors écrire :

E(yi|Xi) = P (yi = 1|Xi) = P (y∗i ≥ 0|Xi) =

P ((Xβ)i + εi ≥ 0|Xi) = P (εi ≤ (Xβ)i|Xi) = F ((Xβ)i)).

66

Page 77: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

La fonction F prend une forme qui dépend alors de l’hypothèse faite sur

la distribution des perturbations εi. On retient habituellement pour cette

distribution soit une loi Normale centrée et réduite (le modèle est appelé

probit), soit une loi Logistique ayant une distribution centrée et de varianceπ3(le modèle est appelé logit). Nous rappelons que la fonction de répartition

associée à la loi Logistique s’écrit sous la forme suivante :

F ((Xβ)i) =(Xβ)i

1 + exp[(Xβ)i], (3.3)

En considérant g(u) = log(

u1−u

)une fonction de répartition réciproque

de la loi logistique F (u), le modèle de régression logistique s’écrit sous la

forme suivante :

log

(P (yi = 1)

1− P (yi = 1)

)= (Xβ)i. (3.4)

Étant donné la spécification (3.4), le modèle de régression logistique per-

met de prévoir la probabilité d’appartenance à une catégorie. Comme dans le

cas de modèles linéaires avec des variables longitudinales, il est parfois utile

d’incorporer des effets aléatoires dans un modèle de régression logistique qui

peut être étendu en considérant quelques effets comme aléatoires. Les ef-

fets aléatoires notés par b, supposés normalement distribués avec espérances

nulles et la matrice de variance covariance Gθ, où Gθ est une matrice défi-

nie positive qui dépend d’un vecteur de paramètres θ qu’on appelle souvent

le composant de variance. Selon Hedeker et Gibbons (1996), le modèle de

régression logistique à effets aléatoires se définit par l’équation suivante :

67

Page 78: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

yi/b ∼ Bernoulli

((Xβ + Zb)i

1 + exp[(Xβ + Zb)i]

). (3.5)

où β est vecteur des paramètres inconnus, X est une matrice composée par

des variables explicatives connues fixées par l’expérience, b est un effet aléa-

toire qui suit la loi Normale b ∼ N(0, Gθ) et Z une matrice d’incidence

composée par des 0 et 1.

L’équation (3.5) admet une représentation matricielle de la forme sui-

vante :

log

1− µ

)= (Xβ + Zb)i, (3.6)

où µ = (µ11, ..., µij, ..., µNn)′ avec µij = E(yij|xij, bi) = P (yij = 1) est la

probabilité de l’appartenance à une catégorie codée par 1.

3.2 L’estimation du modèle de régression logis-

tique à effets aléatoires

Dans cette section, nous présentons une méthode d’estimation des pa-

ramètres inconnus du modèle de régression logistique à effets aléatoires. Il

s’agit de déterminer, à la vue des observations des variables explicatives, une

approximation des coefficients β et de composante de la variance θ. En fait,

nous espérons que les valeurs des estimations soient les plus proches possibles

des vraies valeurs inconnues. Dans ce qui suit, nous nous concentrons sur la

méthode du maximum de vraisemblance marginale.

68

Page 79: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L’estimation des paramètres du modèle de régression logistique à effets

aléatoires (3.6) se réalise en utilisant la fonction de vraisemblance de Y |b qui

a la forme suivante :

f(Y |b) = exp{Y ′(Xβ + Zb)− log(1 + exp[(Xβ + Zb)])}, (3.7)

avec Y est un vecteur des valeurs prises par la variable expliquée et 1 est un

vecteur unitaire. Nous utilisons aussi la fonction de densité de l’effet aléatoire

b qui s’écrit sous la forme suivante :

f(b) = (2π)−q/2det(Gθ)−1/2 exp(−1

2b′G−1

θ b) (3.8)

où q est la dimension de vecteur b et Gθ est la matrice de variance covariance

de b.

Le modèle (3.6) est correctement défini conditionnellement aux effets aléa-

toires b. Ceci constitue l’obstacle principal à la mise en place de procédures

d’estimation dans la mesure ou ces effets aléatoires qui se réalisent au cours

de l’expérience ne sont pas observés directement. Cet obstacle est d’autant

plus important que l’on cherche à estimer les paramètres de leur distribution.

Comme nous ne connaissons que la loi des observations conditionnellement

aux effets aléatoires, la fonction de la vraisemblance marginale des para-

mètres β et θ s’obtient par l’intégration de la fonction de vraisemblance de

Y |b :

69

Page 80: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L(β, θ; y1..., yn) =

Rq

Πni=1f(yi/b)f(b)db

= (2π)−q/2det(Gθ)−1/2J(β, θ) (3.9)

avec J(β, θ) =∫Rq exp{y′(Xβ +Zb)− log(1+exp[(Xβ +Zb)])− 1

2b′G−1

θ b}db

La fonction de la vraisemblance marginale (3.9) consiste à calculer une in-

tégrale multi- dimensionnelle des fonctions non linéaires dans les paramètres.

Ce qui implique que la résolution d’équations normales est impossible. La

difficulté de trouver une forme explicite de la fonction de vraisemblance mar-

ginale (3.9) a conduit au développement de plusieurs méthodes d’approxima-

tions analytiques de la vraisemblance.

Une démarche classique consiste en l’obtention de la fonction de vraisem-

blance marginale et en sa maximisation moyennant des techniques d’intégra-

tion numériques. Les différentes intégrales sont ainsi approchées numérique-

ment. Nous citons, à titre d’exemple, la méthode de quadratique gaussienne.

Cette démarche a été notamment adoptée par Hinde (1982) et par Anderson

et Aitken (1985). Mais, ces méthodes d’intégration multiple sont numérique-

ment exigeantes et sont difficilement praticables en toute généralité malgré

le développement des capacités informatiques. En effet, elles donnent des

résultats plutôt satisfaisants dans certains cas (dimension q faible) mais se

heurtent à des problèmes de calcul dès que la dimension des effets aléatoires

devienne grande.

Les méthodes de Monte Carlo par chaînes de Markov sont également uti-

lisées. D’ailleurs McCulloch (1997) a proposé une méthode s’appuyant sur

70

Page 81: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

une étape de Metropolis-Hastings conduisant à la construction d’un algo-

rithme de type Espérance - Maximisation (EM). En effet, du fait de non

accessibilité de la distribution conditionnelle des effets aléatoires sachant les

données observées, l’utilisation directe de l’algorithme EM se trouve confron-

tée au problème du calcul de l’espérance conditionnelle de la vraisemblance

des données complètes sachant les données observées. Pour contourner cette

difficulté, McCulloch (1997) propose alors une variante de l’algorithme EM

qui introduit un algorithme de Metropolis-Hastings dans le but d’approcher

par Monte Carlo l’espérance de l’étape E. Cette méthode sera présenté en

détail dans la section suivante.

Puisque la distribution marginale des observations est très difficile à at-

teindre, une autre démarche est de s’inscrire dans un raisonnement condition-

nel. C’est ce que a été proposé par Breslow et Clayton (1993), par exemple, en

effectuant une libéralisation du modèle. Ainsi, replongé dans le cadre linéaire,

le problème du calcul intégral est alors contourné.

Dans la section suivante, nous revenons en détails sur l’approximation La-

place proposée par Breslow et Clayton (1993). Nous avons choisi de décrire

cette méthode car nous serons amenés à l’adapter dans le cadre de l’estima-

tion des paramètres du modèle de régression logistique semi paramétrique.

3.2.1 La méthode de la quasi- vraisemblance pénalisée

Breslow et Clayton (1993) ont proposé la méthode de la quasi- vraisem-

blance pénalisée ((PQL), pour Penalized Quasi likelihood) pour détermi-

ner une approximation analytique de la fonction de vraisemblance marginale

(3.9). La technique PQL consiste à estimer les paramètres du modèle de

71

Page 82: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

régression logistique à effets aléatoires en adaptant le problème à celui d’es-

timation du modèle linéaire à effets aléatoires. En fait, les estimateurs des

paramètres du modèle (3.5) par la méthode PQL sont obtenus en traitant les

effets aléatoires b comme des paramètres fixes et la fonction de vraisemblance

est pénalisée selon la distribution de b. Ainsi, pour une valeur donnée θ, les

estimateurs des paramètres β et b sont obtenus en maximisant la fonction du

log- vraisemblance marginale pénalisée :

log{f(y|b)} − 1

2b′G−1

θ b (3.10)

L’équation log- vraisemblance marginale pénalisée (3.10) est une fonction

non linéaire ayant une forme compliquée. Il n’est pas possible d’exprimer

les estimateurs par des simples fonctions d’observations. Cette équation doit

être résolue au moyen d’algorithmes tels que celui de Newton-Raphson qui

se base sur le calcul des dérivées premières et secondes de l’équation (3.10).

Soit µ = E(Y |X, Z, b) vecteur de la moyenne conditionnelle de Y et

W = var(Y |X,Z, b) matrice de variance covariance de Y , la différenciation

directe de la fonction de quasi-vraisemblance marginale pénalisée (3.10) par

rapport à β et b mène aux équations normales suivantes :

g =

X

′(Y − µ)

Z′(Y − µ)−G−1

θ b

(3.11)

En considérant la dérivée seconde de l’équation (3.10) par rapport à β et

b, nous obtenons la matrice Hessienne suivante :

72

Page 83: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

H = − X

′WX X

′WZ

Z′WX Z

′WZ −G−1

θ

(3.12)

Les paramètres β et b de l’équation (3.6) peuvent être déterminés itérati-

vement au moyen de l’algorithme Newton-Raphson en utilisant les équations

(3.11) et (3.12). Soit δ = (β, θ) un vecteur composé par les paramètres in-

connus, à la itération k, δ(k+1) se calcule en fonction de δ(k) selon la formule

de récurrence suivante :

δk+1 = δk − {Hk

}−1gk (3.13)

En remplaçant les équations (3.11) et (3.12) dans l’équation (3.13), on

obtient le système d’équations suivant :

X

′W kX X

′W kZ

W kX Z′W kZ + W kZ

βk+1

bk+1

=

X

′W kyk

W kyk

(3.14)

où yk = Xβk + Zbk +(W k

)−1(Y − µk) .

Breslow et Clayton (1993) ont développé une formule semblable à la mé-

thode de scoring de Fisher du modèle linéaire à effets aléatoires. Ainsi, en

utilisant des pseudo données ypseudo, les estimations des paramètres (β, b) par

la méthode PQL peuvent établir :

73

Page 84: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

ypseudo = Xβ + Zb + W−1(y − µ) = Xβ + Zb + εpseudo. (3.15)

Cette équation a la forme de celle du modèle linéaire à effets aléatoires, où

W−1 est l’inverse de la matrice variance covariance des pseudoerreurs εpseudo.

Selon l’approche de Breslow et Clayton (1993), l’estimation du modèle de

régression logistique à effets aléatoires (3.5) revient à estimer un modèle li-

néaire à effets aléatoires (3.15). En effet, en transformant les données binaires

des variables expliquées y sous la forme des pseudo données ypseudo et en cal-

culant des pseudo erreurs εpseudo = W−1(Y −µ), il est possible d’appliquer la

procédure d’estimation du modèle linéaire à effets aléatoires par la méthode

du maximum de vraisemblance décrite dans le chapitre précédent.

3.2.2 L’algorithme Monte Carlo EM

L’algorithme Espérance - Maximisation (EM) est une solution alternative

pour l’estimation des paramètres du modèle de régression logistique à effets

aléatoires (3.5). Cette méthodologie a été mise en place par Dempster et al.

(1977) et s’exécute en deux étapes : La première, s’appelle l’étape Espérance

et consiste à calculer l’espérance conditionnelle de la vraisemblance des don-

nées complètes par rapport à la distribution des données manquantes. La

deuxième s’appelle l’étape Maximisation et consiste à maximiser l’espérance

conditionnelle de vraisemblance des données complètes.

Soit δ = (β, θ) un vecteur composé par les paramètres inconnus. L’algo-

rithme EM s’itère entre l’étape Espérance et l’étape Maximisation jusqu’à

l’obtention de la convergence. A l’itération [t + 1], à l’étape -Espérance, on

calcule l’espérance conditionnelle de vraisemblance de δ comme suit :

74

Page 85: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Q(δ(t+1)|δ(t)) = Ey|b;δ(t){log f(y, b; δ(t+1))}, (3.16)

tandis que l’étape Maximisation implique une mise à jour de l’estimation des

paramètres par la maximisation de l’équation (3.16), on obtient alors :

δ(t+1) = arg maxδ

Q(δ(t+1)|δ(t)). (3.17)

En appliquant la règle de Bayes

f(y, b; δ) =f(y, b; δ)f(b)∫

Rq f(y|b; δ)f(b; δ)db, (3.18)

l’espérance conditionnelle de la vraisemblance des données complètes de-

vient :

Q(δ(t+1)|δ(t)) =

∫Rq f(y, b; δ(t+1))f(y, b; δ(t))db∫

Rq f(y, b; δ(t))db. (3.19)

Le calcul de l’espérance conditionnelle de la vraisemblance des données

complètes Q(δ(t+1)|δ(t)

)nécessite la détermination de la loi a posteriori de

f(b|y, δ(t)). McCulloch (1997) a adapté la méthode Monte-Carlo Chaîne de

Markov (MCMC) pour la simulation de la distribution de f(b|y, δ(t)). L’ob-

jectif de l’utilisation de la méthode MCMC est de générer des données des

effets aléatoires inobservables. Sous l’hypothèse que les effets aléatoires b =

(b1, ..., bN)′ suivent la loi normale, nous dressons un tirage aléatoire de la dis-

tribution conditionnelle f(b|y, δ(t)). L’algorithme de la Metropolis-Hastings

75

Page 86: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

a été appliqué par Tanner (1993). Cet algorithme est une technique de

(MCMC) permettant de résoudre ce genre des problèmes puisqu’il n’exige

pas le calcul direct de la distribution de f(y; δ).

L’application de l’algorithme Metropolis-Hastings commence par le choix

d’une fonction g(b) comme une distribution candidate à partir de laquelle,

des nouvelles valeurs potentielles sont tirées. Ensuite, on passe à l’indication

d’une fonction d’acceptation qui permet de fournir la probabilité d’accep-

tation des nouvelles valeurs par opposition à maintenir les précédentes. A

l’itération [t] de l’algorithme EM, on désigne par b le vecteur des résultats

du tirage aléatoire précédent de la distribution conditionnelle f(b|y, δ(t)).

En utilisant la loi Normale N (0, θ) comme une distribution candidate g(b)

et le processus de marche aléatoire b∗j = bj−1+cZ où Z est un vecteur simulé à

partir de la loi Normale standard et c est une constante connue, nous générons

des nouvelles valeurs b∗j pour le jieme élément de b∗ = (b1, ..., bj−1, b∗j , bj+1, ..., bN).

La fonction d’acceptation selon McCulloch (1997) prend la forme suivante :

αj(b, b∗) = min

{1, exp

N∑i=1

yij(b∗j − bj)

N∏i=1

1 + exp(x′ijβ + zijbj)

1 + exp(x′ijβ + zijb∗j)

}(3.20)

L’étape suivante de l’algorithme Metropolis-Hastings est de dresser uj une

réalisation de la loi Uniforme de paramètre [0,1], ensuite cette réalisation est

comparée à la valeur de la probabilité d’acceptation αj(b, b∗). Si uj < αj alors

la nouvelle valeur b∗j dressée de la distribution fb|y est retenue. Si uj > αj

alors on retient bj−1 la valeur précédente de la distribution fb|y.

76

Page 87: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Pour récapituler, la méthode d’estimation proposée par McCulloch (1997)

se réalise en deux étapes : La première étape est inspirée de l’algorithme

MCMC pour générer des données inobservables. La seconde étape est inspirée

de l’algorithme EM pour faciliter la maximisation des fonctions de vraisem-

blance. Après la génération de l’échantillon b1, ..., bM (avec M est le nombre

des simulations) en utilisant l’algorithme Metropolis-Hastings décrit ulté-

rieurement, on choisit δ(t+1) qui maximise la fonction du log-vraisemblance

Monte Carlo qui s’écrit comme suit :

Q(δ(t+1)|δ(t)) =1

M

M∑m=1

log f(y, bm; δ(t+1)) (3.21)

On itère ce processus jusqu’à la convergence de δ.

3.3 Diagnostic du modèle de régression logis-

tique à effets aléatoires

Cook (1977) a développé une statistique du diagnostic pour évaluer le

changement de la valeur du paramètre estimé suite à l’exclusion des obser-

vations de l’échantillon d’étude. Sur la base des travaux pilotes de Cook

(1977) et Cook et Weisberg (1983), plusieurs auteurs ont adapté la distance

du Cook à la structure du modèle linéaire à effets aléatoires. Nous citons,

à titre d’exemple, Banerjee et Frees (1997), Fung et al. (2002) et Haslett et

Dillane (2004). Cependant, le développement d’une statistique du diagnostic

par élimination pour le modèle de régression logistique à effets aléatoires est

plus compliqué, vu que ce modèle est composé par des variables latentes.

77

Page 88: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

En raison de la structure des données du modèle de régression logistique

à effets aléatoires, l’étude du diagnostic consiste à supprimer toutes les ob-

servations de l’individu i, à savoir le vecteur yi = ( yi1, ..., yin)′ . Soit β(k)

l’estimateur de β évalué en éliminant le kieme individu. L’évaluation de l’in-

fluence du kieme individu sur l’estimateur du maximum de vraisemblance β,

se réalise par le calcul de la différence entre β(k) et β. Si le paramètre β(k)

est très différent de β, alors l’individu k est considéré influent. Une métrique

pour mesurer la distance entre β(k) et β est donnée par :

CD(k)

= (β(k) − β)′(L(β))(β(k) − β) (3.22)

avec L(β) est la dérivée de la fonction du maximum de vraisemblance.

Le calcul de la statistique du diagnostic CD(k)

nécessite la détermination

de β(k). Nous proposons d’appliquer l’algorithme EM-MCMC pour l’estima-

tion de β(k). Cependant, pour conduire une analyse complète d’influence, il

est nécessaire de calculer β(k) pour les différents groupes k, mais ce calcul

devient lourd lorsque le nombre des groupes N est assez élevé. Pour voir

l’impact de l’élimination du kieme groupe sur le paramètre de la régression,

nous considérons la fonction de log- vraisemblance de MC calculée sans le

kieme groupe :

L(k)(β) =1

M

M∑m=1

i6=k,j

yij

(x′ijβ + z

′ijbm

)− log

[1 + exp

(x′ijβ + z

′ijbm

)]

(3.23)

78

Page 89: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

La dérivée première de L(k)(β) est égale à :

L(k)(β) =1

M

M∑m=1

i6=j

xij(yij − µij) = X′S −XkSk (3.24)

La dérivée seconde de L(k)(β) est égale à :

L(k)(β) =1

M

M∑m=1

i6=k,j

exp(x′ijβ + z

′ijbm

)[1 + exp

(x′ijβ + z

′ijbm

)]2xijx′ij

= X′V X − VkXkX

′k = T

′T − TkT

′k (3.25)

où Tk =√

VkXk

Soit β1(k) l’approximation d’ordre un du paramètre β calculée en éliminant

le kieme groupe de l’échantillon considéré. β1(k) est déterminé à partir d’une

solution initiale β0(k) en utilisant l’algorithme de Newton Raphson tel que :

β1(k) = β0

(k) + (−L(k)(β))−1L(k)(β)

= β0(k) + (T

′T − TkT

′k)−1

(X

′S −XkSk

)(3.26)

Bien sur, la réalisation de l’algorithme de Newton Raphson pour l’esti-

mation de β1(k), en éliminant chaque fois un groupe d’observations est une

procédure impraticable et une perte de temps. D’où, il faut déterminer une

expression qui permet de calculer β1(k) sans recourir à répéter la procédure

d’estimation. Ceci a l’avantage de gagner le temps surtout pour les données

79

Page 90: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

de taille élevée. En nous inspirant des travaux de Fung et al. (2002), nous

pouvons énoncé le théorème suivant :

Théoréme 3.3.1. L’approximation d’ordre un de β(k) , après l’élimination

du keme groupe, est donnée par :

β1(k) = β1 −

(T′T

)−1

T′k(I − Hk)

−1e∗k|β1 = β1, bi = bi (3.27)

où e∗k = [v−1/2k Sk−Tk

(T′T

)−1T′V −1/2S]β=β0 , T = V 1/2X = (T

′1, .., T

′n), Sk =

V1/2k Xk, et Hk = T

′k

(T′T

)−1Tk.

Démonstration : En appliquant, la formule de l’inverse de matrice nous

obtenons :

(X′(k)V(k)X(k))

−1 = (X′V X)−1 + (X

′V X)−1Xk(V

−1k

+Xk(X′V X)−1X

′k)−1Xk (3.28)

En supposant Z = V 1/2X = (Z′1, .., Z

′n) ;Zk = V

1/2k Xk et Hk = Z

′k

(Z′Z

)−1Zk

alors l’équation (3.28) devient :

(Z′(k)Z(k))

−1 =(Z′Z

)−1

+(Z′Z

)−1

Z′k(I − Hk)

−1Zk

(Z′Z

)−1

(3.29)

Z′(k)V

−1/2(k) S(k) = Z

′V −1/2S − ZkV

−1/2k Sk (3.30)

80

Page 91: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L’estimateur β1(k) sera calculé en utilisant ce développement matriciel :

β1(k) ' (T

′(k)T(k))

−1(T′(k)V

−1/2(k) S(k))

= β1 +(T′T

)−1

T′k[(I − Hk)

−1Tk

(T′T

)−1

T′V −1/2S

−(I − Hk)−1HkV

−1/2k Sk − V

−1/2k Sk]

= β1 −(T′T

)−1

T′k(I − Hk)

−1e∗k (3.31)

où e∗k = [V−1/2k sk − Tk

(T′Z

)−1T′V −1/2S]β=β0

Les équations (3.22) et (3.31), nous permet de déterminer une formule de

calcul pratique de la distance de Cook CD1i (β) :

CD1k(β) = e

′∗k (I − Hk)

−1Hk(I − Hk)−1i e∗k/p (3.32)

Zhu et al. (2001) ont montré que sous des conditions modérées,la statis-

tique CDk(β) a des rapports asymptotiques étroits avec leur approximation

CD1k(β). Le calcul de la statistique CDk(β) nécessite la détermination de la

fonction du maximum de vraisemblance marginale et les dérivées premières

et secondes de cette fonction. Ces quantités n’ont aucune forme explicite dans

le contexte du modèle logistique mixte. Nous avons proposé de résoudre cette

difficulté en utilisant l’intégration Monte Carlo et en faisant un tirage aléa-

toire des effets aléatoires bi à partir de la distribution conditionnelle f(b|y, β

)

par l’algorithme de Métropolis Hasting.

81

Page 92: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

3.4 Application : Anticipation de la détresse fi-

nancière

Le modèle de régression logistique à effets aléatoires est illustré à travers

une application réelle concernant l’anticipation de la détresse financière des

entreprises tunisiennes. Conscient de l’importance des risques liés à l’octroi de

crédit, le comité de Bâle a instauré, en 1988, des obligations réglementaires en

matière de fonds propre des banques connues sous le nom de ratio Cooke ou

ratio de capital dans le but d’accroître la sécurité des banques et la stabilité

du système financier dans son ensemble. Cependant, face à la montée du

risque de crédit au cours des années 90, le dispositif du ratio Cooke a montré

des faiblesses liées à l’absence de relation entre les exigences de fonds propres

et le risque effectif des crédits à l’économie. Par conséquent, une nouvelle

réforme a été entamée en janvier 2001 connue sous le nom de " Bâle II " qui

instaure un nouveau ratio de solvabilité, c’est le ratio " Mc Donough ".

Néanmoins, ces nouveaux accords sur la solvabilité des banques ne lui

présentent qu’une part de garantie lors des événements imprévisibles citant

principalement la crise financière qui a traversé le monde depuis 2007 partant

des États-Unis et qui s’est propagé très rapidement pour les différents pays

européens et encore maintenue. Par ailleurs, les banques et les organismes

financiers se trouvent face à l’obligation de parvenir à une meilleure gestion

du risque de crédit en développant des outils statistiques dans le but de

prévoir la détresse financière des entreprises.

Altman (1968) estime qu’une entreprise en situation de la détresse lorsque

sa rentabilité est inférieure à ce qui est ordinairement observé dans des cir-

82

Page 93: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

constances analogues. Ainsi, la prévision de la détresse financière d’entre-

prises est très importante pour ceux qui y sont impliqués (actionnaires, ges-

tionnaires, salariés, prêteurs, fournisseurs, clients et surtout l’État).

Le développement et l’utilisation des modèles de prévision sont des outils

très importants pour ces parties pour deux raisons : D’abord, ces modèles

servent comme "système d’alerte " pour les gestionnaires d’entreprises qui

peuvent entreprendre des actions de prévention contre le risque de faillite (par

exemple, opération de rachat, de liquidation, de redressement, etc.). Ensuite,

ces modèles peuvent être aussi utiles pour les professionnels des établisse-

ments financiers dans l’évaluation et la sélection des entreprises auxquelles

ils prêtent des crédits. De telles décisions d’investissement doivent prendre

en considération à la fois le coût d’opportunité et le risque de défaillance.

En partant de ces considérations et devant l’ampleur du phénomène, diverses

études et recherches ont été menées dans ce sens depuis les années soixante du

dernier siècle. Elles visaient à mettre en évidence les principaux indicateurs

permettant de prévoir à temps les difficultés éprouvées par les entreprises.

Nous pouvons citer parmi les premiers travaux, à titre d’exemple, ceux de

Beaver (1966) et Altman (1968).

Depuis cette période et jusqu’à nos jours, le nombre d’études sur l’éva-

luation des risques de faillite et la prévision de la détresse financière des en-

treprises ne cesse d’accroître. Il suffit de citer Bardos et Zhu (1997), Chava et

Jarrow (2004) et Hillegeist et al. (2004). La grande majorité de ces recherches

s’appuient sur des outils d’analyse statistique de grandeurs comptables et de

ratios financiers pour discriminer les entreprises saines des entreprises dé-

faillantes. Ces études ont abouti à une fonction de score qui est un indicateur

83

Page 94: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

de synthèse censé de donner en un chiffre, le degré de défaillance possible

d’une entreprise.

3.4.1 La structure des données

La source d’information qui a été utilisée pour cette étude est la Banque

centrale de Tunis. Une série de données financières a été collectée à partir

des documents de synthèse (bilans et comptes de résultats) sur la période

(1999-2006). Notre base de données est constituée d’un échantillon de 528

entreprises appartenant à différents secteurs d’activité. Cet échantillon pré-

sente une certaine hétérogénéité puisqu’il s’agit d’entreprises appartenant à

20 secteurs différents réparties comme l’indique la table (3.1).

Nous allons utiliser comme variables explicatives les ratios financiers.

Comme il existe des dizaines de ratios, le choix de ces variables indépendantes

est un problème fondamental dans l’élaboration d’un modèle de prédiction

de défaillance.

Dans notre application, nous avons choisi de retenir des ratios liés aux

différentes dimensions de l’analyse financière et qui représentent les différents

critères d’appréciation de la bonne santé d’une entreprise. Les thèmes sont la

structure financière, rotation, rentabilité, charges financières, la solvabilité et

la liquidité. La batterie des variables entrées (Inputs) du modèle comporte

26 ratios (voir annexe 5).

Le critère de classification retenu pour la détermination de la variable

expliquée a priori est l’état juridique de l’entreprise. Ce critère est jugé bon du

fait qu’il reflète la solvabilité des entreprises. La structure de cet échantillon

84

Page 95: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

est décrite sous deux classes juridiques : saines ou défectueuses. La variable

expliquée Y peut être écrite par des valeurs binaires :

Y =

1 pour les entreprises en détresse

0 pour les entreprises saines(3.33)

En adoptant ce critère de classement, nous avons pu décomposer a priori

l’échantillon en deux sous-groupes. Le premier groupe est composé par 448

entreprises saines et le second groupe est composé par 80 entreprises en si-

tuation de détresse.

3.4.2 La fonction de régression logistique à effets aléa-

toires du score de détresse

Press et Wilson (1978) ont utilisé des données de ratios en coupe trans-

versale pour examiner si les coefficients de la fonction de score estimés a

partir du modèle de régression logistique sont des déterminants valides de la

faillite des entreprises. Cependant, des informations importantes pourraient

être omises en utilisant seulement une analyse en coupe transversale. L’ana-

lyse de données longitudinale est une technique appropriée pour traiter ce

genre de problème, parce qu’elle tient compte des propriétés des effets non

observables qui peuvent être dûs aux regroupements de l’échantillon étudié

en classe. Dans ce cas, la modélisation des effets peut intervenir dans l’ex-

plication du phénomène étudié. La partie explicative du modèle est raffinée

par la combinaison linéaire de ces deux types d’effets : les effets fixés et les

effets aléatoires.

En ce qui concerne le modèle basé sur la régression logistique, nous avons

sélectionné 8 ratios significatifs parmi 26 ratios de l’étude. Étant donné la

85

Page 96: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

structure longitudinale des données de notre étude, une source d’hétérogé-

néité individuelle est considérée. Le risque de la détresse financière peut être

déterminé par un modèle de régression logistique à effets aléatoires qui s’écrit

sous la forme suivante :

log

(Pij

1− Pij

)= β1R7,ij + β2R9,ij + β3R10,ij + β4R14,ij

+β5R20,ij + β6R21,ij + β7R23,ij + bi, (3.34)

tel que Pij=P (Y = 1|Rij) avec i= 1, ..., 20 et j= 1, ...,ni est la probabilité a

posteriori d’appartenance au groupe d’entreprises en détresse, Rij sont des

ratios financières et bi est l’effet spécifique sectoriel supposé Normalement

distribué. Ainsi, nous avons associé aux ratios un effet spécifique sectoriel

qui représente l’hétérogénéité des entreprises.

Les paramètres du modèle de la régression logistique à effets aléatoires

(3.34) a été estimé par la méthode du maximum de vraisemblance marginale

(Breslow et Clayton (1993)) en utilisant le package (glmmPQL) du logiciel

R. La table (3.2) rapporte les résultats d’estimation du modèle (3.34) pour

les données de notre échantillon.

Le pouvoir discriminant du ratio Rk est défini par le rapport : σ2kβ2

k∑σ2

kβ2kavec

σk est l’écart type du ratio Rk. Il exprime l’influence du ratio dans la fonction

de score. D’après la table (3.2), les ratios R9 et R10 jouent un rôle capital

dans la formation de la fonction de score des entreprises puisque ces ratios

ont un pouvoir discriminant de l’ordre de 99%.

86

Page 97: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

En outre, nous remarquons que l’effet estimé de la variable R9 (la ren-

tabilité économique) a un signe positif. Comme la rentabilité économique

est égale au rapport entre le frais financier et l’actif total. Cela signifie que

l’augmentation des frais financiers fait diminuer la rentabilité économique ce

qui explique l’accroissement de la probabilité d’être en détresse. Par contre

la variable R10 (la rentabilité des capitaux investis) qui est égale au rapport

entre le résultat net et l’actif total présente un signe négatif ce qui induit

que l’augmentation des résultats nets implique une diminution de risque de

défaillance.

Après l’intégration de l’effet sectoriel dans le modèle de régression logis-

tique, nous avons abouti aux estimations présentés dans la table (3.3). Ces

estimations des effets aléatoires sectoriels présentent un classement des sec-

teurs de moins risqués aux plus risqués. Autrement dit, d’après les résultats

de la table (3.3), le secteur " Commerce, réparations automobile et d’ar-

ticles domestiques " est le secteur le moins risqué, puisqu’il admet −4.401

comme effet aléatoire. Par contre nous avons enregistré un effet de 6.261 pour

le secteur "Autres industries manufacturières" que nous pouvons considérer

comme le secteur le plus risqué.

3.5 Conclusion

Dans ce chapitre, nous avons présenté le modèle de régression logistique à

effets aléatoires qui sert à modéliser la relation de causalité entre une variable

qualitative longitudinale expliquée et des variables explicatives de différentes

natures. Les paramètres inconnus de ce modèle sont estimés par la méthode

du maximum de vraisemblance marginale. Nous avons fait un résumé sur les

87

Page 98: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

méthodes des approximations analytiques de la fonction de vraisemblance

tels que l’approximation Laplace proposée par Breslow et Clayton (1993)

et l’algorithme EM -MC développé par McCulloch (1997). Ensuite, nous

avons aussi développé une méthode de diagnostic par élimination appliquée

au modèle de régression logistique à effets aléatoires.

Nous avons illustré ces méthodes par une étude empirique basée sur des

données relatives à des entreprises tunisiennes. En utilisant des ratios finan-

cières, nous avons calculé une fonction score par la méthode de la régression

logistique à effets aléatoires en considérant la détresse financière comme une

variable expliquée binaire. L’objectif de ce modèle est de capturer des effets

inaperçus qui sont dues à l’hétérogénéité des entreprises de la population étu-

diée. En d’autres termes, nous avons mis en évidence les déterminants non

observables de la détresse financière de chaque secteur de l’échantillon étu-

dié. La principale conclusion tirée de cette étude est que le secteur industries

manufacturières est le secteur le plus risqué.

Eilers et Marx (1998) ont proposé les modèles généralisés additifs pour

la modélisation des relations non linéaires entre une variable d’intérêt qua-

litative et des variables explicatives. Notre étude peut être prolongée pour

modéliser les relations de causalité dans le modèle de régression logistique à

effets aléatoires par une méthode non paramétrique .

88

Page 99: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Code Les secteurs Nombre

1 Industrie chimique 34

2 Industrie du papier et du carton édition et imprimerie 23

3 Extraction de produits non énergétiques 7

4 Transports et communications 30

5 Industries agricoles et alimentaires 39

6 Industrie du caoutchouc et des plastiques 27

7 Commerce réparations automobile et d’articles domestiques 69

8 Fabrication équipements électriques et électroniques 26

9 Construction 36

10 Hôtels et restaurants 37

11 Immobilier locations et services aux entreprises 23

12 Industrie du caoutchouc et des plastiques 19

13 Agriculture chasse sylviculture 20

14 Industrie textile et habillement 40

15 Fabrication d’autres produits minéraux non métalliques 28

16 Métallurgie et travail des métaux 27

17 Sante et action sociale 21

18 Fabrication de machines et équipements 13

19 Autres industries manufacturières 20

Total 528

Tab. 3.1 – Le nombre des entreprises par secteur

89

Page 100: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Val. estimés Pouv. discrim. t value p-value

(constante) -2.258303 -18.03 0.0000

R7 : Rotation de l’actif 0.235746 0.0016 3.87 0.0001

R9 : Rentabilité économique 8.742052 0.5414 8.36 0.0000

R10 : Rentabilité des capitaux -10.65694 0.4506 -8.40 0.0000

R14 : Taux de rentabilité des capitaux 0.033662 0.0000 1.79 0.0740

R15 : Rotation des capitaux -0.002738 0.0000 -1.65 0.0993

R20 : Couverture des immobilisations 0.237643 0.0062 -4.82 0.0000

R21 : Capacité d’endettement -0.238740 0.0000 -2.64 0.0084

R23 : Ratio de charges financières -0.272702 0.0000 -2.61 0.0091

Tab. 3.2 – Les coefficients estimés des effets aléatoires

90

Page 101: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

codes Les secteurs Effets aléatoires

1 Commerce, réparations automobile et d’articles domestiques -4,401

2 Métallurgie et travail des métaux -2,943

3 Industrie du caoutchouc et des plastiques -1,480

4 Industrie du cuir et de la chaussure -1,009

5 Agriculture chasse sylviculture -0,768

6 Fabrication de machines et équipements -0,654

7 Santé et action sociale -0,596

8 Immobilier locations et services aux entreprises -0,256

9 Fabrication d’autres produits minéraux non métalliques 0,211

10 Industrie textile et habillement 0,284

11 Industrie chimique 0,377

12 Transports et communications 0,473

13 Fabrication équipements électriques et électroniques 0,551

14 Extraction de produits non énergétiques 0,584

15 Industrie du papier et du carton édition et imprimerie 0,597

16 Construction 0,860

17 Hôtels et restaurants 1,045

18 Industries agricoles et alimentaires 1,198

19 Autres industries manufacturières 6,261

Tab. 3.3 – Les coefficients estimés des effets aléatoires

91

Page 102: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Chapitre 4

Modèle de régression logistique

semi paramétrique à effets

aléatoires

Dans le chapitre précédent, nous avons présent le modèle de régression

logistique à effets aléatoires comme un outil qui permet de modéliser des

relations de causalité entre une variable longitudinale qualitative et des va-

riables explicatives. Une caractéristique importante de ce modèle est que la

moyenne conditionnelle de la variable expliquée est liée paramétriquement

aux variables explicatives et aux effets aléatoires. En réalité, l’hypothèse

que la forme fonctionnelle dans le modèle de régression est linéaire souvent

n’est pas appropriée surtout lorsque le phénomène étudié est compliqué. Pour

contourner cette lacune, Zhang et Lin (2003) ont proposé une modélisation

flexible des effets des variables explicatives ou le prédicteur linéaire dans le

modèle de régression est remplacé par des fonctions non paramétriques. Le

nouveau modèle est nommé le "Modèle de régression logistique semi para-

métrique à effets aléatoires".

92

Page 103: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L’intérêt principal du modèle semi paramétrique est qu’il permet de dis-

tinguer les relations linéaires et les relations non linéaires au sein d’un même

modèle. L’idée est de prendre en compte la linéarité de certaines relations

afin de réduire le coût de l’estimation qu’aurait un modèle non paramétrique,

tout en gardant la complexité de modélisation sous-jacente au modèle non

paramétrique pour expliquer les autres relations.

Après avoir proposé un modèle de régression logistique semi paramé-

trique, il est important de tester statistiquement la nouvelle forme fonc-

tionnelle des variables explicatives. Afin d’évaluer l’adéquation de la forme

paramétrique imposée sur les variables explicatives dans le modèle de ré-

gression, une approche commune est de projeter le problème dans le cadre

de test d’hypothèse, où des classes de modèles sont choisis comme des solu-

tions alternatives. Dans notre étude, nous allons vérifier si la relation entre

une variable expliquée et une variable explicative s’établit réellement par un

polynôme d’un degré donné.

4.1 Spécification du modèle de régression logis-

tique semi paramétrique à effets aléatoires

Dans le chapitre précédent, nous avons vu que la régression logistique à

effets aléatoires est un modèle paramétrique linéaire qui sert à modéliser des

relations de causalité entre une variable expliquée qualitative et des variables

explicatives. Ainsi, pour rendre le modèle de régression logistique plus flexible

et plus sophistiqué, quelques variables explicatives peuvent être transformées

par des fonctions de lissage non paramétriques. Le nouveau modèle obtenu

est désigné par le modèle de régression logistique semi paramétrique à effets

93

Page 104: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

aléatoires.

Considérons une étude de causalité entre trois variables longitudinales

Y , X et S telles que les observations de ces variables sont réparties sur N

groupes et chaque groupe est formé par n observations. Soient (xi1, ..., xin)

et (si1, ..., sin) avec i = 1, ..., N deux échantillons de variables explicatives à

valeurs respectivement dans R. Soit (yi1, ..., yin) un échantillon d’observations

binaires à valeur dans R. La variable expliquée Y est supposée admettre une

relation paramétrique linéaire avec la variable explicative S. Étant donné

qu’on n’a pas des informations sur la forme de régression entre X et Y ,

les réalisations de la variable explicative xij est modélisée d’une façon non

paramétrique à travers une fonction de lissage.

Conditionnellement au vecteur d’effets aléatoires b, la variable expliquée

Y est supposée indépendante d’espérance conditionnelle E(Y |b) = µb et de

matrice de variance conditionnelle var(Y |b) = diag(µb). Formellement, le

modèle de régression logistique semi paramétrique à effets aléatoires s’écrit

sous la forme suivante :

log

(µb

ij

1− µbij

)= s

′ijα + f(xij) + z

′ijbi (4.1)

où µbij = Pr(yij = 1|xij, bi) avec i = 1, ..., N et j = 1, ..., n est la probabilité

a posteriori d’appartenance à une catégorie codée par 1, α est un vecteur

des coefficients de régression inconnus associé aux réalisations de variables

explicatives sij, f est une fonction de lissage de xij deux fois différentiable,

bi est un vecteur des effets spécifiques aléatoires qu’on suppose suivre la loi

94

Page 105: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Normale bi ∼ N(0, Gθ) et zij est un vecteur d’incidence supposé connu et

prend la valeur 1 ou 0.

Les cas spéciaux du modèle (4.1) servent à modéliser pour quelques ap-

plications. Nous citons le cas où tous le groupes sont composés par une seule

observation (n = 1), le modèle (4.1) se réduit à un modèle de régression

logistique partiellement linéaire tel qu’il a été considéré par Heckman (1986)

et par Speckman (1988). Si on élimine la fonction f, le modèle (4.1) devient

un modèle de régression logistique à effets aléatoires, tel qu’il a été présenté

dans le précédent chapitre.

Selon l’approche de Wand et Ngo (2004), il est utile de rendre le modèle

(4.1) sous une forme totalement paramètrique. En utilisant le théorème de

Taylor, la fonction f(xij) s’écrit sous la forme d’une combinaison linéaire du

polynôme du degré h et des bases de fonctions puissances tronquées :

f(xij) =H∑

h=1

δhxh +

K∑

k=1

ak(xij − κk)+ (4.2)

où κ1, ..., κK est un ensemble de noeuds distincts tirés des observations de la

variable xij et x+ = max(0; x). Le nombre de noeuds K doit être assez élevé

(d’ordre K ≥ 30) pour assurer l’exigibilité de la courbe. Les noeuds sont

choisis comme des quantiles du x avec les probabilités 1/(K +1), ..., K/(K +

1).

En suivant l’approche de Wand et Ngo (2004), nous proposons de for-

muler le modèle de régression logistique semi paramétrique par des bases de

fonctions puissances tronquées de degré h. Ensuite, nous adaptons le mo-

95

Page 106: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

dèle transformé à la structure du modèle de régression logistique à effets

aléatoires. En effet, en remplaçant l’équation (4.2) dans (4.1), on obtient un

modèle sous la forme suivante :

log

(µb

ij

1− µbij

)= s

′ijα +

H∑

h=1

δhxhij +

K∑

k=1

ak(xij − κk)+ + z′ijbi (4.3)

Pour écrire le modèle (4.3) sous la forme matricielle, nous désignons par :

a) µbi = (µb

i1, ..., µbin)

′ un vecteur composé des moyennes conditionnelles des

variables expliquées du groupe,

b) Xi =

si1 ... spi1 xi1 ... xhi1

: : : :

sin ... spin xin ... xhin

une matrice (n, p + h) composée par

les variables explicatives,

c) Bi =

(xi1 − κ1)+ ... (xi1 − κK)+

: :

(xin − κ1)+ ... (xin − κK)+

une matrice de dimension (n,K)

composée par des bases du groupe i et

d) Zi = (1, ..., 1)′ vecteur associé au i ieme effet aléatoire.

En considérant ensuite µb = (µb1, ..., µ

bN)

′ , b = (b1, ..., bN)′ , β = (α, δ)

′ et

a = (a1, ..., ak)′ des vecteurs empilés et X = (X1, ..., XN)

′ , B = (B1, ..., BN)′

et Z = diag(Z1, ..., ZN) les matrices empilées, le modèle (4.3) admet ainsi

96

Page 107: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

une représentation matricielle de la forme suivante :

log

(µb

1− µb

)= Xβ + Ba + Zb (4.4)

où β, a et b sont les paramètres inconnus liés respectivement aux matrices

X, B et Z.

4.2 Estimation du modèle de régression logis-

tique semi paramétrique à effets aléatoires

Dans cette section, nous essayons d’estimer les paramètres inconnus du

modèle de régression logistique semi paramétrique à effets aléatoires (4.4). Il

s’agit de déterminer, à la vue des observations des variables explicatives, une

approximation des coefficients β, a et b.

En suivant l’approche de Wand et Ngo (2003), nous supposons que le

vecteur a est un effet aléatoire qui suit la loi Normale N(0, τI) avec τ = 1λ.

Par conséquent, la fonction f s’écrit sous la forme d’une combinaison linéaire

de vecteurs des effets fixes δ et de vecteurs des effets aléatoires a avec leurs

matrices de conception. Par suite le modèle (4.4) peut être traité comme

modèle de régression logistique à effets aléatoires.

En supposant que le vecteurs des effets aléatoires a est un effet aléatoire

Étant, l’estimation du modèle de régression logistique semi paramétrique

(4.1) revient à estimer le modèle de régression logistique à effets aléatoires

(4.4). Dans la littérature, des diverses approches ont été proposées pour l’es-

97

Page 108: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

timation des paramètres du modèle de régression logistique à effets aléatoires.

Ainsi, nous préférons utiliser la méthode de la quasi-vraisemblance pénalisée

proposée par Breslow et Clayton (1993) compte tenu de sa simplicité et de

sa robustesse. Cette procédure d’estimation a été bien développée par Lin

and Zhang (1999) dans le contexte d’estimation du modèle généralisé non

paramétrique.

4.3 Le diagnostic du modèle de régression logis-

tique semi paramétrique à effets aléatoires

Pour définir la distance de Cook de la fonction f dans le modèle(4.1),

nous considérons le modèle transformé totalement paramétrique (4.4). Nous

définissons par a(k) et f(k), respectivement, les estimateurs du vecteur a et de

la fonction f par les fonctions de bases tronquées sans utiliser le groupe k.

Le changement de la courbe estimée de la fonction f en éliminant le groupe

k peut être mesuré par la distance de Cook :

Ck(f) =∥∥∥f(λ)− f(k)

∥∥∥2

= (a− a(k))′B′B(a− a(k)) (4.5)

Le calcul de la statistique du diagnostic Ck(f) nécessite la détermination

de a(k). Cependant, pour conduire une analyse complète d’influence, il est né-

cessaire de calculer β(k) pour les différents groupes k, mais ce calcul devient

lourd lorsque le nombre de groupes N est assez grand. Pour voir l’impact de

l’élimination du kieme groupe sur le paramètre de la régression, nous consi-

dérons la fonction de log-vraisemblance calculée sans le kieme groupe :

98

Page 109: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L(k)(a) =N∑

i=1,6=k

[yiB

′(xi)a− log(1 + exp B

′(xi)a)

](4.6)

Soit S = (s11, .., s1n, ..sN1, .., sNn)′avec sij = yij − µij et V = diag(vij)

avec vij = µij(1− µij) alors, la dérivée première de L(k)(a) est égale à :

L(k)(a) =N∑

i=1,6=k

B′(xi)(yi − pi) = B

′S − bkSk (4.7)

et la dérivée seconde de L(k)(a) est égale à :

L(k)(a) = −n∑

i=1,6=k

exp B′(xi)a

[1 + exp B′(xi)a]2B(xi)B

′(xi)

= B′V B − Vkbkb

′k = Z

′Z − ZkZ

′k (4.8)

où Zk =√

Vkbk

Soit a1(k) l’approximation première du paramètre a déterminée en utilisant

l’échantillon sans le kieme groupe. a1(k) sera calculé à partir d’une solution

initiale a0(k) en utilisant l’algorithme de Newton Raphson tel que :

a1(k) = a0

(k) + (−L(k)(a))−1L(k)(a) (4.9)

= a0(k) + (Z

′Z − ZkZ

′k)−1

(B′S − bkSk

)

Bien sur, la réalisation de l’algorithme de Newton Raphson pour l’esti-

mation de a1(k), en éliminant chaque fois un groupe d’observations est une

99

Page 110: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

procédure impraticable et une perte de temps. D’où, il faut déterminer une

expression permettant de calculer a1(k) sans recourir à répéter la procédure

d’estimation. Ceci a l’avantage de gagner le temps surtout pour les données

ayant une taille élevée.

Théoréme 4.3.1. En supposant Z = V 1/2B, Zk = V1/2k Bket Hkk = Zk

(Z′Z

)−1Z′k

pour k = 1, .., N . Après l’élimination du kieme groupe, une approximation

d’ordre un de a(k) est donnée par :

a1(k) = a1 −

(Z′Z

)−1

Z′k(1−Hkk)

−1e∗k (4.10)

où e∗k =[V−1/2k Sk − Zk

(Z′Z

)−1Z′V −1/2S

].

La démonstration est presque la même que celle du théorème (2.1). Afin

de faciliter le calcul, l’application del’équation (4.10) nous donne une formule

de calcul pratique de la distance de Cook qui s’écrit sous la forme suivante :

Ck(f) =e∗2k V −1

kk H2kk

(1−Hkk)2(4.11)

4.4 Le test polynomial

Dans la section précédente, nous avons approximé la fonction de lissage

par un polynôme de degré h, il parait naturel de tester l’adéquation de cette

hypothèse. En effet, on a besoin de tester si la relation de causalité entre

les variables est adéquatement modélisée par un polynôme du degré h. Par

100

Page 111: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

exemple, si h = 1, il s’agit de tester la linéarité de la fonction non para-

métrique f(x) dans le modèle de régression logistique semi paramétrique à

effets aléatoires (4.1). Ce test fournit un outil de contrôle de la qualité de

l’ajustement d’un modèle de régression logistique paramétrique simple contre

un modèle de régression logistique non paramétrique. Pour réaliser ce test,

il faut tout d’abord transformer le modèle de régression logistique semi pa-

ramétrique (4.1) sous la forme d’un modèle de régression logistique à effets

aléatoires totalement paramétrique et considérer ensuite l’inverse du para-

mètre de lissage τ comme une composante de la variance. L’application de

cette procédure nécessite de recourir aux approximations asymptotiques pour

prendre la décision d’accepter ou de rejeter l’hypothèse nulle.

Des études de simulation rapportées par Zhang et Lin (2003) ont mon-

tré que le test du score pour les variables qualitatives n’est pas puissant.

Comme solution, nous proposons d’utiliser la technique du test de Monte

Carlo Randomisé tel qu’elle a été développée par Dufour (2006), afin d’obte-

nir les résultats plus exacts.

4.4.1 Le test du score

Zhang et Lin (2003)ont développé une procédure basée sur le calcul d’une

statistique du score pour vérifier statistiquement l’approximation de la fonc-

tion non paramétrique f dans un modèle généralisé additif par un polynôme

de degré h = 1. Nous allons appliquer ce test dans le cas du modèle de régres-

sion logistique semi paramétrique à effets aléatoires. Cette procédure consiste

tout d’abord à transformer la fonction f sous la forme d’un modèle linéaire

à effets aléatoires composée par des bases de fonctions de puissances tron-

quées de degré h. La fonction f est un polynôme de degré h si et seulement

101

Page 112: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

si le coefficients aléatoires dans le modèle transformé (4.4) sont nuls c-à-d la

variance de coefficients aléatoires sont nuls (τ = 0). Ce qui est équivalent à

tester ce corps d’hypothèse :

H0 : τ = 0 contre HA : τ > 0 (4.12)

Zhang et Lin (2003) ont montré que la statistique du score Uτ pour tester

l’hypothèse nulle H0 : τ = 0 dans le modèle de régression logistique semi

paramétrique à effets aléatoires transformé (4.4) prend la forme suivante :

Uτ =∂lM(τ, θ)

∂τ

∣∣∣∣τ=0

=1

2

{(Y ∗ −Xβ)

′V −1BB

′V −1(Y ∗ −Xβ)− tr(PBB)

}∣∣∣β,θ

(4.13)

où lM(τ, θ) est une fonction du log-vraisemblance marginale de τ et θ (par

l’intégration des effets aléatoires b et des effets fixes β), β est l’estimateur

de maximum du vraisemblance de β, θ est l’estimateur de maximum du

vraisemblance restreint de θ et Y ∗ = Xβ + Zb + µ(1 − µ)(Y − µ) est le

vecteur fonctionnel du modèle de régression logistique à effets aléatoires sous

l’hypothèse nulle qui prend la forme suivante :

log

1− µ

)= Xβ + Zb (4.14)

Le modèle (4.14) peut être estimé par la méthode de quasi vraisemblance

pénalisée en supposant que W = diag{µ} est une matrice fonctionnelle de

102

Page 113: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

poids sachant que l’espérance conditionnelle µ calculée sous l’hypothèse nulle

τ = 0. Nous signalons que P = V −1− V −1X(X′V −1X)−1X

′ est une matrice

de projection et V = W−1 + ZGθZ′ est une matrice de variance covariance.

Les deux matrices P et V sont calculées aussi sous l’hypothèse nulle τ = 0.

Les estimateurs de paramètres β et θ du modèle (4.14) peuvent être détermi-

nés en utilisant la commande (glmPQL) du package (MASS) et exécuté sur

le logiciel R.

Zhang et Lin (2003) ont prouvé que la statistique de score Uτ converge

en loi vers une combinaison des lois de Khi-deux, sous l’hypothèse que la

taille d’échantillon tende vers l’infini. Les études de simulations réalisées par

Zhang et Lin (2003) ont montré que les approximations asymptotiques de

la statistique Uτ conduisent souvent aux résultats biaisés dans le cas où la

variable d’intérêt est qualitative et pour une taille d’échantillon réduite. Pour

contourner cette lacune, nous proposons d’utiliser le test du Monte Carlo

Randomisé [Dufour (2006)] afin d’obtenir des procédures exactes.

4.4.2 Le test de Monte Carlo Randomisé

Pour dépasser la lacune de test du score surtout, lorsque la taille d’échan-

tillon est réduite, nous avons opté pour l’utilisation de la procédure de Monte

Carlo Randomisé (MCR). Dans notre cas, le test du MCR peut être appli-

qué étant donné que la statistique de score Uτ , sous l’hypothèse nulle est une

fonction pivotale continue (ne dépend pas de paramètres de nuisance).

Soit U0 une valeur de la statistique du score calculée sur la base des

données observées. La région critique associée à la taille nominale α peut

être exprimée en tant que G(U0) ≤ α tel que G(U0) = P (U ≥ U0|H0) est

103

Page 114: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

une fonction critique inconnue pour un test unilatéral à droite. G(U0) sera

estimée en générant sous l’hypothèse nulle, M réalisations indépendantes ou

à la rigueur interchangeables U1, .., UM de la statistique Uτ . Selon Dufour

(2006), le concept d’interchangeblité se définit comme suit :

Définition 4.4.1. On dit qu’un vecteur aléatoire U = (U1, .., UM) est à com-

posantes interchangeables si et seulement si la loi conjointe des composantes

est invariante sous toutes les permutations.

D’après cette définition, il est clair que les variables aléatoires interchan-

geables sont forcement équidistribues. Pour l’application de la technique de

test de MCR, on définit

GM(U0) =1

M

M∑i=1

I[0,∞)(Ui − U0), IA(z) =

1, if z ∈ A

0, if z /∈ A(4.15)

En d’autre terme, MGM(U0) est le nombre des statistiques simulées qui

sont supérieures ou égales à U0. D’un autre côté RN(U0) = M−MGM(U0)+1

représente le rang de U0 dans la série U0, U1, .., UM . La fonction critique

estimée est alors donnée par cette formule :

pM(U0) =MGM(U0) + 1

M + 1(4.16)

Ainsi, la région critique d’un test de MCR associée au niveau nominal α

s’exprime par pM(U0) ≤ α telle que pM(U0) représente la probabilité empi-

rique qu’une valeur supérieure à U0 est réalisée si l’hypothèse nulle est vraie.

104

Page 115: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Notons que le règle de décision du test de MCR peut être exprimé aussi en

terme de RM(U0). Ainsi la région critique MGN (U0)+1M+1

< α est équivalente à

RM(U0) ≥ (M + 1)(1− α) + 1.

Dufour (2006) a montré que si la distribution de la statistique considérée

sous l’hypothèse nulle ne dépend d’aucun paramètre inconnu et α(M +1) est

un nombre entier alors la région critique contrôle le niveau dans le sens où

P [pM(U0) ≤ α] = α (4.17)

Ou alternativement

P[RM(U0) ≥ (M + 1)(1− α) + 1

]= α (4.18)

La démonstration des équations (4.17) et (4.18) repose sur ce théorème

démontré par Dufour (2006) concernant la distribution de rangs associés à

un ensemble fini des statistiques interchangeables :

Théoréme 4.4.1. Considérant un vecteur des variables aléatoires interchan-

geables (y1, .., yM) tel que P (yi = yj) = 0 pour i 6= j et soit Rj dénote le rang

de yj dans la série y1, .., yM alors

P

[Rj

M≥ z

]=

I[(1− z)M ] + 1

M, 0 < z < 1 (4.19)

I(x) est un entier inférieur ou égal à x.

105

Page 116: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Dans ce qui suit, nous allons appliquer la procédure simulée de Monte

Carlo Randomisé pour tester le degré du polynôme dans le modèle de régres-

sion logistique semi paramétrique à effets aléatoires. En fait, le calcul de la

p-valeur de MCR pour tester le degré d’un polynôme dans le modèle (4.1) se

passe par les étapes suivantes :

1-Estimer le modèle (4.4) par l’ensemble de données initiales y(0) en calculant

les estimateurs de maximum du vraisemblance β, θ, τ

2-Obtenir la statistique de score basée sur β et θ en utilisant la formule (4.14)

et qu’on la note par U0.

3-En fixant θ et sous l’hypothèse nulle (4.13), nous répétons les étapes sui-

vantes :

* Tirer un vecteur b(m) pour m = 1, .., M à partir de la loi Normale N(0, Gθ).

* Obtenir des variables indépendantes simulées Y (m) = Xβ + Zb(m).

* Régresser Y (m) sur X, Z et B (en utilisant le modèle (4.4)).

* Calculer les valeurs de la statistique de test du score correspondant U1, ..., UM .

4- Soit RM(U0) le rang de U0 dans la série U0, U1, ..., UM , rejeter l’hypothèse

nulle H0 : τ = 0 si RM(U0) ≥ (M + 1)(1− α) + 1.

En pratique, le nombre des essais M doit être fixé de sorte que α(M +

1) soit un nombre entier (par exemple, pour α = 0, 05 on prend M =

19; 39; 99; ...). L’application de test de MCR à niveau nominal 5% se réa-

lise aisément en utilisant M = 99 réalisations. Dans ce cas, le test MCR est

significatif si le rang de U0 dans la série U0, U1, .., UM est égal au moins à 96

ou informellement si U0 se trouve au top 5% de centile. La p-valeur de MCR

s’obtient pM(U0) = M+1−RM (U0)M+1

.

Le test de MCR peut être interprété comme une méthode de bootstra-

106

Page 117: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

pappliquée aux statistiques dont la distribution nulle ne dépend pas des pa-

ramètres de nuisances. Cependant, l’information additionnelle centrale que la

randomisation nous permet de commander exactement la taille de test pour

un nombre réduit des réalisations de MCR. Pour davantage de discussion sur

les tests de Monte Carlo (sa relation avec bootstrap), voir Kiviet et Dufour

(1997), Dufour et Farhat (1998), Dufour et Lynda (2002) et Dufour (2006).

4.5 Etude de simulation

Dans cette section, nous réalisons une étude de simulation pour comparer

la performance de deux procédures du test polynomial : le test du score et le

test de Monte Carlo Randomisé. Cette étude consiste à évaluer empirique-

ment la performance de test du degré d’un polynôme dans un modèle de ré-

gression logistique semi paramétrique à effets aléatoires. Comme un exemple

illustratif, nous considérons de tester la linéarité d’une variable explicative

dans le modèle de régression logistique semi paramétrique à effets aléatoires

(4.1). En transformant le modèle de régression logistique semi paramétrique

à effets aléatoires sous la forme d’un modèle de régression logistique à ef-

fets aléatoires, le test polynomial revient à réaliser un test de nullité de la

variance d’un effet aléatoire.

Cette étude de simulation vise à tester si f(x) est un polynôme du premier

degré. Dans une première étape, nous appliquons le test de score asympto-

tique tel qu’il a été proposé par Zhang et Lin(2003). Dans une deuxième

étape, nous formulons le test de Monte Carlo.

Conditionnellement aux effets aléatoires du groupe bi ∼ N(0, σbI) avec

107

Page 118: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

σb = 0.5 et σb = 1, des données binaires de variable expliquée yij avec

((i = 1, ..., N et j = 1, .., n) sont générées respectivement selon le modèle

suivant :

log

(µij

1− µij

)= α0 + sijα1 + f(xij) + bi (4.20)

Les données de la variable explicative sij ont été générées selon la loi

Normale N(0, 0.1), par contre les données de la variable explicative xij ont

été générées selon la loi Uniforme (U [0, 1]). Les vraies valeurs des paramètres

α0 et α1 ont été prises α0 = 1 et α1 = 2. Deux tailles d’échantillon ont

été utilisées (N = 2, n = 5) et (N = 4, n = 5). Cinq fonctions de f(x)

ont été considérées telle que fc(x) = (0.25c)x. exp(2 − 2x) − x + 0.5 , pour

c = (0, 1, 2, 3, 4). Notant que lorsque c = 0 alors fc(x) est une fonction linéaire

de la variable x et lorsque le paramètre c devient plus élevé alors la fonction

fc(x) se dévie plus de la forme linéaire, comme l’indique la figure (4.1).

Pour chaque ensemble de données simulées, nous avons appliqué les pro-

cédures de test du score asymptotique (Asy) et le test de Monte Carlo Ran-

domisé (MCR). Les résultats de simulation sont basés sur 1000 réplications.

Pour tester si f(x) est une fonction linéaire de x, la taille empirique et

la puissance de chaque procédure du test polynomial sont calculées en fixant

l’hypothèse nulle H0 : c = 0 contre une hypothèse alternative H1 : c 6= 0. Pour

établir le test de MCR nous avons utilisé 19 essais. Toutes les expériences

ont été exécutées en utilisant le logiciel R (Voir annexe 4)

Les résultats de simulation sont présentés dans la table (4.1) et (4.2).

108

Page 119: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2−1.5

−1

−0.5

0

0.5

1

1.5

x

f(x) c=2 c=3

c=0 c=1c=4

Fig. 4.1 – Les fonctions fc(x) avec c = (0, 1, 2, 3, 4) simulées pour tester le

degré de polynôme dans le modèle de régression logistique semi paramétrique

Ces deux tables rapportent les pourcentages de rejet de l’hypothèse nulle par

rapport à 1000 réplications pour un niveau nominal de 5%.

Selon la table (4.1), nous constatons que le niveau empirique de test du

score asymptotique est égal à 0.031 qui est nettement différent du niveau

nominal 0.05. Ce qui donne l’impression que le test du score n’est pas fiable

pour tester le degré du polynôme lorsque la variable expliquée est qualitative.

La comparaison entre les deux tables (4.1) et (4.2), nous induit à conclure

que l’augmentation de la taille d’échantillon rend les niveaux empiriques plus

proches des niveaux nominaux, tandis que la variance de l’effet spécifique

semble avoir une faible influence sur ces tests.

109

Page 120: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Variances Tests Tailles Puissances

d’effets aléatoires c = 0 c = 1 c = 2 c = 3 c = 4

σb = 0.05 Asy 0.031 0.073 0.167 0.260 0.511

MC 0.054 0.291 0.711 0.887 1.000

σb = 1 Asy 0.045 0.068 0.120 0.271 0.442

MC 0.051 0.325 0.741 0.910 1.000

Tab. 4.1 – Niveaux et puissances empiriques de deux tests de linéarité de la

fonction f dans le modèle (4.20) avec N = 2 et n=5

Variances Tests Tailles Puissances

d’effets aléatoires c = 0 c = 1 c = 2 c = 3 c = 4

σb = 0.05 Asy 0.042 0.095 0.211 0.310 0.621

MC 0.052 0.325 0.812 0.970 1.000

σb = 1 Asy 0.044 0.077 0.211 0.314 0.511

MC 0.050 0.301 0.805 0.960 1.000

Tab. 4.2 – Niveaux et puissances empiriques de deux tests de linéarité de la

fonction f dans le modèle (4.20) avec N = 4 et n=5

En ce qui concerne la puissance, nous constatons que le test de MCR a

une puissance plus élevée. En outre, nous remarquons que l’augmentation de

la variance de l’effet spécifique a entraîné une diminution de la puissance.

Comme il est prévu, l’augmentation de la taille d’échantillon a amélioré la

puissance globale.

Nos résultats de simulation prouvent que la procédure de MCR a amélioré

la performance du test du score dans le modèle de régression logistique semi

paramétrique pour des différents niveaux de la variance des effets aléatoires.

D’après les tables (4.1) et (4.2), nous remarquons que le test de MCR réalise

110

Page 121: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

un meilleur contrôle de la taille.

D’autre part, la puissance du test de MCR est très élevée et n’est pas

sensiblement affectée par le changement du niveau de la variance d’effet aléa-

toire. Comme il est prévu, l’augmentation de la taille d’échantillon améliore la

puissance globale du test. A travers cette étude de simulation, nous vérifions

empiriquement que le test MCR est un test exact dans le sens que la proba-

bilité du rejet l’hypothèse nulle sachant qu’elle est vraie, est toujours égal au

niveau nominal du test. Notons que la forte puissance du test de MCR, est

dû au faite que les valeurs critiques simulées de test MCR sont précises même

lorsqu’on utilise un nombre modéré des simulations. En réalité, la technique

du MCR corrige la distorsion du niveau qui est dûe à la mauvaise approxima-

tion de la loi de la statistique du test. En guise de conclusion, il intéressant

de mentionner que notre étude de simulation a prouvé que le test du MCR

est plus puissant que le test du score asymptotique.

Dans la simulation courante, nous avons considéré seulement un test de

linéarité. Cependant dans la pratique, nous pouvons tester un degré de po-

lynôme plus élève (h > 1) en considérant des différentes valeurs de h.

4.6 Application : Anticipation de la détresse fi-

nancière

Après avoir déterminé dans le chapitre précédent une fonction de score

à partir d’un modèle de régression logistique paramétrique, nous essayons

de chercher si les liens non linéaires seraient plus appropriés. Ainsi, nous

recourons à la représentation des nuages des points des variables de l’étude.

111

Page 122: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Contrairement à la régression linéaire, il n’est pas utile de tracer directement

les données de X contre celles de Y . Cependant l’hypothèse de la linéarité

dans le modèle de régression logistique, implique que les nuages de points du

rapport de chances(

P (Y =1/X)P (Y =0/X)

)et les variables explicatives X doivent avoir

une forme linéaire.

0 500 1000 1500 2000

−6

−2

02

4

datapq$R15

logi

t

0e+00 1e+06 2e+06 3e+06

−6

−2

02

4

datapq$R20

logi

t

−60 −40 −20 0 20

−6

−2

02

4

datapq$R21

logi

t

0 1000 2000 3000 4000

−6

−2

02

4

datapq$R23

logi

t

Fig. 4.2 – Les nuages des points des variables explicatives et de leurs logits

112

Page 123: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

4.6.1 La fonction logistique semi paramétrique de score

D’après la figure (4.2), Les nuages des points les données des ratios en

fonction des valeurs des rapports de chances correspondants montrent que les

données de variables R7, R9, R10, R20, R23 ont une liaison linéaire avec leurs

rapports de chances tandis que les données de la variable R21 a une relation

non linéaire. Sur la base de ces constats tirés à partir de la figure (4.2), il est

intéressant de considérer une modification de la variable R21 dans le modèle

de régression. Ainsi, le modèle de régression logistique semi paramétrique

s’écrit sous la forme suivante :

log

(pi

1− pi

)= β1R7,i + β3R9,i + β4R10,i + β4R14,i

+β5R15,i + β6R20,i + f(R21,i) (4.21)

avec pi = P (yi = 1|Ri), pour(i = 1, ..., n) est la probabilité a posteriori

d’appartenance au groupe d’entreprises en détresse, β est un coefficient in-

connu et f est une fonction de lissage inconnue. D’après le nuage des points de

la variable R21, il semble que la relation entre cette variable et les rapports

de chances prend une forme quadratique. Par conséquent, nous proposons

d’approximer la fonction de lissage f par des bases de fonctions puissances

tronquées du seconde degré :

f(R21,i) = δ0 + δ1R21,i + δ2R221,i +

K∑

k=1

bk(R21,i − κk)2+ (4.22)

où κ1, ..., κK est un ensemble de noeuds distincts tirés des observations de

113

Page 124: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

la variable R21 et X+ = max(0; X). Le nombre de noeuds K est assez grand

(d’ordre K ≥ 30) pour assurer l’exigibilité de la courbe.

En suivant l’approche de Wand et Ngo (2004), le modèle de régression

logistique semi paramétrique s’écrit sous la forme du modèle de régression

logistique à effets aléatoires. En effet, en remplaçant l’équation (4.22) dans

(4.21), on obtient le modèle suivant :

log

(pi

1− pi

)= δ0 + δ1R21,i + δ2(R21,i)

2 + β1R7,i + β3R9,i

+β4R14,i + β5R20,i +K∑

k=1

bk(R21,i − κk)+ (4.23)

Pour écrire le modèle (4.23) sous la forme matricielle, nous désignons

par :

a)X =

1 R21,1 (R21,1)2 .. R20,1

: : : :

1 R21,n (R21,n)2 .. R20,n

est une matrice composée par les

variables explicatives,

b) Z =

(R21 − κ1)+ ... (R21 − κK)+

: :

(R2n − κ1)+ ... (R2n − κK)+

est une matrice (n,K) composée

par les bases,

c) β = (δ0, δ1, δ2, β1, β3, β4, β5)′est un vecteur des paramètres inconnus,

d) b = (b1, ..., bK)′est un vecteur composé par les coefficient associés à la

matrice Z et

f) P = (P (y1 = 1), ..., P (yn = 1))′est le vecteur des probabilités a posteriori.

114

Page 125: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Le modèle (4.23) admet une représentation matricielle sous la forme sui-

vante :

log

(P

1− P

)= Xβ + Zb (4.24)

Selon l’approche de Wand et Ngo (2003), l’estimation du modèle de régression

logistique semi paramétrique (4.24) revient à estimer le modèle de régression

logistique à effets aléatoires en supposant que le vecteur des effets aléatoires

b normalement distribués N(0, Gθ).

Pour l’estimation des paramètres β et θ nous pouvons utiliser la méthode

de Quasi-Vraisemblance Pénalisée (PQL) développée par Breslow et Clayton

(1993). L’application de la méthode PQL consiste à définir le vecteur fonc-

tionnel par Y ∗ = Xβ + Zb + ∆(Y − P ) avec ∆ = diag{pi(1 − pi)} et on

définit aussi la matrice fonctionnelle de poids par Σ = W−1 + ZGθZ′, avec

W = diag{pi}.

La table (4.3) rapporte les résultats d’estimation du modèle (4.24) pour

les données de notre échantillon. Le pouvoir discriminant du ratio Rk est

défini par le rapport : σ2kα2

k∑σ2

kα2kavec σk est l’écart type du ratio Rk. Il exprime

l’influence du ratio dans la fonction de score. D’après la table (4.3), les ratios

R9 et R10 jouent un rôle capital dans la formation de la fonction de score

des entreprises puisque ce ratio a un pouvoir discriminant de l’ordre de 99%.

D’après la table (4.3), nous remarquons que l’effet estimé de la variable R9 (la

rentabilité économique) a un signe positif. Cela signifie que l’augmentation

des frais financiers fait diminuer la rentabilité économique ce qui explique

l’accroissement de la probabilité d’être en détresse. Par contre la variable

R10 (la rentabilité des capitaux investis) présente un signe négatif ce qui

115

Page 126: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

induit que l’augmentation des résultats net implique une augmentation de

risque de défaillance.

Les ratios Valeurs estimés Pouv. discrim. t value p value

(cst) -2.0467 -18.687 0.0000

R7 : Rotation de l’actif 0.2795 0.0017 3.846 0.0001

R9 : Rentabilité économique 9.8834 0.5277 8.164 0.0000

R10 : Rentabilité des capitaux -12.4510 0.4674 -8.210 0.0000

R14 : Taux de rentabilité 0.03277 0.0000 1.742 0.0815

R15 : Rotation des capitaux -0.19147 0.0000 -4.691 0.0000

R23 :Ratio de charges financières -0.83057 0.0031 -2.538 0.0112

Tab. 4.3 – les estimateurs du modèle de régression logistique semi paramé-

trique

La partie non paramétrique du modèle (4.21) permet de détecter un effet

de seuil de ratios sur la probabilité d être en détresse. Dans l’estimation

du modèle semi paramétrique nous avons approximé la forme du graphe de

f(R21) par un polynôme du second degré. La figure (4.3) représente la courbe

de la fonction f(R21) estimée de la variable capacité d’endettement à long

terme avec son intervalle de confiance à 95%. D’après ce graphe, pour un

seuil inférieur à 1, la probabilité de détresse est une fonction décroissante de

la capacité d’endettement à long terme et pour un seuil supérieur à 1, elle

devient croissante.

La forme quadratique entre la probabilité de détresse et la variable X2 est

une proposition qui nécessite d’être vérifiée statistiquement en utilisant un

test polynomial. Par la suite, nous sommes intéressés à tester l’hypothèse

116

Page 127: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

nulle H0 : f(R21) est une fonction de lissage quadratique contre l’hypo-

thèse alternative H1 : f(R21) est une fonction de lissage non quadratique.

En d’autres termes, on cherche à répondre à cette question : " Est ce que

les données de la réserve sont-elles ajustées adéquatement par une fonction

quadratique ?".

Nous avons appliqué le test du score asymptotique développé par Zhang et

Lin (2003) aux données de notre étude. Nous avons obtenu que la statistique

du score calculée est égale à Uτ = 5.73. Cette statistique est supérieure à la

quantile d’une combinaison des lois de Khideux de degré un et deux qui est

égale à 1.30. Ce résultat fournit une forte évidence que la p-valeur est égale

à 0.026. Par conséquent, l’hypothèse nulle H0 est acceptée.

Les mêmes données ont été utilisé pour tester le degré du polynôme dans

le modèle de régression logistique semi paramétrique (4.21) en appliquant

le test de Monte Carlo Randomisé que nous avons développé dans la sec-

tion précédente. Les résultats obtenus montrent que la p-valeur de MCR est

égale à pM(U0) = 0.750 pour M = 99. Comme on a pM(U0) ≥ α alors on

accepte l’hypothèse nulle H0 pour un niveau nominal α = 0.05. Rappelons

que l’acceptation de l’hypothèse nulle H0 signifie que f(R21) est une fonction

quadratique.

4.7 La validation des fonctions de score de la

détresse

Après avoir déterminé des fonctions de score de la détresse, il faut en

évaluer leurs efficacités. Nous pouvons le faire par les tests du pouvoir dis-

117

Page 128: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

criminant et les tests du pouvoir prédictif. Ainsi, nous allons calculer le taux

d’erreur de classement et tracer la courbe de ROC "Receiver Operating Ca-

racteristic" en calculant les indices associés tels que l’aire sous la courbe de

ROC.

Pour évaluer la capacité à bien classer le modèle, nous pourrons construire

une colonne prédiction Y , puis une colonne erreur (Y−Y ), comptabiliser le

nombre de mauvais classement et enfin déduire le taux d’erreur. Il est plus

judicieux de construire ce que l’on appelle une matrice de confusion (la table

4.4).

Y = 1 Y = 0 Total

Y = 1 n11 n10 n1

Y = 0 n01 n00 n0

Tab. 4.4 – Matrice de confusion

Elle confronte toujours les valeurs observées de la variable dépendante

avec celles qui sont prédites, puis comptabilise les bonnes et les mauvaises

prédictions. L’intérêt de la matrice de confusion est qu’elle permet à la fois

d’appréhender le taux d’erreur et de se rendre compte de la structure de

l’erreur (la manière de se tromper du modèle).

Nous rappelons que le taux d’erreur de classement est égal au nombre

de mauvais classement rapporté à l’effectif total. D’après la table (4.5), le

taux d’erreur de classement est égal à 14% pour le modèle de régression

logistique semi paramétrique et 11.9% pour le modèle de régression logistique

à effets aléatoires c.à.d une amélioration de prédiction de 3.1%. Ce qui prouve

118

Page 129: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

La régre. logistique à effets aléat. La régre. logistique semi

Y = 1 Y = 0 Total Y = 1 Y = 0 Total

Y = 1 24 14 38 6 3 9

Y = 0 65 510 575 83 521 604

Le taux d’erreur 0.128 0.140

Tab. 4.5 – Matrice de confusion des modèles estimés pour l’échantillon test

l’importance de l’intégration des effets sectoriels dans le calcul de risque de

la détresse.

De même dans le but de comparer le modèle de la régression logistique

semi paramétrique et le modèle de la régression logistique à effets aléatoires,

nous présentons la courbe ROC de chaque modèle. Ce courbe est un outil

graphique qui permet d’évaluer et de comparer globalement le comportement

des fonctions de scores (Pepe (2000)). La courbe ROC met en relation le taux

de vrais positifs (TV P = n11/n1) (la sensibilité) qui indique la capacité du

modèle à retrouver les positifs et le taux de faux positifs (TFP = n10/n0) qui

correspond à la proportion de négatifs qui ont été classés positifs, dans un

graphique de nuage de points. Habituellement, nous comparons p à un seuil

s = 0.5 pour effectuer une prédiction Y . Nous pouvons ainsi construire la

matrice de confusion et en extraire les 2 indicateurs précités. La courbe ROC

généralise cette idée en faisant varier s pour toutes les valeurs possibles entre

0 et 1. Pour chaque configuration, nous construisons la matrice de confusion

et nous calculons le TVP et le TFP.

Dans la pratique, il n’est pas nécessaire de construire explicitement la

matrice de confusion, nous procédons de la manière suivante :

119

Page 130: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

1. Calculer le score p de chaque individu à l’aide du modèle de prédiction.

2. Trier le fichier selon un score décroissant.

3. Considérons qu’il n’y a pas d’ex-aequo. Chaque valeur du score peut être

potentiellement un seuil s. Pour toutes les observations dont le score est

supérieur ou égal à s, les individus dans la partie haute du tableau, nous

pouvons comptabiliser le nombre de positifs n11(s) et le nombre de négatifs

n10(s). Nous en déduisons (TV P = n11(s)/n1) et (TFP = n10(s)/n0).

4. La courbe ROC correspond au graphique nuage de points qui relie les

couples (TVP, TFP). Le premier point est forcément (0,0), le dernier est

(1,1). La procédure de calcul du nuages des points de la courbe ROC a été

effectué avec le logiciel R.

D’après la courbe ROC,(la figure (4.4)), il est évident que la règle de

classification basée sur la régression logistique à effets aléatoires est plus

performante que celle basée sur la régression logistique semi paramétrique.

Ceci nous amène à conclure la validité de la fonction de score issue du modèle

de la régression à effets aléatoires.

Il est possible de caractériser numériquement la courbe ROC en calculant

la surface située sous la courbe. C’est le critère d’aire sous la courbe ROC

(AUC, pour Area Under Curve). Elle exprime la probabilité de placer un

individu positif devant un négatif. Ainsi, dans le cas d’une discrimination

parfaite AUC = 1, les positifs sont sûrs d’être placés devant les négatifs. Au

contraire, si AUC = 0.5 le classificateur attribue des scores au hasard, il y

a autant de chances de placer un positif devant un négatif que l’inverse. La

courbe ROC se confond avec la première bissectrice. C’est la situation de

référence, notre classificateur doit faire mieux.

120

Page 131: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

L’(AUC) mesure la qualité de discrimination du modèle et traduit la

probabilité qu’une entreprise saine ait un score supérieur au score d’une en-

treprise en détresse, ceux-ci étant tirés au hasard. L’AUC du modèle de ré-

gression logistique semi paramétrique est égale à 0.684 par contre l’AUC de

la régression logistique à effets aléatoires est égale à 0.811 ; ces deux valeurs

sont très proches de un.

4.8 Conclusion

Ce chapitre a été consacré à la présentation du modèle de régression logis-

tique semi paramétrique à effets aléatoires en mettant l’accent sur l’apport

du test de Monte Carlo Randomisé (MCR) dans la confirmation du choix

du degré de polynôme. L’approche de simulation de MCR nous permet d’in-

troduire un nouveau test qui diffère des tests existants dans la littérature en

deux aspects : Premièrement, ce test est exact dans le sens que la probabi-

lité de rejeter l’hypothèse nulle, sachant qu’elle est vraie, est toujours égale

au niveau nominal. Deuxièmement, cette approche permet d’obtenir un test

aléatoire basé sur la simulation des statistiques du test sous l’hypothèse nulle

et en utilisant un nombre restreint des essais de MCR. La faisabilité de cette

approche proposée a été illustrée à travers une expérience de simulation. Les

résultats empiriques obtenus prouvent que le test du score asymptotique pour

le modèle de régression logistique semi paramétrique à effets aléatoires n’est

pas fiable par contre le test de (MCR) réalise un contrôle meilleur de la taille

et a une puissance plus élevée.

Nous avons illustré ces méthodes par une étude empirique basée sur des

données relatives à des entreprises tunisiennes. En utilisant des ratios finan-

121

Page 132: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

cières, nous avons réalisé une recherche exploratoire des nouvelles relations

fonctionnelles entre les ratios et la probabilité de la détresse. Ces relations

fonctionnelles ont été estimées à travers le modèle de régression logistique

semi paramétrique à effets aléatoires qui est un modèle alternatif flexible

pour la prévision de faillite.

Une fois les fonctions de scores sont élaborées, nous avons montré qu’elles

jouissent d’un pouvoir discriminant et prédictif. Pour ce faire, nous avons uti-

lisé un processus de validation. Ce processus sert à estimer les performances

du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons

élaboré la courbe de ROC.

122

Page 133: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

−1.0 −0.5 0.0 0.5 1.0 1.5 2.0

−5

05

1015

X2

s(X

2,2)

Fig. 4.3 – La courbe de la fonction estiméef(R21)

123

Page 134: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1−spécificité

sens

ibili

La courbe R OC de régression logistique semiparamétrique (A UC=0.684)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1−spécificité

sens

ibili

La courbe R OC de régression logistique à eff ets aléatoires (A UC=0.812)

Fig. 4.4 – Les courbes ROC des modèles établis

124

Page 135: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Conclusion générale

Les travaux de recherche que nous avons menés dans le cadre de cette

thèse portent sur le traitement de données groupées binaires. C’est dans ce

contexte que nous avons présenté le modèle de régression logistique semi pa-

ramétrique à effets aléatoires comme un outil de modélisation des relations

de causalité entre une variable expliquée qualitative et des variables explica-

tives. En fait, ce modèle est une extension du modèle de régression logistique

à effets aléatoires en introduisant une fonction de lissage non paramétrique

dans le prédicteur.

Dans ce travail, nous nous sommes intéressé à énumérer les différentes

approches d’estimation des paramètres des modèle de régression logistique

semi paramétrique à effets aléatoires et, en particulier, à l’estimation des

fonctions de lissage de la partie non paramétrique. Pour répondre à la ques-

tion de l’estimation des paramètres dans ces modèles, nous avons eu recours

à l’utilisation de la méthode du maximum de vraisemblance. Or, dans notre

cas précis trois problèmes se posent :

-La distribution de la variable aléatoire qui modélise les caractéristiques non

observables est difficile à décrire. Nous supposons souvent que l’effet aléa-

toire suit la loi Normale. L’estimation sera basée sur la méthode du maxi-

125

Page 136: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

mum de vraisemblance marginale. Cette fonction marginale peut être évaluée

en utilisant des techniques d’approximation telles que la méthode de quasi

vraisemblance pénalisée ou la méthode de Espérance Maximisation Monte

Carlo.

- La présence d’observations aberrantes rend les estimateurs du modèle biai-

sés. Pour dépasser cette lacune, nous avons proposé d’utiliser la méthode du

maximum de vraisemblance robuste.

- Le choix de la technique adéquate pour l’estimation des fonctions de lissage

non paramétrique. Nous avons montré la simplicité et l’efficacité des bases

de fonctions puissance tronquées pour déterminer les fonctions non paramé-

triques inconnues.

Notre thèse s’inscrit dans une perspective de mise en place des méthodes

d’estimation robuste et défendable qui ont pour objectif de résoudre en par-

tie ces problèmes. Pour cela, nous avons discuté les différentes approches

d’estimation qui mèneront, en tout état de cause, à des résultats différents.

Ces différences sont justifiées par le biais d’approximations réalisées selon les

raisonnements et les instruments d’analyse.

Pour l’estimation du modèle de régression logistique semi paramétrique

à effets aléatoires, nous avons suivi une démarche qui consiste à transformer

ce modèle à la structure du modèle de régression logistique à effets aléa-

toires totalement paramétrique et à traiter l’inverse du paramètre de lissage

comme une composante de la variance. En d’autre terme, nous avons proposé

d’approximer la fonction non paramétrique par un polynôme du degré fixe

composé par des fonctions de bases tronquées.

126

Page 137: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Le choix du degré de ce polynôme est une proposition qui nécessite d’être

vérifiée par un test d’hypothèse. Zhang et Lin (2003) ont développé une sta-

tistique du score pour tester la nullité de l’écart type de l’effet aléatoire. La

distribution de cette statistique a été approximée par une combinaison des

lois de Khi-deux. Leurs études de simulation ont montré que la performance

du test de score est moins satisfaisante lorsque les données de la variable

expliquée sont binaires. Ce résultat est dû principalement à la mauvaise ap-

proximation de la fonction de vraisemblance et à l’utilisation de l’hypothèse

de la normalité pour déterminer la distribution statistique du score.

Pour améliorer le test du score, nous avons développé une procédure ba-

sée sur simulation pour la dérivation d’une p-valeur exacte du test de degré

d’un polynôme dans un modèle de régression logistique à effets aléatoires.

Ainsi, nous avons exploité le fait que la statistique du score est une fonc-

tion pivotale sous l’hypothèse nulle pour appliquer la technique du test de

Monte Carlo Randomisé. L’efficacité de cette approche proposée a été illus-

trée à travers une expérience de simulation. Les résultats empiriques obtenus

prouvent que le test du score asymptotique de degré du polynôme dans le

modèle de régression logistique semi paramétrique à effets aléatoires n’est pas

fiable par contre le test de MC réalise un meilleur contrôle de la taille et a une

puissance plus élevée. Il est important de souligner qu’avec les installations

informatiques modernes, la procédure de MCR est facile à mettre en oeuvre.

Il est intéressant pour les futures recherches de développer une statis-

tique exacte du score en utilisant d’autres approximations numériques, par

exemple, l’approximation par la quadrature adaptative gaussienne. Cepen-

dant, nous avons constaté que le test du score est sensible aux points aber-

127

Page 138: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

rants. Récemment, Qin et Zhu (2008) ont développé une méthode d’estima-

tion robuste des paramètres du modèle généralisé semi paramétrique à effets

aléatoires en transformant la fonction non paramétrique par des fonctions

de B-spline. En effet, ils ont fait plus d’attention à l’estimation robuste des

coefficients de B-spline et de variances des effets aléatoires par la méthode M-

estimateur. Il est intéressant pour les futures recherches de prolonger le test

de Monte Carlo Randomisé en considérant une statistique du score robuste.

Ce modèle de la régression logistique a été illustré à travers une applica-

tion réelle concernant l’anticipation de la détresse des entreprises. En utili-

sant des données comptables et financières, nous avons calculé une fonction

de score par la méthode de régression logistique à effets aléatoires en considé-

rant la détresse financière comme une variable expliquée discrète. L’objectif

de ce modèle est de capturer des effets inaperçus qui sont dûs à l’hétérogé-

néité des entreprises de la population étudiée. En d’autres termes, nous avons

mis en évidence les déterminants inobservables de la détresse financière de

chaque secteur de l’échantillon étudié.

Dans une deuxième étape, nous avons réalisé une recherche exploratoire de

nouvelles relations fonctionnelles entre les ratios et la probabilité de détresse.

Ces relations fonctionnelles ont été estimées à travers le modèle de régression

logistique semi paramétrique. Par la suite, nous avons présenté le modèle de

régression logistique semi paramétrique comme un modèle alternatif flexible

pour la prévision de faillite.

Une fois la fonction de score est élaborée, nous avons montré que ce modèle

jouit d’un pouvoir discriminant et prédictif. Pour cela, nous avons utilisé un

128

Page 139: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

processus de validation. Ce processus sert à estimer les performances futures

du modèle qui vient d’être construit sur un jeu de données. Ainsi, nous avons

élaboré la courbe de ROC.

Dans notre étude, nous avons visé plus particulièrement à attirer l’at-

tention, d’un part sur l’aspect non linéaire des relations entre les ratios et

la probabilité de la détresse et d’un autre part sur le caractère temporel et

spatial de la fonction de scoring notamment sur le niveau de la pondération

des ratios. Il est intéressant pour des futures recherches de développer des

fonctions de scores plus raffinées en traitant des autres formes de relations

linéaires en augmentant le taille d’échantillon des entreprises étudiées

129

Page 140: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

130

Page 141: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Annexe 5

Ratios Libellées

R1 Stock brut / Total des actifs

R2 Durée de crédit accordé au client (TVA 18%)

R3 Taux de marge brute

R4 Taux de marge d’exploitation

R5 Ratio de charges du personnel

R6 Ratio de marge nette

R7 Rotation de l’actif

R8 Rotation des fonds propres

R9 Rentabilité économique

R10 Rentabilité des capitaux investis ou taux de rendement de l’actif

R11 Rentabilité d’exploitation de l’actif total

R12 Rentabilité économique brute

R13 Rentabilité économique nette

R14 Taux de rentabilité des capitaux propres

R15 Rotation des capitaux permanents

R16 Rentabilité des capitaux permanents

R17 Taux d’endettement à long terme

R18 Ratio d’indépendance financière

R19 Taux d’endettement global

R20 Couverture des immobilisations par les fonds propres131

Page 142: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

R21 Capacité d’endettement à long et à moyen terme

R22 Ratio de charges financières

R23 Charges financières / Dettes financières

R24 Ratio de liquidité générale (de FR)

R25 Ratio de liquidité relative

R26 Ratio de liquidité immédiate

132

Page 143: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Bibliographie

Altman, E. I. (1968). Financial ratios, discriminant analysis and the predic-

tion of corporate bankruptcy. The Journal of Finance, 23(4) :589–609.

Anderson, D. A. and Aitkin, M. (1985). Variance component models with

binary response : Interviewer variability. Journal of the Royal Statistical

Society. Series B (Methodological), 47(2) :203–210.

Banerjee, M. and Frees, E. W. (1997). Influence diagnostics for linear

longitudinal models. Journal of the American Statistical Association,

92(439) :999–1005.

Bardos, M. and Zhu, W. H. (1997). Comparaison de l’analyse discriminante

linéaire et des réseaux de neurones. application à la détection de défaillance

d’entreprises. Revue Statistique Appliquée.

Beaver, W. H. (1966). Financial ratios as predictors of failure. Journal of

Accounting Research, 4 :71–111.

Beckman, R. J., Nachtsheim, C. J., and Cook, R. D. (1987). Diagnostics for

mixed-model analysis of variance. Technometrics, 29(4) :413–426.

Breslow, N. and Clayton, D. G. (1993). Approximate inference in generalized

linear mixed models. J. Am. Statist. Ass., 88 :9 – 25.

133

Page 144: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Chatterjee, S. and Hadi, A. S. (1986). Influential observations, high leverage

points, and outliers in linear regression. Statistical Science, 1(3) :379–393.

Chava, S. and Jarrow, R. A. (2004). Bankruptcy Prediction with Industry

Effects. Review of Finance, 8(4) :537–569.

Christensen, R., Pearson, L. M., and Johnson, W. (1992). Case-deletion

diagnostics for mixed models. Technometrics, 34(1) :38–45.

Cook, R. D. (1977). Detection of influential observation in linear regression.

Technometrics, 19(1) :15–18.

Cook, R. D. and Weisberg, S. (1983). Diagnostics for heteroscedasticity in

regression. Biometrika, 70(1) :1–10.

Crainiceanu, C., Ruppert, D., Claeskens, G., and Wand, M. P. (2005). Exact

likelihood ratio tests for penalised splines. Biometrika, 92(1) :91–103.

Crainiceanu, C. M. and Ruppert, D. (2004). Likelihood ratio tests in li-

near mixed models with one variance component. Journal of the Royal

Statistical Society. Series B (Statistical Methodology), 66(1) :165–185.

DeBoor, C. (1978). A practical guide to splines. Springer-Verlag New York.

Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from

incomplete data via the em algorithm. Journal of the Royal Statistical

Society. Series B (Methodological), 39(1) :1–38.

Dufour, J.-M. (2006). Monte carlo tests with nuisance parameters : A general

approach to finite-sample inference and nonstandard asymptotics. Journal

of Econometrics, 133(2) :443–477.

134

Page 145: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Dufour, J.-M. and Farhat, A. (1998). Simulation-based finite sample norma-

lity tests in linear regressions. Econometrics Journal, 1(2) :154–173.

Dufour, J.-M. and Khalaf, L. (2002). Simulation based finite and large sample

tests in multivariate regressions. Journal of Econometrics, 111(2) :303–322.

Eilers, Paul H. C. et Marx, B. D. (1996). Flexible smoothing with b-splines

and penalties. Statistical Science, 11(2) :89–102.

Fellner, W. H. (1986). Robust estimation of variance components. Techno-

metrics, 28(1) :51–60.

Foulley, J., Jaffrézic, F., and Robert-Granié, C. (2000). Em-reml estimation

of covariance parameters in gaussian mixed models for longitudinal data

analysis. Genet. Sel. Evol., 32(2) :129–141.

Fung, W.-K., Zhu, Z.-Y., Wei, B.-C., and He, X. (2002). Influence diagnostics

and outlier tests for semiparametric mixed models. Journal of the Royal

Statistical Society. Series B (Statistical Methodology), 64(3) :565–579.

Greene, W. (1991). Econométrie. Pearson education.

Harvey, W. R. (1970). Estimation of variance and covariance components in

the mixed model. Biometrics, 26(3) :485–504.

Haslett, J. and Dillane, D. (2004). Application of ’delete = replace’ to deletion

diagnostics for variance component estimation in the linear mixed model.

Journal of the Royal Statistical Society. Series B (Statistical Methodology),

66(1) :131–143.

He, X. and Shi, P. (1996). Bivariate tensor-product b-splines in a partly

linear model. Journal of Multivariate Analysis, 58(2) :162–181.

135

Page 146: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Heckman, N. E. (1986). Spline smoothing in a partly linear model. Journal

of the Royal Statistical Society. Series B (Methodological), 48(2) :244–248.

Hedeker, R. and Gibbons, R. D. (1996). Mixor : a computer program for

mixed-effects ordinal regression analysis. Computer Methods and Programs

in Biomedicine, 49(2) :157 – 176.

Henderson, C. R. (1975). Best linear unbiaised estimators and prediction

under a selection model. Biometrics, 31(2) :423–447.

Hillegeist, E., Keating, C., and Lundstedt, K. (2004). Assessing the proba-

bility of bankruptcy. Review of Accounting Studies, 9 :5–34.

Hinde, J. (1982). Compound Poisson regression models. Springer-Verlag,

New York.

Huber, P. (1981). Robust Statistics. J Wiley and Sons, New-York.

Huggins, R. M. (1993). A robust approach to the analysis of repeated mea-

sures. Biometrics, 49(3) :715–720.

Kiviet, J. F. and Dufour, J.-M. (1997). Exact tests in single equation autore-

gressive distributed lag models. Journal of Econometrics, 80(2) :325–353.

Lin, X. and Zhang, D. (1999). Inference in generalized additive mixed models

by using smoothing splines. Journal of the Royal Statistical Society. Series

B (Statistical Methodology), 61(2) :381–400.

Marx, B. D. and Eilers, P. H. C. (1998). Direct generalized additive modeling

with penalized likelihood. Comput. Stat. Data Anal., 28(2) :193–209.

McCulloch, C. E. (1997). Maximum likelihood algorithms for generalized

linear mixed models. J. Am. Statist. Ass., 92 :162 – 170.

136

Page 147: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Ngo, L. and Wand, M. (2003). Smoothing with mixed model software. Jour-

nal of Statistical Software, 4(1) :1–54.

Pepe, M. S. (2000). Receiver operating characteristic methodology. Journal

of the American Statistical Association, 95(449) :308–311.

Pinheiro, J. C. and Bates, D. M. (2000). Mixed-Effects Models in S and

S-Plus. Springer.

Press, S. J. and Wilson, S. (1978). Choosing between logistic regression and

discriminant analysis. Journal of the American Statistical Association,

73(364) :699–705.

Qin, G. and Zhu, Z. (2008). Robust estimation in partial linear mixed model

for longitudinal data. Acta Mathematica Scientia, 28(2) :333 – 347.

Richardson, A. M. (1997). Bounded influence estimation in the mixed linear

model. Journal of the American Statistical Association, 92(437) :154–161.

Richardson, A. M. and Welsh, A. H. (1995). Robust restricted maximum

likelihood in mixed linear models. Biometrics, 51(4) :1429–1439.

Rocke, D. M. (1991). Robustness and balance in the mixed model. Biome-

trics, 47(1) :303–309.

Searle, S. (1982). Matrix algebra useful for statistics. J. Wiley and Sons,

New-York.

Searle, S., Casella, G., and McCulloch, C. (1992). Variance components. J.

Wiley and Sons, New-York.

137

Page 148: Modèlesderégressionlogistique ...mestirisami2013.e-monsite.com/medias/files/these-sami-mestiri.pdf · modèle de régression logistique à effets aléatoires totalement paramétrique

Self, S. G. and Liang, K.-Y. (1987). Asymptotic properties of maximum like-

lihood estimators and likelihood ratio tests under nonstandard conditions.

Journal of the American Statistical Association, 82(398) :605–610.

Speckman, P. (1988). Kernel smoothing in partial linear models. Journal of

the Royal Statistical Society. Series B (Methodological), 50(3) :413–436.

Stram, D. O. and Lee, J. W. (1994). Variance components testing in the

longitudinal mixed effects model. Biometrics, 50(4) :1171–1177.

Tanner, M. (1993). Tools for Statistical Inference. springer, 2nd edition.

Verbeke, G. and Molenberghs, G. (2000). Linear mixed models for longitudi-

nal data. Springer Verlag, New York.

Zhang, D. and Lin, X. (2003). Hypothesis testing in semiparametric additive

mixed models. Biostat, 4(1) :57–74.

Zhang, D., Lin, X., Raz, J., and Sowers, M. (1998). Semiparametric stochastic

mixed models for longitudinal data. Journal of the American Statistical

Association, 93(442) :710–719.

Zhu, H., Lee, S.-Y., Wei, B.-C., and Zhou, J. (2001). Case-deletion measures

for models with incomplete data. Biometrika, 88(3) :727–737.

138