La Regression Non Parametrique Multidimensionnelle

download La Regression Non Parametrique Multidimensionnelle

of 117

Transcript of La Regression Non Parametrique Multidimensionnelle

NATHALIE VANDAL

La rgression non paramtrique multidimensionnelle e eThorie et application ` une tude portant sur la densit e a e e mammaire

Mmoire prsent e e e ` la Facult des tudes suprieures de lUniversit Laval a e e e e dans le cadre du programme de ma trise en statistique pour lobtention du grade de Ma `s sciences (M.Sc.) tre e

FACULTE DES SCIENCES ET DE GENIE LAVAL UNIVERSITE QUEBEC

dcembre 2005 e

c Nathalie Vandal, 2005

Rsum e eLa rgression non paramtrique est un outil statistique permettant de dcrire la e e e relation entre une variable dpendante et une ou plusieurs variables explicatives, sans e spcier de forme stricte pour cette relation. Dans ce mmoire, on prsente dabord e e e la thorie entourant la rgression non paramtrique univarie ainsi que direntes e e e e e mthodes destimation, en mettant laccent sur les fonctions de lissage loess et les splines e de rgression. On traite ensuite de lajustement de relations multidimensionnelles, en e sintressant plus particuli`rement aux mthodes GAM, polyMARS et MARS. On ape e e plique nalement ces derni`res ` une tude portant sur la relation entre la densit e a e e mammaire et deux facteurs de croissance analogues ` linsuline, IGF-I et IGFBP-3, ce a qui permet de mettre en vidence les avantages de la rgression non paramtrique, mais e e e aussi les dicults rencontres lors de son application. e e

Avant-proposMes premiers remerciements sadressent ` mon directeur de recherche, Monsieur a Louis-Paul Rivest, professeur au dpartement de mathmatiques et de statistique de e e lUniversit Laval, pour son indispensable soutien tout au long de la ralisation de mon e e mmoire. Jai beaucoup apprci travailler sous sa direction, dautant plus que ceci ma e e e permis dapprofondir mes connaissances grce ` ses judicieux conseils. Je dsire aussi a a e remercier mon co-directeur, Monsieur Belkacem Abdous, professeur au dpartement de e mdecine sociale et prventive de lUniversit Laval, qui a propos ce projet et qui sest e e e e lui aussi montr tr`s ` lcoute. Je tiens aussi ` remercier Monsieur Jacques Brisson, e e a e a chercheur ` lUnit de recherche en sant des populations de lHpital du St-Sacrement, a e e o qui ma permis danalyser les donnes dune tude quil a mene, portant sur la densit e e e e mammaire et qui sest montr tr`s intress par mes travaux. e e e e Par ailleurs, je tiens ` adresser un merci tout particulier ` Caroline Diorio, tudiante a a e au doctorat en pidmiologie ` lUniversit Laval, qui mest venue en aide ` plusieurs e e a e a reprises pour la comprhension et le traitement des donnes analyses dans ce mmoire. e e e e De plus, elle a toujours fait preuve dune grande disponibilit et dun intrt marqu e ee e pour mon travail et ma conseill pour lcriture de certaines parties de mon mmoire. e e e De mme, je voudrais souligner la gnrosit de Nicole Vzina, qui ma oert de corriger e e e e e lorthographe de mon mmoire. e Sur un plan plus personnel, je voudrais souligner le soutien inconditionnel de toute ma famille qui ma accompagne tout au long de mes tudes. Je souhaite donc remercier e e mes parents, ma soeur et mes fr`res qui mont toujours encourage dans mes tudes et e e e mont appuye tant dans les bons que dans les moins bons moments. Dun autre ct, e oe je tiens particuli`rement ` remercier mon amoureux Martin, sans qui la ralisation de e a e cet ouvrage aurait sans doute t beaucoup plus ardue. Il a fait preuve dun extrme ee e support en tout temps, autant du point de vue moral que technique. Ainsi, il ma permis de passer plus facilement au travers des parties plus diciles et ma t dun ee grand secours lorsque jai prouv des probl`mes dordre informatique. e e e

iv Finalement, jaimerais remercier le Fonds de recherche sur la nature et les technologies du Qubec qui ma octroy une bourse dtude de deuxi`me cycle, ce qui ma permis e e e e de me consacrer pleinement ` mes tudes pendant toute la dure de ma ma a e e trise.

Table des mati`res eRsum e e Avant-Propos Table des mati`res e Liste des tableaux Table des gures 1 Introduction 2 La rgression non paramtrique univarie e e e 2.1 Prsentation gnrale des fonctions de lissage . . . . . . . . . . . . . e e e 2.1.1 La dualit biais-variance . . . . . . . . . . . . . . . . . . . . e 2.1.2 Matrice de lissage et degrs de libert . . . . . . . . . . . . . e e 2.1.3 Les crit`res de slection automatique du param`tre de lissage e e e 2.1.4 Traitement des galits dans la variable prdictive . . . . . . e e e 2.1.5 Tests approximatifs pour comparer des fonctions de lissage . 2.1.6 Mthodes diagnostiques . . . . . . . . . . . . . . . . . . . . e 2.2 La mthode loess . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 2.2.1 Forme de lestimateur loess . . . . . . . . . . . . . . . . . . 2.2.2 Ajustement dun estimateur loess avec R . . . . . . . . . . . 2.3 Les splines de rgression . . . . . . . . . . . . . . . . . . . . . . . . e 2.3.1 Forme de lestimateur des splines de rgression . . . . . . . . e 2.3.2 Estimation des param`tres . . . . . . . . . . . . . . . . . . . e 2.3.3 B-Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Autres mthodes de rgression non paramtrique univarie . . . . . e e e e 2.4.1 Les splines de lissage . . . . . . . . . . . . . . . . . . . . . . 2.4.2 La mthode du noyau . . . . . . . . . . . . . . . . . . . . . e 2.4.3 La rgression par partitionnement . . . . . . . . . . . . . . . e 3 La rgression non paramtrique multidimensionnelle e e ii iii vi viii ix 1 5 6 7 8 10 12 12 13 14 14 19 20 20 22 25 26 26 28 29 31

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

vi 3.1 Les mod`les additifs gnraliss . . . . . . . . . . . . . . . . . e e e e 3.1.1 Estimation des mod`les GAM . . . . . . . . . . . . . . e 3.1.2 Forme des estimateurs j . . . . . . . . . . . . . . . . . 3.1.3 Degrs de libert pour les mod`les GAM . . . . . . . . e e e 3.1.4 Ajustement dun estimateur loess avec R . . . . . . . . 3.1.5 Notes supplmentaires . . . . . . . . . . . . . . . . . . e Les splines de rgression multivaries . . . . . . . . . . . . . . e e La mthode polyMARS . . . . . . . . . . . . . . . . . . . . . . e 3.3.1 Thorie des ELM . . . . . . . . . . . . . . . . . . . . . e 3.3.2 Description de la mthode polyMARS . . . . . . . . . e 3.3.3 Restrictions dans la mthode polyMARS . . . . . . . . e 3.3.4 Application de polyMARS . . . . . . . . . . . . . . . . La mthode MARS . . . . . . . . . . . . . . . . . . . . . . . . e 3.4.1 La rgression par partitionnement rcursif . . . . . . . e e 3.4.2 Description de la mthode MARS . . . . . . . . . . . . e 3.4.3 Application de MARS . . . . . . . . . . . . . . . . . . Autres mthodes multidimensionnelles . . . . . . . . . . . . . e 3.5.1 La mthode Triogram . . . . . . . . . . . . . . . . . . e 3.5.2 Fonctions de lissage loess et noyaux multidimensionnels 3.5.3 Les splines de lissage ` plaques minces . . . . . . . a 3.5.4 Autres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 33 35 36 36 37 38 39 39 40 43 45 46 46 47 50 51 51 54 55 56

3.2 3.3

3.4

3.5

4 Application des mthodes de rgression non paramtrique ` une tude e e e a e 57 portant sur la densit mammaire e 4.1 Mod`les univaris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e 60 4.1.1 Analyse des facteurs de croissance . . . . . . . . . . . . . . . . . 62 4.2 Etude de la relation entre la densit mammaire et les facteurs de croise sance IFG-I et IGFBP-3 . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2.1 Mod`les paramtriques . . . . . . . . . . . . . . . . . . . . . . . e e 65 4.2.2 Mod`les non paramtriques . . . . . . . . . . . . . . . . . . . . e e 68 4.2.3 Conclusions de ltude . . . . . . . . . . . . . . . . . . . . . . . e 86 4.3 Comparaison de polyMARS et MARS . . . . . . . . . . . . . . . . . . . 88 4.4 Rsum des rsultats obtenus dans ce chapitre . . . . . . . . . . . . . . 101 e e e 5 Conclusion Bibliographie 103 108

Liste des tableaux1.1 Description des variables utilises dans cet ouvrage provenant de ltude e e portant sur la densit mammaire, ralise aupr`s de 783 femmes prme e e e e e nopauses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Dnition de dirents noyaux . . . . . . . . . . . . . . . . . . . . . . . e e Statistiques descriptives. . . . . . . . . . . . . . . . . . . . . . . . . . . Description des mod`les ajusts ` la section 4.2. . . . . . . . . . . . . . e e a Dnition des variables catgoriques utilises dans les mod`les 1 et 2. . e e e e Rsultats de lajustement du Mod`le 1 . . . . . . . . . . . . . . . . . . e e Seuils observs des comparaisons multiples des composantes de lintere action QIGF -I QIGF BP -3 du Mod`le 1. . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 3. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 4. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5 (en se restreignant aux interactions de e second degr). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 5 (sans restriction sur les interactions). . . e Description des mod`les ajusts ` la section 4.3. . . . . . . . . . . . . . e e a Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 6. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste un mod`le 6. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec polyMARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste le mod`le 8. . . . . . . . . . . . . . . . . . . . . . . e Estimateur obtenu avec MARS pour un param`tre de lissage de 1.2 e lorsque lon ajuste un mod`le 8. . . . . . . . . . . . . . . . . . . . . . . e Rsum des caractristiques des estimateurs ajusts dans le Chapitre 4. e e e e

4 29 60 64 65 66 66 74 77 78

2.1 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9

83 84 88 89 94 97 99 102

4.10 4.11 4.12 4.13 4.14 4.15 4.16

Table des gures2.1 2.2 2.3 2.4 Graphique de dispersion pour les variables DENSITE et POIDS de la base de donnes sur les densits mammaires . . . . . . . . . . . . . . . e e Illustration de la dualit biais-variance. . . . . . . . . . . . . . . . . . . e Illustration de la mthode loess. . . . . . . . . . . . . . . . . . . . . . . e Illustration des dirences engendres par lutilisation de polynmes de e e o degr 1 ou 2 dans la mthode loess pour deux valeurs de param`tre de e e e lissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Illustration de splines de rgression de dirents degrs appliques aux e e e e de la base de donnes sur les densits mamvariables IMC et DENSITE e e maires. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Illustration des fonctions splines de lissage obtenues en xant direntes e valeurs de degrs de libert, tels que dnis en (2.3), pour lestimation e e e de la relation entre la densit mammaire et lindice de masse corporelle. e Illustration de leet de lalgorithme backtting sur lestimation de la relation entre la densit mammaire et les facteurs de croissances, IGF-I e et IGFBP-3, ` laide de fonctions de lissage loess utilisant un span = 0.5 a Exemple de triangulation possible pour lajout dun sommet. . . . . . . Reprsentation gomtrique des coordonnes barycentriques. . . . . . . e e e e Exemple de mammographie. . . . . . . . . . . . . . . . . . . . . . . . . Graphique de dispersion pour les variables IGF-I et IGFBP-3. . . . . . Graphiques de dispersion pour chacune des variables indpendantes de e la base de donnes sur les densits mammaires par rapport ` la variable e e a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . rponse DENSITE. e Mod`les univaris pour les variables IGF-I et IGFBP-3. . . . . . . . . . e e Moyennes ajustes avec le mod`le 1 pour chaque combinaison de tertiles e e des variables IFG-I et IFGBP-3. . . . . . . . . . . . . . . . . . . . . . . Graphiques de dispersion de la densit mammaire en fonction de chaque e covariable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec la mthode GAM e e lorsque lon ajuste le mod`le 3. . . . . . . . . . . . . . . . . . . . . . . e 6 8 16

18

2.5

22

2.6

27

3.1

3.2 3.3 4.1 4.2 4.3

34 52 54 58 59

4.4 4.5 4.6 4.7

61 63 67 69 72

ix 4.8 4.9 4.10 4.11 4.12 Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 3. . . . . . e e Reprsentations graphiques de lestimateur obtenu avec la mthode GAM e e lorsque lon ajuste le mod`le 4. . . . . . . . . . . . . . . . . . . . . . . e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 4. . . . . . e e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5. . . . . . e e Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (en se restreie e gnant aux interactions de second degr). . . . . . . . . . . . . . . . . . e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (sous e e formes bivaries pour la comparaison avec lestimateur MARS du mod`le e e 5 prsent ` la gure 4.12). . . . . . . . . . . . . . . . . . . . . . . . . . e ea Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 5 (sans restrice e tion sur les interactions). . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste un mod`le additif e e (mod`le 6). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Reprsentations graphiques de lestimateur obtenu avec MARS pour un e param`tre de lissage de 1.2 lorsque lon ajuste un mod`le additif (mod`le e e e 6). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec GAM lorsque e lon ajuste un mod`le additif (mod`le 6) en utilisant des fonctions de e e lissage loess avec un span de 0.4 . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques de lestimateur obtenu avec GAM lorsque e lon ajuste un mod`le additif (mod`le 6) en utilisant des fonctions de e e lissage loess avec un span de 0.8 . . . . . . . . . . . . . . . . . . . . . . Reprsentations graphiques des estimateurs obtenus pour un mod`le bie e vari (mod`le 7). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e e Reprsentations graphiques de lestimateur obtenu avec polyMARS pour e un param`tre de lissage de 1.2 lorsque lon ajuste le mod`le 8. . . . . . e e Reprsentations graphiques des interactions impliquant IGFBP-3 avec e les variables IMC et POIDS, estimes par MARS pour le mod`le 8 avec e e un param`tre de lissage de 1.2. . . . . . . . . . . . . . . . . . . . . . . e

73 75 76 79

81

4.13

82

4.14

85

4.15

90

4.16

91

4.17

92

4.18

93 95 98

4.19 4.20 4.21

100

Chapitre 1 IntroductionEn recherche, toutes disciplines confondues, on sintresse souvent ` dcrire et ` come a e a prendre les relations qui caractrisent certaines variables. Dans ce cas, la ralisation de e e ltude fait gnralement appel ` des mthodes statistiques, puisquelles permettent e e e a e dobtenir des mod`les qui tiennent compte dune certaine partie de hasard dans les obe servations obtenues. Bien entendu, les qualits descriptives du mod`le retenu dpendent e e e de plusieurs facteurs, par exemple, la qualit du plan dexprience, la taille de lchantile e e lon et la qualit de la prise des mesures, avec lesquels le statisticien doit composer e une fois les donnes recueillies. Par ailleurs, les mthodes statistiques reposent hae e bituellement sur des postulats qui doivent tre respects pour que le mod`le obtenu e e e soit valide. La plupart des mthodes dveloppes au dbut de lapparition de la stae e e e tistique et encore utilises de nos jours font appel ` des postulats contraignants qui e a restreignent considrablement ltendue des applications que lon peut en faire. Heue e reusement, laugmentation constante de la puissance de calculs des ordinateurs permet dassouplir certains de ces postulats et ainsi dobtenir des mod`les exibles suscepe tibles de bien reprsenter la ralit. Les mthodes de rgression non paramtrique sont e e e e e e un bon exemple de lapport des outils informatiques dans lavancement des mthodes e statistiques et certaines dentre elles seront prsentes dans ce mmoire. e e e Lorsque lon veut tudier la relation entre une variable dpendante Y et une variable e e explicative X, la mthode de prdilection en statistique est la rgression linaire. Cette e e e e derni`re, lorsquelle est approprie, est tr`s pratique puisquelle suppose un mod`le e e e e simple, de la forme yi = 0 + 1 xi + i . (1.1) Elle poss`de donc lavantage dtre facile ` interprter et ` calculer. De plus, lorsque les e e a e a postulats sur les rsidus i sont vris, elle permet de faire des tests sur les param`tres. e e e e Par contre, la rgression linaire implique un postulat tr`s restrictif, soit la linarit de e e e e e

Chapitre 1. Introduction

2

la relation. Il arrive frquemment que ce postulat ne soit pas respect, souvent de faon e e c plus vidente lorsque lon poss`de un nombre important de donnes. Dans ce cas, le e e e chercheur dsire habituellement obtenir un mod`le plus complexe, qui re`te mieux la e e e relation entre Y et X. Une premi`re faon dy arriver est de spcier une autre forme e c e paramtrique pour cette relation, par exemple faire de la rgression polynomiale ou e e eectuer une transformation des observations. Il y a alors une multitude de transformations envisageables et puisque le mod`le transform garde toujours une forme prcise, le e e e travail ncessaire pour trouver la bonne relation devient rapidement laborieux. Heureue sement, lavancement de la technologie a permis limplantation de nouvelles mthodes e de rgression plus souples, qui laissent les donnes choisir la forme de la relation entre e e les variables. Ces mthodes sont regroupes sous le nom de rgression non paramtrique. e e e e Le principal avantage de la rgression non paramtrique est quelle ne suppose aue e cune forme spcique pour lestimateur, ce qui lui donne beaucoup plus de exibilit. e e Elle peut donc tre utilise pour dcrire la relation entre deux variables lorsque le mod`le e e e e linaire ne sapplique pas, ou pour suggrer la forme que devrait prendre un mod`le de e e e rgression paramtrique. Il existe plusieurs mthodes de rgression non paramtrique. e e e e e Les plus connues sont srement les fonctions de lissage loess, la mthode du noyau, ainsi u e que les fonctions splines qui, ` elles seules, caractrisent plus dun type destimateur a e e (voir Wegman et Wright (1983)) dont les splines de rgression et les splines de lissage. Ces mthodes permettent toutes de contrler la exibilit de lestimateur. Toutefois, e o e cette exibilit a un prix et toutes les mthodes non paramtriques doivent composer e e e avec la dualit biais-variance. En eet, le fait de suivre plus d`lement les donnes e e e augmente la variance de lestimateur, alors que lutilisation dun estimateur plus lisse augmente le biais. Puisquen recherche, on dsire habituellement obtenir le maximum dinformation sur e le phnom`ne tudi, il nest pas rare de vouloir analyser linuence que poss`dent simule e e e e tanment plusieurs variables explicatives sur la variable dpendante qui nous intresse. e e e La solution naturelle pour la majorit des chercheurs et statisticiens est dutiliser la e rgression linaire multiple. Cette gnralisation de la rgression linaire simple poss`de e e e e e e e non seulement ses avantages, mais galement son principal dfaut, ` savoir la linarit e e a e e de la relation. Cette limitation est dautant plus importante dans le cas multivari, e puisque cette hypoth`se implique alors que la forme de la relation est un hyperplan e dans un espace de dimension gale au nombre de variables impliques dans la relation. e e On se retrouve donc avec un mod`le de moins en moins exible ` mesure que le nombre e a de variables explicatives augmente. La solution idale ` ce probl`me est probablement e a e une version multivarie de la rgression non paramtrique qui permettrait dobtenir e e e un estimateur pouvant prendre nimporte quelle forme. Toutefois, la gnralisation des e e mod`les de rgression non paramtrique ` une version multivarie nest pas toujours e e e a e

Chapitre 1. Introduction

3

vidente. En eet, le passage dune ` plusieurs variables explicatives entra bien soue a ne vent des probl`mes de conceptualisation. Par exemple, certaines mthodes ncessitent e e e que lon dnisse le concept de distance entre deux points en dimension p. De faon e c gnrale, lorsque lon se limite ` p = 2, la gnralisation peut se faire sans trop de e e a e e dicults. e Le probl`me de la dimensionnalit entra aussi le probl`me dinteraction entre e e ne e les variables explicatives. Les mthodes telles que les fonctions de lissage loess et la e rgression par noyau permettent dtudier linteraction entre deux variables sans avoir e e ` modier la forme de lestimateur, mais en prenant pour acquis que les distances entre a les points ont t mesures adquatement. Les splines de lissage peuvent aussi modliser ee e e e les interactions entre les variables explicatives, mais encore une fois, le rsultat obtenu e dpend dune certaine faon de la dnition du crit`re utilis pour calculer lestimateur. e c e e e Finalement dans certains autres cas, on doit ajouter des termes au mod`le, comme dans e la rgression linaire multiple, si on veut tenir compte de linteraction entre les variables e e explicatives. La motivation pour la ralisation de ce mmoire vient dune tude ralise ` lUnit e e e e e a e de recherche en sant des populations (situe ` lHpital du Saint-Sacrement ` Qubec). e e a o a e Cette derni`re a pour but de comprendre la relation qui lie la densit mammaire, le e e facteur de risque associ au cancer du sein le plus important connu ` ce jour, ` deux e a a facteurs de croissance prsents dans lorganisme, IGF-I et IGFBP-3. Ltude a permis e e de rassembler un chantillon de 783 femmes prmnopauses sur lesquelles on a prlev e e e e e e les mesures suivantes : le pourcentage de densit mammaire dtermin ` laide dune e e ea mammographie, le dosage dans le sang de chacun des facteurs de croissance, lge, a le poids, la taille et lindice de masse corporelle dni par le rapport du poids (en e e kilogrammes) sur le carr de la taille (en m`tres). Le tableau 1.1 prsente la description e e de ces variables, qui composent la base de donnes utilise dans cet ouvrage. Il sav`re e e e que les mod`les de rgression linaire multiple ne permettent pas de dcrire de faon e e e e c assez prcise la relation ` ltude et que les mod`les de rgression non paramtrique e a e e e e seraient plus appropris, ce qui est de plus en plus le cas dans les tudes biologiques. e e e e e Le chapitre 2 traite de la thorie et des principales mthodes de rgression non paramtrique univarie en mettant laccent sur les fonctions de lissage de type loess e e ainsi que les splines de rgression. Le chapitre 3 aborde la thorie concernant lestie e mation de relations multidimensionnelles en sattardant sur les mod`les GAM (Hastie e et Tibshirani, 1990) et sur deux mthodes ajustant des splines de rgression multie e varies, soient polyMARS (Stone et al., 1997) et MARS (Friedman, 1991). Puisquil e existe un nombre indtermin de mthodes de rgression non paramtrique multidie e e e e mensionnelles, on a d se restreindre ` en choisir seulement quelques-unes. Celles qui u a

Chapitre 1. Introduction

4

Tab. 1.1 Description des variables utilises dans cet ouvrage provenant dune tude e e portant sur la densit mammaire, ralise aupr`s de 783 femmes prmnopauses. e e e e e e e Nom Description DENSITE Pourcentage de densit mammaire (consule e ter le chapitre 4 pour obtenir la dnition compl`te). e Dosage en ng/ml du facteur de croissance analogue ` linsuline I. a Dosage en ng/ml du facteur de croissance analogue ` linsuline binding protein-3 . a en annes lors de la mammographie. Age e Indice de masse corporelle en kg/m2 . Poids en kilogrammes. Taille en m`tres. e

IGF-I IGFBP-3 AGE IMC POIDS TAILLE

sont prsentes dans ce mmoire ont t choisies pour leur renomme, mais aussi pour e e e ee e leur simplicit et leur accessibilit. Finalement, le chapitre 4 prsente une application e e e des mthodes de rgression non paramtrique ` des donnes relles. Le cheminement e e e a e e pour la dtermination dun estimateur dcrivant la relation entre la densit mammaire e e e et les facteurs de croissance, IGF-I et IGFBP-3, ` laide de mthodes de rgression non a e e paramtrique est alors prsent, ainsi que la comparaison des rsultats obtenus avec e e e e e e a e ces derni`res. En particulier, la section 4.3 est rserve ` la comparaison des mthodes e polyMARS et MARS.

Chapitre 2 La rgression non paramtrique e e univarie eCe chapitre est consacr ` la prsentation des principales mthodes de rgression e a e e e non paramtrique univarie. Ces mthodes sont tr`s utiles lorsque lon veut dcrire la e e e e e relation entre une variable dpendante Y et une variable explicative X, sans supposer e une forme particuli`re. Elles constituent aussi la base pour la dnition des mod`les de e e e rgression non paramtrique multidimensionnelle. e e e e e La section 2.1 dnit les principes de base des mthodes de rgression non paramtrique, prsents dans le cadre univari, mais qui sappliquent gnralement ` la e e e e e e a rgression multivarie. Il existe plusieurs faons destimer une fonction de rgression unie e c e varie de faon non paramtrique. Ce chapitre en prsente donc quelques-unes parmi e c e e e e les plus connues. La section 2.2 dcrit la mthode loess, une des plus simples et aussi des plus utilises. La section 2.3 traite des splines de rgression qui sont tr`s utilises e e e e pour modliser des relations multidimensionnelles. Finalement, la section 2.4 donne un e aperu des autres mthodes frquemment utilises en rgression non paramtrique unic e e e e e varie, cest-`-dire les splines de lissage, les noyaux et la rgression par partitionnement. e a e Pour certaines mthodes, une discussion sur les direntes faons de faire lajustee e c ment avec le logiciel R est prsente. Bien que plusieurs logiciels, comme SAS et Se e plus, permettent aussi dutiliser ces mthodes, on a choisi R pour garder une certaine e constance, car ce dernier permet dajuster tous les types destimateurs utiliss dans le e chapitre 4. De plus, le logiciel R a lavantage dtre disponible gratuitement sur le site e Internet http://cran.r-project.org/ et son langage est assez simple (pratiquement identique ` S-plus). a

Chapitre 2. La rgression non paramtrique univarie e e e

6

2.1

Prsentation gnrale des fonctions de lissage e e e

Soit un chantillon alatoire compos des couples (xi , yi ), i = 1, . . . , n, o` les xi e e e u reprsentent les valeurs observes de la variable explicative X et les yi reprsentent e e e celles de la variable dpendante Y . Alors, le mod`le de rgression non paramtrique e e e e univarie est donn par e e yi = (xi ) + i , i = 1, . . . , n, (2.1)

o` les i sont les erreurs alatoires, non corrles entre elles, de moyenne 0 et de variance u e ee 2 et o` (x) est la fonction de rgression que lon cherche ` estimer. Il est aussi possible u e a de supposer une distribution normale pour les erreurs i , plus spciquement pour le e cas o` on dsire eectuer des tests sur lestimateur, tels que ceux qui seront prsents u e e e ` la section 2.1.5. a

DENSIT

0 40

20

40

60

80

60

80 POIDS

100

120

Fig. 2.1 Graphique de dispersion pour les variables POIDS et DENSITE de la base de donnes sur les densits mammaires (voir tableau 1.1). e e

Avant de se lancer dans lestimation de (x) par quelque mthode que ce soit, e on devrait toujours visualiser les donnes que lon dsire analyser ` laide dun grae e a 1 phique de dispersion . Ces graphiques sont simplement la reprsentation de tous les e1

Scatterplot en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

7

couples de points (xi , yi ) de lchantillon. La gure 2.1 montre un exemple de grae phique de dispersion reprsentant les variables DENSITE et POIDS de la base de e donnes analyses au chapitre 4 (voir tableau 1.1). Lestimation de la fonction de e e rgression, pour un chantillon donn, consiste ` trouver la fonction qui reprsente e e e a e le mieux la tendance dcrite par les points dans le graphique de dispersion. Si cette e derni`re semble tre une droite, la rgression linaire simple est tout ` fait approprie. e e e e a e Aussi, si une autre forme se dgage clairement du graphique de dispersion, on peut e utiliser la rgression paramtrique en spciant adquatement les termes du mod`le. e e e e e Par contre, il arrive souvent que la tendance dcrite par lchantillon ne soit pas tout e e ` fait vidente. On souhaite alors utiliser une mthode destimation plus exible, cesta e e `-dire une mthode non paramtrique. Les estimateurs de (x) obtenus de faon non a e e c paramtrique sont gnralement appels fonctions de lissage. Ces derni`res lissent les e e e e e donnes de lchantillon pour obtenir des estimateurs qui se situent entre la rgression e e e paramtrique et la pure interpolation entre chaque point. La exibilit accorde ` une e e e a fonction de lissage se contrle habituellement par la valeur du param`tre de lissage qui o e lui est associ. Les valeurs que peut prendre le param`tre de lissage dpendent du type e e e de fonction de lissage. Elles sont gnralement dnies par un intervalle de nombres e e e rels positifs, ce qui permet dobtenir une varit destimateurs de (x), plus ou moins e ee exibles, allant de linterpolation simple entre les points ` la rgression paramtrique. a e e

2.1.1

La dualit biais-variance e

Le compromis entre le lissage et la exibilit de lestimateur est identi comme la e e dualit biais-variance. Ainsi, en augmentant la exibilit, il est possible de suivre plus e e d`lement les donnes, ce qui fait diminuer le biais. La courbe obtenue a donc plus e e tendance ` osciller, ce qui implique que la variance augmente. Par contre, on prf`re a ee souvent avoir une courbe qui soit assez lisse, avec moins de variance. Pour ce faire, il faut diminuer la exibilit de lestimateur, ce qui implique de suivre moins d`lement e e les donnes, donc daugmenter le biais. Par consquent, tout utilisateur dune mthode e e e de rgression non paramtrique doit composer avec cette dualit, lorsque vient le temps e e e ea de choisir la valeur du param`tre de lissage. La gure 2.2 illustre cette dualit ` laide e des variables DENSITE et IMC (voir tableau 1.1). On remarque que la courbe (a), qui reprsente une fonction de lissage loess pour laquelle le param`tre de lissage vaut e e 0.10, est beaucoup plus variable que les deux autres pour lesquelles ce dernier est x e ` 0.50 et 0.80. Ainsi, lutilisation dun param`tre de lissage plus petit permet dobtenir a e un estimateur qui suit une tendance plus locale dans les donnes, donc avec moins de e biais, mais plus de variance. Dun autre ct, ` mesure que lon augmente la valeur du oe a param`tre de lissage, on obtient un estimateur plus lisse, avec moins de variance, mais e qui risque dtre plus biais. Lutilisateur de fonctions de lissage doit donc toujours faire e e

Chapitre 2. La rgression non paramtrique univarie e e e

8

un choix entre le degr de lissage dsir et la dlit ` reprsenter la tendance locale de e e e e ea e la relation (la exibilit). e(a)100 100

(b)100

(c)

80

80

DENSIT 40 60

DENSIT 40 60

20

20

0

0

20

25

30

35 IMC

40

45

50

20

25

30

35 IMC

40

45

50

0

20

DENSIT 40 60

80

20

25

30

35 IMC

40

45

50

Fig. 2.2 Illustration de la dualit biais-variance. Le graphique (a) reprsente une e e une courbe de lissage loess avec un param`tre de lissage de 0.10, utilise pour dcrire e e e la relation entre la densit mammaire et lindice de masse corporelle, tandis que les e graphiques (b) et (c) reprsentent le mme type destimateur, mais avec un param`tre e e e de lissage de 0.50 et de 0.80 respectivement.

2.1.2

Matrice de lissage et degrs de libert e e

Dans plusieurs cas, les fonctions de lissage sont obtenues par une combinaison linaire des observations. On peut alors crire e e (x) = S y (2.2)

o` S est la matrice de lissage et est alors un vecteur de dimension n. La dtermination u e de S dpend du type de lissage que lon veut eectuer, du param`tre de lissage, ainsi que e e de la faon dont les xi sont distribus. La matrice S est tr`s utile pour la dtermination c e e e des degrs de libert (d.l.) dune fonction de lissage. En rgression paramtrique, le e e e e nombre de degrs de libert associs ` un mod`le est gal au nombre de param`tres e e e a e e e estims par ce dernier. Ainsi, plus le nombre de degrs de libert est lev, meilleur e e e e e est lajustement. Puisque les mod`les non paramtriques ne sont habituellement pas e e exprims en terme de param`tres, mis ` part le param`tre de lissage, on ne peut procder e e a e e directement de cette faon. On dsire toutefois possder une mesure permettant de c e e comparer la exibilit de dirents estimateurs de (x), puisque la valeur du param`tre e e e

Chapitre 2. La rgression non paramtrique univarie e e e

9

de lissage nest pas ncessairement comparable dune fonction de lissage ` lautre. On e a utilise donc le mme concept de degrs de libert pour comparer le lissage eectu e e e e par direntes fonctions de lissage, mais dni de faon ` sappliquer ` la rgression e e c a a e non paramtrique. Il existe plus dune dnition du nombre de degrs de libert dune e e e e fonction de lissage qui sont gnralement inspires de la rgression linaire et utilises e e e e e e ` des ns direntes. Il importe donc dtre vigilant lors de la comparaison des degrs a e e e de libert destimateurs ajusts avec direntes procdures informatiques. e e e e Puisquen rgression linaire les degrs de libert dun mod`le (nombre de pae e e e e ram`tres) peuvent tre obtenus en calculant la trace de la matrice chapeau2 (Myers, e e 1990, p.135), on peut faire le parall`le avec la matrice de lissage pour obtenir la dnition e e d.l.(mod`le) = trace(S ) e (2.3)

pour la comparaison des degrs de libert de dirents mod`les non paramtriques. Toue e e e e tefois, certains auteurs prf`rent utiliser dautres dnitions pour les degrs de libert ee e e e du mod`le, qui varient quelque peu de 2.3, par exemple la trace(S S ), mais elles ne e seront pas utilises dans cet ouvrage. Dans tous les cas, on interpr`te habituellement le e e nombre de degrs de libert dune fonction de lissage comme un quivalent en nombre e e e de param`tres virtuels estims par cette derni`re. Par ailleurs, pour certaines rares e e e fonctions de lissage, comme les splines de rgression, il est possible de calculer directee ment le nombre de param`tres du mod`le. Ainsi, de faon gnrale, plus le nombre de e e c e e degrs de libert du mod`le associ ` une fonction de lissage est grand, plus on accorde e e e ea une grande exibilit ` cette derni`re. Certaines mthodes permettent de xer le nombre ea e e de degrs de libert dsir au lieu du param`tre de lissage. Il peut alors tre intressant e e e e e e e de comparer direntes fonctions de lissage, ajustes pour un mme chantillon, qui e e e e possdent le mme nombre de degrs de libert. Lorsque les mthodes ne permettent e e e e e pas de xer le nombre de degr de libert, on peut tout de mme les utiliser pour guider e e e la comparabilit de dirents mod`les ou bien modier la valeur du param`tre de lissage e e e e pour obtenir un nombre de degrs de libert qui sapproche de la valeur dsire. Il est e e e e ` noter que pour certaines mthodes, comme les fonctions de lissage loess, le nombre a e de degrs de libert peut varier dune faon pratiquement continue, mais ce nest pas e e c toujours le cas, les splines de rgression en sont un bon exemple. e Dun autre ct, si on cherche ` eectuer des tests pour comparer dirents mod`les, oe a e e on a plutt besoin dune mesure de degrs de libert pour lerreur. Dans ce cas, il o e e peut tre prfrable dutiliser une autre dnition, telle que celle utilise par Hastie et e ee e e Tibshirani (1990, p.54)T d.l.(erreur) = n trace(2S S S ).2

(2.4)

Hat matrix en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

10

Pour plus dinformation sur les degrs de libert des fonctions de lissage univaries, e e e le lecteur peut consulter Hastie et Tibshirani (1990, section 3.5).

2.1.3

Les crit`res de slection automatique du param`tre de e e e lissage

La plupart des utilisateurs de fonctions de lissage cherchent ` obtenir lajustement a optimal pour la relation quils veulent estimer, cest-`-dire quils dsirent dterminer le a e e param`tre de lissage qui constitue le meilleur compromis entre le lissage et la exibilit. e e Ils cherchent donc ` obtenir lestimateur (x) qui se rapproche le plus possible de a la vraie fonction (x) de lquation (2.1). La meilleure faon de mesurer la prcision e c e dun estimateur serait dutiliser un chantillon complmentaire form dune nouvelle e e e observation pour chaque valeur de xi et de minimiser les erreurs de prdiction. On e pourrait donc choisir lestimateur qui minimise la moyenne des esprances des erreurs e 3 de prdiction au carr (PSE ) donne par e e e 1 P SE() = nn E {yi (xi )}2 i=1

(2.5)

o` yi est une nouvelle observation au point xi , ce qui implique que yi = (xi ) + u i o` est non corrle avec les autres erreurs i (Hastie et Tibshirani, 1990, p.42). On u i ee obtient alors une mthode de slection automatique4 du param`tre de lissage. Cette e e e quantit poss`de plus dun estimateur souvent utiliss dans les livres et les articles e e e scientiques. Hastie et Tibshirani (1990, section 3.4) en prsentent trois qui sont proe bablement les plus connus. Tout dabord, la faon la plus simple destimer (2.5) est c 5 dutiliser la moyenne des rsidus au carr (ASR ) donne par e e e

1 ASR() = n

n

{yi (xi )}2 , i=1

(2.6)

mais cette derni`re nest pas recommande, car elle est biaise et donne gnralement de e e e e e a e mauvais rsultats (Hastie et Tibshirani, 1990, p.44). Pour palier ` ce probl`me, certains e utilisent un crit`re de la forme du Cp de Mallows (1973) qui, pour une fonction de e lissage linaire, est donn par e e Cp () = ASR +3 4

2tr(S ) 2 . n

(2.7)

Average Predictive Squared Error en anglais. Silverman (1985) explique quil est prfrable dutiliser le terme automatique plutt que obee o jective . 5 Average Squared Residual en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

11

Hastie et Tibshirani (1990, p.48) estiment 2 , la variance des rsidus i du mod`le (2.1), e e n 2 T par i=1 {yi (xi )} /{n tr(2S S S )} o` est tel que le lissage obtenu est u minimal, pour limiter le plus possible le biais contenu dans lestimateur, et la somme au numrateur est la somme des rsidus au carr pour lestimateur . Finalement, le e e e crit`re qui est probablement le plus souvent utilis pour estimer (2.5) est celui de la e e 6 validation croise (CV ) donn par e e CV () = 1 nn yi i (xi ) i=1 2

(2.8)

o` i (xi ) est lestimation obtenue au point xi lorsque le point (xi , yi ) est exclue de u lchantillon pour le calcul de lestimateur. e Pour chacun de ces crit`res, la technique utilise pour dterminer le param`tre de e e e e lissage optimal est la mme : on calcule la valeur du crit`re pour une srie de valeurs e e e de param`tres de lissage, puis on slectionne celui qui minimise le crit`re en question. e e e Dans certains cas, les calculs ncessaires pour calculer le crit`re de la validation e e croise sont trop laborieux et demandent un temps trop important pour que cette e mthode soit rellement applicable. On peut alors utiliser le crit`re de validation croise e e e e 7 gnralise (GCV ), aussi parfois appel somme des rsidus au carr pnalise , qui e e e e e e e e est donn par e n 1 {yi (xi )}2 GCV () = n i=1 (2.9) 2 C() 1 n o` C() est une fonction qui dpend du param`tre de lissage et qui varie selon les auteurs u e e et le type rgression non paramtrique utilis. Dans le cas des fonctions de lissage e e e linaires Hastie et Tibshirani (1990, p.49) proposent de prendre C() = trace(S ) qui, e notons-le, est aussi la dnition utilise pour les degrs de libert du mod`le (2.3). e e e e e Bien que ces crit`res semblent tr`s attrayants, parce que simples et dusage courant, e e Hastie et Tibshirani (1990, p.52) rapportent que ces techniques ne permettent pas toujours dobtenir de bons rsultats et quil serait prfrable dans la plupart des cas e ee dutiliser des moyens visuels pour dterminer la valeur du param`tre de lissage. De e e plus, tel quexpos par Silverman (1985), il est avantageux de visualiser lestimateur e obtenu pour direntes valeurs de param`tre de lissage, puisque cela permet davoir une e e meilleure conscience des caractristiques de la relation, que lon retrouve peu importe e la valeur du param`tre de lissage, comparativement ` dautres qui pourraient ntre e a e observes quen fonction de cette derni`re. Cela permet donc davoir une meilleure e e6 7

Cross-validation en anglais. Generalized cross-validation en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

12

connaissance de la relation que lon dsire tudier, mais aussi dviter danalyser un e e e estimateur sans avoir pleinement pris conscience des caractristiques des estimateurs e de rgression non paramtrique, telles que la dualit biais-variance. e e e

2.1.4

Traitement des galits dans la variable prdictive e e e

La plupart des mthodes non paramtriques ont dabord t dveloppes en suppoe e ee e e sant que lchantillon que lon dsire tudier ne contient pas dgalits pour les valeurs e e e e e de la variable explicative xi , puisque cette derni`re est continue. Ainsi, les sections qui e suivent utilisent gnralement ce postulat pour dcrire le fonctionnement des direntes e e e e mthodes de lissage. Toutefois, dans la ralit et principalement dans ltude portant e e e e sur la densit mammaire, il nest pas rare dobserver des galits, qui sont habituellee e e ment la consquence darrondissement. Il existe alors un moyen simple qui peut tre e e appliqu pour toutes les mthodes (Hastie et Tibshirani, 1990, p.74). Ce dernier consiste e e ` prendre la moyenne de la variable rponse pour tous les points ayant la mme valeur a e e xi et daccorder ` la nouvelle coordonne un poids wi , gal au nombre dgalits pour a e e e e xi . On obtient alors un nouvel chantillon compos des points e e (xi , moyxi (yj ), wi ),

i = 1, . . . , n .

(2.10)

o` n reprsente le nombre de valeurs distinctes dans le vecteur x = (x1 , ..., xn ). On u e peut alors eectuer une rgression non paramtrique pondre en utilisant ce nouvel e e ee chantillon. e

2.1.5

Tests approximatifs pour comparer des fonctions de lissage

En statistique, il est dusage deectuer des tests pour vrier si les param`tres que e e e e lon a estims sont signicatifs. Dans ce sens, Hastie et Tibshirani (1990) ont dvelopp e des tests approximatifs qui permettent de guider la slection du mod`le. Il est important e e de noter la nature approximative de ces derniers. On ne peut donc pas sy er comme on peut le faire avec les tests utiliss en rgression paramtrique, car on ne conna pas e e e t leur seuil rel. e Les tests proposs par Hastie et Tibshirani (1990, section 3.9) sont tout simplement e construits par analogie avec la rgression linaire. Ainsi, pour deux estimateurs 1 et e e 2 o` 2 est lestimateur le plus exible, supposons que lon dsire tester les hypoth`ses u e e suivantes :

Chapitre 2. La rgression non paramtrique univarie e e e H0 : 1 et 2 sont quivalents. e contre H1 : 1 et 2 sont dirents. e On peut alors utiliser la statistique F = (RSS(1 ) RSS(2 ))/(1 2 ) F1 2 ,2 RSS(2 )/2

13

(2.11)

o` RSS est la somme des rsidus au carr et i est le nombre de degrs de libert de u e e e e lerreur de lestimateur i, dni par la formule 2.4, pour les estimateurs linaires. Ce e e type de test peut donc tre utile pour tester la non linarit dune relation ou, plus e e e gnralement, pour aider ` choisir une forme paramtrique. On peut aussi se servir e e a e de ces tests pour comparer dirents mod`les non paramtriques utilisant les mmes e e e e donnes, par exemple pour guider le choix du param`tre de lissage. e e Toutefois, on doit toujours garder en tte que ces tests ne sont quapproximatifs et e que, tant donn la complexit de la rgression non paramtrique, les estimateurs quelle e e e e e produit ne peuvent tre interprts de la mme faon que les estimateurs de la rgression e ee e c e paramtrique. Ainsi, dans un contexte dexploration des donnes, comme ce qui sera e e e e ralis au chapitre 4, ces tests sont peu intressants puisquils dpendent des choix de la e e mthode de lissage et des param`tres qui lui sont associs. En fait, plutt que de chercher e e e o ` faire des tests, il peut parfois tre plus pertinent de vrier si les caractristiques des a e e e donnes mises ` jour par lestimation du mod`le sont stables lorsque les param`tres de e a e e lissage changent. De cette faon, on gardera nalement lestimateur qui semble donner c le meilleur compromis entre le lissage et la exibilit et on interprtera seulement les e e caractristiques qui ont paru tre stables. e e

2.1.6

Mthodes diagnostiques e

En rgression paramtrique, il est dusage dutiliser des mthodes diagnostiques pour e e e vrier si les postulats du mod`le ont bien t respects. La rgression non paramtrique e e ee e e e ny fait pas exception, surtout lorsque vient le temps de choisir un estimateur nal qui sera interprt ou si on dsire eectuer des tests tels que ceux prsents ` la section 2.1.5. ee e e e a On peut alors utiliser le mme type de techniques quen rgression paramtrique, soit e e e par exemple, tracer un graphique des rsidus en fonction des observations pour vrier si e e le mod`le a t spci correctement et que le lissage est adquat ou tracer une droite de e ee e e e Henri pour vrier si les rsidus suivent une loi Normale. Pour ce faire, on peut utiliser e e les rsidus bruts, mais certains auteurs sugg`rent des transformations des rsidus qui e e e suivent le mme principe que celles que lon utilise en rgression paramtrique (rsidus e e e e standardiss et rsidus studentiss) (Silverman, 1985; Cleveland et al., 1992, p.366) . e e e

Chapitre 2. La rgression non paramtrique univarie e e e

14

Pour plus dinformation sur les mthodes diagnostiques, le lecteur peut consulter e Cleveland et al. (1992) ou Silverman (1985).

2.2

La mthode loess e

La mthode loess8 a t introduite par Cleveland (1979), mais la description qui e ee suit est principalement tire de Hastie et Tibshirani (1990). Cette mthode est probae e blement la plus utilise pour faire de la rgression non paramtrique. Ceci sexplique e e e principalement par le fait quelle est tr`s simple, ce qui lui donne lavantage dtre e e habituellement plus rapide dexcution que ses comptitrices. Cest aussi un tr`s bon e e e outil lorsque lon dsire conna lallure gnrale de la courbe dans le but de faire une e tre e e rgression paramtrique, par exemple. De plus, elle peut facilement tre utilise pour e e e e ajuster des mod`les multidimensionnels (voir chapitre 3). Par contre, puisque cest une e mthode plutt heuristique, elle ne permet pas ` son utilisateur dobtenir une exprese o a sion simple pour la forme de la relation ni deectuer des tests exacts comme ceux qui sont faits en rgression paramtrique. e e

2.2.1

Forme de lestimateur loess

La mthode loess utilise les moindres carrs pondrs pour obtenir un estimateur de e e ee la fonction (x) du mod`le (2.1). Par contre, contrairement ` lhabitude, lestimateur e a loess nest pas reprsent par une quation unique, mais plutt par un ensemble de e e e o points. Soit un chantillon (xi , yi ), i = 1, . . . , n, o` on suppose dabord que les valeurs e u xi de la variable explicative sont toutes distinctes, alors la procdure pour obtenir e lestimateur loess, telle que dcrite par Hastie et Tibshirani (1990, p.30) est la suivante : e Dnition 1 (Mthode loess). e e 1. Pour tous les points x0 du domaine de X, on choisit les k plus proches voisins, que lon appelle voisinage, et on value la dise tance entre ces derniers et le point x0 . On dnote lensemble de points constituant e le voisinage de x0 par N (x0 ). 2. On donne ` chaque point du voisinage de x0 un poids inversement proportionnel a ` sa distance par rapport ` x0 ` laide de la fonction tricube a a a w(u) =8

(1 u3 )3 pour 0 u < 1 0 sinon.

Locally weighted running-line en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

15

Pour que le poids soit bien inversement proportionnel ` la distance, on prend a |x0 xi | u = maxN (x ) |x0 xi | pour chaque point xi du voisinage N (x0 ).0

3. On calcule lestimateur de (x) au point x0 en utilisant le polynme, de degr o e dtermin par lutilisateur, estim en appliquant la mthode des moindres carrs e e e e e pondrs (voir Myers (1990, section 7.1)) ` lensemble des points du voisinage e e a N (x0 ).

Par souci dconomie de temps et puisque lestimateur loess est plutt un outil visuel, e o on neectue pas rellement cette dmarche pour tous les points x0 du domaine de X. e e On choisit plutt une srie de points rpartis sur le domaine pour lesquels on calcule o e e la valeur de lestimateur, puis on utilise une mthode dinterpolation pour obtenir le e rsultat nal. e La gure 2.3 illustre le fonctionnement de lestimation de (x) ` laide de la mthode a e loess utilisant un voisinage de 45 points (span = 0.20) et des polynmes de degr 1. o e Pour simplier la description, on utilise un chantillon de la forme de (2.10) pour les e variables DENSITE et POIDS (voir tableau 1.1) o` on donne la valeur 1 ` tous les wi . u a Tel quexpos prcdemment, la mthode loess calcule la valeur de lestimateur pour e e e e c e une srie de valeurs de la variable explicative. La gure 2.3 montre la faon de procder e pour 2 valeurs cibles, POIDS=60 et POIDS=115, identies par les traits pointills, e e alors que lestimateur nal est reprsent par un trait noir continu. Les points plus gras e e en rouge ` gauche reprsentent le voisinage utilis pour le calcul de lestimateur au a e e point POIDS=60, alors que les points gras en vert ` droite reprsentent celui du point a e POIDS=115. Pour chacune des valeurs cibles, on ajuste lestimateur des moindres carrs e pondrs en utilisant tous les points constituant leur voisinage respectif. La pondration ee e utilise pour chacune des estimations est prsente au-dessus de chaque voisinage. On e e e remarque que lutilisation dun voisinage form des plus proches voisins entra le fait e ne que lestimateur calcul pour la cible se trouvant pr`s de la borne de droite provient e e presque uniquement de points situs ` la gauche de ce dernier. Par contre, ceci est pris e a en compte dans la pondration comme on peut le voir sur le graphique. e Avec la mthode loess, la exibilit de lestimateur est contrle par le choix du e e oe voisinage. En eet, plus le nombre k de points constituant le voisinage est grand, plus la courbe est lisse. Il est dusage dexprimer la grandeur du voisinage par le span=, cest-`-dire la proportion de points constituant le voisinage par rapport au nombre a total de points dans lchantillon. La gure 2.2 prsente le rsultat dune estimation de e e e type loess pour trois valeurs direntes de span, applique aux variables DENSITE et e e IMC, tandis que la gure 2.3 illustre la mthode loess ainsi que le principe de voisinage e et POIDS (voir tableau 1.1). La mthode du plus e ` laide des variables DENSITE a

Chapitre 2. La rgression non paramtrique univarie e e e

16

0 40

20

DENSIT 40 60

80

poids des donnes 100 0 0.5 1

60

80 POIDS en kg

100

120

Fig. 2.3 Illustration de la mthode loess. e

Chapitre 2. La rgression non paramtrique univarie e e e

17

proche voisin, telle que dcrite dans la Dnition 1, est prfrable ` celle du voisinage e e ee a symtrique, o` on prend un nombre gal de points de chaque ct de x0 , puisquelle e u e oe permet normalement de rduire le biais de lestimateur en choisissant des points qui e sont plus pr`s du point x0 (` moins que les xi ne soient galement espacs) (Hastie et e a e e Tibshirani, 1990). De plus, en utilisant la pondration avec la fonction tri-cube, on vite e e de donner trop de poids ` des points situs tr`s loin par rapport ` x0 , particuli`rement a e e a e dans les cas o` ce dernier se situe ` une extrmit. u a e e Lalgorithme de la mthode loess ne spcie pas le degr du polynme utilis pour e e e o e obtenir lestimateur des moindres carrs. Les polynmes de degr un ou deux sont ordie o e nairement favoriss, car ils permettent dobtenir des rsultats satisfaisants en un temps e e minimal. En thorie, il est possible dutiliser un polynme de nimporte quel degr, mais e o e les logiciels de statistique tels que SAS, R et S-Plus se limitent gnralement aux degrs e e e un et deux. Une mini tude de comparaison applique aux donnes de ltude portant e e e e e e sur la densit mammaire (voir tableau 1.1) a permis de dceler les dirences majeures e observes entre les estimateurs utilisant des polynmes de degr 1 et les estimateurs e o e utilisant des polynmes de degr 2 pour direntes valeurs de param`tre de lissage. La o e e e et IMC. Ainsi, on gure 2.4 en prsente un exemple appliqu aux variables DENSITE e e a remarqu, de faon plus vidente pour les valeurs de param`tre de lissage lves, e c e e ee e que les estimateurs utilisant des polynmes de degr 1 ressemblent plus ` des fonctions o e a continues linaires par parties, alors que les estimateurs utilisant des polynmes de e o degr 2 sapparentent ` des fonctions continues quadratiques par parties, ce qui nest e a videmment pas tr`s surprenant ! Par ailleurs, lorsque le lissage est moins important, e e les estimateurs utilisant des polynmes de degr 2 ont montr des oscillations plus o e e importantes ou plus nombreuses. Finalement, mentionnons que les fonctions de lissage loess sont des estimateurs ee linaires. On peut donc les exprimer sous la forme (2.2) en calculant chaque lment de e la matrice S = S de la faon suivante c Sij = (xi xi )(xj xi )wj w w i + , i i i 2 jN (xi ) wj jN (xi ) wj (xj xw )i wj

i, j = 1, . . . , n,

e e w o` wj reprsente le poids donn au point xj faisant partie du voisinage de xi et xi est u i la moyenne pondre de tous les points xj compris dans N (xi ) (voir Dnition 1). On ee e peut donc utiliser cette formule pour calculer les degrs de libert dune fonction de e e lissage loess tels que dnis en (2.3). e

Chapitre 2. La rgression non paramtrique univarie e e e

18

= 0.25(a)100 100

(b)

80

DENSIT 40 60

20

0

20

25

30

35 IMC

40

45

50

0 20

20

DENSIT 40 60

80

25

30

35 IMC

40

45

50

= 0.75(c)100 100

(d)

80

DENSIT 40 60

20

0

20

25

30

35 IMC

40

45

50

0 20

20

DENSIT 40 60

80

25

30

35 IMC

40

45

50

Fig. 2.4 Illustration des dirences engendres par lutilisation de polynmes de degr e e o e 1 ou 2 dans la mthode loess pour deux valeurs de param`tre de lissage. Les fonctions e e de lissage reprsentes en (a) et en (c) utilisent des polynmes de degr 1, alors que e e o e celles en (b) et (d) utilisent des polynmes de degr 2. o e

Chapitre 2. La rgression non paramtrique univarie e e e

19

2.2.2

Ajustement dun estimateur loess avec R

Il existe au moins trois faons dajuster une fonction de lissage de type loess avec le c logiciel R, soit avec les fonctions scatter.smooth(), loess() et gam() utilise avec la e fonction lo(). Lutilisateur doit toutefois tre vigilent, car bien quelles soient toutes e semblables, leurs options et leurs param`tres par dfaut peuvent varier et mener ` e e a des rsultats dirents. Lorsque lon utilise les mmes valeurs pour les param`tres, e e e e lestimateur obtenu est pratiquement identique pour scatter.smooth() et loess(), alors que celui obtenu avec gam() est tr`s lg`rement dirent de ces derniers. Toutefois e e e e toutes ces dirences sont mineures et naectent pas rellement lallure de la courbe. e e Puisque les dtails des calculs eectus avec chacune des fonctions sont pratiquement e e introuvables, il est dicile didentier prcisment la cause de ces dirences, mais e e e celles-ci sont probablement dues ` des techniques doptimisation direntes. a e Pour chacune de ces fonctions, lutilisateur doit spcier la valeur du span, qui e reprsente le pourcentage de points faisant partie du voisinage. Par contre, comme on e la expos ` la section 2.1.3, plusieurs utilisateurs dsirent estimer le span optimal en ea e utilisant des crit`res tels que le Cp ou le CV . Aucune des fonctions du logiciel R ne pere met dutiliser directement ces mthodes pour ajuster des fonctions de lissage loess, ce e qui implique que lutilisateur doit les programmer lui-mme. La fonction loess() pere met toutefois de xer lquivalent en nombre de param`tres (enp), dni par la tr(S S) e e e e (Cleveland et al., 1992, p.371), au lieu du span. Elle dtermine alors la valeur approprie pour ce dernier permettant dobtenir lestimateur dont lquivalent en nombre de e e param`tres (une quantit comparable aux degrs de libert dnis par (2.3)) est le plus e e e e e pr`s possible de la quantit demande. e e e Le traitement des galits dans la variable explicative se fait de la mme faon que la e e e c procdure prsente ` la section 2.1.4. Nanmoins, tel quexpos par Hastie et Tibshirani e e e a e e (1990, p.74), ceci pose un probl`me dans la dnition du voisinage tel que prsent ` e e e ea la Dnition 1, qui devrait alors tre exprim en terme de poids total plutt que par e e e o un nombre de points. En eet, puisque lon a plusieurs points pour certaines valeurs de xi , on se trouve en quelque sorte ` faire entrer des groupes de points dans le voisinage a N (x0 ), ce qui peut rendre impossible le fait darriver exactement ` la bonne valeur de a span pour certaines valeurs de x0 . On pourrait donc accorder un poids supplmentaire e au groupe de points qui est le plus loign de la valeur cible, ce qui permettrait de e e considrer que lon ne prend quune fraction de ce groupe. Ceci nest toutefois pas e discut dans la documentation des fonctions dcrites ci haut. e e

Chapitre 2. La rgression non paramtrique univarie e e e

20

2.3

Les splines de rgression e

Les splines de rgression9 , plus particuli`rement les B-splines, sont bien connues en e e analyse numrique et sont tr`s utilises en modlisation graphique. En statistique, on e e e e les prf`re aux autres mthodes non paramtriques pour leurs qualits mathmatiques ee e e e e qui combinent la simplicit des calculs ` une expression explicite et ` la possibilit e a a e deectuer des tests statistiques comme dans la rgression linaire usuelle. En fait, e e certains auteurs, tels que Hastie et Tibshirani (1990), consid`rent cette mthode comme e e de la rgression semi-paramtrique. Le lecteur intress ` tudier plus en dtails les e e e e a e e splines de rgression univaries peut consulter Eubank (1999, chapitre 6) do` a t e e u ee tire la plupart de linformation contenue dans cette section. e

2.3.1

Forme de lestimateur des splines de rgression e

La forme de lestimateur des splines de rgression univaries est motive par le e e e e e e mod`le (2.1). En dveloppant (x) selon le thor`me de Taylor (voir Eubank, 1999, e p.121), on trouve que le mod`le (2.1) peut scrire de la faon suivante e e cm

yi =j=1

j xj1 + [(m 1)!]1 i

(m) (xi )(xi )m1 d + +

i,

(2.12)

o` u u+ = u si u 0 0 si u < 0

e et (m) (x) est la mi`me drive de (x). On remarque alors que la premi`re sommation e e e de cette quation est simplement un polynme de degr m 1. Ainsi, dans le cas o` e o e u lintgrale dans (2.12) peut tre nglige, il serait appropri deectuer une rgression e e e e e e polynomiale pour dcrire la relation entre Y et X. Par contre, puisquil peut souvent e tre dicile de dterminer le degr m 1 du polynme pour que cette intgrale soit e e e o e ngligeable, on peut obtenir un estimateur plus exible en estimant cette derni`re par e e k

j (xi j )m1 . +j=1

(2.13)

Ainsi, pour certains coecients 1 , ..., m , 1 , ..., k et un certain ensemble de pointsLes termes regression splines (Hastie et Tibshirani, 1990) et least-square splines (Eubank, 1999) sont utiliss en anglais. e9

Chapitre 2. La rgression non paramtrique univarie e e e

21

= {1 , ..., k }, lestimateur s (x) des splines de rgression a la forme em k

s (x) =j=1

j x

j1

+j=1

j (x j )m1 . +

(2.14)

Toute fonction ayant la forme de (2.14) fait partie de la famille des fonctions splines. Ces derni`res sont des fonctions continues, dnies par intervalles et dont les morceaux sont e e des polynmes de degr m1. Lensemble de points {1 , ..., k }, que lon identie comme o e lensemble des noeuds , dnit les points de coupures de ces intervalles. La forme de e lestimateur assure aussi que les m 2 premi`res drives sont continues, ce qui permet e e e dobtenir une courbe assez lisse, selon la valeur de m. Les splines les plus frquemment e utiliss sont les splines cubiques, qui sont composes de polynmes de degr 3 et dont e e o e les deux premi`res drives sont continues, ainsi que les splines linaires, composes e e e e e de polynmes de degr un. En fait, on peut choisir le nombre de drives continues o e e e e e ee en modiant lexposant dans la deuxi`me sommation de (2.14). En gnral, on prf`re e toutefois travailler avec un lissage maximal, cest-`-dire en imposant un maximum de a drives continues, soit une de moins que le degr des polynmes ajusts. Ceci donne par e e e o e exemple, dans le cas dune spline linaire, une fonction continue, linaire par partie, dont e e la pente change ` chaque noeud et, dans le cas dune spline cubique, une courbe dont a la troisi`me drive fait des sauts ` chaque noeud. La gure 2.5 montre des exemples e e e a de splines de rgression de dirents degrs appliques aux variables DENSITE et IMC e e e e (voir tableau 1.1). Le graphique 2.5 (a) montre bien la caractristique particuli`re des fonctions splines e e qui sont continues et dnies par parties. Par contre, ce nest pas ncessairement le cas, e e ` premi`re vue, lorsque lon observe la forme de lestimateur prsent en (2.14). Par a e e e e exemple, sous cette forme, lestimateur du graphique 2.5 (a) est donn par s (x) = 165.482 5.113x + 2.674(x 24.7)+ + 1.727(x 34.7)+ . Toutefois, il est facilement possible de rcrire cette quation pour mettre plus en ee e vidence la dite caractristique. On obtient alors e e 165.492 5.113x, si x < 24.7 s (x) = 99.444 2.439x, si 24.7 x < 34.7 39.517 0.712x, si 34.7 x. De cette faon, on observe rapidement le fait que les splines de rgression sont des c e fonctions dnies par parties et on peut facilement vrier la continuit en calculant la e e e valeur de s (x) aux points 24.7 et 24.7, par exemple.

Chapitre 2. La rgression non paramtrique univarie e e e

22

(a) Spline Linaire100 100

(b) Spline Quadratique100

(c) Spline Cubique

80

80

DENSIT 40 60

DENSIT 40 60

20

20

0

0

20

25

30

35 IMC

40

45

50

20

25

30

35 IMC

40

45

50

0

20

DENSIT 40 60

80

20

25

30

35 IMC

40

45

50

Fig. 2.5 Illustration de splines de rgression de dirents degrs appliques aux vae e e e et IMC (voir tableau 1.1). Pour chaque estimateur, on a plac 2 e riables DENSITE noeuds, identis par les traits pointills, aux points 24.7 et 34.7 de la variable IMC. e e Ces derniers ont t dtermins ` laide de la mthode polyMARS prsente ` la section ee e e a e e e a 3.3.

2.3.2

Estimation des param`tres e

Lestimation des param`tres dune fonction spline nest habituellement pas ce quil e y a de plus simple. En eet, lestimateur des splines de rgression contient dirents e e types de param`tres qui ne peuvent pas tre tous estims simultanment. De faon ` e e e e c a simplier la notation, on dnit dabord la base de fonctions de puissance tronques e e Bj (x) = xj1 , j = 1, ..., m Bm+j (x) = (x j )m1 , j + = 1, ..., k (2.15) (2.16)

et aussi le vecteur de coecients = (1 , ..., m , 1 , ..., k ). Alors, (2.14) peut sexprimer commem+k

s (x) =j=1

j Bj (x).

(2.17)

On remarque que s (t) poss`de plusieurs quantits inconnues a priori, soit m, et . e e Quoique certains algorithmes nous permettent destimer et en mme temps, toutes e les mthodes destimation des splines de rgression consid`rent un m x au dpart. e e e e e Les splines cubiques (m = 4) sont habituellement favoriss, car ils permettent dobtenir e des courbes assez lisses tout en conservant un nombre raisonnable de param`tres et un e mod`le assez simple. Toutefois, lorsque la mthode destimation est plus adaptative et e e

Chapitre 2. La rgression non paramtrique univarie e e e

23

que le choix des noeuds est dirig par les donnes, on doit gnralement se restreindre e e e e ` des polynmes de degr 1 ou 2 de faon ` limiter le temps de calculs. Il existe plua o e c a sieurs mthodes pour estimer les param`tres des splines de rgression. Les paragraphes e e e suivants en prsentent quelques-unes. e On consid`re dabord le cas le plus simple o` est connu. Dans ce cas, s (x) est e u un estimateur linaire et on peut facilement obtenir lestimateur de ` laide de la e a mthode des moindres carrs. Tel que dcrit dans Eubank (1999), on cherche alors ` e e e a minimiser la somme des rsidus au carr e en m+k

RSS(, ) =i=1

(yi j=1

j Bj (xi ))2

(2.18)

par rapport ` . Si on dnit la matrice a e X = {Bj (xi )}i=1,n,j=1,m+k , alors b = (b1 , . . . , b(m+k) ), lestimateur de , est obtenu en solutionnant les quations e normales (Myers, 1990, p.88), comme dans la rgression linaire, et est donn par e e e b = (X X )1 X y. (2.19)

Malheureusement, en pratique, on ne conna pas et cette mthode ne peut tre t e e applique directement. Plusieurs solutions sont envisageables, chacune ayant ses forces e et ses faiblesses. La solution la plus simple mais la moins pratique est probablement e celle dessais et erreurs dcrite par Eubank (1999, p.294). Selon cette mthode, il est e possible de dterminer lemplacement des noeuds simplement en observant les donnes. e e En eet, si on consid`re le fait que la fonction spline doit avoir des noeuds aux endroits e i`me e o` la (m 1) u drive de (x) change, il est alors possible de dterminer certaines e e e r`gles qui guideront le choix de lemplacement des noeuds. Par exemple, e 1. dans le cas des splines linaires, on doit placer un noeud ` tous les endroits o` il e a u semble y avoir un changement dans la pente ; 2. dans le cas des splines cubiques, on doit placer des noeuds aux endroits o` la u troisi`me drive de (x) change, cest-`-dire pr`s dun point dinexion, mais e e e a e en sassurant quil ny ait pas plus dun point extrme (minimum ou maximum) e entre deux noeuds. Toutefois, il est plutt rare que la relation dessine par le nuage de points soit assez o e vidente pour permettre dappliquer correctement ces r`gles. Dans de tels cas, lapplie e cation en premier lieu de la mthode loess pourrait permettre de mieux identier les e endroits o` on devrait retrouver des noeuds en suivant les r`gles de Eubank (1999). u e Par exemple, ` la gure 2.4 (c), on peut observer quil semble y avoir un changement a

Chapitre 2. La rgression non paramtrique univarie e e e

24

dans la pente autour des points IMC=25 et IMC=37, ce qui est tout ` fait cohrent a e avec lestimateur prsent dans le graphique 2.5 (a). Cette mthode na toutefois rien e e e de rigoureux et sera rarement privilgie, sauf ` des ns exploratoires. e e a Une autre solution pour obtenir un estimateur de (x) form dune fonction spline e de rgression est de xer le nombre k de noeuds, puis de placer ces derniers de faon unie c forme sur le domaine, ou sur les statistiques dordre, de la variable prdictive. Quoique e la deuxi`me option semble plus attirante puisquelle tient compte de la dispersion des e donnes, cette mthode soure toujours dun grand manque dadaptabilit. Hastie et e e e Tibshirani (1990, section 9.3.5) souligne que le choix de lemplacement des noeuds est important puisque le fait de placer les noeuds au mauvais endroit peut biaiser lestimateur dune faon plus importante quun autre type destimateur avec un lissage c quivalent, et ainsi mener ` des rsultats errons. Or, le succ`s de cette mthode rel`ve e a e e e e e quelque peu du hasard puisque rien nindique quil existe un lien entre les statistiques dordre et le changement de la fonction (x). Ainsi, le seul moyen de sassurer dobtenir une fonction avec un minimum de biais serait de prendre un nombre important de noeuds, ce que lon cherche habituellement ` viter. ae Il existe heureusement des techniques plus automatiques qui estiment lensemble des noeuds et le vecteur de param`tres simultanment. Pour un certain nombre k e e de noeuds et un degr m 1 xs, la mthode la plus attirante est probablement de e e e a a e e minimiser (2.18) par rapport ` c et ` simultanment. Puisque (2.18) nest pas linaire par rapport ` , on doit alors utiliser une mthode doptimisation numrique, telle a e e que lalgorithme de Gauss-Newton modi (Gallant et Fuller, 1973), pour obtenir les e estimateurs. Malheureusement, Jupp (1978, 1972) a montr que la fonction de vraiseme blance na pas toujours un maximum et quil existe parfois plusieurs solutions possibles pour un tel estimateur. Un autre probl`me avec cette mthode est que lon doit xer e e le nombre de noeuds, ce qui nest gnralement pas vident. Elle nest donc pas tr`s e e e e souvent utilise et il nexiste aucune procdure informatique bien connue qui permet de e e lappliquer. Certaines mthodes donnent des estimateurs de type splines de rgression sans xer e e le nombre et lemplacement des noeuds. On dit alors que ces mthodes sont adaptatives e puisquelles se basent sur les donnes de lchantillon pour estimer tous les param`tres e e e (excluant le degr m 1 des polynmes). Ces mthodes utilisent gnralement une e o e e e procdure pas ` pas qui ajuste une srie de mod`les, puis choisit celui qui minimise e a e e un certain crit`re dajustement. Les mthodes MARS et polyMARS sont deux bons e e exemples de procdures adaptatives et seront prsentes dans le prochain chapitre puise e e quelles permettent aussi dobtenir des estimateurs multidimensionnels.

Chapitre 2. La rgression non paramtrique univarie e e e

25

2.3.3

B-Splines

Lutilisation des bases de fonctions de puissance tronques (2.15)-(2.16) peut ene tra ner certains probl`mes de stabilit numrique lors de la rsolution des quations e e e e e normales ` laide de la formule (2.19). Pour viter ce probl`me, on peut utiliser les a e e bases B-splines qui sont plus stables. Pour ce faire, on doit ajouter des noeuds ` lena semble existant = {1 , . . . , k } tels que, pour une fonction splines de degr m 1, on e ajoute 2m noeuds dnis de la faon suivante e c (m1) = = 0 = minimum du domaine de X k+1 = = k+m = maximum du domaine de X.

Alors on peut calculer les bases rcursivement en utilisant lquation suivante e e Ni,m (x) = x i i+m x Ni,m1 (x) + Ni+1,m1 (x), i+m1 i i+m i+1 x [i , i+m ),

pour i = (m 1), . . . , k, en utilisant Ni,1 (x) = 1, t [i , i+1 ), 0, sinon

pour initialiser le calcul (Eubank, 1999, p.300). On peut ensuite construire la matrice N = {Nj,m (xi )}i=1,n,j=(m1),k pour nalement obtenir lestimateur en rsolvant les e quations normales donnes par e e N N b = N y par rapport au vecteur de coecient b. Pour plus dinformation sur les B-Splines et la faon de les implmenter, le lecteur c e peut consulter le livre de De Boor (1978) ou Eubank (1999, section 6.4).

Chapitre 2. La rgression non paramtrique univarie e e e

26

2.4

Autres mthodes de rgression non paramtrie e e que univarie e

2.4.1

Les splines de lissage

Les splines de lissage10 sont une autre faon dutiliser les fonctions splines (2.14) c pour estimer la fonction de rgression du mod`le (2.1). Contrairement aux splines de e e rgression qui utilisent souvent des mthodes plutt intuitives ou dessais et erreurs pour e e o dterminer lensemble des noeuds et par consquent lestimateur s , les splines de e e lissage dterminent la valeur de ce dernier en minimisant un crit`re bien prcis. Celui-ci e e e combine la mesure classique de la qualit de lajustement, la somme des rsidus au e e carr, et une mesure de la quantit de lissage, ce qui donne e e 1 nn

(yi (xi ))2 + i=1

(m) (t)2 dt,

(2.20)

o` est le param`tre de lissage prenant ses valeurs dans [0, ) et o` m est x et sert u e u e ` dnir le degr des polynmes ajusts (gnralement on utilise m=2, ce qui permet a e e o e e e dobtenir des splines cubiques). La valeur du param`tre permet de dterminer la e e exibilit de lestimateur. Plus la valeur de est pr`s de 0, plus lestimateur est exible, e e car on diminue lapport de la quantit de lissage dans le crit`re (2.20). Par contre, e e lorsque lon augmente la valeur de , on donne plus dimportance ` la deuxi`me partie a e du crit`re (2.20), ce qui oblige lintgrale ` tre plus petite et donc lestimateur ` tre e e ae ae plus lisse. Contrairement ` la mthode loess, le param`tre de lissage des splines de a e e lissage na pas dinterprtation thorique permettant ` lutilisateur de dterminer la e e a e valeur dsire. Il est donc dusage de plutt xer le nombre de degrs de libert, dont la e e o e e dnition peut changer selon la procdure informatique utilise, mais est gnralement e e e e e donne par (2.3). La gure 2.6 prsente trois splines de lissage possdant direntes e e e e e valeurs de degr de libert, dnies par (2.3), utilises pour estimer la relation entre les e e e et IMC (voir tableau 1.1). variables DENSITE Eubank (1999, section 5.2) fait la preuve que lunique fonction, parmi lensemble de e fonctions dont les drives (0) , . . . , (m1) sont absolument continues et dont la mi`me e e drive est carr intgrable (voir Eubank (1999, p.73-74)), qui minimise le crit`re (2.20) e e e e e est une fonction spline de degr 2m 1 avec des noeuds ` chacune des valeurs distinctes e a de la variable X dans lchantillon et ` laquelle on ajoute la contrainte dtre forme de e a e e polynmes de degr d en dehors de lintervalle de couverture de la variable explicative, o e10

Smoothing splines en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

27

(a) d.l.=12100 100

(b) d.l.=8100

(c) d.l.=4

80

80

DENSIT 40 60

DENSIT 40 60

20

20

0

20

25

30

35 IMC

40

45

50

0

20

25

30

35 IMC

40

45

50

0

20

DENSIT 40 60

80

20

25

30

35 IMC

40

45

50

Fig. 2.6 Illustration des fonctions splines de lissage obtenues en xant direntes e valeurs de degrs de libert, tels que dnis en (2.3), pour lestimation de la relation e e e entre la densit mammaire et lindice de masse corporelle (voir tableau 1.1). e

(x(1) , x(n) ). Les splines possdant une telle contrainte sont nommes splines naturelles e e (Eubank, 1999, section 5.8). Il est ` noter que, mme si la formule (2.14) porte ` croire a e a que le nombre de param`tres estims des splines de lissage est gale ` n + m + 1 (n est e e e a le nombre de valeurs distinctes de xi , tel que dcrit en (2.10)), les contraintes imposes e e aux extrmits de lestimateur font descendre le nombre de param`tres ` n . On vite e e e a e donc la surparamtrisation. e En supposant quil ny a pas dgalit dans la variable explicative, lestimateur des e e splines de lissage peut tre dni par e e = X(X X + n)1 X y o` X = (Bj (xi ))i,j=1,n est la matrice des bases des splines naturelles, qui prend souvent u la forme des B-splines, et o` = u Bi(m) (m)

(t)Bj (t)dt

Dans le cas o` il y aurait des galits dans la variable explicative, on utilise simplement u e e la technique dnie ` la section 2.1.4 (Hastie et Tibshirani, 1990, p.74). Notons quil e a est aussi possible de calculer la matrice de lissage S pour cette classe destimateur et que cette derni`re est utilise pour calculer la valeur des degrs de libert pour chaque e e e e estimateur. Les splines de lissage ont lavantage de se baser sur un crit`re prcis pour la dtermie e e nation de leur estimateurs, ainsi que dtre assez facile ` calculer. Ils poss`dent aussi e a e la caractristique de pouvoir tre interprts comme des estimateurs bayesiens (voir e e ee

i,j=1,n

(Eubank, 1999, p.231).

Chapitre 2. La rgression non paramtrique univarie e e e

28

Eubank, 1999, section 5.2). Le principal dsavantage des splines de lissage comparatie vement au splines de rgression est quils sont diciles ` gnraliser au cas multivari. e a e e e En eet, le crit`re pnalisant pour un manque de lissage est dicile ` conceptualiser e e a en dimension p et, mme si on en xe un, les calculs ncessaires pour valuer lestimae e e teur sont habituellement tr`s longs ` eectuer (Hastie, 1992, p.255). Il existe toutefois e a plusieurs solutions qui ont t dveloppes, telles que les splines de lissage ` plaques ee e e a minces (Wahba, 1990) et aussi les mod`les GAM (Hastie et Tibshirani, 1990) qui e seront prsents au chapitre 3. e e Pour plus dinformation sur les splines de lissage, le lecteur peut consulter Eubank (1999, chapitre5), Silverman (1985) ou Wahba (1990).

2.4.2

La mthode du noyau e

La mthode du noyau11 estime la fonction de rgression en calculant une moyenne e e pondre des observations yi pour toutes les valeurs x0 du domaine, sous le mme ee e principe que la mthode loess. La pondration accorde ` un point i de lchantillon e e e a e dpend du type de noyau utilis ainsi que de la distance entre xi et x0 . Un noyau d(t) e e est une fonction continue sur R et dcroissante en |t|. Pour obtenir lestimateur de la e a e fonction de rgression (x) du mod`le (2.1), ` laide de la mthode du noyau, on calcule e e la moyenne pondre des observations yi ` chaque point x0 du domaine de X de la faon ee a c suivante n x0 xi yi i=1 d , (x0 ) = n x0 xi i=1 d o` est le param`tre de lissage prenant des valeurs positives (Hastie et Tibshirani, u e 1990, p.19). Ce dernier permet de contrler la grandeur de la fentre, centre ` x0 , ` o e e a a lintrieur de laquelle les poids accords aux xi sont non nuls. Le tableau (2.1) prsente e e e quelques noyaux parmi les plus utiliss. e Le noyau Epanechnicov minimise lerreur quadratique moyenne (asymptotique) tandis que le noyau Variance Minimale permet dobtenir lestimateur ayant la plus petite variance asymptotique. Toutefois, les recherches eectues dans ce domaine semblent e montrer que le choix du noyau est peu important comparativement au choix de la valeur du param`tre de lissage (Hastie et Tibshirani, 1990, p.19). e Comme avec la mthode loess, on diminue la lourdeur de la mthode en calculant e e lestimateur pour une grille donne plutt que pour lensemble du domaine et on utilise e o11

Kernel smoother en anglais.

Chapitre 2. La rgression non paramtrique univarie e e e

29

Tab. 2.1 Dnition de dirents noyaux e e Noyau Dnition ew(t) 0.0 0.6 0.6 3

Illustration1.2

Normale(0,1)

d(t) =

1 2

exp( 1 t2 ) 2

1

0 t

1

3

Epanechnicov

d(t) =

0

0.6 3

w(t) 0.0 0.6

3 (1 4

t2 ), pour|t| 1 sinon.

1.2

1

0 t

1

3

Variance Minimale

d(t) =

0

0.6 3

w(t) 0.0 0.6

3 (3 8

5t2 ), pour|t| 1 sinon.

1.2

1

0 t

1

3

ensuite une mthode dinterpolation pour former un estimateur continu. On peut aussi e dnir lestimateur ` laide de la matrice de lissage (2.2) et on traite les galits dans e a e e la variable rponse en suivant la procdure dcrite ` la section 2.1.4. e e e a Le lecteur est invit ` consulter Wand et Jones (1995) pour obtenir plus dinformaea tion sur les fonctions de lissage de type noyau.

2.4.3

La rgression par partitionnement e

Le dernier estimateur non paramtrique prsent dans ce chapitre est probablement e e e le moins intressant du point de vue univari et nest pas tr`s souvent utilis dans cette e e e e situation. Par contre, le fait quil se gnralise facilement ` une version multidimensione e a nelle et quil soit facilement interprtable le rend plus attrayant dans de tels cas. La e rgression par partitionnement consiste ` dterminer un ensemble de points de coupure e a e

Chapitre 2. La rgression non paramtrique univarie e e e

30

= {1 , ..., k } dnissant les intervalles e Rj = {j xi < j+1 }, j = 1, . . . , k,

puis destimer un polynme pour chacun de ces intervalles. Typiquement, on utilise o des constantes pour dnir la relation entre les variables sur chaque intervalle. Des e algorithmes ont t dvelopps pour appliquer la rgression par partitionnement de ee e e e faon rcursive (Breiman et al., 1984), ce qui permet de dterminer les points de coupure c e e de faon adaptative. Il est alors possible dutiliser cette technique lorsque lon poss`de c e plusieurs variables et en utilisant une constante plutt quun polynme pour estimer o o la relation, on retrouve alors les arbres de rgression (voir section 3.4.1) qui sont bien e connus. Notons que la dirence principale entre la rgression par partitionnement et e e les splines de rgression est la continuit de la fonction. e e

Chapitre 3 La rgression non paramtrique e e multidimensionnelleLa rgression multivarie est tr`s utilise en statistique puisque les chercheurs dsie e e e e rent souvent conna leet dun groupe de variables explicatives X1 , ..., Xp sur une tre certaine variable dpendante Y . En prsence de lchantillon (yi , x1i , x2i , . . . , xpi ) pour e e e i = 1, . . . , n, il est dusage de supposer un mod`le de la forme e yi = 0 + 1 x1i + 2 x2i + ... + p xpi + i , (3.1)

qui est une simple gnralisation du mod`le de rgression linaire simple (1.1). Quoique e e e e e le mod`le (3.1) soit tr`s intressant de par sa simplicit de calcul et dinterprtation, il e e e e e comporte tout de mme des lacunes importantes qui peuvent parfois limiter son utilit. e e Tout dabord, il est strictement linaire, ce qui rduit considrablement son champ e e e dapplications. De plus, il ne tient pas compte des interactions qui peuvent exister entre certaines variables explicatives et ainsi modier lallure de la relation. Ces probl`mes e peuvent toutefois tre contourns en modiant quelque peu la forme du mod`le. Comme e e e en rgression univari, on peut ajuster une forme non linaire en ajoutant des termes e e e polynomiaux au mod`le ou en faisant dautres types de transformations sur les variables. e On peut aussi ajouter des termes du genre xi xj pour tenir compte dune interaction entre deux variables. Par contre, comme pour la rgression linaire simple, ces techniques e e ncessitent que lon ait une bonne ide de la forme que devrait prendre le mod`le si on e e e ne veut pas tre pris avec la lourde tche de trouver les bons termes ` entrer dans le e a a mod`le. e Pour remdier ` ce probl`me, on peut se tourner vers la rgression non paramtrique e a e e e multidimensionnelle. Cette derni`re se base sur le mod`le e e yi = (x1i , x2i , ..., xpi ) + i , i = 1, ..., n, (3.2)

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

32

qui ne suppose aucune forme prcise pour la relation entre la variable rponse et les e e variables explicatives. Lobjectif de la rgression non paramtrique est alors dobtenir e e une estimation de la fonction (x) du mod`le (3.2), ce qui est loin dtre une vidence. e e e Plusieurs mthodes destimation non paramtriques ont t proposes au cours des e e ee e annes passes et elles poss`dent toutes leurs avantages et leurs inconvnients. Les e e e e sections suivantes en prsentent quelques-unes. Ainsi, la section 3.1 traite des mod`les e e GAM, alors que la section 3.2 prsente les splines de rgression multivaries qui peuvent e e e tre obtenues par les mthodes polyMARS et MARS prsentes aux sections 3.3 et 3.4 e e e e respectivement. Finalement la section 3.5 donne un survol de certaines autres mthodes e de rgression non paramtrique multidimensionnelle dont la mthode Triogram (section e e e 3.5.1), la mthode loess multidimensionnelle (section 3.5.2) et les splines de lissage ` e a plaques minces (section 3.5.3).

3.1

Les mod`les additifs gnraliss e e e e

Les mod`les additifs gnraliss (GAM1 ), dvelopps par Hastie et Tibshirani (1990), e e e e e e sont une version non paramtrique des mod`les linaires gnraliss (GLM) qui utilise e e e e e e les mthodes non paramtriques prsentes au chapitre 2 pour estimer une fonction de e e e e rgression multivarie. La volont des chercheurs dutiliser des mthodes destimation e e e e plus exibles qui dcrivent mieux les donnes, combine ` la simplicit de la mthode e e e a e e GAM font de cette derni`re une technique de plus en plus utilise en statistique. Ainsi, e e pour obtenir une estimation de la fonction de rgression (x), on suppose dabord que e e le mod`le (3.2) peut scrire sous la forme ep

yi = +j=1

j (xji ) + i ,

i = 1, ..., n,

(3.3)

o` les erreurs i sont non corrles entre elles, de moyenne zro et de variance 2 et les j u ee e sont des fonctions arbitraires, pour lesquelles on impose E(j (Xj )) = 0 o` lesprance u e est prise par rapport ` la distribution marginale de Xj . On doit donc supposer que a la relation entre la variable dpendante Y et les variables explicatives est strictement e additive, quoiquil existe certaines alternatives pour inclure des interactions au mod`le e selon le mme principe que dans la rgression linaire multiple. Ladditivit du mod`le e e e e e constitue un avantage important du point de vue de linterprtation et de la visualisation e de la fonction de rgression, puisque lon peut alors analyser chaque variable explicative e sparment. Par contre, dans le cas o` la relation entre les variables comporte des e e u1

Generalized Additive Models en anglais.

Chapitre 3. La rgression non paramtrique multidimensionnelle e e

33

interactions importantes, le mod`le additif peut conduire ` des rsultats errons, ` e a e e a moins que lon ait dj` une bonne ide de ces derni`res et que lon modie le mod`le ea e e e en consquence. e

3.1.1

Estimation des mod`les GAM e

Le but des mod`les GAM est destimer simultanment les j de lquation (3.3) de e e e faon non paramtrique. Ces derni`res peuvent prendre nimporte quelle forme non pac e e ramtrique univarie telles que celles dcrites au chapitre 2, mais aussi certaines formes e e e bivaries si on veut tenir compte dune interaction entre deux variables explicatives. Le e type destimateur pour chaque j peut varier ` lintrieur dun mme mod`le pourvu a e e e que celui-ci soit dni au dpart. Lajustement des mod`les GAM se fait par lentremise e e e de lalgorithme backtting , initialement propos par Friedman et Stuetzle (1981). e Dans le cas des mod`les GAM, Hastie et Tibshirani (1990, p.91) le dcrivent de la faon e e c suivante : Dnition 2 (Algorithme backtting ). e 1. On fait dabord une premi`re tape e e dinitialisation o` on estime simultanment la constante par y et les fonctions u e 0 0 j par j . La faon de calculer les j dpend de la connaissance que lon a des c e j . Puisque dhabitude, on poss`de tr`s peu dinformation sur ces derni`res, il est e e e 0 dusage de xer j = 0 ou deectuer une rgression linaire multiple de Y sur e e les variab