Critère de validation croisée pour le choix des modèles ...

93
Critère de validation croisée pour le choix des modèles des petits domaines au niveau des unités Mémoire Romanic PIEUGUEU Maîtrise en statistique Maître ès sciences (M.Sc.) Québec, Canada © Romanic PIEUGUEU, 2016

Transcript of Critère de validation croisée pour le choix des modèles ...

Page 1: Critère de validation croisée pour le choix des modèles ...

Critère de validation croisée pour le choix desmodèles des petits domaines au niveau des unités

Mémoire

Romanic PIEUGUEU

Maîtrise en statistiqueMaître ès sciences (M.Sc.)

Québec, Canada

© Romanic PIEUGUEU, 2016

Page 2: Critère de validation croisée pour le choix des modèles ...
Page 3: Critère de validation croisée pour le choix des modèles ...

Résumé

Ce mémoire s’intéresse à l’étude du critère de validation croisée pour le choix des modèlesrelatifs aux petits domaines. L’étude est limitée aux modèles de petits domaines au niveau desunités. Le modèle de base des petits domaines est introduit par Battese, Harter et Fuller en1988. C’est un modèle de régression linéaire mixte avec une ordonnée à l’origine aléatoire. Il secompose d’un certain nombre de paramètres : le paramètre β de la partie fixe, la composantealéatoire et les variances relatives à l’erreur résiduelle. Le modèle de Battese et al. est utilisépour prédire, lors d’une enquête, la moyenne d’une variable d’intérêt y dans chaque petit do-maine en utilisant une variable auxiliaire administrative x connue sur toute la population. Laméthode d’estimation consiste à utiliser une distribution normale, pour modéliser la compo-sante résiduelle du modèle. La considération d’une dépendance résiduelle générale, c’est-à-direautre que la loi normale donne une méthodologie plus flexible. Cette généralisation conduit àune nouvelle classe de modèles échangeables. En effet, la généralisation se situe au niveau de lamodélisation de la dépendance résiduelle qui peut être soit normale (c’est le cas du modèle deBattese et al.) ou non-normale. L’objectif est de déterminer les paramètres propres aux petitsdomaines avec le plus de précision possible. Cet enjeu est lié au choix de la bonne dépendancerésiduelle à utiliser dans le modèle. Le critère de validation croisée sera étudié à cet effet.

iii

Page 4: Critère de validation croisée pour le choix des modèles ...
Page 5: Critère de validation croisée pour le choix des modèles ...

Abstract

This thesis focuses on the study of a cross-validation criterion for the choice of models forsmall areas. The study is limited to models of small areas at the unit level. The standardmodel for this problem has been introduced by Battese, Harter and Fuller in 1988. It is amixed linear regression model with random intercepts. Its consists of a number of parameters:β a regression parameter for the fixed part, the random component and the variances forthe residual error. The model of Battese et al. is used to predict in the average of a studyvariable y in each small area using an administrative auxiliary variable x known throughoutthe population. The standard estimation method consists of using a normal distribution formodelling the experimental errors. The consideration of a non normal dependence gives moreaccurate estimates. This new model might lead to better prediction of the mean of y withinsmall areas. Indeed, the generalization lies in modelling the residual dependency with a nonnormal exchangeable model. The model selection is an issue and this work investigates cross-validation as a method to choose a model.

v

Page 6: Critère de validation croisée pour le choix des modèles ...
Page 7: Critère de validation croisée pour le choix des modèles ...

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures xi

Remerciements xv

1 Introduction 1

2 Les copules 32.1 Un peu d’histoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Les copules en dimension 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.3 Les copules en dimension d > 2 . . . . . . . . . . . . . . . . . . . . . . . . . 92.4 Les bornes de Fréchet -Hoeffding et la comonotonie . . . . . . . . . . . . . . 102.5 Familles de copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3 Problématique de l’estimation dans les petits domaines 193.1 Plan de sondage et notations . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2 Méthodes d’estimation de la moyenne dans un petit domaine . . . . . . . . 203.3 Généralisation du modèle de Battese et al. . . . . . . . . . . . . . . . . . . . 24

4 Critère de validation croisée 274.1 Présentation générale du critère de validation croisée . . . . . . . . . . . . . 274.2 Autres critères de sélection de modèles . . . . . . . . . . . . . . . . . . . . . 344.3 Relation d’équivalence asymptotique entre le critère de validation croisée et

les critères de sélection de modèles . . . . . . . . . . . . . . . . . . . . . . . 364.4 Calcul de l’espérance du critère de validation croisée pour des modèles de

régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.5 Les autres types de validation croisée . . . . . . . . . . . . . . . . . . . . . . 41

5 Estimation des paramètres et simulation 435.1 Modèle général : cas semiparamétrique . . . . . . . . . . . . . . . . . . . . . 435.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.3 Prédiction d’un nouveau y . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

vii

Page 8: Critère de validation croisée pour le choix des modèles ...

5.4 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.5 Interprétation des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.6 Comparaison du prédicteur EBLUP et du prédicteur sous le modèle semi-

paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6 Conclusion 57

A Annexes 59

Bibliographie 75

viii

Page 9: Critère de validation croisée pour le choix des modèles ...

Liste des tableaux

2.1 Trois familles de copules archimédiennes. La fonction Dk (α) = kα

α∫0

tk

et−1dt . . . . 17

5.1 Résultats des simulations avec marges normales pour m = 20 et τ = 1/3. . . . . 485.2 Résultats des simulations avec marges normales pour m = 20 et τ = 1/2. . . . . 485.3 Résultats des simulations avec marges normales pour m = 20 et τ = 0.7. . . . . 495.4 Résultats des simulations avec marges normales pour m = 40 et τ = 1/2. . . . . 495.5 Résultats des simulations obtenues avec marges de Student pourm = 20, ν = 3,

τ = 1/3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.6 Résultats des simulations obtenues avec marges de Student pourm = 20, ν = 3,

τ = 1/2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.7 Résultats des simulations obtenues avec marges de Student pourm = 20, ν = 3,

τ = 0.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.8 Résultats des simulations obtenues avec marges de Student pourm = 40, ν = 3,

τ = 1/2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.9 Résultats des simulations obtenues avec marges lognormales pour m = 20 et

τ = 1/3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.10 Résultats des simulations obtenues avec marges lognormales pour m = 20 et

τ = 1/2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.11 Résultats des simulations obtenues avec marges lognormales pour m = 20 et

τ = 0.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.12 Résultats des simulations obtenues avec marges lognormales pour m = 40 et

τ = 1/2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.13 Comparaison du prédicteur EBLUP et du prédicteur semiparamétrique pour

m = 40 et τ = 1/2. Les données dans le tableau réprésentent le pourcentagedes fois que le prédicteur EBLUP est choisi par le critère de validation croisée. 55

A1 Résultats des simulations avec marges normales pour τ = 1/3 et m = 40. . . . . 59A2 Résultats des simulations avec marges normales pour τ = 0.7 et m = 40. . . . . 59A3 Résultats des simulations avec marges Student à 3 degrés de liberté pour τ =

1/3 et m = 40. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60A4 Résultats des simulations avec marges Student à 3 dégres de liberte pour τ = 0.7

et m = 40. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60A5 Résultats des simulations avec marges lognormales pour τ = 1/3 et m = 40. . . 60A6 Resultats des simulations avec marges lognormales pour τ = 0.7 et m = 40. . . 61

ix

Page 10: Critère de validation croisée pour le choix des modèles ...
Page 11: Critère de validation croisée pour le choix des modèles ...

Liste des figures

2.1 À gauche, la densité d’une loi avec marges normales centrées réduites et decopule normale. À droite, le graphique de dispersion d’un échantillon de taille1000. Le tau de Kendall entre les variables x et y est τ = 0.6. . . . . . . . . . . 12

2.2 À gauche, la densité d’une loi avec les marges normales centrées réduites et decopule de Student à 2 degrés de liberté ; et à droite, le graphique de dispersionpour un échantillon de taille 1000. Le tau de Kendall est de τ = 0.6. . . . . . . 13

2.3 Densité d’une distribution dont les marges sont normales centrées réduites etgraphique de dispersion de taille 1000. La copule utilisée est la Clayton avec untau de Kendall de τ = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 Densité d’une distribution dont les marges sont normales centrées réduites etgraphique de dispersion de taille 1000. La copule utilisée est la Gumbel avec untau de Kendall de τ = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5 Densité d’une distribution de marges normales centrées réduites et graphiquede dispersion de taille 1000. La copule utilisée est la Franck avec un tau deKendall de τ = 0.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.1 Pourcentage de bonne prédiction suivant les valeurs de τ . À gauche les simula-tions pour m = 20 et à droite les simulations avec m = 40. . . . . . . . . . . . . 54

xi

Page 12: Critère de validation croisée pour le choix des modèles ...
Page 13: Critère de validation croisée pour le choix des modèles ...

Je dédie ce travail à mon père età ma feu mère :

Vous m’avez donné la vie, latendresse et le courage pour

réussir. Tout ce que je peux vousoffrir ne pourra exprimer l’amouret la reconnaissance que vous me

portez.

xiii

Page 14: Critère de validation croisée pour le choix des modèles ...
Page 15: Critère de validation croisée pour le choix des modèles ...

Remerciements

La réalisation de ce mémoire a été possible grâce au concours de plusieurs personnes à quije voudrais témoigner toute ma reconnaissance. Je remercie ma feue mère Woudje Jacquelinej’aimerai toujours de tout mon cœur. Je lui dis merci pour son soutien moral, physique etspirituel.Mes remerciements vont au professeur Louis-Paul Rivest, mon directeur de mémoire pour sapatience, sa confiance , sa disponibilité, sa contribution, et le financement accordé pour l’élabo-ration de ce travail. J’exprime ma gratitude à toutes les personnes rencontrées qui m’ont aidéet qui ont accepté de répondre à mes interrogations. Je tiens à remercier Thierry Duchesnepour ses précieuses notes de cours en régression. Je tiens également à dire merci à Anne-SophieCharest pour tous les conseils reçus, sa disponibilité. Je remercie Véronique Tremblay pourles orientations et pour les expériences partagées au sein du Département de mathématiqueset de statistique.Merci à L’ISM (Institut des sciences mathématiques) pour tout le financement offert pourl’avancement de ce mémoire. Je tiens à remercier Monsieur Frédéric Gourdeau, directeur dudépartement et Monsieur Robert Guénette pour l’attention portée à mon dossier et pourm’avoir permis d’obtenir du financement pour mes études. Je dis merci aux professionnels duService de consultation statistique de l’Université Laval. Je dis merci à Gaetan Daigle, HélèneCrépeau pour l’encadrement, les conseils et l’expertise offerte au sein de l’équipe des consul-tants. Merci Megbe Karamoko, Mondji Herbert, Amenan Christiane Chukunyere, IbrahimaOusmane Ida, Jean Milou Pierre, mes collègues du Service de consultation pour leur soutien.Je remercie ma Laure Nkouekap, ma blonde pour sa présence, son soutien, et ses conseils quim’ont permis de braver plusieurs difficultés. Je remercie tous mes amis et connaissances, jeremercie particulièrement Achille Kwamegni, Morvan Nongni, Raoul Kamgang, Gael Nongnide m’avoir permis de me sentir en famille au Canada.

xv

Page 16: Critère de validation croisée pour le choix des modèles ...
Page 17: Critère de validation croisée pour le choix des modèles ...

Chapitre 1

Introduction

La sélection de modèles est un aspect important du travail du statisticien et il existe aujour-d’hui de nombreux critères pour ce faire. L’objectif est d’obtenir un modèle qui colle bien auxdonnées tout en restant parcimonieux, c’est-à-dire avec un nombre limité de paramètres. Eneffet, on peut toujours améliorer l’ajustement d’un modèle en augmentant sa complexité. Unetelle stratégie, appelée sur-ajustement, est contre-productive, car elle donne un modèle lourdavec des composantes difficiles à bien estimer. Le rôle d’un critère de sélection de modèlesest donc de faire un compromis entre qualité de l’ajustement et parcimonie du modèle. SelonMcQuarrie et Tsai (1998), un bon modèle a des paramètres facilement interprétables et permetde bien prédire la variable d’intérêt.

La validation croisée est une méthode statistique simple et largement utilisée pour la sélectiondes modèles (Hastie et al. (2001), p.241). Le critère de validation croisée permet d’évaluer laperformance d’un modèle à prédire de nouvelles données. Pour le cas des modèles de régressionlinéaires par exemple, ce critère possède un avantage sur celui de la somme des carrés résiduelsqui fournit peu d’indications sur la capacité d’un modèle à prédire de nouvelles observations.Le champ d’application de la méthode s’étend sur plusieurs domaines tels que : la sélection desvariables, l’estimation des densités, le data-mining, etc. L’objectif de ce mémoire est focalisésur l’étude de la capacité de ce critère à bien choisir un modèle de prédiction dans des petitsdomaines.Au cours des 20 dernières années, les statistiques des petits domaines ont connu un essorconsidérable. De telles statistiques sont très anciennes et existaient déjà dans certains payscomme l’Angleterre au XIe siècle et au XV IIe siècle au Canada (Brackstone (1987)). Lebesoin des statistiques pour petits domaines se fait ressentir dans plusieurs secteurs dont lessecteurs administratifs, privés et le secteur de l’aide internationale, etc. Ce besoin a généré unintérêt considérable auprès des chercheurs. On peut par exemple citer Ghosh et Rao (1994) etPurcell et Kish (1980) qui présentent une revue de littérature des petits domaines et Plateket al.(1986) qui insistent sur les contributions internationales sur ce sujet.Un petit domaine se définit comme une zone géographique dans une population dont il est

1

Page 18: Critère de validation croisée pour le choix des modèles ...

difficile d’estimer avec précision les caractéristiques lors d’une enquête par sondage. La mé-thodologie statistique des petits domaines combine les données d’enquête aux données admi-nistratives disponibles pour produire des estimations précises des caractéristiques des petitsdomaines de la population. En effet, les échantillons disponibles ne permettent pas de pro-duire des estimations de qualité. Un modèle statistique lie les données d’enquête aux donnéesadministratives. Cette approche fournit de bonnes estimations s’il existe une relation entre lavariable administrative, aussi appelée variable auxiliaire, et la variable d’intérêt.

Ce travail se limite à l’étude des modèles de petits domaines au niveau des unités. Le modèle debase est introduit par Battese, Fuller et Harter (1988). C’est un modèle de régression linéairemixte qui exprime la variable d’intérêt y en fonction de x, la variable auxiliaire du modèle.Les estimations par ce modèle sont possibles lorsqu’on connait la variable x sur toute la po-pulation. Cet article traite d’un exemple où la variable y est la surface de culture ensemencéeen maïs et où x représente des informations satellitaires.Un des objectifs de ce travail est de généraliser le modèle de Battese et al. en modélisant ladépendance résiduelle par une loi échangeable. On considère deux cas de figure. Premièrement,si la loi échangeable est normale on retrouve le modèle de Battese et al. Deuxièmement, sila loi n’est pas normale, les copules échangeables multivariées sont utilisées pour modélisercette dépendance. Ceci conduit à une famille de modèles semi-paramétriques qui sont déter-minés en spécifiant une famille de copules appropriée pour la dépendance et une distributionmarginale pour les erreurs. L’accent est mis sur les copules elliptiques et archimédiennes. Lescopules elliptiques considérées comprennent des copules normales et de Student. Les copulesarchimédiennes étudiées sont celles de Clayton, de Gumbel et de Frank.Au chapitre 2, la notion des copules est présentée pour modéliser la dépendance résiduelle. Lanouvelle classe de modèles utilisés dans ce mémoire est présentée au chapitre 3 ainsi que lesenjeux des petits domaines. Le critère de validation croisée utilisé pour le choix des modèlesde cette classe est présenté au chapitre 4. Le critère est d’abord présenté pour les modèleslinéaires. Ensuite une application du critère est effectuée au modèle linéaire mixte normal.Deux cas de figure sont présentés : le cas où l’on suppose que les paramètres sont connus et lecas où ils sont inconnus. Les méthodes d’estimation des paramètres du modèle sont présentéesau chapitre 5. Une simulation est enfin effectuée pour répondre à la question posée : celle desavoir si le critère de validation croisée est crédible pour la sélection des modèles parmi lanouvelle classe étudiée dans ce mémoire.

2

Page 19: Critère de validation croisée pour le choix des modèles ...

Chapitre 2

Les copules

Les copules sont devenues en quelques années, un outil important avec des applications dansde nombreux domaines, tels en statistique, en finance et en actuariat. En effet, la théorie descopules est attrayante, car elle permet de modéliser la non-normalité des variables dans plu-sieurs contextes (Fadhilas (2011)). L’introduction des copules et leur application en statistiqueest un phénomène relativement récent qui trouve sa source dans les travaux de Fréchet sur lesespaces métriques probabilisés réalisés dans les années 50, voir par exemple l’article de Fréchet(1951). Motivé par les travaux de Fréchet, Sklar introduit la notion de copule en 1959. Il futle premier à utiliser au sens mathématique le mot copule ; il est également considéré commele fondateur de la théorie des copules. De plus son théorème est l’un des plus importants dela théorie puisqu’il permet de trouver la relation entre une distribution multivariée et ses loismarginales.

2.1 Un peu d’histoire

Le mot copule vient du mot latin « copula »qui signifie liaison, lien, alliance ou union (Bouvier(2010)). Lors de la publication de son article, Sklar (1959) étudiait avec Berthol Schweizer, lesespaces métriques probabilisés. De nombreux résultats concernant les copules ont été obtenusà l’aide de ces espaces implicites. Toutefois, les travaux de Hoeffding (1940) contiennent déjàde nombreux résultats sur les copules. Hoeffding (1940) considérait comme loi de référence leslois de distribution sur [−1/2; 1/2]. Nelsen (2007) explique que les travaux de Hoeffding sontrestés longtemps méconnus de la littérature scientifique en raison de ses publications dans unerevue allemande peu connue à cette époque. C’est bien plus tard que Fréchet, indépendammentdes travaux de Hoeffding, va obtenir des résultats similaires.

On définit une copule comme une fonction de répartition dont les marginales sont uniformessur [0, 1]. En effet, soit F la fonction de répartition d’un vecteur aléatoire (X1, X2, . . . , Xd)

avec d ≥ 2, et soit Fi les marginales associées. D’après Sklar (1959), il existe une fonction Cde [0, 1]d dans [0, 1] telle que :

3

Page 20: Critère de validation croisée pour le choix des modèles ...

F (x1, x2, . . . , xd) = C(F1(x1), F2(x2), . . . , Fd(xd)). (2.1)

La copule établit donc un lien entre la loi multivariée et les lois marginales associées. Ellecaractérise la relation entre les variables aléatoires indépendamment des lois marginales. Lepremier article qui utilise cette structure de dépendance est celui de Schweizer et Wolf (1981).Dans cet article, les auteurs mesurent la dépendance d’une paire de variables aléatoires etprésentent l’invariabilité de la copule par rapport à une transformation monotone.Il existe dans la littérature une gamme assez variée de copules. On distingue les copules nonparamétriques et les copules paramétriques. Le choix de la copule est un élément importantpour la modélisation de la structure de dépendance d’un vecteur aléatoire. Ce chapitre présenteun aperçu de la théorie des copules. Il introduit plusieurs familles de copules paramétriques.Il présente également les mesures de dépendance relatives aux copules, tel le tau de Kendallet le rho de Spearman.

La plupart des auteurs présentent cette notion en se focalisant sur des espaces en dimen-sions 2. Nous adopterons cette approche, puis nous ferons une extension pour les dimensionssupérieures.

2.2 Les copules en dimension 2

Definition 2.2.1. Une copule est une fonction de répartition C : [0, 1]2 → [0, 1] dont lesmarginales (U, V ) sont uniformes sur [0, 1].

De cette définition découlent les propriétés suivantes :

Théorème 2.2.1. Une copule C : [0, 1]2 → [0, 1] est une fonction de répartition qui vérifie lesconditions suivantes :

1. C(u, 0) = C(0, v) = 0 pour tout u, v ∈ [0, 1].

2. C(u, 1) = u, C(1, v) = v pour tout u, v ∈ [0, 1].

3. C(u1, v1) − C(u1, v2) − C(u2, v1) + C(u2, v2) ≥ 0, (u1, v1) et (u2, v2) ∈ [0, 1] avec u1 ≥u2,v1 ≥ v2 (notion de copule 2− croissante).

Si C est la copule du vecteur (X1, X2) de fonction de répartition F et de lois marginales F1

et F2 alors C permet d’exprimer la loi conjointe F en fonction des marges comme suit :

F (x1, x2) = P(X1 ≤ x1;X2 ≤ x2) = C(F1(x1), F2(x2)).

Puisque C(u, 1) = u et C(1, v) = v, limx1→∞

F (x1, x2) = C(1, F2(x2)) = F2(x2) et limx2→∞

F (x1, x2) =

C(F1(x1), 1) = F1(x1).

4

Page 21: Critère de validation croisée pour le choix des modèles ...

Les définitions précédentes sont aussi applicables aux copules de survie. La fonction desurvie d’un vecteur (X1, X2) est donnée par :

F (X1, X2) = P(X1 > x1, X2 > x2) = C(F1(x1), F2(x2)),

où F1 et F2 sont les fonctions de survies de X1 et X2. La copule de survie C s’écrit en fonctionde C de la manière suivante :

C(u, v) = u+ v − 1 + C(1− u, 1− v), u, v ∈ [0, 1].

L’un des théorèmes importants de la théorie des copules est celui de Sklar qui s’énonce commesuit :

Théorème 2.2.2. (Théorème de Sklar)Soit X et Y deux variables aléatoires de loi conjointe F . Soient respectivement F1 et F2 leursfonctions de répartition respectives. Il existe une copule C telle que :

F (x, y) = C(F1(x), F2(y)) pour tout x, y ∈ R2. (2.2)

Si les fonctions F1 et F2 sont continues alors C est unique. Réciproquement si C est une copulesur [0, 1]2 et F1, F2 sont deux fonctions de répartition, alors F définie par l’équation (2.2) estune fonction de répartition conjointe dont les marges sont F1 et F2.

Soit F0 une fonction de répartition. L’inverve généralisé F−10 de F0 est défini par :

F−10 (u) = infx, F0(x) ≥ u, u ∈ [0, 1].

Si Z = (X,Y ) est un vecteur de loi F dont les marginales respectives sont F1 et F2. La copulequi satisfait le théorème de Sklar est :

C(u, v) = P(U ≤ u ; V ≤ v) = F (F−11 (u), F−1

2 (v)), u, v ∈ [0, 1].

On vérifie aisément que C est la fonction de répartition du vecteur (U, V ) avec U = F1(X) etV = F2(Y ).

2.2.1 Propriété d’invariance d’une copule

Soit (X,Y ) un vecteur aléatoire dont la loi est décrite par les marginales continues F1 et F2

et par une copule C. Soit φ et ψ deux fonctions continues monotones.

— Si φ et ψ sont croissantes alors la copule pour (φ(X), ψ(Y )) est C.

— Si φ et ψ sont décroissantes alors la copule pour (φ(X), ψ(Y )) est C.

Ces propriétés mettent en évidence la flexibilité des copules. En effet, si on fait varier lesmarginales F1 et F2 la copule C et la structure de dépendance demeurent inchangées.

5

Page 22: Critère de validation croisée pour le choix des modèles ...

2.2.2 Densité conjointe en dimension 2

Soit le vecteur (X,Y ) de loi conjointe F (x, y) et C, la copule associée. Les fonctions de densitérespectives de X et Y lorsqu’elles existent sont données par :

f1(x) =∂F1(x)

∂xf2(y) =

∂F2(x)

∂y.

La densité conjointe de (X,Y ) s’exprime en fonction de la copule C comme suit :

f(x, y) = f1(x)f2(y)c(F1(x), F2(y)),

où c est la fonction de densité de la copule C définie par :

c(u, v) =∂2

∂u∂vC(u, v).

2.2.3 Mesure de dépendance

L’étude des relations de dépendance entre les variables aléatoires est l’un des centres d’intérêten statistique. Il existe dans la littérature plusieurs concepts utilisés à cet effet. L’un des plusconnus est le coefficient de corrélation de Pearson, utilisé pour mesurer la corrélation linéaireentre deux variables. Il est à noter que si deux variables sont fortement corrélées, cela nejustifie pas forcément qu’il y existe une relation de causalité entre elles. Une alternative àcette mesure est le tau de Kendall et le rho de Spearmean.

Le coefficient de corrélation de Pearson

Soit X et Y deux variables aléatoires continues de variance finie ; le coefficient de corrélationlinéaire de Pearson est défini par :

ρ(X,Y ) =Cov (X,Y )√

V ar (X)V ar (Y )=E (XY )− E (X)E (Y )√

V ar (X)V ar (Y ).

Le coefficient de corrélation appartient à l’intervalle [−1, 1]. Il permet de mesurer la relationlinéaire entre X et Y . En effet s’il existe a 6= 0, b ∈ R tel que, Y = aX+b, alors ρ(X,Y ) = +1

ou −1 selon le signe de a. De plus il est aussi invariant par transformation affine. C’est-à-direque ρ(aX + b, cY + d) = sign(ac)ρ(X,Y ), où sign(x) représente le signe de la variable x.Le coefficient de corrélation de Pearson est une mesure très utilisée en statistique. Cependant,elle peut ne pas s’appliquer ou renvoyer des résultats erronés dans certains contextes. En effet,la corrélation de Pearson ne peut être calculée pour une distribution de Cauchy par exemple.De plus, elle peut être nulle en présence d’une dépendance non linéaire.

6

Page 23: Critère de validation croisée pour le choix des modèles ...

Exemple 1. Soient X ∼ U [−1, 1], Y = X2. Alors E(X) = 0 et E(XY ) = E(X3) = 0. Lecoefficient de corrélation de Pearson est ρ(X,Y ) = 0. Cela pourrait suggérer a priori que lesvariables X et Y sont indépendantes, ce qui n’est pas vrai puisque Y dépend de X.

Ceci a conduit Scheweizer et Wolf (1981) à suggérer qu’une mesure de dépendance appropriéedoit dépendre seulement de la copule.

Mesure de concordance

Definition 2.2.2. Soient (x1, y1), (x2, y2) deux observations d’un vecteur aléatoire continu(X,Y ). Nous disons que (x1, y1) et (x2, y2) sont :

1. Concordants si :

(x1 < x2 et y1 < y2 ou x1 > x2 et y1 > y2)⇐⇒ (x1 − x2)(y1 − y2) > 0.

2. Discordants si :

(x1 < x2 et y1 > y2 ou x1 > x2 et y1 < y2)⇐⇒ (x1 − x2)(y1 − y2) < 0.

Géométriquement deux points (x1, y1), (x2, y2) dans le plan sont concordants si le segmentpassant par ces points admet une pente positive et discordants si le segment admet une pentenégative.

Le tau de Kendall (τ)

C’est une mesure de dépendance introduite pour la première fois par Maurice Kendall (1938).Le tau de Kendall τ d’un vecteur aléatoire continu (X,Y ) de loi jointe F , se définit commela différence entre les probabilités de concordance et de discordance de 2 paires (X1, Y1) et(X2, Y2) de loi F , c’est-à-dire :

τ(X,Y ) = P(X1 −X2)(Y1 − Y2) > 0 − P(X1 −X2)(Y1 − Y2) < 0.

En intégrant suivant les distributions de (X1, Y1) et (X2, Y2), le tau de Kendall devient :

τX,Y = τC = 4

1∫0

1∫0

C (u, v) dC (u, v)− 1

= 4EC(F1(X1), F2(X2)) − 1, (2.3)

7

Page 24: Critère de validation croisée pour le choix des modèles ...

où C est la copule associée à (X,Y ).Soit (x1, y1), . . . (xd, yd) un échantillon de n points d’un vecteur aléatoire continu (X,Y ). Il

y a

(d

2

)paires distinctes (xi, yi) et (xj , yj) qui sont concordantes ou discordantes.

Le tau de Kendall empirique s’écrit :

τ =nombre de paires concordantes− nombre de paires discordantes

d(d− 1)/2. (2.4)

Le rho de Spearman(ρS)

Soit (X1, Y1),(X2, Y2),(X3, Y3), 3 vecteurs aléatoires indépendants de même fonction de répar-tition H. considérons les couples (X1, Y1) et (X2, Y3). Le rho de spearman ρS associé à unepaire (X,Y ) ∼ F se définit par :

ρS(X,Y ) = 3(P(X1 −X2)(Y1 − Y3) > 0 − P(X1 −X2)(Y1 − Y3) < 0). (2.5)

Ce qui donne en terme de la copule C :

ρS(X,Y ) = 12

1∫0

1∫0

(C (u, v)− uv) dudv (2.6)

= −3 + 12EC(UV ). (2.7)

Le rho de Spearman entre X et Y est équivalent au calcul de la corrélation de Pearson entreles variables F1(X) et F2(Y ). L’équation (2.7) s’écrit encore :

ρS(X,Y ) = ρ(F1(X), F2(Y )).

Propriétés du tau de Kendall et du rho de Spearman

Le rho de Spearman et le tau de Kendall sont des mesures d’association qui disposent depropriétés similaires, entre autres :

• Elles sont symétriques ; c’est à dire κ(X,Y ) = κ(Y,X), où κ représente le tau de Kendallou le rho de Spearman.

• κ ∈ [−1, 1].

• Si X et Y = g(X), ou g est une fonction croissante alors κ(X,Y ) = 1.

• Si X et Y = h(X), ou h est une fonction décroissante alors κ(X,Y ) = −1.

• si X et Y sont indépendantes alors κ(X,Y ) = κπ = 0. La réciproque n’est pas forcémentvraie.

• si φ et ψ sont des fonctions strictement croissantes alors κ(φ(X), ψ(Y )) = κ(X,Y ).

8

Page 25: Critère de validation croisée pour le choix des modèles ...

2.3 Les copules en dimension d > 2

Soit (X1, X2, . . . , Xd) un vecteur aléatoire. La fonction de distribution associée se définit ainsi :

F (x1, x2, . . . , xd) = P(X1 ≤ x1, . . . , Xd ≤ xd), x1, . . . , xd ∈ R.

Pour i = 1, . . . d, la fonction de distribution Fi est appelée la loi marginale ou marginale ets’obtient de F :

Fi(xi) = P(Xi ≤ xi) = F (∞, . . . ,∞, xi, . . . ,∞), xi ∈ R.

L’argument∞ de F est une notation qui signifie la limite des arguments x1, . . . , xi−1, xi+1, . . . xd

à l’infini. Il est important de noter que la connaissance des marginales (Fi)1≤i≤d n’induit pasautomatiquement la connaissance de la distribution multivariée. Cela requiert tout d’abord laconnaissance de la relation de dépendance entre les marginales. En effet, connaître la copuleet les lois marginales est équivalent à la loi du vecteur aléatoire.

Definition 2.3.1. (Copule) Une fonction C : [0, 1]d → [0, 1] est une copule si il existe un espaceprobabilisé (Ω,F,P) et un vecteur aléatoire (U1, . . . , Ud) dont les marges sont uniformes sur[0, 1] tel que :

C(u1, . . . , ud) = P(U1 ≤ u1, . . . , ud ≤ ud), u1, . . . , ud ∈ [0, 1].

La copule vérifie de manière équivalente à la section 2.2.1, les propriétés suivantes :

1. C(u1, . . . , ud) = 0 si au moins l’un des ui = 0 ;

2. C(1, . . . , 1, ui, 1 . . . , 1) = ui ;

3. C est d-croissante, c’est-à-dire :

∀ u = (u1, . . . , ud), v = (v1, . . . , vd) ∈ [0, 1]d, ui < vi, i = 1, . . . , d :∑(w1,...,wd)∈×di=1ui,vi

(−1)|i:wi=ui|C(w1, . . . , wd) > 0.

Théorème 2.3.1. (Théorème de Sklar multivarié)Si F est une fonction de répartition conjointe dont les lois marginales sont F1, . . . , Fd alors ilexiste une copule C telle que pour tout (x1, . . . , xd) ∈ Rd :

F (x1, . . . , xd) = C(F1(x1), . . . , Fd(Xd)). (2.8)

Si de plus les fonctions F1, . . . , Fd sont continues, C est unique. Réciproquement si C est unecopule sur [0, 1]d et F1, . . . , Fd des fonctions de répartition, alors F définie par l’équation en(2.8) est une fonction de répartition conjointe dont les marges sont F1, . . . , Fd.

Si F−11 , . . . , F−1

d sont les fonctions inverses des marges F1, . . . , Fd alors, pour tout (u1, . . . , ud) ∈[0, 1]d, on a

C(u1, . . . , ud) = F (F−11 (u1), . . . , F−1

d (ud)).

9

Page 26: Critère de validation croisée pour le choix des modèles ...

2.3.1 Copule de survie

La fonction de survie d’un vecteur aléatoire X = (X1, . . . , Xd) ∼ F (F1, . . . , Fd) défini sur unespace probabilisé (Ω,F,P) est définie par :

F (x1, . . . , xd) = P(X1 ≥ x1, . . . , Xd ≥ xd) x1, . . . , xd ∈ R.

La copule de survie est la copule associée à la fonction de survie. c’est à dire :

F (x1, . . . , xd) = C(F1(x1), . . . , Fd(xd)).

2.4 Les bornes de Fréchet -Hoeffding et la comonotonie

Definition 2.4.1. Une copule comonotone est une fonction de répartition M : [0, 1]d → [0, 1]

définie par :M(u1, . . . , ud) = min(u1, . . . , ud). (2.9)

Si U est uniformément distribuée sur [0,1], la loi de (U,U, . . . , U) est M . En effet,

M(u1, . . . , ud) = P(U ≤ u1, . . . , U ≤ ud)

= P(U < min(u1, . . . , ud))

= min(u1, . . . , ud).

2.4.1 Bornes de Fréchet-Hoeffding

Les copules sont bornées. En effet, pour toute copule C : [0, 1]d → [0, 1] et pour tout(u1, . . . , ud) ∈ [0, 1]d :

W (u1, . . . , ud) = max

(∑ui − (d− 1), 0) ≤ C(u1, . . . , ud) ≤M(u1, . . . , ud

).

W et M sont respectivement la borne inférieure et supérieure de Fréchet-Hoeffding. M estune copule en dimension d ≥ 2 tant dis que W ne l’est que pour d = 2. Elle est appelée copuleanticomonotone.

2.5 Familles de copules

2.5.1 Copule d’indépendance

Definition 2.5.1. On appelle copule d’indépendance∏

définie par :

∏(u1, . . . , ud) = u1u2 . . . ud =

d∏i=1

ui, ui ∈ [0, 1].

Cette copule est adéquate pour modéliser les variables aléatoires indépendantes.

10

Page 27: Critère de validation croisée pour le choix des modèles ...

2.5.2 La famille de copules Fairly-Gumbel-Morgenstern

Elle est communément notée la copule FGM et définie comme suit :

Cθ(u, v) = uv + θuv(1− u)(1− v); u, v ∈ [0, 1],

où θ ∈ [−1, 1] et contrôle la dépendance entre U et V . Les membres de cette famille ont pourpropriété d’être échangeables, c’est-à-dire :

Cθ(u, v) = Cθ(v, u); u, v ∈ [0, 1].

La densité de copule FGM s’écrit :

cθ(u, v) =∂2

∂u∂vCθ(u, v) = 1 + θ(1− 2u)(1− 2v).

En appliquant la formule (2.3), le tau de Kendall associé donne :

τFGM = 4

1∫0

1∫0

Cθ (u, v) cθ (u, v) dudv − 1

=2θ

9∈[− 2

9,2

9

].

L’intervalle de τ montre que la dépendance d’une copule FGM est relativement faible.

2.5.3 Copules elliptiques

Copules gaussiennes bivariées

Soit Φρ(x, y) la fonction de répartition d’une loi normale bivariée de moyenne 0, de variance1 et de corrélation ρ. La copule Cρ correspondante est donnée par :

Cρ(u, v) = Φρ(Φ−1(u),Φ−1(v))

=1

2π√

1− ρ2

∫ Φ−1(u)

−∞

∫ Φ−1(v)

−∞exp

− x2 + y2 − 2ρxy

2(1− ρ2)

dxdy,

où Φ−1 est la fonction quantile de la distribution normale centré réduite.

Copule gaussienne multivariée

Soit R une matrice de corrélation et ΦR la distribution normale multivariée de moyenne 0 etde corrélation R. La copule associée est gaussienne et s’écrit :

CR (u1, ..., ud) = ΦR

(Φ−1 (u1) , ...,Φ−1 (ud)

)=

∫ Φ−1(u1)

−∞. . .

∫ Φ−1(ud)

−∞

1

(2π)d/2 | R1/2 |exp

− zTR−1z

2

dzd . . . dz1,

11

Page 28: Critère de validation croisée pour le choix des modèles ...

où ρ est l’ICC et |R| est le déterminant de la matrice R.

Soit x = (Φ−1(u1), . . . ,Φ−1(ud))T . La fonction de densité associée est donnée par :

cR(u1, ..., ud) =1

|R|12

exp

(−1

2xT(R−1 − I

)x

),

où I est la matrice identité en dimension d.

Figure 2.1 – À gauche, la densité d’une loi avec marges normales centrées réduites et decopule normale. À droite, le graphique de dispersion d’un échantillon de taille 1000. Le tau deKendall entre les variables x et y est τ = 0.6.

La copule de Student bivariée

La copule de Student à ν degrés de liberté et de coefficient de corrélation ρ est définie commesuit :

C(u, v) =

Tν−1(u)∫−∞

Tν−1(v)∫−∞

1

πν√

1− ρ2

Γ(ν2 + 1

)Γ(ν2

) (1 +

x2 − 2xy + y2

ν (1− ρ2)

)−( ν2 +1)dxdy

où T−1ν est la fonction quantile de la loi de Student à ν degrés de liberté.

Copule de Student en dimension d

Soit xi = T−1(ui), i = 1, . . . d et x = (x1, . . . , xd)T . La copule de Student à ν degrés de liberté,

de matrice de corrélation R en dimension d s’écrit :

Cν,R(x1,..., xd) =

x1∫−∞

...

xd∫−∞

Γ(ν+d

2

)|R|

12 Γ(ν2

)(νπ)

d2

(1 +

ν

2XTR−1X

)−( ν+d2 )dX. (2.10)

La densité de la copule (2.10) s’écrit :

cν,R(u1,..., ud) =Γ(ν+d

2

)|R|Γ

(ν2

)( Γ(ν2

)Γ(ν+1

2

))d (1 + 1νx

TR−1x)−( ν+d2 )

i=dΠi=1

(1 + 1

νxi2)−( ν+1

2 ).

12

Page 29: Critère de validation croisée pour le choix des modèles ...

Figure 2.2 – À gauche, la densité d’une loi avec les marges normales centrées réduites etde copule de Student à 2 degrés de liberté ; et à droite, le graphique de dispersion pour unéchantillon de taille 1000. Le tau de Kendall est de τ = 0.6.

Le tau de Kendall comme le rho de Spearman est le même pour une copule gaussienne quepour une copule de Student. En dimension 2, le taux Kendall est égal à :

τ =2

πarcsin(ρ),

où ρ désigne le coefficient de corrélation.Plus généralement pour toute paire (Xi, Xj) , des composantes elliptiques de (X1, . . . , Xd), letau de Kendall s’écrit :

τ(Xi, Xj) =2

πarcsin(ρij),

avec ρij = Corr(Xi, Xj).Le rho de Spearman pour une copule normale s’écrit :

ρS(Xi, Xj) = 6arcsin(ρij/2)

π.

2.5.4 Les copules archimédiennes

Transformée de Laplace

Soit a une variable aléatoire positive dont la loi dépend du paramètre α. La transformée deLaplace de a est la fonction ψα définie sur [0,∞] à valeur dans [0, 1] et donnée par :

ψα(t) = E(exp(−ta)). (2.11)

Les copules archimédiennes

Les copules archimédiennes s’expriment en utilisant la transformée de Laplace (voir (2.11))comme suit :

13

Page 30: Critère de validation croisée pour le choix des modèles ...

Cα,d(u1, . . . , ud) = ψαψ−1α (u1) + · · ·+ ψ−1

α (ud)), u1, . . . , ud ∈ [0, 1].

La densité d’une copule archimédienne s’écrit : (Rivest et al. (2015)) :

cα,d(u1, . . . , ud) =ψdα[ψ−1

α (u1) + · · ·+ ψ−1α (ud)]

Πdj=1ψ

1α[ψ−1

α (uj)],

où ψiα est la ième dérivée de ψα.

Les copules archimédiennes sont importantes dans la modélisation des données bivariées dans lesens où elles possèdent une gamme variée de copules paramétriques permettant des structuresde dépendance. De plus, les composants de cette famille possèdent de belles propriétés. Enautres, elles sont symétriques, c’est-à-dire C(u, v) = C(v, u). Les marges multivariées sonttoutes les mêmes. En effet, en dimension 3 on a C(1, u, v) = C(u, 1, v) = C(u, v, 1), pouru, v ∈ [0, 1]. Le développement des copules archimediennes est récent, nous les devons engrande partie à Mackay et Genest (1986) et à Genest et Rivest (1993). Nous présentons danscette section, 3 classes de copules paramétriques qui sont :

• La copule de Clayton,

• la copule de Gumbel,

• la copule de Franck.

Famille de Clayton

Distribution GammaLa distribution Gamma est une loi positive, caractérisée par deux paramètres, un paramètrede forme et un paramètre d’échelle. On dit que X suit une distribution gamma de paramètrede forme k et de paramètre d’échelle β, et on note X ∼ Γ(k, β) si la densité de X a la forme :

f(x, k, β) =xk−1e

− xβ

Γ(k)βk, x > 0, (2.12)

où Γ est la fonction gamma donnée par :

Γ(k) =

∫ ∞0

tk−1e−tdt.

La copule de Clayton est une copule archidienne définie par la fonction de Laplace ψα donnéepar :

ψα(t) = (1 + αt)−1/α,

où la variable a suit une distribution Gamma (voir (2.12)) de paramètre de forme égal à 1/α

et de paramètre d’échelle α.

14

Page 31: Critère de validation croisée pour le choix des modèles ...

Figure 2.3 – Densité d’une distribution dont les marges sont normales centrées réduites etgraphique de dispersion de taille 1000. La copule utilisée est la Clayton avec un tau de Kendallde τ = 0.6.

Famille de Gumbel

Loi stableUne loi stable est fermée par rapport au produit de convolution. Soient X1, X2, . . . , Xd desvariables aléatoires indépendantes et identiquement distribuées. X1, X2, . . . , Xd suit une loistable, s’il existe ad et bd tels que Y = ad(X1 + X2 + · · · + Xd) + bd suit également la mêmeloi stable. Un exemple de loi stable est la distribution normale. En effet, la somme de deuxvariables aléatoires normales est une variable aléatoire normale.La copule de Gumbel est générée par la fonction de Laplace ψα donnée par :

ψα(t) = exp(t1/(1+α)),

où a est une variable aléatoire de loi stable positive.

Figure 2.4 – Densité d’une distribution dont les marges sont normales centrées réduites etgraphique de dispersion de taille 1000. La copule utilisée est la Gumbel avec un tau de Kendallde τ = 0.6.

15

Page 32: Critère de validation croisée pour le choix des modèles ...

Famille de Franck

Loi logarithmiqueC’est une loi discrète positive définie sur 1, 2, . . .. Soit p ∈ [0, 1]. On dit que X suit une loilogarithmique de paramètre p et on note X ∼ Log(p), si la densité de X s’écrit :

f(k, p) = P (X = k) =−1

ln(1− p)pk

k, k ≥ 1.

La copule de Franck a pour générateur la fonction de Laplace :

ψα(t) = − log[1 + exp(−t)exp(−α)− 1]/α,

où a suit une distribution logarithmique.

Figure 2.5 – Densité d’une distribution de marges normales centrées réduites et graphique dedispersion de taille 1000. La copule utilisée est la Franck avec un tau de Kendall de τ = 0.6.

Tau de Kendall pour les copules archimédiennes en dimension 2

Il a été établi par Genest et Mackay (1986) que le tau de Kendall pour une copule archimé-dienne est donné par :

τ = 1 + 4

1∫0

φ(t)

φ′(t)dt (2.13)

φ = ψ−1 est l’inverse de la fonction de Laplace.

Le tableau ci-dessous nous donne les tau de Kendall des copules de Clayton, Gumbel et Franck.

16

Page 33: Critère de validation croisée pour le choix des modèles ...

Copule ψ loi de a τ(tau de kendall)Clayton (1 + αt)−1/α Γ( 1

α , α) α/ (α+ 2)

Gumbel exp(t1/(1+α)) stable positive (α− 1) /α

Franck − log[1 + exp(−t)exp(−α)− 1]/α logarithmique 1 + 4(D1(α)−1)α

Table 2.1 – Trois familles de copules archimédiennes. La fonction Dk (α) = kα

α∫0

tk

et−1dt .

Le paramètre α est strictement supérieur à 0. Lorsqu’il est nul, la copule résultante est lacopule d’indépendance Π.

En définitive, les copules sont un outil statistique important permettant de modéliser la struc-ture de dépendance d’un vecteur de variables aléatoires. Elles s’appliquent d’autant plus auxvariables normales et non normales.

17

Page 34: Critère de validation croisée pour le choix des modèles ...
Page 35: Critère de validation croisée pour le choix des modèles ...

Chapitre 3

Problématique de l’estimation dans lespetits domaines

La plupart des enquêtes à grande échelle, comme celles effectuées par Statistique Canada, four-nissent de bonnes estimations. Cependant on a souvent besoin de statistiques pour certaineszones qui contiennent peu ou très peu d’unités échantillonnées. Cette petite taille d’échantillonpeut augmenter la variance des statistiques de l’enquête. Ce type de zone géographique estcommunément appelée « petit domaine » ou « small area » en anglais. Le terme « petit » peutsembler ambigu à première vue dans l’expression « petit domaine » s’il n’est pas correctementdéfini. Selon Rao (2003), un domaine est un petit si l’estimateur calculé avec les seules donnéesd’enquête est imprécis et il est considéré large sinon. Dépendant du contexte, un petit domainepeut être une province, une division administrative, un comté , une municipalité, un district,etc.Plusieurs méthodes d’estimation existent pour prédire les caractéristiques des petits domaines.Nous présentons de prime abord quelques méthodes d’estimation de moyennes, ensuite il seraquestion d’introduire les modèles que nous utiliserons dans la suite de nos analyses.

3.1 Plan de sondage et notations

Considérons le plan de sondage stratifié défini comme suit. Soit une population notée U consti-tuée de m domaines de tailles respectives N1, . . . , Nm. On pose N =

∑mi=1Ni, la taille de la

population totale. Soit Ui, la population du domaine i dans lequel on effectue un tirage aléa-toire de ni éléments parmi les Ni. Soit Si, l’ensemble des éléments tirés et S = ∪Si l’échantillontotal obtenu. On pose n =

∑mi=1 ni la taille totale de l’échantillon.

La variable d’intérêt de l’étude, y, est mesurée sur les échantillons Si. Soit x, une variableauxiliaire connue sur toute la population U et i un domaine quelconque du plan. On posexij = (xij1, xij2, . . . , xijp) la variable auxiliaire de dimension p. Les moyennes des variables x

19

Page 36: Critère de validation croisée pour le choix des modèles ...

et y sur le domaine i sont respectivement Y iU et XiU définies par :

Y iU =1

Ni

Ni∑j

yij XiU =1

Ni

Ni∑j

xij .

Les moyennes respectives de ces variables sur toute la population U sont :

Y U =1

N

m,Ni∑i,j

yij XU =1

N

m,Ni∑i,j

xij = (X1, . . . , Xp)T .

Il est à noter que les moyennes Y iU et Y U qui sont relatives à la population, ne peuvent pasêtre déterminées directement puisque que la variable y n’est connue que sur une partie dela population. Ces moyennes doivent donc être estimées. Les moyennes échantillonnales desvariables y et x estimant les moyennes Y iU et XiU sont notées respectivement yis et xis , ellessont déterminées comme suit :

yis =1

ni

ni∑j=1

yij

xis =1

ni

ni∑j=1

xij = (xi1, . . . , xip)T .

Les estimateurs de moyennes de XU et Y U sont respectivement xs et ys définis par :

ys =m∑i=1

Ni

Nyis xs =

m∑i=1

Ni

Nxis. (3.1)

On suppose que les tailles d’échantillon ni sont faibles, négligeables par rapport à la taille Ni

des domaines et que ni/Ni ≈ 0.

3.2 Méthodes d’estimation de la moyenne dans un petitdomaine

L’objectif est d’estimer la moyenne de y dans un petit domaine par différentes méthodes d’es-timation. Soit donc i, un petit domaine. Ce qui caractérise le domaine i est qu’il contient peude données échantillonnées. La littérature statistique contient plusieurs méthodes d’estima-tion de la moyenne dans un petit domaine. Certaines méthodes sont dites directes, car ellesutilisent seulement les données d’enquêtes. D’autres sont syntétiques car elles intègrent desvariables auxiliaires provenant de sources externes à l’enquête. La méthode composite combineles estimations obtenues sur les deux premières méthodes (méthodes directes et synthétiques).Nous allons présenter dans les lignes qui suivent quelques-unes de ces méthodes en vue del’estimation de la moyenne Y iU .

20

Page 37: Critère de validation croisée pour le choix des modèles ...

3.2.1 Méthodes d’estimation directes

C’est la méthode usuelle qui utilise uniquement les données d’enquête. L’estimateur de lamoyenne Y iU est donné par la moyenne échantillonnale :

yDiris =1

ni

ni∑j=1

yij .

La variance de cet estimateur est (Lohr (2009), p.53) :

V ar(yDiris ) =

(1− ni

Ni

)S2i

ni, (3.2)

où S2i est la variance de y dans le domaine i. yDiris est un estimateur peu fiable si la taille

d’échantillon ni dans le domaine est faible. En effet, la variance (3.2) est alors élevée.

3.2.2 Méthode d’estimation synthétique

C’est une méthode qui utilise les estimations de la population dans l’objectif de produire debonnes statistiques de petits domaines. En effet, selon Gonzalez (1973) :"An unbiased estimator is obtained from a sample survey for a large area ; when this estimateis used to derive estimates for subareas under the assumption that the small areas have thesame characteristics as the large area, we identify these estimates as synthetic estimates."La méthode d’estimation synthétique suppose donc que la population et les petits domainesont les mêmes caractéristiques. Pour cette raison, un estimateur synthétique donne des es-timations d’une statistique cible dans un domaine en utilisant les données de la populationéchantillonnale (Steinberg (1979), p.1). Il existe plusieurs façons de procéder pour construireun estimateur synthétique.

Exemple 2. Estimateur synthétique pour la moyenne.Si on considère le modèle implicite suivant :

Y iU = Y U ,

l’estimateur synthétique de la moyenne dans le petit domaine i est le suivant :

ySynis = ys,

où ys est donnée par (3.1). C’est-à-dire que l’estimateur synthétique est égal à l’estimateur dela moyenne dans la population.

Exemple 3. Exemple d’estimateur synthétique pour un modèle de régression.Pour p = 1, supposons qu’il existe une relation linéaire entre y et x avec une ordonnée àl’origine nulle. Le modèle de régression se définit comme suit :

yij = βxij + εij i = 1 . . .m, j = 1 . . . Ni, (3.3)

21

Page 38: Critère de validation croisée pour le choix des modèles ...

où εij ∼ N(0, σ2xij). En passant à la moyenne, le modèle (3.3) donne :

Y U = βXU . (3.4)

On déduit β de (3.4) pour obtenir :

β =Y U

XU

. (3.5)

Un estimateur de β est donné par (voir (3.1)) :

β =ysxs,

L’estimateur synthétique de la moyenne d’après (3.4) est :

ySynis = βXiU .

L’un des avantages d’un estimateur synthétique est la simplicité de calcul. On montre quela variance d’un estimateur synthétique est de l’ordre de 1

n (Francisco (2003)). Cependant,l’estimateur synthétique est souvent biaisé parce qu’il capture mal la variabilité interdomaine(variabilité associée aux différences entre les moyennes de y dans les différents domaines).

3.2.3 Estimateur composite

L’estimateur composite est une somme pondérée entre un estimateur direct et un estimateursynthétique. Le poids est défini de telle sorte que si la taille de l’échantillon ni est grande,l’estimateur direct dispose d’un poids élevé par rapport à l’estimateur synthétique et pourune taille d’échantillon faible, la pondération sera favorable à l’estimateur synthétique. Ladéfinition d’un estimateur composite est la suivante :

yComis = γiyDiris + (1− γi)ySynis , (3.6)

où yComis , yDiris , ySynis représentent respectivement l’estimateur composite, l’estimateur directet l’estimateur synthétique de la moyenne. Dans l’équation (3.6), le paramètre γi prend sesvaleurs dans l’intervalle [0, 1] et contrôle le compromis entre l’estimateur direct et l’estima-teur synthétique. Il est choisi en minimisant l’EQM de l’expression (3.6) (voir Ghosh et Rao(1994)). Ainsi, le poids associé à l’estimateur direct est élevé si la taille de l’échantillon estgrande, sinon il est élevé pour l’estimateur synthétique si l’on a besoin d’informations supplé-mentaires provenant d’autres domaines.L’estimateur composite a la propriété d’avoir un biais plus faible qu’un estimateur synthé-tique. Il est plus précis qu’un estimateur direct. Son erreur quadratique moyenne (EQM) estgénéralement inférieure à celle de ces deux estimateurs.

22

Page 39: Critère de validation croisée pour le choix des modèles ...

3.2.4 Méthode d’estimation de la moyenne par le modèle de Battese etal. (1988)

C’est une méthode d’estimation indirecte basée sur le modèle introduit par Battese et al.(1988). Le modèle est un modèle de régression linéaire mixte avec une ordonnée à l’originealéatoire. Le modèle se définit ainsi :

yij = xTijβ + νi + eij , i = 1 . . .m, j = 1 . . . Ni, (3.7)

où β est le paramètre de régression de la partie fixe du modèle ; νi ∼ N(0, σ2ν) la variable aléa-

toire du ième domaine et eij ∼ N(0, σ2e) l’erreur associée au modèle est supposée orthogonale

à νi.

Si le modèle est vrai, la moyenne de la variable y pour le domaine i est prédite via (3.7) commesuit :

Y iU = XTiUβ + νi + ei, (3.8)

où ei = n−1i

∑nij=1 eij . La prédiction de Y iU peut varier suivant que les paramètres β et les

variances associées à νi et eij sont connus ou inconnus.

Prédiction de Y iU : cas où β, σ2e , σ2

ν sont connues

C’est le cas le plus classique. Pour obtenir une prédiction de la moyenne, il suffit de calculerune moyenne suivant (3.7) sur les éléments de l’échantillon. On obtient :

yis = XTiUβ + νi, (3.9)

où νi = n−1i

ni∑j=1

γi(yij − xTijβ) = γi(yis − xTisβ) avec γi = σ2ν

σ2ν+

σ2eni

. L’erreur quadratique d’après

Rao (1994) est :

EQM(yis) = g1i(σ2ν , σ

2e) =

γiσ2e

ni.

Cas où β, σ2e , σ2

ν sont inconnues

Si les composantes de variance σ2e , σ2

ν sont inconnues, on les remplace par leurs estimés σ2e ,

σ2ν . Si β est inconnu, on le remplace par son estimateur β donné par :

β =

( m∑i=1

ni∑j=1

(xijx

Tij − γixisxTis

))−1( m∑i=1

ni∑j=1

(xijyij − γixisyis

)),

23

Page 40: Critère de validation croisée pour le choix des modèles ...

avec γi = σ2ν

σ2ν+

σ2eni

.

Le prédicteur de Y iU résultant est (Mukhopadhyay et al. (2011)) :

yis = XTiU β + νi (3.10)

= XTiU β + γi(yis − xisβ).

L’EQM de yis est (Rao (1994)), (Prasad et Rao (1990)) :

EQM(yis) = g1i(σ2ν , σ

2e) + g2i(σ

2ν , σ

2e) + g3i(σ

2ν , σ

2e), (3.11)

g1i(σ2ν , σ

2e) =

γiσ2e

ni(3.12)

g2i(σ2ν , σ

2e) = (Xi − γixi)T

( m∑i=1

Ai

)−1

(Xi − γixi) (3.13)

g3i(σ2ν , σ

2e) = n−2

i

(σ2ν +

σ2e

ni

)h(σ2

ν , σ2e) (3.14)

avec Ai = σ−2e

ni∑j=1

(xijxTij − γinixixTi ) et h(σ2

ν , σ2e) = σ4

eV∧

νν(δ) + σ4νV∧

ee(δ)− 2σ2eσ

2νV∧

ν,e(δ),

où δ = (σ2ν , σ

2e)T ; V∧

νν(δ) et V∧

ee sont les variances asymptotiques de σ2ν et σ2

e et V∧

ν,e(δ), lacovariance asymptotique de σ2

ν et σ2e (Mukhopadhyay et al. (2011)).

Nous avons présenté plusieurs méthodes qui permettent d’estimer la moyenne d’une variabled’intérêt dans un petit domaine. Les méthodes présentées étaient soit directes, soit indirectes.Il existe néanmoins d’autres méthodes d’estimation par un modèle. Des méthodes alternativessont présentées à la section suivante.

3.3 Généralisation du modèle de Battese et al.

Le modèle présenté est une généralisation du modèle de Battese et al. défini en (3.7). Lagénéralisation est relative à la modélisation de la dépendance résiduelle par une loi échangeable.Ce modèle est défini par :

yij = xTijβ + εij i = 1 . . .m, j = 1 . . . Ni, (3.15)

où pour tout domaine i, la fonction de répartition des erreurs (εi1, · · · , εiNi) appartient à unefamille échangeable de fonctions de répartition continues Fα,θ,n(εi1, · · · , εiNi) ; où α et θ sontdes paramètres associés au niveau de dépendance et à la fonction de répartition marginale deserreurs qui sont de moyenne nulle et de variance finie.

24

Page 41: Critère de validation croisée pour le choix des modèles ...

3.3.1 Familles de lois échangeables Fα,θ,n pour les erreurs

On dit qu’une famille de fonctions de répartition Fα,θ,n est échangeable si elle remplit lespropriétés suivantes :

• propriétés d’échangeabilité : pour toute permutation ∆ de 1, . . . , n vers ∆(1),∆(2), · · · ,∆(n)

Fα,θ,n(z1, · · · , zn) = Fα,θ,n(z∆(1), z∆(2), · · · , z∆(n)).

• propriété de dimension invariante : pour tout 2 6 d < n

Fα,θ,n(z1, · · · , zd,∞,∞) = Fα,θ,d(z1, · · · , zd).

Soit Fe une fonction de répartition unidimensionnelle. S’il existe une copule multidimension-nelle Cα,n (voir la section 2.5) telle que Fα,n(z1, . . . , zn) = Cα,n(Fe(z1), . . . , Fe(zn)), alors lafamille Fα,n satisfait les deux conditions précédentes.

Exemple 4. Loi échangeable normaleSi εij = νi + eij avec νi ∼ N(0, σ2

ν) et eij ∼ N(0, σ2e), alors (εi1, . . . , εin) appartient à une

famille échangeable normale multivariée dont la distribution est N(0, σ2∑

(ρ, ni)) , avec :

∑(ρ, ni) =

1 ρ · · · ρ

ρ 1 · · · ρ...

.... . .

...ρ ρ · · · 1

(3.16)

où σ2 = σ2e + σ2

ν et ρ = σ2ν/(σ

2e + σ2

ν) qui représente le paramètre de corrélation intraclasse.Plus généralement, la matrice

∑(ρ, ni) est la même pour toutes les lois échangeables.

3.3.2 Estimation de la moyenne d’un petit domaine par le modèle (3.15)

L’idée consiste à utiliser le modèle (3.15) dans le but d’estimer la moyenne Y iU pour unpetit domaine i présentée ici [voir la section 3.1]. Soit ri = U − Si l’ensemble des élémentsnon échantillonnés. Pour estimer Y iU on a besoin d’estimer les yik pour k ∈ ri. Le meilleurprédicteur non biaisé de yik est donné par l’espérance conditionnelle de yik sachant yij , j =

1, . . . , ni qui est le même que l’espérance conditionnelle de yik sachant εij , j = 1, . . . , nipuisque εij est fonction de yij .On suppose que les paramètres (β, α, θ) sont connus. Soit fα,θ,ni la densité de εij , j =

1, . . . , ni. La densité conditionnelle de εik connaissant εij , j = 1, . . . , ni est donnée par :

f|i(e) =fα,θ,ni+1(e, εij , j = 1, . . . , ni)

fα,θ,ni(εij , j = 1, . . . , ni), e ∈ R. (3.17)

25

Page 42: Critère de validation croisée pour le choix des modèles ...

Le meilleur prédicteur non biaisé de yik d’après (3.17) est alors :

yik =

∫R

(xTikβ + e)f|i(e))de

= xTikβ +

∫Ref|i(e))de.

Finalement le prédicteur non biaisé de Y iU est donc :

yMis =

1

Ni

ni∑j=1

yij +

Ni∑k=ni

yik

. (3.18)

Le prédicteur de Y iU exprimé en (3.18) a été obtenu de la manière suivante. Tout d’abord, lesmeilleurs prédicteurs non biaisés des y non observés ont été explicitement déterminés par lemodèle (3.15). Ensuite, la prédiction résultante est la moyenne des y observés et de ceux nonobservés.

La variance de l’erreur de prédiction d’après Rivest et al. (2015) est :

MSRi =1

N2i

V ar

∑k∈ri

(yik − yik)

=1

N2i

E

∑k∈ri

V ar(yik − yik | εij , j ∈ Si)) +∑k 6=l∈ri

Cov(yik − yik, yil − yil, | εij , j ∈ Si)

≈ 1

N2i

E

∑k 6=l∈ri

Cov(yik − yik, yil − yil, | εij , j = 1, . . . , ni)

(3.19)

= E

Cov

(εik, εil, | εij , j = 1, . . . , ni

). (3.20)

L’équation (3.19) est déduit du fait que, comme Ni est supposé grand, la somme des Ni va-riances est négligée par rapport à N2

i . Les variables εik et εil définissent les erreurs aléatoiresde deux unités non échantillonnées. L’expression de la variance du prédicteur (3.20) peut s’ex-primer de différentes manières dans la littérature statistique. D’après Rivest et al. (2015), cettevariance (3.20) est une meilleure mesure de précision pour un petit domaine lorsqu’il dépendde ses données.

Pour conclure ce chapitre, il a été montré que la précision des prédictions des caractéristiquesest l’enjeu principal de l’estimation dans de petits domaines. Plusieurs méthodes d’estimationont été présentées à cet effet. Parmi ces méthodes, la méthode d’estimation par un modèle estprésentée comme la méthode par excellence pour l’estimation des petits domaines. Une nou-velle classe de modèles a été présentée, généralisant le modèle de Battese et al. Les prédictionsdes paramètres dépendent des modèles de cette classe. Le choix du meilleur modèle à utiliserpour les prédictions des paramètres d’intérêt est donc le problème qui se pose. Ce choix va sefaire par le biais du critère de validation croisée.

26

Page 43: Critère de validation croisée pour le choix des modèles ...

Chapitre 4

Critère de validation croisée

De façon générale, la sélection de modèles est une procédure statistique qui consiste à choisir,dans une famille, le modèle qui s’ajuste le mieux à un jeu de données. Certains critères s’ap-pliquent aux modèles à but prédictifs, tel le critère de validation croisée.Le critère de validation croisée mesure l’erreur d’un modèle en évaluant les performances pré-dictives de celui-ci. En effet, l’idée de la validation croisée est de ne pas utiliser l’ensemble desdonnées pour construire le modèle. Certaines données sont retirées, un modèle est ajusté sousces données réduites. L’écart entre les données retirées et leur prédiction par le modèle ajustémesure la performance prédictive du modèle. Plus ce critère est petit et plus le modèle estefficace pour la prédiction.Il existe d’autres critères de sélection qui imposent une pénalité aux modèles utilisant beau-coup de paramètres. Dans cette catégorie, les critères les plus populaires sont l’AIC (AkaikeInformation Criteria) et le BIC (Bayesian Information Criteria).Pour la sélection des variables en régression, il existe un autre critère important. Il s’agit du Cpde Mallows qui choisit un modèle qui possède un bon compromis entre le biais et la variance.Il existe une relation d’équivalence asymptotique entre ces critères et le critère de validationcroisée pour les modèles linéaires (Stone (1977)) et les modèles linéaires mixtes (Fang (2011)).Ce chapitre porte sur l’étude du critère de validation croisée et son application aux modèleslinéaires. Nous présentons tout d’abord le critère de validation croisée pour les modèles derégression linéaire avec ou sans effets aléatoires. Ensuite, nous montrons ses liens avec l’AICet le Cp de Mallows. Enfin, nous étudions l’espérance du critère de validation croisée.

4.1 Présentation générale du critère de validation croisée

C’est une méthode statistique qui partitionne les données en deux groupes. Un pour l’en-trainement et l’autre pour la validation du modèle. Les données d’entrainement permettentd’estimer le modèle tandis que les données de validation permettent de mesurer son erreurd’ajustement sur les données. Il existe plusieurs variantes de la validation croisée, nous nous

27

Page 44: Critère de validation croisée pour le choix des modèles ...

intéressons à l’une d’elles, appelée LOOCV (Leave-one-Out Cross Validation) en anglais.Supposons qu’on dispose d’un jeu de données (xi, yi), i = 1, . . . , n, et soit M un modèleconstruit sur le jeu de données. L’algorithme du calcul du critère LOOCV sur le modèle Mest le suivant (Duchesne (2014), p.57) :

1. Retirer la ième observation du jeu de données.

2. Réestimer le modèle M sur les (n − 1) données restantes en estimant ses paramètres,notons M−i ce modèle.

3. Prédire y−iM = M−i(yi), qui est la prédiction de yi par le modèle obtenu en 2.

4. Répeter les étapes 1, 2, 3 pour chaque i, i = 1 . . . n.

5. Calculer le critère de validation croisée dont l’expression est la suivante :

LOOCV (M) =1

n

n∑i=1

(yi − y−iM )2. (4.1)

4.1.1 Modèle de régression linéaire

Ce modèle est un cas particulier de celui de Battese et al. sans composante aléatoire, obtenuen considérant νi = 0 et εij = eij pour i ∈ 1, . . . ,m, j ∈ 1, . . . , ni.Soit Mn×m l’ensemble des matrices de n lignes et m colonnes. Puisque pour i ∈ 1, . . . ,m,yi = (yi1, . . . , yini)

T et xij = (xij1, . . . , xijp)T , on considère les notations matricielles suivantes :

• Y = (yT1 , . . . , yTm)T ∈Mn×1,

• Xi = (xi1, . . . , xini)T ∈Mni×p et X = (XT

1 , . . . , XTm)T ∈Mn×p,

• εi = (εi1, . . . , εini)T et ε = (εT1 , . . . , ε

Tm)T .

La forme matricielle du modèle de Battese et al. (voir la section 3.2.4) se définit comme suit :

Y = Xβ + ε, (4.2)

où β = (β1, . . . , βp)T est le paramètre de la partie fixe et ε = (ε1, . . . , εm)T est un vecteur aléa-

toire dont les composantes sont indépendantes, centrées et de variance égale à σ2e . L’estimateur

β obtenu par la méthode des moindres carrés s’écrit : (Duchesne (2014), p.27.) :

β = (β1, . . . , βp) = (XTX)−1XTY.

Celui de la variance σ2e donne (Duchesne (2014), p.29) :

σ2e =

m∑i=1

ni∑j=1

(yij − yij)2

n− p=SSResn− p

(4.3)

avec yij = β1xij1 + · · · + βpxijp, où yij est la prédiction de yij pour le domaine i. En fait, sile modèle est bon, yij se rapproche de yij et l’écart (yij − yij)2 est petit. Ainsi, si le modèleM est bon, la somme de ces écarts encore appelée « somme des carrés résiduels » notée SSResest faible.

28

Page 45: Critère de validation croisée pour le choix des modèles ...

Maximum de vraisemblance d’un modèle de régression linéaire

Si on suppose la normalité des erreurs ε, Y défini par (4.2) satisfait Y |X ∼ N(Xβ, σ2eI). La

densité conjointe des observations encore appelée la vraisemblance du modèle s’écrit :

L(β, σ2e) =

1√(2π)n‖σ2

eI‖exp

− 1

2(Y −Xβ)T (σ2

eI)−1(Y −Xβ)

= (2πσ2

e)−n

2 exp

− 1

2

(Y −Xβ)T (Y −Xβ)

σ2e

. (4.4)

La log-vraisemblance est le logarithme népérien de la vraisemblance. Son expression est lasuivante :

l(β, σ2e) = log(L(β, σ2

e)) = −n2

log(2π)− n

2log(σ2

e)−1

2

(Y −Xβ)T (Y −Xβ)

σ2e

. (4.5)

On montre d’après Rencher (2008) que β = (XTX)−1XTY et σ2 =∑m

i=1

∑nij=1

(yij−yij)2n

maximisent la vraisemblance et donc la log vraisemblance du modèle. C’est-à-dire qu’ils sontsolution des équations :

∂l

∂β(β, σ2

e) = 0

∂l

∂σ2e

(β, σ2e) = 0.

β et σ2 sont appelés les estimateurs du maximum de vraisemblance (EMV) respectivement deβ et σ2.

Critère de validation croisée pour la régression linéaire

En appliquant l’algorithme de la section 4.1 au modèle (4.2) on obtient le critère de validationcroisée noté PRESS et dont l’expression est :

PRESS =1

n

m∑i=1

ni∑j=1

(yij − y−[ij])2, (4.6)

où y−[ij] est la prédiction de yij obtenue par le modèle (4.2) sans la jème observation dudomaine i.Le PRESS représente la somme des erreurs de prévision et mesure la capacité d’un modèledonné à bien prédire les nouvelles observations. Ainsi, plus le critère est faible et plus le modèleprédit bien. Par ailleurs, on peut constater que la complexité de l’algorithme est fonction dela taille d’échantillon n . Il existe heureusement un théorème qui permet d’obtenir le résiduPRESS défini en (4.6) sans avoir à effectuer les n régressions.

29

Page 46: Critère de validation croisée pour le choix des modèles ...

Théorème 4.1.1. Soit H = X(XTX)−1XT la matrice chapeau associée au modèle (4.2).Soit Y = HY le vecteur des valeurs prédites par le modèle. Le critère PRESS peut encores’écrire comme suit (Rencher (2008), p.235.) :

PRESS =1

n

m∑i=1

ni∑j=1

(yij − yij)2

(1− h(ij)(ij))2, (4.7)

où h(ij)(ij) représente l’ élément diagonal de la matrice H situé au rang (k, k) avec k = j sii = 1 ou k =

∑i−1l=1 nl + j si i = 2, . . . ,m.

Dans une famille de modèles, celui qui possède les meilleures capacités prédictives est celuiavec un PRESS minimal. Si les h(ij)(ij) sont égaux, le critère PRESS est proportionnel à lasomme des carrés résiduels SSRes.Un des avantages de ce critère est qu’il permet d’éviter les modèles en situation de sur-ajustement. En effet, les modèles en sur-ajustement ont tendance à avoir des petits résiduspour les données incluses dans le jeu de donnée d’entrainement et des grands résidus pour lesdonnées externes. Or le critère PRESS, par définition utilise les données qui n’ont pas servi àl’estimation du modèle. Par conséquent, un modèle sur-ajusté aura des grands résidus et doncun critère PRESS élevé.Les modèles de régression linéaires supposent l’hypothèse de l’indépendance des données, ce quin’est pas toujours vérifié dans la réalité. Lorsque les données sont corrélées, on a recours à unmodèle prenant en compte cette dépendance. Les modèles linéaires mixtes sont une extensiondes modèles de régression linéaires. Ces derniers sont plus flexibles et permettent de modéliserplusieurs types de données incluant les données stratifiées, longitudinales et spatiales (Mülleret al.(2013)).

4.1.2 Modèle de régression linéaire mixte

Structure du modèle général

Soient y, X, β et ε, tels que définis à la section 4.1.1. Soit νi un vecteur d’effets aléatoires dudomaine i de taille q × 1. On suppose que νi suit une loi normale de moyenne 0 et de matricede variance-covariance Gi. On pose ν = (νT1 , . . . , ν

Tm)T , le vecteur d’effets aléatoires de taille

r × 1 avec r = mq. Le vecteur ν suit une distribution normale, de moyenne 0 et de matricede variance covariance G, avec G = diag(G1, . . . , Gm). Le modèle de régression linéaire mixte(général) se définit comme suit :

Y = Xβ + Zν + ε, (4.8)

où Z est une matrice connue de taille n× r ; ε ∼ N(0, R). Les variables ν et ε sont supposéesindépendantes. Sous ces suppositions, la variance de Y s’écrit :

Σ = R+ ZGZT . (4.9)

30

Page 47: Critère de validation croisée pour le choix des modèles ...

Lorsque R et G sont connues, on montre que les estimateurs respectifs de β et ν, notés β etν, sont (Rencher et al. (2008)) :

β = (XTΣ−1X)−1XTΣ−1Y (4.10)

ν = σ2eZ

TΣ−1(Y −Xβ). (4.11)

Modèle de régression linéaire mixte : Cas particulier du modèle de Battese et al.

Le modèle de Battese et al. est un cas particulier du modèle (4.1.2) obtenu en posant q = 1,c’est à dire en considérant un effet aléatoire par domaine. Ce modèle se définit comme suit :

yij = xTijβ + νi + εij , (4.12)

où β = (β1, . . . , βp) est le vecteur de p paramètres de la partie fixe. En effet, si on poseν = (ν1, . . . , νm)T ∈ Mm×1, zi = (1, . . . , 1)T ∈ Mni×1 et Z = diag(z1, . . . , zm) ∈ Mn×m, laforme matricielle du modèle (4.12), équivalente à (4.1.2) est donné par :

Y = Xβ + Zν + ε, (4.13)

avec ε ∼ N(0, σ2eIN ) et ν ∼ N(0, σ2

νIm). Les matrices IN et Im étant respectivement lesmatrices identité de taille N ×N et m×m.La structure de la matrice Z dans ce cas donne :

Z = diag(z1, . . . , zni) =

1 0 · · · 0...

... · · ·...

1 0. . .

...0 1 0...

... · · ·...

0 1. . . 0

... 0 1

......

...0 0 1

.

Le modèle (4.12) étant un cas particulier de (4.9) avec R = σ2eIN et G = σ2

νIm, la matrice devariance de Y s’écrit :

Σ = σ2eIN + σ2

νZZT = diag(Σ1, . . . ,Σni),

Σi = σ2eIni + σ2

νzizTi =

σ2e + σ2

ν σ2ν · · · σ2

ν

σ2ν

. . . · · ·...

...... σ2

e + σ2ν σ2

ν

σ2ν σ2

ν · · · σ2e + σ2

ν

.

31

Page 48: Critère de validation croisée pour le choix des modèles ...

Le modèle linéaire mixte dispose d’une structure plus complexe que le modèle linéaire. Cettecomplexité est due à la prise en compte de la structure de dépendance à l’intérieur de chaquestrate. Et elle se fait grâce à une composante aléatoire. Dans notre cas, la structure de dé-pendance à l’intérieur des strates est caractérisée par les matrices de covariances Σi, égales àσ2e + σ2

ν sur la diagonale et à σ2ν à l’extérieur de la diagonale.

Définition de la matrice chapeau du modèle général donné par l’équation(4.13)

La matrice chapeau est la matrice qui lie les valeurs prédites Y obtenues par le modèle auxdonnées Y . Cette matrice permet de mesurer l’effet des données observées sur les prédictions.La relation que définit la matrice chapeau H1 d’un modèle linéaire mixte est la suivante :

Y = H1Y, (4.14)

où la matrice H1 est définie par le théorème suivant : (Hodge et al. (2001)).

Théorème 4.1.2. Pour un modèle avec effets aléatoires, G étant définie positive, il existe unematrice ∆ ∈ Mm×m telle que G/σ2

e = (∆T∆)−1. Soit M une matrice carrée définie commesuit :

M =

[X Z

0 −∆

]. (4.15)

La matrice H1 = (X : Z)(MTM)−1(X : Z)T est la matrice chapeau associée à l’équation(4.13), c’est à dire Y = H1Y .

Pour deux matrices A et B, l’expression (A : B) est une matrice égale à la concaténation ausens des colonnes des matrices A et B.

Exemple 5. Soit deux matrices A et B définies par :

A =

[1 5

2 4

],

B =

[6 0 9

8 3 7

].

La matrice (A : B) s’écrit :

(A : B) =

[1 5 6 0 9

2 4 8 3 7

].

La matrice chapeau du modèle (4.12) est obtenue en considérant :

32

Page 49: Critère de validation croisée pour le choix des modèles ...

M =

[X Z

0 −√σ2ν/σ

2eIm

], (4.16)

ce qui donne :

H1 =(X Z

)(XTX XTZ

ZTX ZTZ + σ2ν/σ

2eIm

)−1(XT

ZT

).

Critère de validation croisée pour le modèle de Battese et al.

La procédure de la validation croisée est la même que celle décrite à la section 4.1. Le critèreassocié pour un modèle linéaire mixte est donné par :

CVmixte =1

n

m∑i=1

ni∑j=1

(yij − xTijβ−[ij] − νi−[ij])2, (4.17)

où β−[ij] et νi−[ij] sont les estimés respectifs de β et ν en omettant l’observation j du domainei. Tout comme le théorème miracle permettant de déterminer le critère PRESS pour unmodèle de régression linéaire, il existe un théorème analogue pour les modèles de régressionlinéaire mixtes d’après Fang (2011).

Théorème 4.1.3. On suppose connu σ2ν/σ

2e . On pose k = k(i, j) =

∑i−1l=1 nl + j, i = 1, . . . ,m,

j = 1, . . . , ni.Le critère de validation croisée (4.17) peut encore s’écrire :

CVmixte =1

n

m∑i=1

ni∑j=1

(yij − xTij β − νi

1− hkk

)2

, (4.18)

où hkk est un élément diagonal de la matrice chapeauH1 de position matricielle (k(i, j), k(i, j))

.

Le critère (4.18) est a une expression voisine de celle du critère PRESS. Si les hkk sont égaux,hkk ≈ tr(H1)/n et le critère CVmixte est égal au critère de validation croisée générale (GCV)donné par Fang (2011) :

GCVmixte =1

n

m∑i=1

ni∑j=1

(yij − xTij β − νi1− tr(H1)/n

)2

. (4.19)

Les valeurs hkk définissent la qualité de la prédiction. Une valeur hkk proche de 0 signifie unebonne prédiction et une valeur proche de 1 signifie un écart important entre la prédiction etla donnée à prédire. Le modèle est bon si le critère CVmixte est faible.

La validation croisée de type "LOOCV" vient d’être présentée pour les modèles linéaires etmixtes. Des expressions de ce critère sont simples et assez similaires pour les deux types de

33

Page 50: Critère de validation croisée pour le choix des modèles ...

modèles. Bien que cette méthode soit très pratique pour la sélection des modèles, on retrouvedans la littérature statistique des alternatives à ce critère.

4.2 Autres critères de sélection de modèles

Les critères pénalisés sont une alternative au critère de validation croisée. Ils consistent àminimiser le critère :

Critere = −2l(M) + λ(K). (4.20)

Dans la formule (4.20), l(M) représente la log-vraisemblance maximisée du modèle M ; c’est-à-dire l’ajustement du modèle sur les données, λ(K) est une pénalité pour la complexité dumodèle. Elle est une fonction croissante du nombre de paramètres K. Ce critère cherche à évi-ter le sur-ajustement en pénalisant les modèles trop complexes. Des cas particuliers de (4.20)sont l’AIC (Akaike Information Criterion) et BIC (Bayesian Information Criterion).

4.2.1 Critère AIC

Le critère AIC mesure l’écart approximatif entre un modèle ajusté et le vrai modèle qui a généréles données. Lorsque l’on compare plusieurs modèles, le meilleur minimise le critère AIC caril est celui qui est le plus proche du vrai modèle. Il est donné par (4.20) où λ(K) = 2K :

AIC = −2l(M) + 2K. (4.21)

Le paramètreK est égal au nombre de paramètres de la partie fixe du modèle. Certains auteurscomme Müller et al. (2013) proposent de le considérer comme le nombre de paramètres de lapartie fixe plus le nombre de paramètres de la partie aléatoire.Il existe plusieurs type d’AIC : L’AIC marginal et l’AIC conditionnel. L’AIC marginal estapproprié pour les modèles définis au niveau des unités. L’équation (4.21) est un exempled’AIC marginal. L’AIC conditionnel s’utilise uniquement avec les modèles linéaires mixtesVaida et al.(2005). Dans ce cas, le paramètre K est égal à la trace de la matrice chapeau H1

du modèle de régression linéaire mixte (Hodge et Sargent (2001)).

4.2.2 Critère BIC

Encore appelé critère de Schwarz, le BIC est un critère de sélection de modèles. Il est basé enpartie sur le facteur de Bayes et dispose d’une pénalité plus forte que l’AIC pour la complexitédu modèle (Hastie et al. (2001), p.35). En remplaçant λ(K) = K log(n) dans (4.20) on obtientson expression qui donne :

BIC = −2l(M) +K log(n). (4.22)

34

Page 51: Critère de validation croisée pour le choix des modèles ...

Comme le montre (4.22), l’expression du BIC est voisine de celle l’AIC. Le nombre de para-mètres est défini comme pour l’AIC. Il est égal à p pour le modèle linéaire et à (p+m) pourles modèles linéaires mixtes.

Le choix d’un critère peut s’avérer problématique. De manière générale, l’AIC est souventutilisé pour des modèles à but prédictif. Il est approprié lorsqu’on veut utiliser un nombreimportant de variables dans le modèle. Le BIC quant à lui, est approprié pour les modèles depetite taille.

Il nous arrive souvent d’être en possession d’un nombre important de variables pour construiredes modèles. La question importante est de savoir lesquelles utiliser dans le modèle pourobtenir de bonnes prédictions. L’idée d’utiliser toutes les variables dans le modèle ne s’avèrepas toujours la meilleure solution. Si on y met trop de variables non importantes, le modèleprédira mal de nouvelles données. Si par contre on y met très peu de variables, en mettant decôté les variables importantes, le modèle s’ajustera très mal aux données. D’où, la recherched’un critère qui permet de sélectionner les bonnes variables parmi celles existantes pour laprédiction.

4.2.3 Cp de Mallows

Le Cp de Mallows s’inscrit dans un contexte de sélection de variables dans un modèle derégression linéaire. Il est utilisé lorsque l’objectif est de trouver le meilleur ensemble poureffectuer des prédictions. Il est approprié lorsque les paramètres du modèle de régressionlinéaires sont estimés par la méthode des moindres carrées ordinaires.Le Cp de Mallows fournit une estimation de la capacité du modèle à prédire de nouvellesdonnées. Le Cp de Mallows est une alternative à l’erreur quadratique moyenne (EQM) quireprésente une mesure de compromis statistique entre le biais et la variance. En effet, l’erreurquadratique moyenne d’un prédicteur yM (xij) de yi par le modèle M est :

EQM(yM (xij)) = E(yM (xij)− µij)2 avec µij = E(yij |xij)

= (E(yM (xij))− µij)2 + V ar(yM (xij))

= Biais(yM (xij))2 + V ar(yM (xij)). (4.23)

Pour trouver le bon compromis, il faut trouver le modèle qui minimise l’EQM (4.23) pourchaque i. Mais ce modèle est inconnu puisqu’on ne connait pas le vrai modèle.Il existe une relation entre l’EQM et le Cp de Mallows (Duchesne (2014) p.58-59) donnée par :

Cp 'm,ni∑i,j

EQM(yM (xij))

σ2e

. (4.24)

35

Page 52: Critère de validation croisée pour le choix des modèles ...

Supposons le modèle de régression linéaire (4.2) qui contient p variables sous sa forme complète.Soit un sous modèle, aussi appelé modèle réduit, contenant q variables (q ≤ p). En utilisant(4.24), on montre que le Cp de Mallows de ce sous modèle donne (Duchesne (2014) p.58-p.59p) :

Cp ' q +(s2q − σ2

e)(n− q)σ2e

, (4.25)

avec s2q =

∑i

∑j(yM (xij)−yij)2/(n−q) = SSRes,q/(n−q), le carré résiduel moyen du modèle

à q paramètres et yM (xij), la prédiction pour yij par le modèle réduit à q variables.Si σ2

e est inconnu on le remplace par son estimateur σe2 représentant le carré résiduel moyendu modèle complèt. Dans ce cas, le Cp de Mallow devient :

Cp = q +(s2q − σ2)(n− q)

σ2=SSRes,qσ2

− (n− 2q).

Parmi une famille de modèles donnés, le meilleur modèle d’après le critère Cp de Mallows estcelui dont la composante Cp − p est la plus petite possible.

Habituellement, l’utilisation de l’un ou l’autre des critères donnera des résultats similaires. Ilexiste à cet effet une relation d’équivalence entre les critères de sélection présentés dans cechapitre.

4.3 Relation d’équivalence asymptotique entre le critère devalidation croisée et les critères de sélection de modèles

Il existe une relation d’équivalence asymptotique entre le critère de validation croisée et lesautres critères de sélection. Asymptotiquement, l’AIC et la validation croisée sont équivalentsde même que l’AIC et le Cp de Mallows. C’est le cas, par exemple, des relations d’équivalenceasymptotiques entre validation croisée et l’AIC et entre la validation croisée et le Cp de Mallowque nous allons démontrer pour le cas des modèles de régression linéaire.

4.3.1 Relation d’équivalence entre la validation croisée et l’AIC

La preuve de l’équivalence entre l’AIC et le critère de validation croisée (type LOOCV ) aété faite par Stone (1977). La preuve de Stone est générale et les modèles linéaires en sontun cas particulier. Stone montre que le critère AIC est équivalent asymptotiquement à lalog-vraisemblance-validation croisée. En effet, si les données sont Si = (xi, yi), i = 1, . . . , n,et f(y | x, θ), la densité d’un modèle statistique où θ est un paramètre inconnu, la log-vraisemblance validation croisée est :

l(θ) =n∑i=1

log(f(yi | xi, θ−i)), (4.26)

36

Page 53: Critère de validation croisée pour le choix des modèles ...

où θ−i est l’estimateur du maximum de vraisemblance de θ, estimé sur toutes les données sansla ième unité. Dans son développement, Stone montre que 2l(θ) est approximativement égaleà l’AIC défini par (4.21).Pour les modèles linéaires mixtes, Fang (2011) montre que l’AIC de type marginal est équiva-lente asymptotiquement au critère de validation croisée CVmixte appliquée aux modèles baséssur les domaines et que l’AIC conditionnelle est équivalente asymptotiquement à la validationcroisée au niveau des unités.

4.3.2 Relation d’équivalence entre l’AIC et le Cp de Mallow

Pour un modèle de régression linéaire, l’AIC est donnée par l’expression suivante (voir (4.21)) :

AIC = −2l(M) + 2p

=n log(σ2) + n(log(2π) + 1) + 2p

, (4.27)

car

−2l(M) = n log(σ2) + n(log(2π) + 1).

Le modèle qui minimise l’AIC de l’équation (4.27) est celui qui minimise l’expression :

n log(σ2)− n log(σ2e) + 2p = n log

(σ2

σ2e

)+ 2p,

où σ2e l’estimateur de variance pour le modèle complet tel que défini en (4.3).

Le développement de Taylor de n log

(σ2

σ2e

)au voisinage de 1 donne :

n log

(σ2

σ2e

)≈ n log(1) + n

(σ2

σ2e

− 1

)

= nσ2

σ2e

− n

=SSResσ2e

− n. (4.28)

Ainsi, choisir le modèle minimisant l’AIC est équivalent à choisir le modèle qui minimise :

n log

(σ2

σ2e

)+ 2p ≈

(SSResσ2e

− n

)+ 2p = Cp.

L’équivalence asymptotique entre l’AIC et le Cp de Mallows conduit à la relation d’équivalenceentre le Cp de Mallows et la validation croisée.

Le critère de validation croisée a une expression explicite pour les modèles linéaires et mixtesà erreurs normales. Qu’en est-il de son espérance si l’on considère une dépendance résiduelleéchangeable quelconque ?

37

Page 54: Critère de validation croisée pour le choix des modèles ...

4.4 Calcul de l’espérance du critère de validation croisée pourdes modèles de régression

Soit M un modèle dont la dépendance résiduelle est modélisée par une loi échangeable quel-conque. Considérons par ecv,Mij , les résidus de validation croisée du modèle M sur les données.

Ces résidus sont déterminés et sont égaux à ecv,Mij = yij − y∧−(ij)M où y

∧−(ij)M est la valeur prédite

de yij obtenue en ajustant M sur les∑

i ni − 1 points avec omission du point (i, j) dans lescalculs. L’espérance du critère de validation croisée est alors donnée par :

ECVM =1

n

m,ni∑i,j

E(yij − y∧−(ij)M )2. (4.29)

D’après (3.15), le modèle M est un modèle linéaire mixte fonction de plusieurs paramètresdont le paramètre de la partie fixe β et les paramètres de variances de la partie résiduelle.Le critère de validation croisée dont l’expression générale est donnée en (4.29) est fonction dumodèle M et donc fonction des paramètres qui lui sont propres. C’est pour cette raison qu’ilserait judicieux de l’étudier suivant les connaissances d’information sur ces paramètres. Nousallons donc à cet effet présenter le critère de validation croisée dans le cas où les paramètresdu modèle sont connus et dans le cas où au moins l’un des paramètres est inconnu.

4.4.1 Critère de validation croisée : cas avec paramètres connus

C’est le cas le plus simple et il est évident que la valeur prédite y∧−(ij)M s’écrit comme l’espérance

conditionnelle de yij sachant yik, k ∈ Si − j. C’est à dire :

y∧−(ij)M = E(yij | yik : k ∈ Si − j).

On sait que pour toute variable aléatoire Z, E(Z2) = E(E(Z2 | yik : k ∈ Si − j)). Onobtient donc le développement suivant :

E(yij − y∧−(ij)M )2 = E(Z2) = E

(E(yij − y

∧−(ij)M )2 | yik : k ∈ Si − j)

)= E(V ar(yij | yik, k ∈ Si − j)).

Finalement

ECVM =1

n

∑i,j

E(V ar(yij | yik, k ∈ Si − j)). (4.30)

Il suffit donc de connaitre la variance conditionnelle d’un Y de la région étant donné les autrespour évaluer ECVM .

38

Page 55: Critère de validation croisée pour le choix des modèles ...

4.4.2 Critère de validation croisée : cas avec paramètres inconnus

Soit ECV EM l’espérance du critère de validation croisée lorsque les paramètres sont estimésdans le modèle M ; et soit Y −(ij) la valeur prédite de Y sur les unités Si − j suivant le vraimodèle. On peut écrire le carré des résidus de la validation croisée comme suit :

(yij − y∧−(ij)M )2 = (yij − y−(ij))2 + (yij − y

∧−(ij)M )2 + 2(yij − y−(ij))(yij − y

∧−(ij)M ).

On évalue cette expression comme l’espérance conditionnelle, étant donné toutes les donnéessauf le point (i, j). Dans l’espérance conditionnelle, toutes les quantités sont fixes sauf Yij etson espérance conditionnelle est y−(ij). On montre ainsi que :

E(yij − y−(ij))(yij − y∧−(ij)M ) | ∪Si − (i, j) = 0,

où ∪Si − (i, j) est l’ensemble des éléments sauf le jième élément du domaine i. De même,l’espérance inconditionnelle de (yij − y−(ij))(yij − y

∧−(ij)M ) est aussi 0. Le critère ECV EM est

alors :

ECV EM =1

n

∑i,j

E(yij − y∧−(ij)M )2

=1

n

∑i,j

E(yij − y−(ij))2 +1

n

∑i,j

E(yij − y∧−(ij)M )2

= ECV +1

n

∑i,j

E(yij − y∧−(ij)M )2

=1

n

∑i,j

V ar(yij | yik, k ∈ Si − j) +1

n

∑i,j

E(y−(ij) − y∧−(ij)M )2. (4.31)

L’expression de ECV EM montre que le critère de validation croisée peut être aussi vu commeun compromis entre un biais et une variance.

4.4.3 Application à un modèle normal

Soit le modèle de Battese et al. suivant :

yij = xTijβ + νi + eij . (4.32)

Le modèle (4.32) a déjà été présenté (voir (4.12)). Rappelons quelques caractéristiques de cemodèle. La composante aléatoire νi ∼ N(0, σ2

ν). L’erreur du modèle eij ∼ N(0, σ2e) et est

indépendante de νi. La distribution de la variable Y appartient à une famille échangeable nor-male multivariée dont la distribution est N(0, σ2

∑(ρ, ni)) (voir la section 3.3.1). Nous allons

déterminer le critère de validation croisée pour ce modèle dépendamment des connaissancesdes paramètres associés au modèle.

39

Page 56: Critère de validation croisée pour le choix des modèles ...

Cas où β et les composantes de variances sont connues

D’après (4.19), le critère de validation croisée pour un modèle M connaissant ses paramètresest égal à :

ECVM =1

n

∑i,j

E(V ar(yij | yik, k ∈ Si − j)).

En considérant que le modèle M est équivalent au modèle (4.32), on montre que la varianceconditionnelle d’un yij sachant les (ni−1) éléments pour une matrice de covariance échangeablenormale s’écrit :

V ar(yij | yik, k ∈ Si − j) =(σ2e + σ2

ν)(1− ρ)[1 + (ni − 1)ρ]

1 + (ni − 2)ρ, (4.33)

où ρ = σ2ν/(σ

2e + σ2

ν) représente la corrélation intraclasse (ICC). L’expression du critère devalidation croisée dans ce cas est donc :

ECV =1

n

∑i,j

(σ2e + σ2

ν)(1− ρ)[1 + (ni − 1)ρ]

1 + (ni − 2)ρ

=1

n

∑i

ni(σ2e + σ2

ν)(1− ρ)[1 + (ni − 1)ρ]

1 + (ni − 2)ρ. (4.34)

4.4.4 Cas où β est estimé et les composantes de variances connues

Le critère de validation croisée pour un modèle M disposant d’au moins un paramètre estimés’écrit d’après (4.29) :

ECV E =1

n

∑i,j

E(V ar(yij | yik, k ∈ Si − j)) +1

n

∑i,j

E(y−(ij) − y∧−(ij))2. (4.35)

Rivest et al. (2015) montrent que les expressions de yij et y∧−(ij) lorsque β est estimé sont

respectivement :

yij = xTijβ +(ni−1)ρε

−(ij)is

1+(ni−2)ρ yij = xTij β−(ij) +

(ni−1)ρε−(ij)is +(x

−(ij)is )T (β−β−(ij))

1+(ni−2)ρ ,

où εis et xis sont les moyennes respectives de ε et X sur les éléments connus du domaine i.Rivest et al. (2015) montrent également que l’expression de (yij − y

∧−(ij))2 est donnée par :

(yij − y∧−(ij))2 =

xij −

(ni − 1)ρx−(ij)is

1 + (ni − 2)ρ

T(β − β−(ij)).

Donc :

E((yij − y∧−(ij))2) =

xij −

(ni − 1)ρx−(ij)is

1 + (ni − 2)ρ

TV ar(β−(ij))

xij −

(ni − 1)ρx−(ij)is

1 + (ni − 2)ρ

.

40

Page 57: Critère de validation croisée pour le choix des modèles ...

Il s’ensuit que le critère de validation croisée pour un modèle normal avec le paramètre βestimé est donc :

ECV Enormal =1

n

∑i

ni(σ2e + σ2

ν)(1− ρ)[1 + (ni − 1)ρ]

1 + (ni − 2)ρ

+1

n

∑i,j

xij −

(ni − 1)ρx−(ij)is

1 + (ni − 2)ρ

TV ar(β−(ij))

xij −

(ni − 1)ρx−(ij)is

1 + (ni − 2)ρ

. (4.36)

La formule (4.19) est utilisée pour déterminer le critère de validation croisée pour un modèlequelconque. Lorsque tous les paramètres sont connus, l’expréssion (yij − y

∧−(ij))2 est nulle.l’ECV E se réduit à l’ECV . De plus la formule générale nous permet d’avoir explicitementl’espérance de ce critère pour les cas où le β est connu et les composantes de variance estiméeset dans le cas où β est estimé et les composantes de variance estimées.

4.5 Les autres types de validation croisée

Jusqu’à présent, nous avons considéré la validation croisée en retirant les observations une àune. Il existe dans la littérature d’autres méthodes de validation croisée où plusieurs unitéssont retirées simultanément.

4.5.1 Leave k-out cross validation

C’est la procédure la plus générale de la validation croisée. Pour un entier k fixé, il faut dé-terminer toutes les Ckn partitions possibles, avec Ckn = n!

k!(n−k)! . La procédure est très couteusedû à l’implémentation des Ckn ensembles possibles de k éléments pris parmi n. Le principe estle même que précédemment à la seule différence que les procédures se font sur les donnéesmoins le sous-ensemble choisi. Cette procédure est très peu utilisée à cause du coût de calcultrès élevé.

4.5.2 k-Fold Cross validation

C’est une alternative au k-out cross validation à cause du coût assez élevé de la procédure.L’idée ici est de diviser les données en k sous-ensembles de taille approximativement égale,τ = n/k. Pour chacun des indices 1, . . . , k, on construit le modèle sur (n − τ) données et onvalide sur les données restantes.

En résumé, le critère de validation croisée est une méthode pratique, simple, très utiliséeen statistique et qui permet la sélection des modèles. Il a une expression explicite pour lesmodèles linéaires et mixtes normaux pour la procédure LOOCV. L’espérance de ce critère a étéétudiée pour les modèles linéaires mixtes à dépendance résiduelle échangeable. Nous l’avonsétudiée pour les cas où les paramètres sont connus et pour les cas où ils sont inconnus. Leprochain chapitre traite des alternatives au modèle normal de Battese et al. pour la dépendance

41

Page 58: Critère de validation croisée pour le choix des modèles ...

résiduelle dans des modèles de régression linéaire mixte. Il présente également l’estimation desparamètres associés à ces modèles.

42

Page 59: Critère de validation croisée pour le choix des modèles ...

Chapitre 5

Estimation des paramètres etsimulation

Ce chapitre présente d’une part, l’estimation des paramètres du modèle de la section 3.3 duchapitre 3 ; et d’autre part une simulation qui permet d’étudier la capacité du critère de vali-dation croisée à choisir un modèle pour la dépendance résiduelle. Le modèle pour les donnéeséchantillonnées (xij , yij , i = 1, . . . ,m; j = 1, . . . , ni) dépend de la fonction de répartition deserreurs εij , j = 1, . . . , ni. Cette dernière appartient à une famille échangeable de fonctionsde répartition continues Fα,θ,n(εi1, · · · , εini). La forme paramétrique de cette famille estsupposée inconnue, ce qui donne donc lieu à des modèles semi-paramétriques. On suppose queles erreurs sont de moyenne nulle et de variance finie.Les Fα,θ,n sont spécifiées en fonction de la loi marginale des erreurs Fe et d’une famille decopules paramétriques. Les copules utilisées permettent de modéliser la dépendance des erreursdans le modèle. Nous abordons ce chapitre en présentant les estimateurs semi-paramétriquesdes paramètres du modèle qui sont : β, σ2, α et Fe.

5.1 Modèle général : cas semiparamétrique

Considérons le modèle général défini à la section 3.3 :

yij = xTijβ + εij , i = 1 . . .m, j = 1 . . . ni, (5.1)

où la loi de εi1, . . . , εini est Fα,Fe,ni(e1, . . . , eni). Cette dernière est donnée par :

Fα,Fe,ni(e1, . . . , eni) = Cα,ni(Fe(e1), . . . , Fe(eni)), (5.2)

où Cα,n est une copule en dimension n telle que vue au chapitre 2. Une copule Cα,n est unefonction de répartition, possédant des marges uniformes et définies sur le cube unité [0, 1]n. Leparamètre α mesure la force de la dépendance. Lorsque α = 0, on dit qu’il n’y a pas de dépen-dance et la copule associée est dite indépendante, c’est à dire : C0,n(u1, . . . , un) = u1×· · ·×un

43

Page 60: Critère de validation croisée pour le choix des modèles ...

avec u1, . . . , un ∈ [0, 1].

Le modèle (5.2) appartient à la famille définie à la section 3.3, lorsque la famille de copuleCα,n est échangeable. C’est le cas par exemple de la copule normale (voir la section 2.5.3).En utilisant une copule normale pour modéliser les erreurs et une distribution normale pourFe, on obtient le modèle de Battese et al. présenté à la section 3.3.

En plus de la copule normale, nous considérons la copule de Student tν et des copules archi-médiennes (voir 2.5.4). Les copules archimédiennes ne sont pas symétriques. En effet, même sila marginale Fe est symétrique par rapport à 0, les fonctions de répartition de (e1, . . . , en) et(−e1, . . . ,−en) sont différentes. Ceci nous conduit à considérer également les copules archimé-diennes de survie pour modéliser la dépendance résiduelle. Les copules de survie à considérersont celles de Clayton, Gumbel et Frank.

5.2 Estimation des paramètres

Le modèle (5.1) est construit sur la base des données échantillonnées (xij , yij , i = 1, . . . ,m; j =

1, . . . , ni). La matrice de variance covariance des erreurs est notée Σ(ρ, ni), où le paramètreρ représente la corrélation intra classe (ICC) (voir (3.16)). Sous le modèle de copule (5.2),la variance σ2 est la somme des composantes de variance σ2

e et σ2ν où σ2

e = (σ2 − σ2ν) est la

variance résiduelle du modèle et σ2ν , la covariance entre deux erreurs εij et εil du domaine i.

Nous présentons à la section suivante, une méthode d’estimation de ces paramètres.

5.2.1 Estimation de β, σ2 et ρ

Les estimateurs β, σ2 et ρ sont obtenus en maximisant la vraisemblance du modèle de régres-sion linéaire mixte normal. En considérant les notations de la section 4.1.2, la log-vraisemblanced’un modèle linéaire mixte normal s’écrit :

l(β, σ2e , σ

2ν) = −1

2

(Y −Xβ)TΣ−1(Y −Xβ) + log(|Σ|)

.

Rivest et al. (2015) montrent que l’espérance de l(β, σ2e , σ

2ν) atteint son maximum au niveau

de (β0, σ20e, σ

20ν) , qui représente la vraie valeur de β. En effet soit (β0, σ

20e, σ

20ν) les vrais

paramètres du modèle (5.2) et soit Σ0 la vraie matrice de variance covariance de y. Puisque

E(Y −Xβ)(Y −Xβ)T = Σ0 +X(β0 − β)(β0 − β)TXT ,

l’espérance de la log-vraisemblance s’écrit :

E(l(β, σ2e , σ

2ν)) = −1

2

(tr

[Σ−1E(Y −Xβ)(Y −Xβ)T

]+ log(| Σ−1 |)

)(5.3)

= constante− 1

2tr(Σ−1Σ0) + (β0 − β)TXTΣ−1X(β0 − β)− log(| Σ−1Σ0 |),

(5.4)

44

Page 61: Critère de validation croisée pour le choix des modèles ...

défini pour tout (σ2e , σ

2ν). Comme pour toute matrice V , −tr(V ) + log(| V |) se maximise pour

V = I, l’espérance de la log-vraisemblance (5.4) atteint son maximum en (β0, σ20e, σ

20ν). Par

ailleurs Rivest et al. (2015) montrent que la matrice de variance covariance de β obtenue sousun modèle linéaire mixte normal est valide dans un cadre général sous le modèle semipara-métrique (5.2). De plus, β est l’estimateur du maximumum de vraisemblance sous le modèlelinaire mixte normale, mais ne l’est pas sous le modèle de copule. Cependant c’est le meilleurestimateur parmi tous les estimateurs linéaires non biaisés de β. Lorsque m devient grand, lesexpressions m1/2(β − β, σ2 − σ2, ρ− ρ) sont Op(1) (voir Rivest et al. (2015)).

5.2.2 Estimation de α

Le paramètre α mesure la force de dépendance des erreurs dans la copule. Ce paramètre sedéduit du tau de Kendall. Le tau de Kendall (voir 2.2.2) dans ce contexte se calcul en utilisantles paires (eij1, eij′1) et (ekj2, ekj′2) d’erreurs bivariées prises dans différents domaines i et k.Il représente la probabilité que les erreurs soient concordantes moins la probabilité qu’ellessoient discordantes, c’est à dire :

τ = 2P(eij1, eij′1)(ekj2, ekj′2) > 0 − 1. (5.5)

Le chapitre 4 donne les formes explicites du tau de Kendall en fonction de α pour les copulesarchimédiennes (voir 2.1). En inversant les formules correspondantes, on obtient l’expressiondu paramètre α. Pour la copule de Clayton, α = 2τ

1−τ ; pour la Gumbel α = 11−τ et pour la Frank

α = D−11 (1 + (1− τ)/4) où D−1

1 est l’inverse de la fonction D1(x) = (1/x)∫ x

0 t/exp(t)− 1dtqui est la fonction Debye de type un. De même pour les copules elliptiques, ρ = sin(τπ/2).Le paramètre α est estimé en utilisant le tau de Kendall empirique τ (voir (2.4)) qui est calculésur les résidus de la régression eij = yij − xTij β. τ est une version empirique de (5.5) calculéeen évaluant si les

∑i>k ni(ni − 1)nk(nk − 1) paires de couples de résidus ordonnés provenant

de deux domaines différents sont concordantes ou discordantes (voir Romdhani et al. (2014)).

5.2.3 Estimation de la distribution marginale des erreurs Fe

Soit eij = yij − xij β, les résidus du modèle de régression pour l’unité j du domaine i. Puisquela moyenne des résidus ne donne pas forcément 0, on utilise les résidus centrés ecij = eij − e••pour estimer Fe. L’estimateur de la distribution marginale des erreurs Fe est la fonction derépartition empirique des résidus centrés (Rivest et al. (2015)) :

Fe =1∑ni + 1

m∑i=1

ni∑j=1

1ecij6z. (5.6)

Sous le modèle (5.1) et lorsque m devient grand, cet estimateur converge vers Fe à un tauxOp(m

−1/2).

45

Page 62: Critère de validation croisée pour le choix des modèles ...

5.2.4 Critère de validation croisée sous le modèle de copule

Soit M , une famille de modèles semiparamétriques (5.2). Sous le modèle semiparamétrique(5.2), l’algorithme du critère de validation croisée est :

1. Retirer l’unité j du domaine i avec i = 1, . . . ,m et j = 1, . . . , ni.

2. Reestimer le modèle (5.2) sur les (∑ni−1) éléments restants en estimant ses paramètres

qui sont : β(−ij), α(−ij), et F (−ij)e ; notons M−(ij) ce modèle.

3. Prédire yij par le modèleM−(ij) ; soit y−(ij)M cette estimation. En effet, y−(ij)

M = β(−ij)xij+

ε(−ij)ij . Nous présentons la construction de y−(ij)

M à la section suivante.

4. Répéter les étapes 1, 2, 3 pour chaque i, i = 1 . . . n.

5. Calculer le critère de validation croisée donné par :

LOOCVS(M) =1∑ni

m∑i=1

ni∑j=1

(yij − y−(ij)M )2. (5.7)

Dans une famille de modèles, le meilleur modèle est celui pour lequel la valeur LOOCVS(M)

est minimale.

5.3 Prédiction d’un nouveau y

Pour i = 1, . . . ,m, j = 1, . . . , ni, soit yij l’élément retiré du jeu de donnée lors de la procédurede validation croisée (voir la section 5.2.4). On l’estime en procédant de la même façon qu’àla section 3.3.2 pour les estimations des y non observés. Le meilleur prédicteur de yij estdonc donné par l’espérance conditionnelle de yij sachant yil, l ∈ 1, . . . , ni \ j et qui est lemême que l’espérance conditionnelle de yil sachant εil, l = 1, . . . , ni, l 6= j. Sous un modèle decopule donné, on montre que la fonction de répartition des εij sachant εil, l = 1, . . . , ni, l 6= js’écrit :

F|i(e) =

∫ e

−∞

fα,θ,ni+1(z, εil, l = 1, . . . , ni)

fα,θ,ni(εil, l = 1, . . . , ni)dz, e ∈ R

=

∫ e

−∞

cα,ni+1(Fe(z), Fe(εil), l = 1, . . . , ni)

cα,ni(Fe(εil), l = 1, . . . , ni))dFe(z) e ∈ R,

où cα,n représente la densité de la copule. Le meilleur prédicteur empirique non biaisé de yijs’obtient en remplaçant les paramètres (β, α, Fe) par leurs estimateurs (β(−ij), α(−ij), F

(−ij)e ),

où ec représente les résidus centrés (Rivest et al. (2015) :

y−(ij)M = xij β

(−ij) +

∑mi1=1

∑ni1l1=1(ei1l1)w1iF (−ij)

e (ei1l1), F(−ij)e (eil) : l = 1, . . . , ni∑m

i1=1

∑ni1l1=1w1iF (−ij)

e (ei1l1), F(−ij)e (eil) : l = 1, . . . , ni

, (5.8)

où w1i est la fonction de poids qui représente un estimé de la densité conditionnelle de lacopule sachant les εil, l = 1, . . . , ni et donnée par :

w1iv, F (−ij)e (eil) : l = 1, . . . , ni =

cα,ni+1v, F(−ij)e (eil1), . . . , F

(−ij)e (eilni )

cα,niF(−ij)e (eil1), . . . , F

(−ij)e (eilni )

,

46

Page 63: Critère de validation croisée pour le choix des modèles ...

où eil1 , . . . , eilni représentent les résidus de la régression pour les unités échantillonnées dansle domaine i. Notons que les sommations dans (5.8) portent sur

∑ni − 1 résidus, car l’unité

(ij) est exclue des calculs.

5.4 Simulation

Le but de cette partie est d’étudier la capacité du critère de validation croisée (voir (5.7)) àchoisir le modèle adéquat parmis une famille de modèles linéaires (5.2) où la distribution deserreurs est modélisée par les copules.

5.4.1 Les données

On considère le modèle linéaire dont l’ordonnée à l’origine est 1 et la pente est 2. La distributionde la variable explicative est N(1, 3). Les données sont divisées en m = 20 ou m = 40 régions.Dans chacune des régions, on dispose de ni = 5 unités. Nous considérons 8 copules pourmodéliser la distribution des erreurs. Les copules étudiées sont la normale et la Student à 3

degrés de liberté. On considère également 3 copules archimédiennes, la Clayton, la Gumbelet la Franck ainsi que les copules de survie associées. On considère 3 distributions marginalespour les erreurs : la normale, la Student à 3 degrés de liberté et la lognormale. Les simulationssont réalisées suivant les tau de Kendall 1/3, 1/2 et 0.7.

5.4.2 Algorithme de simulation des données

On se fixe premièrement une copule C, ensuite on génère les erreurs du modèle de loi marginaleF et de copule C. Les erreurs sont ensuite standardisées en soustrayant la moyenne de la loiet en divisant par la déviation standard. Ainsi l’espérance des erreurs vaut 0 et la variance1. Par exemple, pour les marges lognormales, les erreurs sont d’abord générées suivant lesmarges uniformes ; puis, elles sont transformées en utilisant la fonction quantile lognormale deparamètres 0 et 1 ; et finalement, elles sont standardisées par soustraction à la moyenne e1/2

et par division par l’écart-type√e(e− 1). En effet, la loi lognormale de paramètres 0 et 1 est

de moyenne e1/2 et de variance e(e− 1). Le critère de validation croisée du modèle est calculépour les 8 copules étudiées. La copule choisie est celle qui a la valeur du critère minimale. Uncompteur a été créé pour incrémenter le nombre de fois que chaque copule est choisie (voirles sections 5.4.3, 5.4.4 et 5.4.5). Pour chaque copule C prédéfinie, cette procédure est répétée100 fois. Les simulations ont été réalisées avec le logiciel de statistique R. La fonction cvSA dupackage copulaSA a été utilisée pour effectuer la validation croisée dans les petits domaines(voir les annexes pour plus de description). Le code de simulation pour des marges normalesest aussi disponible en annexes.

47

Page 64: Critère de validation croisée pour le choix des modèles ...

5.4.3 Résultats des simulations obtenues avec les marges normales

On s’intéresse au pourcentage de bonne sélection par le critère de validation croisée. Dans lestableaux suivants, la copule utilisée pour simuler les données est présente dans la premièrecolonne tandis que la copule choisie par le critère de validation croisée apparaît sur la premièreligne. Les simulations ont été réalisées pour différentes valeurs du tau de Kendall. Les résultatsobtenus en considérant les marges normales sont les tableaux 5.1, 5.2, 5.3 et 5.4.

Table 5.1 – Résultats des simulations avec marges normales pour m = 20 et τ = 1/3.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 21 24 10 6 15 8 9 7Student 16 33 6 3 7 13 8 14Clayton 5 9 57 0 11 2 5 11

Clayton.S 6 7 0 65 2 13 4 3Franck 9 7 7 0 42 3 31 1

Franck.S 12 5 0 13 3 48 0 19Gumbel 6 11 4 3 24 0 51 1

Gumbel.S 6 5 3 4 1 24 0 57

Table 5.2 – Résultats des simulations avec marges normales pour m = 20 et τ = 1/2.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 36 29 5 3 10 11 3 3Student 14 51 5 5 5 4 6 10Clayton 3 7 75 0 9 1 2 3

Clayton.S 8 5 0 72 1 9 2 3Franck 15 4 5 0 51 3 21 1

Franck.S 9 0 0 4 1 73 0 13Gumbel 5 14 3 1 25 0 52 0

Gumbel.S 6 7 2 5 0 21 0 59

48

Page 65: Critère de validation croisée pour le choix des modèles ...

Table 5.3 – Résultats des simulations avec marges normales pour m = 20 et τ = 0.7.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 26 55 2 0 1 5 6 5Student 17 63 0 1 2 2 11 4Clayton 10 6 76 0 7 0 1 0

Clayton.S 6 9 0 72 0 10 1 2Franck 12 12 2 0 58 1 15 0

Franck.S 11 13 0 4 0 64 0 8Gumbel 6 26 0 0 16 0 52 0

Gumbel.S 8 22 0 1 0 14 0 55

Table 5.4 – Résultats des simulations avec marges normales pour m = 40 et τ = 1/2.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 33 53 2 1 0 2 0 9Student 19 65 0 0 3 2 8 3Clayton 2 1 95 0 1 0 1 0

Clayton.S 4 2 0 93 0 1 0 0Franck 2 1 2 0 79 0 15 1

Franck.S 6 3 0 3 0 75 0 13Gumbel 2 7 1 0 17 0 73 0

Gumbel.S 6 11 0 0 0 3 0 80

Les résultats de simulations avec marges normales pour m = 40 correspondant à τ = 1/3 etτ = 0.7 sont présentés en annexes (voir les tableaux A1 et A2 en annexes).

49

Page 66: Critère de validation croisée pour le choix des modèles ...

5.4.4 Résultats des simulations obtenues avec les marges de Student

Les résultats pour marges Student sont les tableaux 5.5, 5.6, 5.7 et 5.8.

Table 5.5 – Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3,τ = 1/3.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 23 17 7 10 17 13 9 4Student 6 24 3 13 17 14 7 16Clayton 4 1 72 0 13 1 0 9

Clayton.S 2 7 0 59 2 13 12 5Franck 6 2 14 0 52 5 17 4

Franck.S 11 2 1 10 3 59 0 14Gumbel 7 11 7 3 32 1 39 0

Gumbel.S 9 6 1 5 1 20 4 54

Table 5.6 – Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3,τ = 1/2.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 31 28 5 3 3 13 8 9Student 14 49 3 4 6 3 11 10Clayton 10 5 71 0 11 1 1 1

Clayton.S 7 6 0 72 0 12 3 0Franck 12 2 3 0 57 6 19 1

Franck.S 15 3 0 7 1 57 0 17Gumbel 9 7 4 0 20 0 60 0

Gumbel.S 13 6 4 1 0 24 1 51

50

Page 67: Critère de validation croisée pour le choix des modèles ...

Table 5.7 – Résultats des simulations obtenues avec marges de Student pour m = 20, ν = 3,τ = 0.7

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 40 36 0 1 6 4 4 9Student 27 53 0 2 3 1 9 5Clayton 15 9 63 0 10 1 2 0

Clayton.S 7 6 0 69 3 8 3 4Franck 19 3 2 0 52 6 14 4

Franck.S 20 3 0 2 5 49 1 20Gumbel 10 16 0 3 15 0 56 0

Gumbel.S 12 14 0 0 0 16 0 58

Table 5.8 – Résultats des simulations obtenues avec marges de Student pour m = 40, ν = 3,τ = 1/2.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 56 26 3 1 4 3 1 6Student 16 56 1 2 4 4 10 7Clayton 8 3 84 0 4 1 0 0

Clayton.S 7 1 0 89 0 2 1 0Franck 5 0 1 0 80 1 12 1

Franck.S 10 0 0 1 0 77 0 12Gumbel 8 4 1 4 15 0 68 0

Gumbel.S 11 12 1 0 0 13 0 63

Les résultats de simulations avec marges de Student à 3 degrés de liberté pour m = 40

correspondant à τ = 1/3 et τ = 0.7 sont reférencés en annexes (voir les tableaux A3 et A4 enannexes).

51

Page 68: Critère de validation croisée pour le choix des modèles ...

5.4.5 Résultats des simulations obtenues avec les marges lognormales

Nous avons tenu à considérer également des simulations avec les marges de copules non symé-triques. Les résultats sont contenus dans les tableaux 5.9,5.10, 5.11, 5.12.

Table 5.9 – Résultats des simulations obtenues avec marges lognormales pour m = 20 etτ = 1/3.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 15 12 10 12 11 22 13 5Student 11 27 1 26 0 15 13 7Clayton 4 1 56 2 12 11 5 9

Clayton.S 1 22 0 41 3 13 20 0Franck 6 3 18 1 33 11 28 0

Franck.S 8 7 4 11 4 54 3 9Gumbel 2 0 4 5 28 1 60 0

Gumbel.S 14 5 6 14 2 36 4 19

Table 5.10 – Résultats des simulations obtenues avec marges lognormales pour m = 20 etτ = 1/2.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 23 14 9 6 14 17 12 5Student 18 24 0 19 3 18 14 4Clayton 16 3 47 0 14 12 5 3

Clayton.S 3 19 0 61 0 8 8 1Franck 15 1 23 0 34 8 15 4

Franck.S 10 6 7 2 9 52 2 12Gumbel 5 5 5 6 17 1 61 0

Gumbel.S 6 17 1 8 6 37 2 23

52

Page 69: Critère de validation croisée pour le choix des modèles ...

Table 5.11 – Résultats des simulations obtenues avec marges lognormales pour m = 20 etτ = 0.7.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 23 31 3 1 8 13 12 9Student 17 35 2 7 6 11 12 10Clayton 14 0 56 1 13 9 4 3

Clayton.S 7 30 0 49 0 4 4 6Franck 23 6 17 0 31 10 5 8

Franck.S 20 5 1 1 5 42 3 23Gumbel 10 9 2 7 16 0 56 0

Gumbel.S 14 16 4 3 2 36 3 22

Table 5.12 – Résultats des simulations obtenues avec marges lognormales pour m = 40 etτ = 1/2.

Modèle choisi

Modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 32 29 2 2 10 11 10 4Student 17 46 0 19 0 6 5 7Clayton 6 0 61 0 25 8 0 0

Clayton.S 0 21 0 76 0 1 0 2Franck 13 3 21 0 51 4 8 0

Franck.S 4 3 4 0 4 64 1 20Gumbel 4 6 0 3 16 0 71 0

Gumbel.S 16 7 1 1 1 42 1 31

Les résultats de simulations avec marges lognormales pour m = 40 correspondant à τ = 1/3

et τ = 0.7 sont reférencés en annexes (voir les tableaux A5 et A6 en annexes).

5.5 Interprétation des résultats

Nous sommes intéressés par le pourcentage de bonne prédiction du critère de validation croisée,c’est-à-dire par le pourcentage des résultats apparaissant sur la diagonale des tableaux.Pour résumer les tableaux, nous avons extrait le pourcentage de bonne prédiction par rapportà chaque marge (voir la figure 5.1). Il ressort de ces analyses que le critère de validation croisée :

• peine à distinguer les copules normale et Student.

• identifie bien les copules archimédiennes et archimédiennes de survie.

• identifie très bien la copule de Clayton. En effet, le critère de validation croisée identifiela copule de Clayton dans 70% des cas environ.

• peine à identifier la copule lorsque les marges sont lognormales.

53

Page 70: Critère de validation croisée pour le choix des modèles ...

Figure 5.1 – Pourcentage de bonne prédiction suivant les valeurs de τ . À gauche les simula-tions pour m = 20 et à droite les simulations avec m = 40.

5.6 Comparaison du prédicteur EBLUP et du prédicteur sousle modèle semiparamétrique

En statistique, le prédicteur standard est le EBLUP (voir (4.17) pour sa construction). Il estle meilleur prédicteur linéaire pour tous les modèles considérés. L’objectif de cette section estde comparer le prédicteur EBLUP avec le prédicteur semiparamétrique (5.8) afin de mesurerla valeur ajoutée de la généralisation de la distribution des erreurs dans le modèle de Batteseet al.. Pour cela, nous considérons les mêmes spécifications qu’à la section 5.4. C’est-à-direle modèle linéaire d’ordonnée à l’origine 1, de pente 2 et où la distribution de la variableexplicative est N(1, 3). Les données sont divisées en m = 40 régions contenant chacune 5

unités. Les simulations ont été réalisées de la façon suivante : pour chacune des 3 distributionsmarginales, modélisées suivant chacune des 8 copules étudiées, nous calculons les pourcentagesde fois ou le prédicteur EBLUP est choisi par le critère de validation croisée, lorsque comparé àla prédiction semiparamétrique. Le critère de validation croisée utilisant le EBLUP est présentéen (4.17), celui utilisant le prédicteur semiparamétrique est le critère LOOCVs présenté en(5.7). Les résultats sont contenus dans le tableau suivant :

54

Page 71: Critère de validation croisée pour le choix des modèles ...

Table 5.13 – Comparaison du prédicteur EBLUP et du prédicteur semiparamétrique pourm = 40 et τ = 1/2. Les données dans le tableau réprésentent le pourcentage des fois que leprédicteur EBLUP est choisi par le critère de validation croisée.

Marges

Copule Normale Student LognormaleNormal 69 42 24Student 61 68 28Clayton 18 3 1

Clayton.S 29 1 51Franck 22 5 8

Franck.S 25 7 11Gumbel 31 22 16

Gumbel.S 29 16 16

En analysant le tableau 5.13, le prédicteur EBLUP prédit mieux en moyenne dans 65% des casque le modèle semiparamétrique avec copule normale et Student lorsque les marges sont nor-males. Il est également préférable dans 68% des cas au modèle semiparamétrique avec copulede Student lorsque les marges sont de Student. Ceci se comprend, car sous copule normaleavec marge normale, de mêmes que sous copule de Student avec marge de Student, le EBLUPest le meilleur prédicteur, il est donc normal qu’il soit préféré au prédicteur semiparamétrique(5.8). Lorsque les marges sont lognormales, le EBLUP et le modèle semiparamétrique aveccopule de Clayton survie ont des pourcentages de prédiction relativement égaux. Par contre,le modèle semiparamétrique avec copules archimédiennes et archimédiennes de survie est pré-férable dans la plupart des cas. Il prédit mieux dans 74% (100 moins la moyenne des colonnes3 à 8 du tableau 5.13) des cas pour les marges normales, à 91% des cas lorsque les margessont de la Student, et à 89% lorsqu’elles sont lognormales. Évidemment, le prédicteur basé surles copules est en principe plus précis que le EBLUP. Sa mise en oeuvre est plus lourde, car ilnécessite l’estimation d’un plus grand nombre de paramètres.

55

Page 72: Critère de validation croisée pour le choix des modèles ...
Page 73: Critère de validation croisée pour le choix des modèles ...

Chapitre 6

Conclusion

Ce mémoire a étudié le critère de validation croisée pour choisir la copule et la distributionmarginale pour les erreurs dans un modèle de petites régions. La problématique de l’estimationdans les petits domaines a été présentée. L’objectif est de mieux estimer les caractéristiquesdes régions. Plusieurs méthodes d’estimation existent à cet effet et le chapitre 2 en présentequelques-unes. Ce mémoire introduit des généralisations du modèle de Battese et al. Cettegénéralisation permet de considérer des distributions non normales pour les erreurs. On a faitun survol des critères de sélection de modèles. On a parlé des critères de sélection pénalisésqui sont l’AIC et le BIC. On a étudié des liens entre ces critères et le critère de validationcroisée. On a aussi parlé du Cp de Mallows pour les sélections de variables dans les modèlesde régression linéaire et étudié le lien avec le critère de validation croisée. L’espérance ducritère de validation croisée a été évaluée pour une grande classe de modèle. Les copules ontété présentées comme un outil statistique pour modéliser la dépendance entre les variablesaléatoires. Elles ont été utilisées pour capturer la structure de dépendance des erreurs dumodèle de régression linéaire. Ceci a permis de construire plusieurs alternatives au modèlenormal standard. Le modèle a traité de l’estimation des paramètres et de l’estimation d’unenouvelle observation à l’aide de ces données.Il découle de nos analyses que le critère de validation croisée permet de trouver le modèlesous-jacent aux données surtout lorsque le nombre de régions est grand. Il reste néanmoinsdes bémols. Par exemple, la copule normale est difficile à identifier parce qu’elle se confondavec celle de Student.Pour la plupart des modèles considérés, la prédiction non linéaire basée sur les copules estmeilleure que la prédiction linéaire EBLUP. Pour le cas où les marges sont normales aveccopule normale, le EBLUP est le meilleur prédicteur.Le critère de validation croisée peut dans la plupart des cas choisir la copule adéquate lorsquele nombre de régions est grand (m > 40). Dans certains cas, il peut être utilisé indirectementpour conclure. Si par exemple, pour une marge donnée, la copule adéquate choisie est Student,une archimédienne ou une archimédienne de survie, il est très probable que se soit la bonne

57

Page 74: Critère de validation croisée pour le choix des modèles ...

copule. Si par contre la copule normale est choisie, il y a des chances que la véritable copule soitune normale ou une Student. Lorsque les marges sont lognormales, la difficulté reste présentelorsque le nombre de régions est petit. Mais si le nombre de régions est grand, le critère devalidation croisée donnera de bonnes prédictions. La question en suspens est celle de savoir siles résultats obtenus peuvent se généraliser à toutes les marges symétriques ou asymétriques.

58

Page 75: Critère de validation croisée pour le choix des modèles ...

Annexe A

Annexes

Table A1 – Résultats des simulations avec marges normales pour τ = 1/3 et m = 40.

Modèle choisi

modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 29 48 5 3 8 4 3 0Student 19 40 2 3 12 11 5 8Clayton 4 2 86 0 4 1 2 1

Clayton.S 4 1 0 87 0 6 1 1Franck 9 2 1 0 73 0 15 0

Franck.S 13 2 0 4 0 61 0 20Gumbel 6 6 2 0 14 0 72 0

Gumbel.S 5 6 1 1 0 10 0 77

Table A2 – Résultats des simulations avec marges normales pour τ = 0.7 et m = 40.

Modèle choisi

modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 40 59 0 0 0 0 1 0Student 23 71 0 0 0 2 2 2Clayton 4 2 93 0 1 0 0 0

Clayton.S 2 8 0 89 0 1 0 0Franck 8 4 1 0 67 0 20 0

Franck.S 8 2 0 1 0 80 0 9Gumbel 1 19 0 0 15 0 65 0

Gumbel.S 6 17 0 0 0 4 0 73

59

Page 76: Critère de validation croisée pour le choix des modèles ...

Table A3 – Résultats des simulations avec marges Student à 3 degrés de liberté pour τ = 1/3et m = 40.

Modèle choisi

modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 40 29 5 7 4 5 5 5Student 11 36 7 8 9 5 15 9Clayton 4 1 82 0 9 1 0 3

Clayton.S 4 5 0 83 2 4 1 1Franck 12 2 4 0 65 1 16 0

Franck.S 7 1 1 3 0 62 0 26Gumbel 8 6 2 0 17 0 67 0

Gumbel.S 4 5 1 1 0 28 0 61

Table A4 – Résultats des simulations avec marges Student à 3 dégres de liberte pour τ = 0.7et m = 40.

Modèle choisi

modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 44 38 0 0 2 3 6 7Student 23 67 1 0 3 2 2 2Clayton 8 4 84 0 2 0 2 0

Clayton.S 9 1 0 88 1 0 0 1Franck 16 0 0 0 73 2 9 0

Franck.S 7 0 0 1 4 75 0 13Gumbel 7 19 0 1 7 0 65 1

Gumbel.S 9 14 0 0 0 10 0 67

Table A5 – Résultats des simulations avec marges lognormales pour τ = 1/3 et m = 40.

Modèle choisi

modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 32 13 3 6 14 17 14 1Student 8 28 0 23 3 19 14 5Clayton 9 0 57 0 10 14 3 7

Clayton.S 4 21 0 60 0 3 12 0Franck 11 2 21 0 48 5 13 0

Franck.S 8 3 4 3 1 63 0 18Gumbel 4 3 2 0 11 0 80 0

Gumbel.S 8 8 0 5 0 42 0 37

60

Page 77: Critère de validation croisée pour le choix des modèles ...

Table A6 – Resultats des simulations avec marges lognormales pour τ = 0.7 et m = 40.

Modèle choisi

modèle simulé

Normal Student Clayton Clayton.S Frank Frank.S Gumbel Gumbel.SNormal 40 26 1 0 11 3 8 11Student 17 61 0 2 0 2 9 9Clayton 15 0 51 0 24 7 0 3

Clayton.S 3 33 0 62 0 0 1 1Franck 9 0 16 0 47 4 14 10

Franck.S 9 1 7 0 4 60 1 18Gumbel 4 8 0 3 10 0 75 0

Gumbel.S 19 19 0 0 0 20 2 40

Code de simulation

Description de la fonction cvSA

La fonction cvSA provient du package copulaSA du logiciel R qui a été codé pour la prédictiondes petits domaines utilisant des modèles basés sur les copules. Ses auteurs sont : FrançoisVerret, Louis-Paul Rivest et Sophie Baillargeon. La fonction cvSA effectue la validation croiséepour évaluer la qualité de la prédiction dans un modèle de petit domaine basé sur les copules.

Le code suivant est une partie du code utilisé pour les simulations. Il a été restreint pour lesmodèles semiparamétriques avec marges normales uniquement.

1 #Installation des packages#2 install.packages("rsae")3 install.packages("copula")4 install.packages("H:/ memoire/Simulationfinale/copulaSA_0 .4.zip",

repos = NULL)5

6 #Chargement des packages#7 library(copulaSA)8 library(copula)9

10 #definition des parametres du modeles#11 # m: nombre de region12 # n: nombre d’individus par region13 # tau: tau de kendall mesurant la dependance entre les variables14 # X : variables auxiliaires15 # beta0 , beta: parametres predefinie de la regression16 #degre de liberte de la student17 m <- 4018 n <-519 tau <- 1/2

61

Page 78: Critère de validation croisée pour le choix des modèles ...

20 X <- rnorm (100, 3 , 1)21 beta0 <- 122 beta <- 223 region <- rep(1:m,rep(n,m))24 df.student <- 325

26

27

28

29 ##--------------------------------------------------##30 ### CAS NORMAL ###31 ##--------------------------------------------------##32

33 #N: nombre d’iterations a effectuer34 N= 10035

36 #---definition des compteurs ---#37 countNorm <- 038 countStudent <- 039 countClay <- 040 countClay.S <- 041 countFrank <- 042 countFrank.S <- 043 countGumbel <- 044 countGumbel.S <-045

46 counter <-data.frame(Normal=countNorm ,Student=countStudent ,47 Clayton=countClay ,Clayton.S=countClay.S,Frank=countFrank ,48 Frank.S=countFrank.S,Gumbel=countGumbel ,Gumbel.S=countGumbel.S)49

50 counter [2:8 ,]=051 row.names(counter)=c("Normal","Student","Clayton","Clayton.S"52 ,"Franck","Franck.S","Gumbel","Gumbel.S")53 EPS.normal <- matrix(NA ,m*n,N)54

55 rho <- sin(tau*pi/2)56

57 for(i in 1:N)58 EPS.norm <-normalCopula(rho , dim = n)59 EPS.normal.mat <- qnorm(rCopula(m, EPS.norm))60 EPS.normal[,i] <- c(t(EPS.normal.mat))61 62

63 for(j in 1:N)

62

Page 79: Critère de validation croisée pour le choix des modèles ...

64

65 Y <- beta0 + beta*X + EPS.normal[,j]66

67 data <- data.frame(X, Y, region)68

69 # residus de la validation croisee70 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"normal")$cvres71 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",72 control=list(df=df.student))$cvres73 clayton.valid <- cvSA(Y ~ X, area=~region ,

data=data ,copula="clayton")$cvres74 claton.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="clayton"75 ,survival = T)$cvres76 frank.valid.S<- cvSA(Y ~ X, area=~region ,

data=data ,copula="frank",survival = T,77 pkg_copula=T)$cvres78 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="frank"79 ,pkg_copula=T)$cvres80 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="gumbel"81 ,pkg_copula=T)$cvres82 gumbel.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="gumbel",83 survival = T,pkg_copula=T)$cvres84

85 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,

86 gumbel.valid , gumbel.valid.S )87

88 #moyenne de la norme du vecteur des residus du critere de validation89 valid.Mean <- colMeans(valid ^2)90

91 # choix de modele et incrementation des compteurs92 valid.sort <- order(valid.Mean)93 indexMin <- valid.sort [1]94 counter[1,indexMin] <- counter[1,indexMin] +195

96 97

98 counter [1,] <- counter [1 ,]*100/N99

100

63

Page 80: Critère de validation croisée pour le choix des modèles ...

101 ##--------------------------------------------------##102 ### CAS DE LA STUDENT ###103 ##--------------------------------------------------##104 EPS.student <- matrix(NA ,m*n,N)105

106 rho <- sin(tau*pi/2)107

108 for(i in 1:N)109 EPS.st <-tCopula(rho , dim = n,df=df.student)110 EPS.t.mat <- qnorm(rCopula(m, EPS.st))111 EPS.student[,i] <- c(t(EPS.t.mat))112 113

114

115 ##df.student = df.student116 ##EPS.student <- matrix(NA ,m*n,N) ## a verifier avec Louis Paul117 ##for(i in 1:N)118 ##EPS.student[,i] <- rt(m*n,df.student)119 ##120

121 for(j in 1:N)122 Y <- beta0 + beta*X +EPS.student[,j]123 data <- data.frame(X, Y, region ,EPS.student[,j])124

125 # residus de la validation croisee126 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"normal")$cvres127 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",control=list128 (df=df.student))$cvres129 clayton.valid <- cvSA(Y ~ X, area=~region , data=data ,130 copula="clayton")$cvres131 claton.valid.S <- cvSA(Y ~ X, area=~region , data=data ,132 copula="clayton",survival = T)$cvres133 frank.valid.S<- cvSA(Y ~ X, area=~region , data=data ,copula="frank",134 survival = T,pkg_copula=T)$cvres135 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="frank",136 pkg_copula=T)$cvres137 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="gumbel",138 pkg_copula=T)$cvres139 gumbel.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="gumbel",140 survival = T,pkg_copula=T)$cvres141

64

Page 81: Critère de validation croisée pour le choix des modèles ...

142 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,gumbel.valid , gumbel.valid.S )

143

144 #moyenne de la norme du vecteur des residus du critere de validation145 valid.Mean <- colMeans(valid ^2)146

147 # choix de modele et incrementation des compteurs148 valid.sort <- order(valid.Mean)149 indexMin <- valid.sort [1]150 counter[2,indexMin] <- counter[2,indexMin] +1151

152 153

154 counter [2,] <- counter [2 ,]*100/N155

156

157 ##--------------------------------------------------##158 ### CAS CLAYTON ###159 ##--------------------------------------------------##160

161 # La copule de clayton simuler avec theta =2 tau/(1-tau)162 EPS.clayton <- matrix(NA,m*n,N)163

164 Theta.cl <- 2*tau/(1-tau)165

166 for(i in 1:N)167 EPS.cl <-claytonCopula(Theta.cl, dim = n)168 EPS.cl.mat <- qnorm(rCopula(m, EPS.cl)) ## a verifier avec Louis

Paul169 EPS.clayton[,i] <- c(t(EPS.cl.mat))170 171

172 for(j in 1:N)173 Y <- beta0 + beta*X + EPS.clayton[,j]174 data <- data.frame(X, Y, region)175

176 # residus de la validation croisee177 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"normal")$cvres178 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",179 control=list(df=df.student))$cvres180 clayton.valid <- cvSA(Y ~ X, area=~region ,

65

Page 82: Critère de validation croisée pour le choix des modèles ...

data=data ,copula="clayton")$cvres181 claton.valid.S <- cvSA(Y ~ X, area=~region , data=data ,182 copula="clayton",survival = T)$cvres183 frank.valid.S<- cvSA(Y ~ X, area=~region , data=data ,copula="frank",184 survival = T,pkg_copula=T)$cvres185 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="frank",186 pkg_copula=T)$cvres187 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="gumbel"188 ,pkg_copula=T)$cvres189 gumbel.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="gumbel",190 survival = T,pkg_copula=T)$cvres191

192 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,gumbel.valid , gumbel.valid.S )

193

194 #moyenne de la norme du vecteur des residus du critere de validation195 valid.Mean <- colMeans(valid ^2)196

197 # choix de modele et incrementation des compteurs198 valid.sort <- order(valid.Mean)199 indexMin <- valid.sort [1]200 counter[3,indexMin] <- counter[3,indexMin] +1201

202 203

204 counter [3,] <- counter [3 ,]*100/N205

206 ##--------------------------------------------------##207 ### CAS CLAYTON SURVIE ###208 ##--------------------------------------------------##209

210 EPS.clayton.S <- matrix(NA,m*n,N)211

212 Theta.cl.s <- 2*tau/(1-tau)213

214 for(i in 1:N)215 EPS.cl.S <-claytonCopula(Theta.cl.s, dim = n)216 EPS.cl.mat.S <- qnorm(1-rCopula(m, EPS.cl.S)) ## a verifier avec

Louis Paul217 EPS.clayton.S[,i] <- c(t(EPS.cl.mat.S))218 219

66

Page 83: Critère de validation croisée pour le choix des modèles ...

220 for(j in 1:N)221 Y <- beta0 + beta*X + EPS.clayton.S[,j]222 data <- data.frame(X, Y, region)223

224 # residus de la validation croisee225 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"normal")$cvres226 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",227 control=list(df=df.student))$cvres228 clayton.valid <- cvSA(Y ~ X, area=~region , data=data ,229 copula="clayton")$cvres230 claton.valid.S <- cvSA(Y ~ X, area=~region , data=data ,231 copula="clayton",survival = T)$cvres232 frank.valid.S<- cvSA(Y ~ X, area=~region ,

data=data ,copula="frank",survival = T,233 pkg_copula=T)$cvres234 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,235 copula="frank",pkg_copula=T)$cvres236 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="gumbel",237 pkg_copula=T)$cvres238 gumbel.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="gumbel",239 survival = T,pkg_copula=T)$cvres240

241 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,gumbel.valid , gumbel.valid.S )

242

243 #moyenne de la norme du vecteur des residus du critere de validation244 valid.Mean <- colMeans(valid ^2)245

246 # choix de modele et incrementation des compteurs247 valid.sort <- order(valid.Mean)248 indexMin <- valid.sort [1]249 counter[4,indexMin] <- counter[4,indexMin] +1250

251 252

253 counter [4,] <- counter [4 ,]*100/N254

255

256 ##--------------------------------------------------##257 ### CAS FRANCK ###

67

Page 84: Critère de validation croisée pour le choix des modèles ...

258 ##--------------------------------------------------##259

260 #copule de franck simuler avec theta=5261 EPS.franck <- matrix(NA ,m*n,N)262

263 Theta.fr <- iTau(tau)264

265 for(i in 1:N)266 EPS.fr <-frankCopula(Theta.fr , dim = n)267 EPS.fr.mat <- qnorm(rCopula(m, EPS.fr)) ## a verifier avec Louis

Paul268 EPS.franck[,i] <- c(t(EPS.fr.mat))269 270

271 for(j in 1:N)272 Y <- beta0 + beta*X + EPS.franck[,j]273 data <- data.frame(X, Y, region ,EPS.franck[,j])274

275 # residus de la validation croisee276 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"normal")$cvres277 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",278 control=list(df=df.student))$cvres279 clayton.valid <- cvSA(Y ~ X, area=~region , data=data ,280 copula="clayton")$cvres281 claton.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="clayton",survival = T)$cvres282 frank.valid.S<- cvSA(Y ~ X, area=~region , data=data ,copula="frank",283 survival = T,pkg_copula=T)$cvres284 fank.valid <- cvSA(Y ~ X, area=~region ,

data=data ,copula="frank",pkg_copula=T)$cvres285 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,286 copula="gumbel",pkg_copula=T)$cvres287 gumbel.valid.S <- cvSA(Y ~ X, area=~region , data=data ,288 copula="gumbel",survival = T,pkg_copula=T)$cvres289

290 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,gumbel.valid , gumbel.valid.S )

291

292 #moyenne de la norme du vecteur des residus du critere de validation293 valid.Mean <- colMeans(valid ^2)294

68

Page 85: Critère de validation croisée pour le choix des modèles ...

295 # choix de modele et incrementation des compteurs296 valid.sort <- order(valid.Mean)297 indexMin <- valid.sort [1]298 counter[5,indexMin] <- counter[5,indexMin] +1299

300 301

302 counter [5,] <- counter [5 ,]*100/N303

304

305 ##--------------------------------------------------##306 ### CAS Franck Survie ###307 ##--------------------------------------------------##308 EPS.frank.S <- matrix(NA,m*n,N)309

310 Theta.fr.s <- iTau(tau)311

312 for(i in 1:N)313 EPS.fr <-frankCopula(Theta.fr.s, dim = n)314 EPS.fr.mat.S <- qnorm(1-rCopula(m, EPS.fr))315 EPS.frank.S[,i] <- c(t(EPS.fr.mat.S))316 317

318 for(j in 1:N)319 Y <- beta0 + beta*X + EPS.frank.S[,j]320 data <- data.frame(X, Y, region ,EPS.frank.S[,j])321

322 # residus de la validation croisee323 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,324 copula = "normal")$cvres325 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",326 control=list(df=df.student))$cvres327 clayton.valid <- cvSA(Y ~ X, area=~region , data=data ,328 copula="clayton")$cvres329 claton.valid.S <- cvSA(Y ~ X, area=~region , data=data ,330 copula="clayton",survival = T)$cvres331 frank.valid.S<- cvSA(Y ~ X, area=~region ,

data=data ,copula="frank",survival = T,332 pkg_copula=T)$cvres333 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,334 copula="frank",pkg_copula=T)$cvres335 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,336 copula="gumbel",pkg_copula=T)$cvres

69

Page 86: Critère de validation croisée pour le choix des modèles ...

337 gumbel.valid.S <- cvSA(Y ~ X, area=~region , data=data ,338 copula="gumbel",survival = T,pkg_copula=T)$cvres339

340 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,

341 frank.valid.S, gumbel.valid , gumbel.valid.S )342

343 #moyenne de la norme du vecteur des residus du critere de validation344 valid.Mean <- colMeans(valid ^2)345

346 # choix de modele et incrementation des compteurs347 valid.sort <- order(valid.Mean)348 indexMin <- valid.sort [1]349 counter[6,indexMin] <- counter[6,indexMin] +1350

351 352

353 counter [6,] <- counter [6 ,]*100/N354

355 ##--------------------------------------------------##356 ### CAS Gumbel ###357 ##--------------------------------------------------##358

359 EPS.gumbel <- matrix(NA ,m*n,N)360

361 Theta.gum <- 1/(1-tau)362

363 for(i in 1:N)364 EPS.gum <-gumbelCopula(Theta.gum , dim = n)365 EPS.gum.mat <- qnorm(rCopula(m, EPS.gum))366 EPS.gumbel[,i] <- c(t(EPS.gum.mat))367 368

369

370 for(j in 1:N)371 Y <- beta0 + beta*X + EPS.gumbel[,j]372 data <- data.frame(X, Y, region ,EPS.gumbel[,j])373

374 # residus de la validation croisee375 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,376 copula = "normal")$cvres377 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",378 control=list(df=df.student))$cvres

70

Page 87: Critère de validation croisée pour le choix des modèles ...

379 clayton.valid <- cvSA(Y ~ X, area=~region , data=data ,380 copula="clayton")$cvres381 claton.valid.S <- cvSA(Y ~ X, area=~region , data=data ,382 copula="clayton",survival = T)$cvres383 frank.valid.S<- cvSA(Y ~ X, area=~region , data=data ,copula="frank",384 survival = T,pkg_copula=T)$cvres385 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="frank",386 pkg_copula=T)$cvres387 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,copula="gumbel",388 pkg_copula=T)$cvres389 gumbel.valid.S <- cvSA(Y ~ X, area=~region ,

data=data ,copula="gumbel",390 survival = T,pkg_copula=T)$cvres391

392 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,gumbel.valid , gumbel.valid.S )

393

394 #moyenne de la norme du vecteur des residus du critere de validation395 valid.Mean <- colMeans(valid ^2)396

397 # choix de modele et incrementation des compteurs398 valid.sort <- order(valid.Mean)399 indexMin <- valid.sort [1]400 counter[7,indexMin] <- counter[7,indexMin] +1401

402 403

404 counter [7,] <- counter [7 ,]*100/N405

406 ##--------------------------------------------------##407 ### CAS Gumbel Survie ###408 ##--------------------------------------------------##409 EPS.gumbel.S <- matrix(NA,m*n,N)410

411 Theta.gum.s <- 1/(1-tau)412

413 for(i in 1:N)414 EPS.gum <-gumbelCopula(Theta.gum.s, dim = n)415 EPS.gum.mat.S <- qnorm(1-rCopula(m, EPS.gum))416 EPS.gumbel.S[,i] <- c(t(EPS.gum.mat.S))417 418

419 for(j in 1:N)

71

Page 88: Critère de validation croisée pour le choix des modèles ...

420 Y <- beta0 + beta*X + EPS.gumbel.S[,j]421 data <- data.frame(X, Y, region ,EPS.gumbel.S[,j])422

423 # residus de la validation croisee424 normal.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"normal")$cvres425 student.valid <- cvSA(Y ~ X, area=~region , data=data ,copula =

"student",426 control=list(df=df.student))$cvres427 clayton.valid <- cvSA(Y ~ X, area=~region , data=data ,428 copula="clayton")$cvres429 claton.valid.S <- cvSA(Y ~ X, area=~region , data=data ,430 copula="clayton",survival = T)$cvres431 frank.valid.S<- cvSA(Y ~ X, area=~region , data=data ,432 copula="frank",survival = T,pkg_copula=T)$cvres433 fank.valid <- cvSA(Y ~ X, area=~region , data=data ,434 copula="frank",pkg_copula=T)$cvres435 gumbel.valid <- cvSA(Y ~ X, area=~region , data=data ,436 copula="gumbel",pkg_copula=T)$cvres437 gumbel.valid.S <- cvSA(Y ~ X, area=~region , data=data ,438 copula="gumbel",survival = T,pkg_copula=T)$cvres439

440 valid <- data.frame(normal.valid ,student.valid ,clayton.valid ,claton.valid.S,fank.valid ,frank.valid.S,gumbel.valid , gumbel.valid.S )

441

442 #moyenne de la norme du vecteur des residus du critere de validation443 valid.Mean <- colMeans(valid ^2)444

445 # choix de modele et incrementation des compteurs446 valid.sort <- order(valid.Mean)447 indexMin <- valid.sort [1]448 counter[8,indexMin] <- counter[8,indexMin] +1449

450 451

452 counter [8,] <- counter [8 ,]*100/N453 counter[,ncol(counter)+1] <- rho454 names(counter)[ncol(counter)]="rho"455 counter[,ncol(counter)+1] <- tau456 names(counter)[ncol(counter)]="tau"457 counter[,ncol(counter)+1] <- m458 names(counter)[ncol(counter)]="nombreregion"459 counter[,ncol(counter)+1] <- n

72

Page 89: Critère de validation croisée pour le choix des modèles ...

460 names(counter)[ncol(counter)]="nombredindividuparregion"461 print(counter)

73

Page 90: Critère de validation croisée pour le choix des modèles ...
Page 91: Critère de validation croisée pour le choix des modèles ...

Bibliographie

Battese, G. E., R. M. Harter et W. A. Fuller. 1988, «An error-components model for predictionof county crop areas using survey and satellite data», Journal of the American StatisticalAssociation, vol. 83, no 401, p. 28–36.

Bouvier, P. 2010, Application des copules à la finance des marchés, Thèse de doctorat, Uni-versité du Québec à Montréal, Canada.

Brackstone, G. 1987, «Small area data : policy issues and technical challenges», Small AreaStatistics, vol. 3, p. 20.

Duchesne, T. 2014, Theorie et applications des méthodes de regression, Notes de cours, Uni-versité Laval.

Fadhila, L. 2011, Modélisation de la dépendance par les copules et applications, Mémoire demaîtrise, Université de Mouloud Mammeri, Tizi-Ouzou.

Fang, Y. 2011, «Asymptotic equivalence between cross-validations and akaike informationcriteria in mixed-effects models», Journal of Data Science, vol. 9, no 1, p. 15–21.

Francisco, J. 2003, Small Area Estimation : An Overview of Existing Methodologies with Ap-plication to the Estimation of Unemployment Rates in the Philippines, Essai de maitrise,Université Laval, Canada.

Friedman, J., T. Hastie et R. Tibshirani. 2001, The elements of statistical learning, vol. 1,Springer series in statistics Springer, Berlin.

Fréchet, M. 1951, «Sur les tableaux de corrélation dont les marges sont données», AnnexesUniversité de Lyon, section A, vol. 9, p. 53–77.

Genest, C. et J. MacKay. 1986, «The joy of copulas : bivariate distributions with uniformmarginals», The American Statistician, vol. 40, no 4, p. 280–283.

Genest, C. et L.-P. Rivest. 1993, «Statistical inference procedures for bivariate archimedeancopulas», Journal of the American Statistical Association, vol. 88, no 423, p. 1034–1043.

75

Page 92: Critère de validation croisée pour le choix des modèles ...

Ghosh, M. et J. Rao. 1994, «Small area estimation : an appraisal», Statistical Science, vol. 9,p. 55–93.

Gonzalez, M. E. 1973, «Use and evaluation of synthetic estimates», dans Proceedings of theSocial Statistics Section, p. 33–36.

Hodges, J. S. et D. J. Sargent. 2001, «Counting degrees of freedom in hierarchical and otherrichly-parameterised models», Biometrika, vol. 88, no 2, p. 367–379.

Hoeffding, W. 1940, «Massstabinvariante korrelationstheorie», vol. 5, p. 179–233.

Kendall, M. G. 1938, «A new measure of rank correlation», Biometrika, vol. 30, no 1/2, p.81–93.

Lohr, S. 2009, Sampling : design and analysis, Nelson Education, Arizona State University.

McQuarrie, A. D. et C.-L. Tsai. 1998, Regression and time series model selection, WorldScientific, Singapore.

Mukhopadhyay, P. et A. McDowell. 2011, «Small area estimation for survey data analysisusing sas software», dans SAS Global Forum, vol. 2011, p. 96.

Müller, S., J. L. Scealy, A. H. Welsh et collab.. 2013, «Model selection in linear mixed models»,Statistical Science, vol. 28, no 2, p. 135–167.

Nelsen, R. B. 2007, An introduction to copulas, Springer Science & Business Media, Portland.

Platek, R. et M. Singh. 1986, Small Area Statistics : an International Symposium’85 (contri-buted Papers), Laboratory for Research in Statistics and Probability, Carleton University-University of Ottawa.

Prasad, N. et J. Rao. 1990, «The estimation of the mean squared error of small-area estima-tors», Journal of the American statistical association, vol. 85, no 409, p. 163–171.

Purcell, N. J. et L. Kish. 1980, «Postcensal estimates for local areas (or domains)», Interna-tional Statistical Review/Revue Internationale de Statistique, vol. 48, p. 3–18.

Rao, J. 2003, Small area estimation, John Wiley, New York.

Rencher, A. C. et G. B. Schaalje. 2008, Linear models in statistics, John Wiley & Sons,Brigham Young University, Provo, Utah.

Rivest, L.-P., F. Verret et S. Baillargeon. 2015, «Estimation of the parameters in copulamodels for small areas», Proceedings of the Survey Method Section of the Statistical Societyof Canada.

76

Page 93: Critère de validation croisée pour le choix des modèles ...

Romdhani, H., L. Lakhal-Chaieb et L.-P. Rivest. 2014, «An exchangeable kendall’s tau forclustered data», Canadian Journal of Statistics, vol. 42, no 3, p. 384–403.

Schweizer, B. et E. F. Wolff. 1981, «On nonparametric measures of dependence for randomvariables», The Annals of Statistics, vol. 9, p. 879–885.

Sklar, M. 1959, Fonctions de répartition à n dimensions et leurs marges, Université Paris 8.

Steinberg, J. 1979, «Synthetic estimates for small areas : Statistical workshop papers anddiscussion. introduction.», NIDA Research Monograph.

Stone, M. 1977, «An asymptotic equivalence of choice of model by cross-validation and akaike’scriterion», Journal of the Royal Statistical Society. Series B (Methodological), vol. 39, p. 44–47.

Vaida, F. et S. Blanchard. 2005, «Conditional akaike information for mixed-effects models»,Biometrika, vol. 92, no 2, p. 351–370.

77