Apprentissage Statistique, Modélisation, Prévision, Data Mining

156
Apprentissage Statistique Apprentissage Statistique modélisation, prévision, data mining P HILIPPE BESSE & BÉATRICE LAURENT NB. Les cours et travaux pratiques (scénarios, ateliers) du site wikistat.fr sont dispensés en formation initiale à l’INSA de Toulouse dans la spécialité d’Ingénieurs en Génie Mathématique et Modélisation. Ils sont également proposés dans le cadre de stages de Formation Professionnelle Qualifiante. Équipe de Statistique et Probabilités Institut de Mathématiques de Toulouse — UMR CNRS C5219 Département Génie Mathématique et Modélisation Institut National des Sciences Appliquées de Toulouse — 31077 – Toulouse cedex 4. 1

description

Apprentissage Statistique, modélisation, prévision, data mining

Transcript of Apprentissage Statistique, Modélisation, Prévision, Data Mining

Page 1: Apprentissage Statistique, Modélisation, Prévision, Data Mining

Apprentissage Statistique

Apprentissage Statistiquemodélisation, prévision, data mining

PHILIPPE BESSE & BÉATRICE LAURENT

NB. Les cours et travaux pratiques (scénarios, ateliers) du site wikistat.fr sont dispensés en formation initiale à l’INSA de Toulousedans la spécialité d’Ingénieurs en Génie Mathématique et Modélisation. Ils sont également proposés dans le cadre de stages deFormation Professionnelle Qualifiante.

Équipe de Statistique et ProbabilitésInstitut de Mathématiques de Toulouse — UMR CNRS C5219

Département Génie Mathématique et ModélisationInstitut National des Sciences Appliquées de Toulouse — 31077 – Toulouse cedex 4.

1

Page 2: Apprentissage Statistique, Modélisation, Prévision, Data Mining

Apprentissage Statistique

Table des matières• Statistique, Apprentissage, Big–Data–Mining page 3• Erreur de prévision et risque page 15• Sélection de variables et régularisation en régression multiple page 28• Régression PLS, ACP et PLS parcimonieuses page 48• Régression logistique page 59• Modèles non paramétriques page 67• Analyse discriminante décisionnelle page 83• Arbres binaires de décision page 89• Réseaux neuronaux page 98• Agrégation de modèles page 106• Machines à vecteurs supports page 118• Imputation de données manquantes page 125• En guise de conclusion page 135• Annexes• Déontologie scientifique et Statistique page 143• Introduction au bootstrap page 154

Attention ce cours est dense, la lecture de ce document ne suffira pas à la bonne compréhension des outils qui y sont décrits defaçon synthétique. La présence aux cours et la participation active aux TDs sont indispensables à l’acquisition des compétencesincontournables pour une utilisation raisonnable et raisonnée des techniques d’apprentissage statistique.

3

Page 3: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Statistique, Apprentissage, Big–Data–Mining

Statistique, Apprentissage,Big–Data–Mining

RésuméL’objet de ce cours est d’introduire, sous une forme homogène etsynthétique, les techniques de modélisation statistique ou d’appren-tissage supervisé utilisées le plus couramment en fouille de donnéesvolumineuses ou de grande dimension (data mining, big data analy-tics) pour l’aide à la décision dans des champs d’applications trèsdivers : industriels, marketing, ou encore en relation avec des thé-matiques de recherche en Biologie, Épidémiologie... L’objectif prin-cipal est la modélisation pour la prévision et donc la recherchede modèles optimaux (parcimonieux) pour différentes méthodes demodélisation statistique classique (modèles gaussiens et binomiaux,analyse discriminante), moins classiques (ridge, pls, lasso, arbresbinaires de décision) ou encore dites d’apprentissage (réseaux deneurones, agrégation de modèles, machines à vecteurs supports) is-sues du machine learning.• Statistique, Apprentissage, Big–Data–Mining• Erreur de prévision et risque• Sélection de variables et régularisation en régression multiple• Régression PLS, ACP et PLS parcimonieuses• Régression logistique• Modèles non paramétriques• Analyse discriminante décisionnelle• Arbres binaires de décision• Réseaux neuronaux• Agrégation de modèles• Machines à vecteurs supports• Imputation de données manquantes• En guise de conclusion• Annexes• Déontologie scientifique et Statistique• Introduction au bootstrap

1 Introduction

1.1 Un peu d’histoire1940-70 – hOctets Il était une fois la Statistique : une question, (i.e. biolo-

gique), associée à une hypothèse expérimentalement réfutable, une ex-périence planifiée avec n ≈ 30 individus observés sur p (moins de 10)variables, un modèle linéaire supposé vrai, un test, une décision, une ré-ponse.

1970s – kO Les premiers outils informatiques se généralisant, l’analyse desdonnées en France, (multivariate statistics ailleurs : Mardia et al. (1979)[5]) explore, prétendument sans modèle, des données plus volumineuses.

1980s – MO En Intelligence Artificielle, les systèmes experts expirent, sup-plantés par l’apprentissage (machine learning) des réseaux de neurones.La Statistique aborde des modèles non-paramétriques ou fonctionnels.

1990s – GO Premier changement de paradigme. Les données ne sont plusplanifiées, elles sont préalablement acquises et basées dans des entrepôtspour les objectifs usuels (i.e. comptables) de l’entreprise. L’aide à la déci-sion les valorise : From Data Mining to Knowledge Discovery (Fayyad etal., 1996)[2]. Les logiciels de fouille regroupent dans un même environ-nement des outils de gestions de données, des techniques exploratoires etde modélisation statistique). C’est l’avènement du marketing quantitatifet de la gestion de la relation client (GRC ou CRM).

2000s –TO Deuxième changement de paradigme. Le nombre p de variablesexplose (de l’ordre de 104 à 106), notamment avec les biotechnologiesomiques où p >> n. L’objectif de qualité de prévision l’emporte sur laréalité du modèle devenu “boîte noire”. Face au fléau de la dimension,Apprentissage Machine et Statistique s’unissent en Apprentissage Statis-tique (statistical learning, Hastie et al. 2001-2009)[3] : sélectionner desmodèles en équilibrant biais vs. variance ; minimiser conjointement er-reurs d’approximation (biais) et erreur d’estimation (variance).

2010s – PO Troisième changement de paradigme. Dans les applications in-dustrielles, le e-commerce, la géo-localisation... c’est le nombre n d’in-dividus qui explose, les bases de données débordent, se structurent ennuages (cloud), les moyens de calculs se groupent (cluster), mais la puis-sance brute ne suffit plus à la voracité (greed) des algorithmes. Un troi-

3 07/15

Page 4: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Statistique, Apprentissage, Big–Data–Mining

sième terme d’erreur est à prendre en compte : celle d’optimisation, in-duite par la limitation du temps de calcul ou celle du volume / flux dedonnées considéré. La décision devient adaptative ou séquentielle.

1.2 Contenu

Les données volumineuses sont au cœur des problématiques émergentes derecherche, en faisant notamment appel à des structures de données sophisti-quées : graphes, fonctions, variétés. Chaque problème est porteur de sa propreoriginalité ; ils ne seront pas abordés dans ce cours qui se limite aux articu-lations : Statistique, Apprentissage Machine, fouille de données et donc auproblème central de l’équilibre biais — variance.

Ainsi, le data mining est présenté comme la recherche d’informations perti-nentes (des “pépites” d’information) pour l’aide à la décision et la prévision. Ilmet en œvre des techniques statistiques et d’apprentissage machine en tenantcompte de la spécificité de grandes à très grandes dimensions des données.

La section 2 suivante introduit à la fouille de données tandis que la section3 reprend ces objectifs dans le cadre général de la modélisation afin d’en élar-gir les champs d’application. La section 4 décrit la stratégie très généralementmise en place pour optimiser choix de méthodes et choix de modèles ; la sec-tion 5 décrit brièvement quelques exemples d’application et notamment ceuxutilisés pour illustrer ce cours. Enfin, la section 6 liste rapidement les méthodesqui sont abordées et les raisons qui ont conduit à ces choix.

2 Motivations du big data mining

2.1 Origine

Le développement des moyens informatiques et de calcul permet le stockage(bases de données), le traitement et l’analyse d’ensembles de données très vo-lumineux. Plus récemment, le perfectionnement des logiciels et de leurs in-terfaces offrent aux utilisateurs, statisticiens ou non, des possibilités de miseen œuvre très simples de ces méthodes. Cette évolution, ainsi que la popula-risation de nouvelles techniques algorithmiques (réseaux de neurones, supportvector machine...) et outils graphiques, conduit au développement et à la com-mercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...)intégrant un sous-ensemble de méthodes statistiques et algorithmiques utili-

sées sous la terminologie de Data Mining généralement traduit par fouille dedonnées (voir Tufféry 2007 [6] pour un exposé “métier” plus détaillé). Cetteapproche, dont la présentation est principalement issue du marketing spécia-lisé dans la gestion de la relation client (GRC) (client relation managementou CRM), trouve également des développements et applications industriellesen contrôle de qualité ou même dans certaines disciplines scientifiques dèslors que les ingénieurs et chercheurs sont confrontés à un volume de donnéesimportant. C’est même l’afflux actuel de saisies automatiques de données is-sues du monde industriel qui motive principalement l’émergence du Big Dataparallèlement à l’explosion du e-commerce. Devant la complexité envisagée,lorsque les modèles physiques font défaut, un problème industriel peut changerde paradigme lorsque la modélisation déterministe atteint ses limites, les don-nées recueillies massivement sont analysées pour l’aide à la décision comme cefut le cas en marketing quantitatif avec la fouille de données du siècle dernier.

L’accroche publicitaire souvent citée par les éditeurs de logiciels (i.e. SAS)est :

Comment trouver un diamant dans un tas de charbon sans se salirles mains.

Nous proposons d’évaluer et d’expérimenter la réalité de cette annonce quis’adresse à un marché en pleine expansion. Les entreprises sont en effet trèsmotivées pour tirer parti et amortir, par une aide à la décision quantifiée, lescoûts de stockage des téraoctets que leur service informatique s’emploie à ad-ministrer.

2.2 Environnement

Le contexte informationnel de la fouille de données est donc celui d’un sys-tème de bases de données, classique relationnel ou non, dont la mise en placeest assurée par le gestionnaire de données (data manager) en relation avec uneproblématique :

• gestion des stocks (flux tendu), des ventes d’un groupe afin de prévoir etanticiper au mieux les tendances du marché,

• suivi des fichiers clients d’une banque, d’une assurance, associés à desdonnées socio-économiques (INSEE), à l’annuaire, en vue de la constitu-tion d’une segmentation (typologie) pour cibler des opérations de marke-ting ou des attributions de crédit. La gestion de la relation client (GRC ou

4 07/15

Page 5: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Statistique, Apprentissage, Big–Data–Mining

CRM) vise à une individualisation ou personnalisation de la production etde la communication afin d’évacuer la notion de client moyen.

• recherche, spécification puis ciblage de niches de marché les plus profi-tables (banque) ou au contraire les plus risquées (assurance) ;

• suivi en ligne des paramètres de production (traçabilité) en contrôle dequalité pour détecter au plus vite l’origine d’une défaillance ;

• prospection textuelle (text mining) et veille technologique ;• web mining, comportement des internautes et e-commerce ;• . . .

Cet environnement se caractérise par• une informatique hétérogène faisant intervenir des sites distants à travers

le réseau de l’entreprise (intranet) ou même des accès extérieurs (inter-net). Des contraintes d’efficacité, de fiabilité ou de sécurité conduisent àrépartir, stocker l’information à la source plutôt qu’à la dupliquer systé-matiquement ou à la centraliser.

• L’incompatibilité logique des informations observées sur des échantillonsdifférents ne présentant pas les mêmes strates, les mêmes codifications.

• Des volumes et flux considérables de données issues de saisies automati-sées et chiffrés en téra maintenant pétaoctets.

• Contrairement à une démarche statistique traditionnelle (planification del’expérience), les données analysées sont stockées à d’autres fins (comp-tabilité, contrôle de qualité...) et sont donc préalables à l’analyse.

• La nécessité de ne pas exclure a priori un traitement exhaustif des don-nées afin de ne pas laisser échapper, à travers le crible d’un sondage, desgroupes de faibles effectifs mais à fort impact économique.

2.3 Big Data vs. Data Mining

La communication, les noms changent mais fondamentalement les mé-thodes restent. Le traitement des grandes masses de données, associé au "nou-veau" métier de data scientist, occupe une grande place dans les médias no-tamment en relation avec les risques annoncés et réels du contrôle d’internetpar big brother. Beaucoup d’entreprises et de formations suivent le mouvementen renommant les intitulés sans pour autant se placer dans le cadre de grandesmasses de données nécessitant des traitements spécifiques. Celui-ci devient ef-fectif à partir du moment où le volume et le flux de données imposent uneparallélisation des tâches : les données sont réparties en nœuds, chacun asso-

cié à un processeur ou calculateur relié aux autres par un réseau haut débit ausein d’un cluster. Les mots clefs et outils de cette architecture sont Hadoop etMap Reduce, NoSQL. Hadoop est un projet de la fondation logicielle Apache(open source en java) destiné à faciliter la création d’applications distribuéeset échelonnables. Un algorithme, une méthode est dite échelonnable (scalable)si le temps de calcul est divisé par le nombre de processeurs (nœuds) utilisésce qui permet aux applications de travailler avec des milliers de nœuds et despétaoctets de données. Le principe, initié par Google et Yahoo, est de répartirles tâches parallèles (Map) puis d’intégrer (Reduce) tous les résultats obtenus.Exemple très élémentaire : chaque nœud calcule la moyenne d’une variableavant de calculer la moyenne des moyennes. Bien entendu, toute méthode sta-tistique ou d’apprentissage n’est pas scalable ou au pris d’un algorithme sto-chastique plus sophistiqué. D’autre part les requêtes complexes comme cellede SQL sont impossibles. D’autres systèmes dits NoSQL (not only SQL, Cas-sandra, MongoDB, Voldemort...), développés à l’origine par des grands sitescomme Amazon, eBay, reposent également sur un système de fragmentation(sharding) des données tout en autorisant des possibilités de requêtes inter-médiaires avec SQL. Bien entendu les principaux acteurs commerciaux histo-riques comme (Oracle) prennent position de façon complémentaire ou concur-rente avec ces systèmes émergents.

Confronté à cette problématique, il appartient au statisticien data scientistde

• s’initier aux interfaces d’accès à une architecture Hadoop ou NoSQL, no-tamment par l’utilisation d’outils comme Mahout ou RHadoop...

• optimiser sa stratégie : sonder dans les données et se ramener à des mé-thodes usuelles ou traiter les données de façon exhaustives uniquementavec une technique scalable. Comment intervient un erreur introduite parsondage par rapport à celle de la méthode utilisée ?

• prendre en compte, ou non, les aspects temporels dus aux flux de don-nées : estimer des modèles sur une fenêtre glissante, adopter des algo-rithmes adaptatifs ?

• Aborder de nouveaux (Scala, Clojure) anciens (basés sur Lisp) langagesde programmation pour développer ou redévelopper des méthodes d’ap-prentissage directement parallélisables. C’est en effet ce que permettentces langages fonctionnels par opposition aux langages objet (C, java...).

Nécessairement limité, ce cours, niveau M2, ne peut aborder ces dernières

5 07/15

Page 6: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Statistique, Apprentissage, Big–Data–Mining

questions. Il ne peut non plus aborder celles liées à la complexité des donnéesindustrielles ou issues de la recherche (biologique, médicale...) qui ouvrentsouvent sur des problèmes originaux. Il peut s’agir alors de traiter non plus destableaux ou matrices de données mais des saisies automatiques de courbes,signaux spectres, images, graphes... De telles structures posent un problèmepréalable de base de représentation (fourier, splines, ondelettes...) fonction dela nature des données et de l’objectif recherché. Voir par exemple le scéna-rio d’analyse de spectres RMN décomposés sur une base d’ondelettes pour ladétection de métabolites "biomarqueurs".

Il est important de noter que, s’il a une formation de base en Mathéma-tiques et Statistique, le nouveau data scientist voit arriver avec une certainesérénité la vague ou le tsunami du Big Data. Certes un travail informatiqueamont, perpétuellement renouvelé face à l’obsolescence rapide tes technolo-gies, est important pour stocker les données et rendre exécutable les méthodesmais, conceptuellement, la Mathématique nécessaire prend déjà en compte destailles et dimensions infinies pour les modèles considérés dans des espaceshilbertiens. Muni de ce bagage pérenne, il peut accompagner et suivre la re-cherche en développement.

3 Apprentissage statistiqueUn peu de recul permet d’inscrire la démarche de la fouille de données dans

un contexte plus large et donc potentiellement plus propice à d’autres domainesd’application.

3.1 Objectif général

Dès qu’un phénomène, qu’il soit physique, biologique ou autre, est tropcomplexe ou encore trop bruité pour accéder à une description analytique dé-bouchant sur une modélisation déterministe, un ensemble d’approches ont étéélaborées afin d’en décrire au mieux le comportement à partir d’une série d’ob-servations. Voici quelques exemples de problèmes d’apprentissage :

• identifier les facteurs de risque d’un certain type de cancer, en fonction devariables cliniques et démographiques,

• rechercher des gènes potentiellement impliqués dans une maladie à partirde données de biopuces ou plus généralement des bio-marqueurs pour undiagnostic précoce,

• identifier des chiffres manuscrits sur un code postal à partir d’une imagedigitalisée,

• prévoir le prix d’un stock dans 6 mois à partir de mesures de performancede l’entreprise et de données économiques,

• prévoir un taux de pollution atmosphérique en fonction de conditions mé-téorologiques ,

• prévoir une courbe de consommation électrique pour un client EDF enfonction de variables climatiques et de caractéristiques spécifiques à ceclient,

• Gestion de la relation client (GRC ou CRM) et scoring en marketingquantitatif,

• maintenance préventive à partir de relevés d’incidents,• construire un modèle de substitution à un code numérique complexe qui

permet de prédire une carte de concentration d’un polluant dans un sol unan après un rejet accidentel en fonction de la carte initiale et des carac-téristiques du sol (porosité, perméabilité...). L’objectif est de réaliser uneanalyse de sensibilité.

Historiquement, la Statistique s’est beaucoup développée autour de ce typede problèmes et a proposé des modèles incorporant d’une part des variablesexplicatives ou prédictives et, d’autre part, une composante aléatoire ou bruit.Il s’agit alors d’estimer les paramètres du modèle à partir des observationsen contrôlant au mieux les propriétés et donc le comportement de de la partiealéatoire. Dans la même situation, la communauté informatique parle plutôtd’apprentissage visant le même objectif ; apprentissage machine (ou machinelearning), reconnaissance de forme (pattern recognition) en sont les principauxmots-clefs.

L’objectif général est donc un objectif de modélisation qui peut se préciseren sous-objectifs à définir clairement préalablement à une étude car ceux-ciconditionnent en grande part les méthodes qui pourront être mises en œuvre :

Modéliser pour

explorer ou vérifier, représenter, décrire, les variables, leurs liaisons et posi-tionner les observations de l’échantillon,

expliquer ou tester l’influence d’une variable ou facteur dans un modèle sup-posé connu a priori,

prévoir & sélectionner un meilleur ensemble de prédicteurs comme par

6 07/15

Page 7: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Statistique, Apprentissage, Big–Data–Mining

exemple dans la recherche de bio-marqueurs,

prévoir par une éventuelle meilleure “boîte noire” sans besoin d’interpréta-tion explicite.

Des paramètres importants du problème sont les dimensions : n nombred’observations ou taille de l’échantillon et p nombre de variables observées surcet échantillon. Lorsque les méthodes statistiques traditionnelles se trouventmises en défaut pour de grandes valeurs de p, éventuellement plus grande quen, les méthodes récentes d’apprentissage sont des recours pertinents car effi-caces.

Enfin, les stratégies de choix de modèle parmi un ensemble plus ou moinscomplexe, de choix de méthode, sont au cœur de la problématique de ce cours.L’étude de la fouille de données se focalise donc sur les pratiques ou méthodesà l’interface de l’apprentissage machine et de la Statistique. Les développe-ments méthodologiques à cette interface ont pris depuis le début du siècle ladénomination d’apprentissage statistique ; Hastie et al. (2009)[3] en proposentun tour d’horizon assez exhaustif.

Attention, d’autres objectifs d’une fouille de données ou d’extensions de cestechniques, ne sont pas pris en compte dans celui d’une modélisation au sensstatistique précédent et donc dans ce cours d’apprentissage statistique. Celaconcerne la

• classification non-supervisée ou clustering traité par ailleurs et rappeléci-dessous.

• recherche de règles d’associations ou problème du panier de la ménagère.Méthode qui consiste à identifié les co-occurences les plus fréquentes ousignificatives par un ensemble de règles logiques associant variables etvaleurs de celles-ci.

• Les Sytèmes de recommandation : ou modèles de bandits manchots pourdéterminer et afficher sur un site de e-commerce les articles complémen-taires susceptibles d’intéresser le visiteur.

3.2 Problématiques

Supervisé vs. non-supervisé

Distinguons deux types de problèmes : la présence ou non d’une variableà expliquer Y ou d’une forme à reconnaître qui a été, conjointement avec X ,

observée sur les mêmes objets. Dans le premier cas il s’agit bien d’un pro-blème de modélisation ou apprentissage supervisé : trouver une fonction fsusceptible, au mieux selon un critère à définir, de reproduire Y ayant observéX .

Y = f(X) + ε

où ε symbolise le bruit ou erreur de mesure avec le parti pris le plus communque cette erreur est additive. En cas d’erreur multiplicative, une transformationlogarithmique ramène au problème précédent.

Dans le cas contraire, en l’absence d’une variable à expliquer, il s’agit alorsd’apprentissage dit non-supervisé. L’objectif généralement poursuivi est la re-cherche d’une typologie ou taxinomie des observations : comment regroupercelles-ci en classes homogènes mais les plus dissemblables entre elles. C’estun problème de classification (clustering).

Attention, l’anglais classification se traduit plutôt en français par discrimina-tion ou classement (apprentissage supervisé) tandis que la recherche de classes(clustering) (apprentissage non-supervisé) fait appel à des méthodes de clas-sification ascendante hiérarchique, des algorithmes de réallocation dynamique(kmeans) ou encore des cartes auto-organisatrices (Kohonen).

Dans ce cours, nous allons nous intéresser essentiellement à l’apprentissagesupervisé, pour lequel on dispose d’un ensemble d’apprentissage constitué dedonnées d’observations de type entrée-sortie : dn1 = (x1, y1), . . . , (xn, yn)avec xi ∈ X quelconque (souvent égal à Rp), yi ∈ Y pour i = 1 . . . n

L’objectif est de construire, à partir de cet échantillon d’apprentissage, unmodèle, qui va nous permettre de prévoir la sortie y associée à une nouvelleentrée (ou prédicteur) x. La sortie y peut être quantitative (prix d’un stock,courbe de consommation électrique, carte de pollution ..) ou qualitative (sur-venue d’un cancer, reconnaissance de chiffres...).

sorties quantitatives sorties qualitativesY ⊂ Rp Y fini↓ ↓

régression discrimination, classement,reconnaissance de forme

Nous parlerons de régression réelle lorsque Y ⊂ R et de la discriminationbinaire lorsque Y = −1, 1.

7 07/15

Page 8: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Statistique, Apprentissage, Big–Data–Mining

Estimation vs. apprentissage

Tout au long de ce document, les termes de estimation et d’apprentissagesont utilisés comme des synonymes ce qui est abusif tant que les objectifsd’une étude n’ont pas été clairement explicités. Dans la tradition statistique, lanotion de modèle est centrale surtout avec une finalité explicative. Il s’agit alorsd’approcher la réalité, le vrai modèle, supposé exister, éventuellement basé surune théorie physique, économique, biologique... sous-jacente et la forme dumodèle est guidée par des indications théoriques et des critères d’ajustement ;les décisions de validité, de présence d’effets sont basées sur des tests repo-sant elles-mêmes sur des hypothèses probabilistes. L’interprétation du rôle dechaque variable explicative est prépondérante dans la démarche.

En revanche, si l’objectif est essentiellement la prévision, il apparaît quele meilleur modèle n’est pas nécessairement celui qui ajusterait le mieux levrai modèle. La théorie de l’apprentissage (Vapnik, 1999) montre alors que lecadre théorique est différent et les majorations d’erreur requièrent une autreapproche. Les choix sont basés sur des critères de qualité de prévision visantà la recherche de modèles parcimonieux, c’est-à-dire de complexité (nombrede paramètres ou flexibilité limitée) dont l’interprétabilité passe au deuxièmeplan. La deuxième devise (cf. figure 1) des Shadoks n’est pas une référence àsuivre en apprentissage statistique !

Discrimination vs. régression

Le type des variables statistiques considérées diffèrent selon l’espace danslequel elles prennent leurs valeur. Elles peuvent être qualitatives à valeurs dansun ensemble de cardinal fini ou quantitatives à valeurs réelles voire fonction-nelles. Certaines méthodes d’apprentissage ou de modélisation s’adaptent àtout type de variables explicatives tandis que d’autres sont spécialisées. En-fin, si Y à expliquer est qualitative, on parle de discrimination, classementou reconnaissance de forme tandis que si Y est quantitative on parle, par ha-bitude, d’un problème de régression. Dans ce cas encore, certaines méthodessont spécifiques (régression linéaire, analyse discriminante) tandis que d’autress’adaptent sans modification profonde remettant en cause leur principe (ré-seaux de neurones, arbres de décision. . . ).

FIGURE 1 – Deuxième devise Shadok

Statistique, informatique et taille des données

Lorsque les dimensions du problèmes (n, p) sont raisonnables et que deshypothèses relatives au modèle (linéarité) et aux distributions sont vérifiéesc’est-à-dire, le plus souvent, lorsque l’échantillon ou les résidus sont supposéssuivre des lois se mettant sous la forme d’une famille exponentielle (gaus-sienne, binomiale, poisson. . . ), les techniques statistiques de modélisation ti-rées du modèle linéaire général sont optimales (maximum de vraisemblance)et, surtout dans le cas d’échantillons de taille restreinte, il semble difficile defaire beaucoup mieux.

En revanche, dès que les hypothèses distributionnelles ne sont pas vérifiées,dès que les relations supposées entre les variables ou la variable à modéliserne sont pas linéaires ou encore dès que le volume des données (big data) estimportant, d’autre méthodes viennent concurrencer l’approche statistique clas-sique.

Prenons un exemple simple : expliquer une variable quantitative Y par unensemble X1, . . . , Xp de variables également quantitatives :

Y = f(X1, . . . , Xp) + ε.

8 07/15

Page 9: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Statistique, Apprentissage, Big–Data–Mining

observées sur un échantillon (yi,xi); i = 1, . . . , n de taille n. Si la fonction fest supposée linéaire et p petit, de l’ordre d’une dizaine ; le problème est bienconnu et largement débattu dans la littérature. Dans le cas où la fonction fn’est pas franchement linéaire et n grand, il est possible d’estimer précisémentun nombre plus important de paramètres et donc d’envisager des modèles plussophistiqués. Si on s’en tient au modèle gaussien usuel, même le cas le plussimple d’un modèle polynomial devient vite problématique. En effet, lorsquela fonction f est linéaire, prenons p = 10, la procédure de choix de modèleest confrontée à un ensemble de 210 modèles possibles et des algorithmes as-tucieux permettent encore de s’en sortir. En revanche, considérer, pour esti-mer f , un simple polynôme du deuxième voire troisième degré avec toutesses interactions, amène à considérer un nombre considérable de paramètres etdonc, par explosion combinatoire, un nombre astronomique de modèles pos-sibles. D’autres méthodes doivent alors être considérées en prenant en comptenécessairement la complexité algorithmique des calculs. Ceci explique l’im-plication d’une autre discipline, l’informatique, dans cette problématique. Lesouci de calculabilité l’emporte sur la définition mathématique du problèmequi se ramène à l’optimisation d’un critère d’ajustement de la fonction f surun ensemble de solutions plus ou moins riche. Ces méthodes ont souvent étédéveloppées dans un autre environnement disciplinaire : informatique, intel-ligence artificielle. . . ; k plus proches voisins, réseaux de neurones, arbres dedécisions, support vector machine deviennent des alternatives crédibles dèslors que le nombre d’observations est suffisant ou le nombre de variables trèsimportant.

3.3 Stratégies de choix

Choix de méthode

Avec le développement du data mining, de très nombreux articles comparentet opposent les techniques sur des jeux de données publics et proposent desaméliorations incrémentales de certains algorithmes. Après une période fié-vreuse où chacun tentait d’afficher la suprématie de sa méthode, un consensuss’est établi autour de l’idée qu’il n’y a pas de “meilleure méthode”. Chacuneest plus ou moins bien adaptée au problème posé, à la nature des données ouencore aux propriétés de la fonction f à approcher ou estimer. Sur le plan mé-thodologique, il est alors important de savoir comparer des méthodes afin de

choisir la plus pertinente. Cette comparaison repose sur une estimation d’erreur(de régression ou de classement) qu’il est nécessaire de conduire avec soin.

Choix de modèle : équilibre biais-variance

Tous les auteurs s’accordent pour souligner l’importance qu’il y a àconstruire des modèles parcimonieux quelque soit la méthode utilisée. Toutesles méthodes sont concernées : nombre de variables explicatives, de feuillesdans un arbre ou de neurones dans une couche cachée. . . . Seuls les algorithmesde combinaison de modèles (bagging, boosting) contournent cette étape au prixd’un accroissement sensible du volume des calculs et surtout de l’interprétabi-lité des résultats obtenus.

L’alternative est claire, plus un modèle est complexe et donc plus il intègrede paramètres et plus il est flexible donc capable de s’ajuster aux donnéesengendrant ainsi une erreur faible d’ajustement. En revanche, un tel modèlepeut s’avérer défaillant lorsqu’il s’agira de prévoir ou généraliser, c’est-à-direde s’appliquer à des données qui n’ont pas participé à son estimation.

L’exemple élémentaire de la figure 2 illustre ce point fondamental dans lecas d’un problème de discrimination dans R2. Une frontière dont le modèle"vrai" est quadratique est, à cause d’"erreurs de mesure" sous-ajustée par unerégression linéaire mais sur-ajustée par un polynôme de degré plus élevé oul’algorithme local des k plus proches voisins.

Ce problème s’illustre aussi facilement en régression classique. Ajouter desvariables explicatives dans un modèle ne peut que réduire l’erreur d’ajustement(le R2) et réduit le biais si le “vrai” modèle est un modèle plus complet. Mais,ajouter des variables fait rédhibitoirement croître la variance des estimateurs etdonc celle des prévisions qui se dégradent, voire explosent, avec la multicoli-néarité des variables explicatives. Un risque pour le modèle, ou erreur quadra-tique de prévision, s’exprimant comme le carré du biais plus la variance, il estimportant d’optimiser le dosage entre biais et variance en contrôlant le nombrede variables dans le modèle (sa complexité) afin de minimiser le risque. Cesremarques conduisent à la définition de critères de choix de modèle dont le Cp

de Mallows fut un précurseur en régression suivi par d’autres propositions :Akaïke (AIC), Schwartz (BIC). . .

Parfois plus que celui de la méthode, le choix du bon modèle dans une classeou ensemble de modèles pour une méthode donnée est primordial. En consé-

9 07/15

Page 10: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Statistique, Apprentissage, Big–Data–Mining

FIGURE 2 – Sous-ajustement linéaire et sur-ajustement local (proches voisins)d’un modèle quadratique.

quence, les problèmes d’optimisation considérés doivent mettre en œuvre uncritère qui prend en compte la complexité du modèle, c’est-à-dire la complexitéde l’espace ou de la classe dans lequel la solution est recherchée.

Choix de modèle : sélection vs. régularisation

Selon la méthode considérée, la complexité du modèle s’exprime de diffé-rentes façons. Simple lors d’une sélection de variable en régression linéaire, lacomplexité est directement liée à la dimension de l’espace engendré et doncau nombre de variables. Les choses se compliquent pour les modèles non-linéaires lorsque, à dimension fixée, c’est la plus ou moins grande flexibilitédes solutions qui doit être pénalisée.

C’est typiquement le cas en régression non-paramétrique ou fonctionnelle.Une pénalisation faisant intervenir la norme carrée de la dérivée secondecontrôle la flexibilité d’un lissage spline. La “largeur de fenêtre” du noyaucontrôle également la régularité de la solution. En régression linéaire, si lenombre et les variables sont déterminés, la version “ridge” de la régressionpénalise la norme carrée du vecteur des paramètres et restreint ainsi, par régu-larisation, l’espace des solutions pour limiter l’effet de la multicolinéarité.

Enfin, pour aborder en toute généralité les situations les plus compliquées,Vapnik (1999) a formalisé la théorie de l’apprentissage en introduisant unenotion particulière de dimension pour toute famille de modèles.

4 Stratégie de l’apprentissage statistique

4.1 Les données

Dans la majorité des problèmes rencontrés, des caractéristiques ou variablesX = (X1, . . . , Xp) dites explicatives ou prédictives ont été observées sur unensemble de n objets, individus ou unités statistiques. Un premier travail, sou-vent fastidieux mais incontournable, consiste à mener une exploration statis-tique de ces données : allure des distributions, présence de données atypiques,corrélations et cohérence, transformations éventuelles des données, descriptionmultidimensionnelle, réduction de dimension, classification. C’est l’objet d’uncours distinct d’exploration statistique tandis que ce cours décrit les outils demodélisation statistique ou encore d’apprentissage utilisables pour la modéli-sation à fin de prévision d’une variable cible Y par les variables explicativesou prédictives Xj .

L’enchaînement, éventuellement itératif, de ces étapes (exploration puis ap-prentissage) constitue le fondement de la fouille de données.

Pour comprendre la structure et bien appréhender le contenu de ce cours,il est important d’intégrer rapidement ce qu’est la stratégie à mettre en œuvrepour aboutir au bon apprentissage ou encore au bon modèle prédictif recherchéà partir des données observées.

Attention, contrairement à une démarche statistique traditionnelle dans la-quelle l’observation des données est intégrée à la méthodologie (planificationde l’expérience), les données sont généralement préalables à l’analyse. Néan-moins il est clair que les préoccupations liées à leur analyse et à son objectifdoivent intervenir le plus en amont possible pour s’assurer quelques chancesde succès.

4.2 Les étapes de l’apprentissage

Les traitements s’enchaînent de façon assez systématique selon le schémasuivant et quelque soit le domaine d’application :

10 07/15

Page 11: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Statistique, Apprentissage, Big–Data–Mining

1. Extraction des données avec ou sans échantillonnage faisant référenceà des techniques de sondage appliquées ou applicables à des bases dedonnées.

2. Exploration des données pour la détection de valeurs aberrantes ou seule-ment atypiques, d’incohérences, pour l’étude des distributions des struc-tures de corrélation, recherche de typologies, pour des transformationsdes données. . .

3. Partition aléatoire de l’échantillon (apprentissage, validation, test) enfonction de sa taille et des techniques qui seront utilisées pour estimerune erreur de prévision en vue des étapes de choix de modèle, puis dechoix et certification de méthode.

4. Pour chacune des méthodes considérées : modèle linéaire général (gaus-sien, binomial ou poissonien), discrimination paramétrique (linéaire ouquadratique) ou non paramétrique, k plus proches voisins, arbre, réseaude neurones (perceptron), support vecteur machine, combinaison de mo-dèles (bagging, boosting)...• estimer le modèle pour une valeur donnée d’un paramètre (ou plu-

sieurs) de complexité : nombre de variables, de voisins, de feuilles, deneurones, durée de l’apprentissage, largeur de fenêtre. . . ;

• optimiser ce paramètre (ou ces paramètres) en fonction de la techniqued’estimation de l’erreur retenue : échantillon de validation, validationcroisée, approximation par pénalisation de l’erreur d’ajustement (cri-tères Cp, AIC).

5. Comparaison des modèles optimaux obtenus (un par méthode) par esti-mation de l’erreur de prévision sur l’échantillon test ou, si la présenced’un échantillon test est impossible, sur le critère de pénalisation de l’er-reur (AIC d’Akaîke par exemple) s’il en existe une version pour chacunedes méthodes considérées.

6. Itération éventuelle de la démarche précédente (validation croisée), sil’échantillon test est trop réduit, depuis (iii). Partitions aléatoires succes-sives de l’échantillon pour moyenner sur plusieurs cas l’estimation finalede l’erreur de prévision et s’assurer de la robustesse du modèle obtenu.

7. Choix de la méthode retenue en fonction de ses capacités de prévision, desa robustesse mais aussi, éventuellement, de l’interprétabilité du modèleobtenu.

8. Ré-estimation du modèle avec la méthode, le modèle et sa complexitéoptimisée à l’étape précédente sur l’ensemble des données.

9. Exploitation du modèle sur la base complète et de nouvelles données.La conclusion de cette stratégie peut éventuellement être modifiée par la

construction d’un meilleur compromis entre les différentes méthodes testéesplutôt que de sélectionner la meilleure. Deux approches proposent cette dé-marche conduisant à une collaboration entre modèles : COBRA de Biau et al.(2013)[1] et SuperLearner de van der Laan et al. (2007) [7]. La première re-vient à exécuter une forme d’algorithme des k plus proches voisins avec unedéfinition très particulière de la distance tandis que la deuxième cherche, parminimisation d’une estimateur d’erreur par validation croisée, une meilleurecombinaison convexe des prévisions. Ces deux approches sont développéesdans la vignette consacrée à l’agrégation de modèles et testé dans un exemplede données de criblage vituel de molécules.

5 ExemplesEn plus des exemples “pédagogiques” illustrant simplement les différentes

méthodes étudiées, d’autres exemples en “vraie grandeur” permettent d’en éva-luer réellement l’efficacité mais aussi toute la complexité de mise en œuvre.D’autres exemples sont encore plus concrètement proposés en travaux dirigésou sous formes de scénarios avec leur traitement informatique explicite.

5.1 Banque, finance, assurance : Marketing

L’objectif est une communication personnalisée et adaptée au mieux àchaque client. L’application la plus courante est la recherche d’un score estimésur un échantillon de clientèle pour l’apprentissage puis extrapolé à l’ensembleen vue d’un objectif commercial :

• Appétence pour un nouveau produit financier : modélisation de la proba-bilité de posséder un bien (contrat d’assurance...) puis application à l’en-semble de la base. Les clients, pour lesquels le modèle prédit la possessionde ce bien alors que ce n’est pas le cas, sont démarchés (télé marketing,publipostage ou mailing, phoning,...) prioritairement.

• Attrition ; même chose pour évaluer les risques de départ ou d’attrition(churn) des clients par exemple chez un opérateur de téléphonie. Lesclients pour lesquels le risque prédit est le plus important reçoivent des

11 07/15

Page 12: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Statistique, Apprentissage, Big–Data–Mining

incitations à rester.• Risque pour l’attribution d’un crédit bancaire ou l’ouverture de certains

contrats d’assurance ; risque de faillite d’entreprises.• ...L’exemple traité suit un schéma classique d’analyse de données bancaires.

Après la phase exploratoire, il s’agit de construire un score d’appétence de lacarte Visa Premier dans l’idée de fidéliser les meilleurs clients. La variable àprévoir est binaire : possession ou non de cette carte en fonction des avoirs etcomportements bancaires décrits par p = 32 variables sur n = 825 clients.

5.2 Environnement : pic d’ozone

L’objectif est de prévoir pour le lendemain les risques de dépassement deseuils de concentration d’ozone dans les agglomérations à partir de donnéesobservées : concentrations en 03, NO3, NO2... du jour, et d’autres prédites parMétéo-France : température, vent... Encore une fois, le modèle apprend sur lesdépassements observés afin de prévoir ceux à venir.

Il s’agit d’un problème de régression : la variable à prévoir est une concen-tration mais elle peut aussi être considérée comme binaire : dépassement ounon d’un seuil. Il y a 8 variables explicatives dont une est déjà une prévisionde concentration d’ozone mais obtenue par un modèle déterministe de méca-nique des fluides (équation de Navier et Stockes). L’approche statistique vientaméliorer cette prévision en modélisant les erreurs et en tenant compte d’ob-servations de concentration d’oxyde et dioxyde d’azote, de vapeur d’eau, de laprévision de la température ainsi que de la force du vent.

Cette étude est proposée en exemple ou en travaux dirigés mais pas sous laforme d’un scénario car les données propriétés de MétéoFrance ne sont paspubliques.

5.3 Santé : aide au diagnostic

Les outils statistiques sont largement utilisés dans le domaine de la santé.Ils le sont systématiquement lors des essais cliniques dans un cadre législatifstricte mais aussi lors d’études épidémiologiques pour la recherche de facteursde risques dans des grandes bases de données ou encore pour l’aide au diagnos-tic. L’exemple étudié illustre ce dernier point : il s’agit de prévoir un diagnosticà partir de tests biologiques et d’examens élémentaires. Bien entendu, la va-

riable à prédire, dont l’évaluation nécessite souvent une analyse très coûteusevoire une intervention chirurgicale, est connue sur l’échantillon nécessaire àl’estimation des modèles.

Dans l’exemple étudié (breast cancer), il s’agit de prévoir le type de la tu-meur (bénigne, maligne) lors d’un cancer du sein à l’aide de p = 9 variablesexplicatives biologiques observées sur n = 700 patientes.

5.4 Biologie : sélection de gènes

Les techniques de microbiologie permettent de mesurer simultanément l’ex-pression (la quantité d’ARN messager produite) de milliers de gènes dansdes situations expérimentales différentes, par exemple entre des tissus sainset d’autres cancéreux. L’objectif est donc de déterminer quels gènes sont lesplus susceptibles de participer aux réseaux de régulation mis en cause dansla pathologie ou autre phénomène étudié. Le problème s’énonce simplementmais révèle un redoutable niveau de complexité et pose de nouveaux défisau statisticien. En effet, contrairement aux cas précédents pour lesquels descentaines voire des milliers d’individus peuvent être observés et participer àl’apprentissage, dans le cas des biopuces, seuls quelques dizaines de tissusson analysés à cause essentiellement du prix et de la complexité d’une telleexpérience. Compte tenu du nombre de gènes ou variables, le problème dediscrimination est sévèrement indéterminé. D’autres approches, d’autres tech-niques sont nécessaires pour pallier à l’insuffisance des méthodes classiquesde discrimination.

L’exemple concerne les expressions de gènes dans une expérience croisantdeux facteurs le régime alimentaire (5 niveaux) chez n = 40 souris de 2 géno-types. Il s’agit de mettre en évidence l’impact des facteurs sur les expressionsde p = 120 gènes puis d’expliquer un ensemble de q = 21 variables phénoty-piques (concentrations d’acides gras) par ces mêmes expressions.

5.5 Exemples industriels

Données de spectrométrie

depuis de très nombreuses années, l’industrie agroalimentaire est confron-tée à des problèmes de grande dimension pour l’analyse de données de spec-trométrie comme par exemple dans le proche infra-rouge (NIR). Sous l’ap-

12 07/15

Page 13: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Statistique, Apprentissage, Big–Data–Mining

FIGURE 3 – Cookies : Spectres proche infrarouge (NIR) d’échantillons depâtes à gâteaux. La couleur dépend du taux de sucre.

pellation de Chimiométrie de très nombreuses méthodes et stratégies ont étédéveloppées ou enrichies (i.e. la régression PLS) afin de prendre en compte laspécificité des problèmes rencontrés par la discrétisation de spectres condui-sant très généralement à un nombre de variables p > n. Dans un premierexemples, il s’agit de modéliser, la teneur en sucre d’une pâte à gâteau (co-okies où n = 72, p = 700)) à partir des spectres (cf. figure 3) tandis que dansun deuxième (Tecator ou n = 215, p = 100), c’est la teneur en matière grassequi est recherchée. Ces questions sont considérées comme des problèmes decalibration d’un appareil de mesure (le spectromètre) pour arriver à la quanti-fication d’une mesure chimique dont l’évaluation classique est beaucoup pluscoûteuse ou encore destructive.

Criblage virtuel de molécules

Une stratégie classique de l’industrie pharmaceutique consiste à tester in si-lico un nombre considérable de molécules avant de ne synthétiser que celles ju-gées intéressantes pour passer aux étapes de recherche clinique in vitro puis invivo. Une propriété thérapeutique d’un ensemble de molécules d’apprentissage(perméabilité de la paroi intestinale ou à la barrière sanguine du cerveau, adé-quation à une cible donnée...) étant connue, un grand ensemble de caractéris-tiques physico-chimiques sont évaluées, calculées par un logiciel spécifique :ce sont des données dites QSAR Quantitative structure-activity relationship.S’il est possible de raisonnablement prévoir la propriété thérapeutique à partirdes caractéristiques physico-chimiques, ce modèle est systématiquement ap-pliqué à un grand ensemble de molécules virtuelles ; c’est le criblage ou sree-ning virtuel de molécule. Deux jeux de données sont étudiés l’un illustrantun problème de régression (blood brain barrier data) avec n = 208, p = 134tandis que l’autre est un problème de discrimination à deux classes (multidrigresistance reversal) avec n = 528, p = 342.

D’autres exemples sont cités à titre illustratif mais leur complexité, inhérenteà beaucoup de problèmes industriels, ne permet pas de les détailler à des finspédagogiques.

Industrie des semi-conducteurs : Détection de défaillance

Un procédé de fabrication de microprocesseurs comporte des centainesd’étapes (photogravures, dépôts, cuissons, polissages, lavages...) dont tous lesparamètres, équipement et mesures physiques (températures, pressions...), sontenregistrés dans une grande base de données permettant la traçabilité des pro-duits manufacturés. Le test électrique de chaque microprocesseur ne peut sefaire qu’en fin de fabrication lorsque ceux-ci sont achevés. Il est évidement im-portant de pouvoir déterminer, lors de l’apparition d’une baisse du rendementet en utilisant les données de la base, l’équipement ou la fourniture responsablede la défaillance afin d’y remédier le plus rapidement possible.

6 ContenuIl a fallu faire des choix dans l’ensemble des techniques proposées et leurs

nombreux avatars. La forme et le contenu sont guidés par les besoins expri-

13 07/15

Page 14: Apprentissage Statistique, Modélisation, Prévision, Data Mining

12 Statistique, Apprentissage, Big–Data–Mining

més lors des stages réalisées par les étudiants du département Génie Mathé-matique de l’INSA ou par les thèmes des collaborations industrielles et scien-tifiques de l’équipe Statistique et Probabilités de l’Institut de Mathématiquesde Toulouse. Le lecteur peut se faire une idée du nombre très important de mé-thodes et variantes concernées par l’apprentissage supervisée en consultant uneaide en ligne de la librairie caret (Kuhn, 2008)[4] du logiciel R. Remarquonsque les principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab, KXEN,SPAD, Statsoft. . . ) ou gratuits (R, Weka, Tanagra), performants et s’imposantpar des interfaces très conviviales (Enterprise Miner, Insightfull Miner, Cle-mentine, Statistica Data Miner), contribuent largement à la diffusion, voire lapénétration, de méthodes très sophistiquées dans des milieux qui seraient im-perméables à une conceptualisation mathématique trop abstraite.

Chaque méthode ou famille de méthodes de modélisation et d’apprentissageparmi les plus répandues, est présentée de façon plus ou moins succincte dansun chapitre distinct avec un objectif de prévision. Une première vignette incon-tournable est consacrée aux techniques d’estimation d’une erreur de prévisionou d’un risque sur lesquelles reposent les choix opérationnels décisifs : de mo-dèle, de méthode mais aussi l’évaluation de la précision des résultats escomp-tés. La régression linéaire classique en statistique prend une place particulièreà titre pédagogique. Très antérieure aux autres, elle donne lieu a une bibliogra-phie abondante. Conceptuellement plus simple, elle permet d’introduire plusfacilement les problématiques rencontrées comme celle du choix d’un modèlepar ses deux approches types : la sélection de variable ou la régularisation(ridge, Lasso). Le modèle linéaire général fournit le cadre théorique néces-saire à l’unification des régressions linéaire, loglinéaire et logistique ; cettedernière reste toujours très utilisée en scoring. La présentation de l’analyse dis-criminante décisionnelle, paramétrique ou non paramétrique (dont les k plusproches voisins), permet d’introduire également des notions de théorie bayé-sienne de la décision. Les vignettes suivantes sont consacrées aux techniquesalgorithmiques : arbres binaires de décision (classification and regression treesou CART) et à celles plus directement issues de la théorie de l’apprentissagemachine (machine learning) : réseau de neurones et perceptron, agrégation demodèles (boosting, random forest), support vector machine (SVM). Enfin unevignette de conclusion tâche de synthétiser le panorama et propose une com-paraison systématique des méthodes sur les différents jeux de données.

Le choix a été fait de conserver et expliciter, dans la mesure du possible,

les concepts originaux de chaque méthode dans son cadre disciplinaire touten tâchant d’homogénéiser notations et terminologies. L’objectif principal estde faciliter la compréhension et l’interprétation des techniques des principauxlogiciels pour en faciliter une utilisation pertinente et réfléchie. Ce cours nepeut être dissocié de séances de travaux dirigés sur ordinateur à l’aide de lo-giciels (SAS, R...) pour traiter des données en vraie grandeur dans toute leurcomplexité. La principale difficulté pratique est d’arriver à déterminer où faireporter l’effort ou les efforts :

• la saisie, la gestion, la sélection des données et variables,• la sélection des méthodes à comparer,• l’optimisation des choix de modèles,

et ceci en fonction des méthodes considérées, de la structure des données, despropriétés des variables notamment celle à modéliser.

Références[1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Nonlinear Ag-

gregation Strategy, Journal of Multivariate Analysis (2013).

[2] U. M. Fayyad, G. Piatetsky-Shapiro et P. Smyth, From data miningto knowledge discovery : an overview, Advances in Knowledge Disco-very and Data Mining (U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth etR. Uthurusamy, réds.), AAAI Press/MIT Press, 1996, p. 1–34.

[3] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical learning :data mining, inference, and prediction, Springer, 2009, Second edition.

[4] Max Kuhn, Building Predictive Models in R Using the caret Package, Jour-nal of Statistical Software 28 (2008), no 5.

[5] K.V. Mardia, J.T. Kent et J.M. Bibby, Multivariate Analysis, AcademicPress, 1979.

[6] S. Tufféry, Data Mining et Statistique décisionnelle : l’intelligence desdonnées, Technip, 2007.

[7] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, StatisticalApplications in Genetics and Molecular Biology 6 :1 (2007).

14 07/15

Page 15: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Qualité de prévision et risque

Qualité de prévision et risque

RésuméDéfinition et propriétés du risque ou erreur de prévision ou erreurde généralisation dans le cas de la régression et de la classifica-tion. Décomposition biais / variance du risque. Critères de pénali-sation et méthodes ou algorithmes d’estimation du risque empirique.Choix du mode d’estimation en fonction du contexte (cas de la dis-crimination ou de la régression), de la taille de l’échantillon et del’objectif : optimisation du choix d’une méthode ou de celui de lacomplexité d’un modèle dans une collection donnée. Estimation suréchantillons de validation ou de test, par critère pénalisé, par boots-trap, par validation croisée, courbe ROC en discrimination binaire.Retour au plan du cours

1 IntroductionLa performance du modèle issu d’une méthode d’apprentissage s’évalue

par sa capacité de prévision dite encore de capacité de généralisation dansla communauté informatique. La mesure de cette performance est très impor-tante puisque, d’une part, elle permet d’opérer une sélection de modèle dansune famille associée à la méthode d’apprentissage utilisée et, d’autre part, elleguide le choix de la méthode en comparant chacun des modèles optimisés àl’étape précédente. Enfin, elle fournit, tous choix faits, une mesure de la qua-lité ou encore de la confiance que l’on peut accorder à la prévision en vuemême, dans un cadre légal, d’une certification.

Une fois que la notion de modèle statistique ou règle de prévision est pré-cisée ainsi qu’une fonction dite perte associée, un risque ou erreur de géné-ralisation (ou erreur de prévision) est défini pour la recherche d’une règle deprévision optimale au sens où elle minimise le risque. En pratique, ce risquenécessite d’être estimé (risque empirique) et différentes stratégies sont propo-sées.

1. un partage de l’échantillon (apprentissage, validation, test) afin de distin-

guer estimation du modèle et estimations du risque empirique.

2. une pénalisation de l’erreur d’ajustement ou d’estimation du modèle fai-sant intervenir la complexité du modèle,

3. un usage intensif du calcul (computational statistics) par la mise en œuvrede simulations (validation croisée).

Le choix dépend de plusieurs facteurs dont la taille de l’échantillon initial,la complexité du modèle envisagé, la variance de l’erreur, la complexité desalgorithmes c’est-à-dire le volume de calcul admissible.

Les travaux de Vapnik en théorie de l’apprentissage ont conduit à focaliserl’attention sur la présence ou l’absence de propriétés théoriques basiques d’unetechnique d’apprentissage ou de modélisation :

consistance qui garantit la capacité de généralisation. Un processus d’appren-tissage est dit consistant si l’erreur sur l’ensemble d’apprentissage et l’er-reur sur un jeu de données test convergent en probabilité vers la mêmelimite lorsque la taille de l’échantillon d’apprentissage augmente.

vitesse de convergence. Une évaluation, quand elle est possible, de la vitessede convergence de l’estimation du risque lorsque la taille augmente, estune indication sur la façon dont la généralisation s’améliore et informesur la nature des paramètres, comme le nombre de variables explicatives,dont elle dépend.

contrôle Est-il possible, à partir d’un échantillon d’apprentissage de taille finidonc sans considération asymptotique, de contrôler la capacité de géné-ralisation et donc de majorer le terme de risque ?

Une estimation du risque ou qualité de la prévision est donc un élément cen-tral de la mise en place de la stratégie du data mining, telle qu’elle est décritedans l’introduction mais aussi dans beaucoup de disciplines concernées par lamodélisation statistique. Le point important à souligner est que le “meilleur”modèle en un sens prédictif n’est pas nécessairement celui qui ajuste le mieuxles données (cas de sur-ajustement) ni même le “vrai” modèle si la variancedes estimations est importante.

2 Risque, risque empirique

15 07/15

Page 16: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Qualité de prévision et risque

2.1 Modèle statistique

On suppose que dn est l’observation d’un n-échantillon Dn =(X1, Y1), . . . , (Xn, Yn) d’une loi conjointe P sur X ×Y , inconnue, et quex est une observation de la variable X , (X, Y ) étant un couple aléatoire de loiconjointe P indépendant de Dn.

L’échantillon Dn est appelé échantillon d’apprentissage.

Une règle de prévision / régression ou discrimination (ou prédicteur) est unefonction (mesurable) f : X → Y qui associe la sortie f(x) à l’entrée x ∈ X .

Pour mesurer la qualité de prévision, on introduit une fonction de perte :

DÉFINITION 1. — Une fonction (mesurable) l : Y×Y → R+ est une fonctionde perte si l(y, y) = 0 et l(y, y′) > 0 pour y 6= y′.

Si f est une règle de prévision, x une entrée, y la sortie qui lui est réellementassociée, alors l(y, f(x)) mesure une perte encourue lorsque l’on associe à xla sortie f(x).

En régression réelle : on définit les pertes Lp (p ≥ 1)

l(y, y′) = |y − y′|p.

Si p = 1 on parle de perte absolue, si p = 2 de perte quadratique.

En discrimination binaire : Y = −1, 1

l(y, y′) = 1y 6=y′ =|y − y′|

2=

(y − y′)2

4.

On va s’intéresser au comportement moyen de cette fonction de perte, ils’agit de la notion de risque :

DÉFINITION 2. — Étant donnée une fonction de perte l, le risque - ou l’erreurde généralisation - d’une règle de prévision f est défini par

RP (f) = E(X,Y )∼P [l(Y, f(X))].

Il est important de bien noter que, dans la définition ci-dessus, (X, Y ) estindépendant de l’échantillon d’apprentissage Dn qui a permis de construire la

règle de prévision f .

Soit F l’ensemble des règles de prévision possibles. On dira que f∗ est unerègle optimale si

RP (f∗) = inf

f∈FRP (f).

Une question naturelle qui se pose alors est : peut-on construire des règlesoptimales ?

2.2 Risque et règles optimales

Régression et discrimination binaire

DÉFINITION 3. — On appelle fonction de régression la fonction η∗ : X → Ydéfinie par

η∗(x) = E[Y |X = x].

Cas de la régression réelle :

Y = R, l(y, y′) = (y − y′)2.

THÉORÈME 4. — La fonction de régression η∗ : x 7→ E[Y |X = x] vérifie :

RP (η∗) = inf

f∈FRP (f).

Cas de la régression réelle :

Y = R, l(y, y′) = |y − y′|.

THÉORÈME 5. — La régle de régression définie par µ∗(x) =mediane[Y |X = x] vérifie :

RP (µ∗) = inf

f∈FRP (f).

16 07/15

Page 17: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Qualité de prévision et risque

Cas de la discrimination binaire :

Y = −1, 1, l(y, y′) = 1y 6=y′ .

DÉFINITION 6. — On appelle règle de Bayes toute fonction f∗ de F telle quepour tout x ∈ X ,

P(Y = f∗(x)|X = x) = maxy∈Y

P(Y = y|X = x).

THÉORÈME 7. — Si f∗ est une règle de Bayes, alors RP (f∗) =

inff∈F RP (f).

En particulier, la règle de Bayes définie par fη∗(x) = 1η∗(x)≥0 −1η∗(x)<0 = signe(η∗(x)) vérifie :

RP (fη∗) = inff∈F

RP (f).

De la régression réelle à la discrimination binaire

On se place dans le cas où Y = −1, 1.

THÉORÈME 8. — Pour toute règle de régression η, si fη(x) = signe(η(x)),alors

E(X,Y )∼P [1Y 6=fη(X) − 1Y 6=fη∗ (X)] ≤ EX∼PX [|η(X)− η∗(X)|]≤(E(X,Y )∼P [(Y − η(X))2 − (Y − η∗(X))2]

)1/2.

Interprétation : si η est une "bonne" règle de régression au sens où sonrisque quadratique est proche du risque quadratique minimum, alors fη estune "bonne" règle de discrimination, au sens où son risque est lui aussi prochedu risque minimum.

Les théorèmes précédents fournissent des règles de prévision optimaless’exprimant de façon formelle... mais qui dépendent de la loi P inconnue !Il est donc nécessaire de construire des algorithmes de prévision qui ne dé-pendent pas de P mais de l’ensemble d’apprentissage dn.

2.3 Algorithmes de prévision

Définitions

DÉFINITION 9. — Un algorithme de prévision est représenté par une ap-plication (mesurable) f : (X × Y)n → F qui à un ensemble d’apprentis-sage dn = (xi, yi), 1 ≤ i ≤ n associe une règle de prévision f(dn), oupar une suite (fn)n≥1 d’applications (mesurables) telles que pour n ≥ 1,fn : (X × Y)n → F .

DÉFINITION 10. — Le risque moyen d’un algorithme de prévision f est définipar

EDn∼P⊗n [RP (f(Dn))].

DÉFINITION 11. — Un algorithme de prévision est dit universellement consis-tant si

∀P limn→+∞

EDn∼P⊗n [RP (fn(D

n))]= inff∈F

RP (f).

Premiers exemples : Algorithmes par moyennes locales

Soit Wn,i, 1 ≤ i ≤ n une famille de poids positifs tels que pour toutn ≥ 1, x,x1, . . . ,xn ∈ X ,

∑ni=1Wn,i(x,x1, . . . ,xn) = 1.

On définit ηn et fηn tels que pour dn = (x1, y1), . . . , (xn, yn),

ηn(dn) : x ∈ X 7→

n∑i=1

Wn,i(x,x1, . . . ,xn)yi,

et

fηn(dn) : x ∈ X 7→ signe(ηn(d

n)(x)).

DÉFINITION 12. — Un algorithme de prévision par moyennage local est unalgorithme de la forme :

• ηn en régression réelle,• fηn en discrimination binaire.

17 07/15

Page 18: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Qualité de prévision et risque

On suppose maintenant que X = Rd, Y ⊂ R et E[Y 2] < +∞.

THÉORÈME 13. — [Stone 1977[11]] On suppose que quelle que soit la loimarginale PX de X ,

(i) ∃c > 0, ∀f : X → R+ telle que EPX [f(X)] <∞, ∀n,

EP⊗(n+1)X

[∑ni=1Wn,i(X,X1, . . . ,Xn)f(Xi)] ≤ cEPX [f(X)],

(ii) ∀a > 0, EP⊗(n+1)X

[∑ni=1Wn,i(X,X1, . . . ,Xn)1‖Xi−X‖>a

]→ 0,

(iii) EP⊗(n+1)X

[∑ni=1W

2n,i(X,X1, . . . ,Xn)

]→ 0. Alors,

• Si Y ⊂ R, l(y, y′) = (y−y′)2, (ηn)n≥1 est universellement consistant,• Si Y = −1, 1, l(y, y′) = 1y 6=y′ , (fηn)n≥1 est universellement consis-

tant.

Exemple 1 : Algorithme des k plus proches voisins

DÉFINITION 14. — On appelle algorithme des k plus proches voisins un al-gorithme par moyennage local dont les poids vérifient :

Wn,i(x,x1, . . . ,xn) =

1k si xi fait partie des k p.p.v. de x

dans x1, . . . ,xn0 sinon.

En cas d’égalité on utilise par exemple un tirage aléatoire.

THÉORÈME 15. — Si X = Rd, (kn)n≥1 est une suite d’entiers tels que kn →+∞ et kn/n→ 0, alors l’algorithme des kn p.p.v. pour une distance associéeà une norme quelconque de Rd est universellement consistant.

Dans le cas d’un nombre de p.p.v. kn aléatoire : il suffit que les hypothèsesde convergence soient vérifiées en probabilité.

THÉORÈME 16. — [Cover and Hart 1967[3]] L’algorithme du plus prochevoisin (k = 1) n’est pas universellement consistant.

Exemple 2 : Algorithme par noyau

DÉFINITION 17. — On appelle algorithme par noyau un algorithme parmoyennage local dont les poids sont de la forme :

Wn,i(x,x1, . . . ,xn) = K

(xi − x

h

)

n∑j=1

K

(xj − x

h

),

où K est une fonction (un noyau) à valeurs dans R+, h un réel > 0 (largeurdu noyau) avec la convention 0/0 = 0.

Noyaux usuels (X = Rd) :

• noyau fenêtre K(x) = 1‖x‖≤1,• noyau gaussien K(x) = e−‖x‖

2

,

‖.‖ étant la norme euclidienne sur Rd.

On note B(O, r) la boule euclidienne de X = Rd de centre O de rayon r.

THÉORÈME 18. — [Devroye and Wagner (1980) [5], Spiegelman and Sacks(1980) [10]] S’il existe 0 < r ≤ R et b tels que b1B(O,r) ≤ K ≤ 1B(O,R),si (hn)n≥1 vérifie hn → 0 et nhdn → +∞ alors l’algorithme par noyau delargeur hn est universellement consistant.

Exemple 3 : Algorithme par partition

DÉFINITION 19. — Etant donnée une partition V1, V2, . . . finie ou dé-nombrable de X , pour x ∈ X , on note V (x) l’élément de la parti-tion contenant x. On appelle algorithme par partition un algorithme parmoyennage local dont les poids sont de la forme : Wn,i(x,x1, . . . ,xn) =1xi∈V (x)

∑nj=11xj∈V (x),

avec la convention 0/0 = 0.

Les arbres de décision (CART) (Breiman et al. 1984)[2] font partie de cetteclasse d’algorithmes, de même que les estimateurs par polynômes locaux enrégression non paramétrique.

Soit B(O, r) la boule de centreO de rayon r pour une norme ‖.‖ quelconquede Rd, et diam(Vk,n) = supx,x′∈X ‖x− x′‖.

18 07/15

Page 19: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Qualité de prévision et risque

THÉORÈME 20. — Soit (V1,n, V2,n, . . .)n≥1 une suite de partitions dénom-brables de X = Rd. Si pour tout r > 0,

• |k, Vk,n ∩ B(O, r)| 6= ∅|/n→ 0,• supk,Vk,n∩B(O,r) diam(Vk,n)→ 0,

alors l’algorithme par partition défini sur V1,n, V2,n, . . . est universellementconsistant.

Le "fléau" de la dimensionSoit PX la loi uniforme sur l’hypercube unité de Rd.

Sélectionner une proportion p de données d’observation revient à sélection-ner un hypercube de côté moyen p1/d. Dans le cas d = 10 :p = 1%⇒ p1/d = 0.63 ; p = 10%⇒ p1/d = 0.80 (proche de 1 !).

Ainsi, pour obtenir 10 % des données en dimension 10, on doit recouvrir80% du domaine de variation dans chaque direction. Il ne s’agit donc plusd’une méthode "locale", inversement, si on impose à la méthode d’être locale,la proportion p sera infime et il faudra une taille n considérable de l’échantillonpour espérer obtenir une ou des observations dans un voisinage très local.

2.4 Minimisation du risque empirique

Définitions

Comme nous l’avons vu précédemment, le risque d’une règle de prévisionf est défini par RP (f) = E(X,Y )∼P [l(Y, f(X))]. Les règles "optimales" ausens de la minimisation du risque dépendent de P inconnue.

En l’absence de toute information ou hypothèse sur la loi P (cadre non pa-ramétrique), il est naturel de remplacer P par Pn, mesure empirique associéeà Dn, et de minimiser le risque empirique.

DÉFINITION 21. — Le risque empirique (associé à Dn = (Xi, Yi), 1 ≤ i ≤n) d’une règle de prévision f ∈ F est défini par

Rn(f,Dn) =

1

n

n∑i=1

l(Yi, f(Xi)).

La minimisation du risque empirique est une idée bien développée depuisles travaux de Vapnik (1999)[12].

DÉFINITION 22. — Etant donné un sous-ensemble F de F (un modèle),l’algorithme de minimisation du risque empirique sur F est défini par :

fF (Dn) ∈ argminf∈F Rn(f,D

n).

Dans le cas de F = F (ensemble de tous les prédicteurs possibles) :• L’algorithme qui attribue la sortie Yi à une entrée x = Xi, et une sortie

quelconque à une entrée x différente des Xi.Ceci conduit au phénomène de sur-apprentissage : à éviter !

Le choix d’un modèle F "adéquat" est crucial et relève des méthodes desélection de modèles.

Décomposition approximation/estimation (ou biais/variance)

Soit f∗ telle queRP (f∗) = inff∈F RP (f), f∗ est appelé "oracle". L’objec-tif est de déterminer un modèle F pour lequel le risque de l’estimateur fF (Dn)est proche de celui de l’oracle.

RP (fF (Dn))−RP (f∗) =RP (fF (D

n))− inff∈F

RP (f)︸ ︷︷ ︸+

inff∈F

RP (f)−RP (f∗)︸ ︷︷ ︸

Erreur d’estimation Erreur d’approximation(Variance) (Biais) (taille de F )

Ces deux termes sont de natures différentes. Pour les évaluer, nous auronsrecours à des considérations issues respectivement de la statistique et de lathéorie de l’approximation.

La sélection d’un modèle F parmi une collection de modèles C pour lequelle risque de fF (D

n) est proche de celui de l’oracle va s’obtenir par la minimi-sation d’un critère pénalisé du type :

F = argminF∈CRn(fF (Dn),Dn) + pen(F ).

19 07/15

Page 20: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Qualité de prévision et risque

La pénalité permet de pénaliser les modèles de "grande" taille, afin d’éviter lesur-ajustement. Le choix optimal de la pénalité (selon les modèles statistiquesconsidérés) est un sujet de recherche très actif en statistique.

Très généralement, plus un modèle (la famille des fonctions admissibles)est complexe, plus il est flexible et peut s’ajuster aux données observées etdonc plus le biais est réduit. En revanche, la partie variance augmente avec lenombre de paramètres à estimer et donc avec cette complexité. L’enjeu, pourminimiser le risque quadratique ainsi défini, est donc de rechercher un meilleurcompromis entre biais et variance : accepter de biaiser l’estimation comme parexemple en régression ridge pour réduire plus favorablement la variance.

3 Estimation du risque

3.1 Estimation de l’erreur d’estimation ou d’ajuste-ment

Le premier type d’estimation à considérer exprime la qualité d’ajustementdu modèle sur l’échantillon observé. C’est justement, dans le cas quantitatif,ce critère qui est minimisé dans la recherche de moindres carrés. Ce ne peutêtre qu’une estimation biaisée, car trop optimiste, de l’erreur de prévision ; elleest liée aux données qui ont servi à l’ajustement du modèle et est d’autant plusfaible que le modèle est complexe. Cette estimation ne dépend que de la partie"biais" de l’erreur de prévision et ne prend pas en compte la partie "variance"de la décomposition.

Cette estimation est notée :

Rn(f(dn),dn) =

1

n

n∑i=1

l(yi, f(dn)(xi)).

C’est simplement le taux de mal classés dans le cas qualitatif. Des critères derisque plus sophistiqués sont envisagés dans un contexte bayésien si des pro-babilités a priori sont connues sur les classes ou encore des coûts de mauvaisclassement.

La façon la plus simple d’estimer sans biais l’erreur de prévision consiste àcalculer le risque empirique sur un échantillon indépendant n’ayant pas parti-cipé à l’estimation du modèle. Ceci nécessite donc d’éclater l’échantillon en

trois parties respectivement appelées apprentissage, validation et test :

dn = dn1

Appr ∪ dn2

Valid ∪ dn3Test,

avec n1 + n2 + n3 = n.1. Rn(f(dn1

Appr),dn1

Appr) est minimisée pour déterminer l’estimateur f(dn1

Appr),un modèle étant fixé (par exemple un modèle de régression polynomialede degré 2).

2. Rn(f(dn1

Appr),dn2

Valid) sert à la comparaison des modèles au sein d’unemême famille afin de sélectionner celui qui minimise cette erreur, (parexemple, on considère une famille de modèles polynomiaux de degrésvariés).

3. Rn(f ,dn3Test) est utilisée pour comparer entre eux les meilleurs modèles de

chacune des méthodes considérées (par exemple on compare le meilleurestimateur polynomial au meilleur estimateur construit à partir de réseauxde neurones).

Cette solution n’est acceptable que si la taille de l’échantillon initiale est im-portante sinon :

• la qualité d’ajustement est dégradée car n1 est trop faible,• la variance de l’estimation de l’erreur peut être importante et ne peut être

estimée.Si la taille de l’échantillon est insuffisante, le point ii ci-dessus : la sélection demodèle est basée sur un autre type d’estimation de l’erreur de prévision faisantappel soit à une pénalisation soit à des simulations.

3.2 Estimation avec pénalisation

Cp de Mallows

Le Cp de Mallows (1973)[8] fut, historiquement, le premier critère visantà une meilleure estimation de l’erreur de prévision que la seule considérationde l’erreur d’ajustement (ou le R2) dans le modèle linéaire. Il repose sur unemesure de la qualité sur la base d’un risque quadratique. L’erreur de prévisionse décompose en :

RP (f(dn)) = Rn(f(d

n),dn) + Optim

qui est l’estimation par re-substitution ou taux d’erreur apparent plus le biaispar abus d’optimisme. Il s’agit donc d’estimer cet optimisme pour apporter

20 07/15

Page 21: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Qualité de prévision et risque

une correction et ainsi une meilleure estimation de l’erreur recherchée. Cettecorrection peut prendre plusieurs formes. Elle est liée à l’estimation de la va-riance dans la décomposition en biais et variance de l’erreur ou c’est encoreune pénalisation associée à la complexité du modèle.

Son expression est détaillée dans le cas de la régression linéaire. On montre(cf. Hastie et col. 2001), à des fins de comparaison qu’il peut aussi se mettresous une forme équivalente :

Cp = Rn(f(dn),dn) + 2

d

nσ2

où d est le nombre de paramètres du modèles (nombre de variables plus un)),n le nombre d’observations, σ2 une estimation de la variance de l’erreur parun modèle de faible biais. Ce dernier point est fondamental pour la qualité ducritère, il revient à supposer que le modèle complet (avec toutes les variables)est le “vrai” modèle ou tout du moins un modèle peu biaisé afin de conduire àune bonne estimation de σ2.

AIC, AICc, BIC

Contrairement au Cp associé à un risque quadratique, le critère d’informa-tion d’Akaïke (1974)[1] (AIC) découle d’une expression de la qualité du mo-dèle basée sur la dissemblance de Kullback. Il se présente sous une formesimilaire mais plus générale que le Cp de Mallows. Il s’applique en effet à toutmodèle estimé par maximisation d’une log-vraisemblance L et suppose que lafamille de densités considérées pour modéliser la loi de Y contient la “vraie”densité de Y .

Après quelques développements incluant de nombreuses approximations(estimation de paramètres par maximum de vraisemblance, propriétés asymp-totiques, formule de Taylor), le critère d”Akaïke se met sous la forme :

AIC = −2L+ 2d

n.

Dans le cas gaussien en supposant la variance connue, moindres carrés et dé-viance coïncident, AIC est équivalent au Cp. Ce critère possède une versionplus raffinée (AICc) dans le cas gaussien et plus particulièrement adaptée auxpetits échantillons et asymptotiquement équivalente lorsque n est grand.

AIC = −2L+n+ d

n− d− 2.

Une argumentation de type bayésien conduit à un autre critère BIC (Baye-sian Information Criterion, Schwarz, 1978[9]) qui cherche, approximative-ment (asymptotiquement), le modèle associé à la plus grande probabilitéa posteriori. Dans le cas d’un modèle issu de la maximisation d’une log-vraisemblance, il se met sous la forme :

BIC = −2L+ log(n)d

n.

On montre, dans le cas gaussien et en supposant la variance connue que BICest proportionnel à AIC avec le facteur 2 remplacé par log n. Ainsi, dès quen > e2 ≈ 7, 4, BIC tend à pénaliser plus lourdement les modèles complexes.Asymptotiquement, on montre que la probabilité pour BIC de choisir le bonmodèle tend vers 1 lorsque n tend vers l’infini. Ce n’est pas le cas d’AIC ni duCp qui tendent alors à choisir des modèles trop complexes. Néanmoins à taillefini, petite, BIC risque de se limiter à des modèles trop simples.

Quelque soit le critère adopté, il est facile de choisir le modèle présentant leplus faible AIC, AICc ou BIC parmi ceux considérés. Globalement, si l’estima-tion du modèle découle d’une maximisation de la vraisemblance, estimation etchoix de modèle reviennent à minimiser un critère de vraisemblance pénalisées’écrit sous la forme :

Crit = ψ(Vraisemblance) + Pénalisation(d)

où ψ est une fonction décroissante de la vraisemblance (− log) et la pénalisa-tion une fonction croissante de la complexité du modèle.

Les critères ci-dessus ont pour la plupart été définis dans le cadre du modèleclassique de régression multiple pour lequel il existe de nombreuses référenceset certains ont été généralisés ou adaptés à d’autres méthodes en étendant lanotion de nombre de degrés de libertés à des situations où le nombre de para-mètres du modèle n’est pas explicite (lissage ou régularisation).

Dimension de Vapnik-Chernovenkis

Cet indicateur mesure la complexité d’une famille de fonctions candidates àla définition un modèle de prévision. Cette complexité est basée sur le pouvoirséparateur de la famille de fonction.

Considérons un échantillon (x1, . . . ,xn) de Rp. Il existe 2n différentes ma-nières de séparer cet échantillon en deux sous-échantillons. Par définition,

21 07/15

Page 22: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Qualité de prévision et risque

on dit qu’un ensemble F de fonctions hache ou mieux pulvérise (shatters)l’échantillon si les 2n séparations peuvent être construites par différents re-présentants de la famille de fonction F . Ainsi, par exemple, pour p = 2, lesfonctions linéaires (droites) peuvent pulvériser 3 points mais pas 4.

DÉFINITION 23. — Un ensemble F de fonctions définies de Rp dans R est ditde VC dimension (Vapnik-Chernovenkis) h si :

• tout jeu de h vecteurs de Rp peut être pulvérisé.• Aucun ensemble de h+1 vecteurs ne peut être pulvérisé par cet ensemble

de fonctions.

Exemples• La VC dimension de l’ensemble des hyperplans dans Rp est p+ 1.• La VC dimension de l’ensemble des fonctions f(x, w) = sign(sin(w, x))

avec 0 < c < x < 1 où w est un paramètre libre, est infinie.• La VC dimension de l’ensemble des indicatrices linéaires

f(x, w) = sign

p∑j=1

(wjxj) + 1

avec ‖x‖ = 1

et satisfaisant la condition :

‖w‖2 =

p∑j=1

w2j ≤ C

dépend de la constante C et peut prendre toutes les valeurs de 0 à p.Attention, les VC dimensions ne sont pas égales au nombre de paramètreslibres et sont souvent difficiles à exprimer pour une famille de fonctions don-nées.

Vapnik (1999)[12] prouve des résultats fondamentaux pour la théorie del’apprentissage :

• Un processus d’apprentissage est consistant si et seulement si la famillede modèles considérés a une VC dimension h finie.

• La majoration de la différence entre l’erreur d’apprentissage (ou par re-substitution ou erreur apparente) et l’erreur de prévision dépend du rap-port entre la VC dimension h et la taille n de l’ensemble d’apprentissage.

• L’inégalité de Vapnik, qui s’écrit sous une forme analogue à un intervallede confiance, permet de contrôler l’erreur de prévision ou risque. Avecune probabilité 1− ρ :

RP (f(dn)) < Rn(f(d

n),dn) +

√h(log( 2nh ) + 1)− log ρ

4

n.

Il est important de souligner que cette inégalité ne fait pas intervenir lenombre de variables explicatives pmais le rapport n/h. Elle ne fait pas in-tervenir non plus la loi conjointe inconnue du couple (Y,X). Le deuxièmeterme est grand (mauvaise précision) lorsque le rapport n/h est faible dûà une trop grande VC dimension et donc une famille de modèles tropcomplexe.

En pratique, il est important de minimiser simultanément les deux termesde l’inéquation. La stratégie à adopter est le principe de minimisation structu-rée du risque (SRM) qui consiste à faire de la VC dimension h une variablecontrôlée. Ayant défini une séquence ou structure de modèles emboîtés au sensde la VC dimension :

S1 ⊂ S2 ⊂ · · · ⊂ Sk avec : h1 < h2 < · · · < hk.

Il s’agit de trouver la valeur h rendant le risque minimum et donc fournissantle meilleur compromis entre les deux termes de l’inégalité de Vapnik.

La complexité de la famille des modèles peut être contrôlée par différentsparamètres de la technique d’apprentissage considérée : le nombre de neuronesd’une couche dans un perceptron, le degré d’un polynôme, la contrainte sur lesparamètres comme en régression ridge, une largeur de fenêtre ou paramètre delissage...

3.3 Estimation par simulation

Validation croisée

La validation croisée est d’un principe simple, efficace et largement utiliséepour estimer une erreur moyennant un surplus de calcul. L’idée est d’itérer l’es-timation de l’erreur sur plusieurs échantillons de validation puis d’en calculerla moyenne. C’est indispensable pour réduire la variance et ainsi améliorer laprécision lorsque la taille de l’échantillon initial est trop réduite pour en ex-traire des échantillons de validation et test de taille suffisante.

22 07/15

Page 23: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Qualité de prévision et risque

ALGORITHME 1 :1: Découper aléatoirement l’échantillon en K parts (K-fold) de tailles ap-

proximativement égales selon une loi uniforme ;2: for k=1 à K do3: mettre de côté l’une des partie,4: estimer le modèle sur les K − 1 parties restantes,5: calculer l’erreur sur chacune des observations qui n’ont pas participé

à l’estimation6: end for7: moyenner toutes ces erreurs pour aboutir à l’estimation par validation

croisée.

Plus précisément, soit τ : 1, . . . , n 7→ 1, . . . ,K la fonction d’indexa-tion qui,pour chaque observation, donne l’attribution uniformément aléatoirede sa classe. L’estimation par validation croisée de l’erreur de prévision est :

RCV =1

n

n∑i=1

l(yi, f(−τ(i))(xi))

où f (−k) désigne l’estimation de f sans prendre en compte la kième partie del’échantillon.

Le choix de k entre 5 et 15, est couramment K = 10 par défaut dans leslogiciels Splus, R. Historiquement, la validation croisée a été introduite avecK = n (leave-one-out or “loo” cross validation) en régression linéaire. Cedernier choix n’est possible que pour n relativement petit à cause du volumedes calculs nécessaires. D’autre part, l’estimation de l’erreur présente alors unevariance importante car comme chaque couple de modèle partagent (n − 2)observations, ceux-ci peuvent être très similaires donc très dépendants ; cettedépendance accroît la variance. Intuitivement, cela revient à construire un “de-sign” pas du tout optimal en planification expérimentale. En revanche, si Kest petit (i.e. K = 5), la variance sera plus faible mais le biais (pessimiste)devient un problème dépendant de la façon dont la qualité de l’estimation sedégrade avec la taille de l’échantillon. L’optimisation de k qui correspond doncencore à un meilleur équilibre entre biais et variance, nécessite généralementtrop d’observations pour être pratiquée ; d’où le choix par défaut.

Minimiser l’erreur estimée par validation croisée est une approche large-ment utilisée pour optimiser le choix d’un modèle au sein d’une famille para-métrée. f est défini par θ = argminθ RCV(θ).

Validation croisée généralisée (GCV)

La validation croisée peut se trouver excessivement chronophage. Dans denombreux cas de régression, les valeurs ajustées sont fonction linéaire des ob-servations : y = Hy avec H = (hi,j)n×n la “hat-matrix”. En régressionlinéaire multiple, H = X(X′X)−1X′ et des formes similaires sont trou-vées pour la régression spline ou la régression par noyau, la ridge ou encore larégression LASSO. Pour de tels estimateurs linéaires, l’estimation leave-one-out de l’erreur quadratique par validation croisée (PRESS) s’écrit :

1

n

n∑i=1

[yi − f (−i)(xi)

]2=

1

n

n∑i=1

[yi − f(xi)1− hii

]2.

Une seule estimation de f est requise mais le calcul de la diagonale de Hpeut être coûteux lorsque n ou p sont grands. Craven et Wahba (1979)[4] ontproposé, initialement dans le cas du lissage spline pour l’optimisation du para-mètre de lissage, une approximation en approchant tous les hii par tr(H)/n.

Bootstrap

Cette section plus technique décrit des outils encore peu présents dans leslogiciels commerciaux, elle peut être sautée en première lecture.

L’idée, d’approcher par simulation (Monte Carlo) la distribution d’un es-timateur lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent,lorsque l’on ne peut pas supposer qu’elle est gaussienne, est l’objectif mêmedu bootstrap (Efron, 1982) [6].

Le principe fondamental de cette technique de ré-échantillonnage est de sub-stituer, à la distribution de probabilité inconnue F , dont est issu l’échantillond’apprentissage, la distribution empirique Fn qui donne un poids 1/n à chaqueréalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrapselon la distribution empirique Fn par n tirages aléatoires avec remise parmiles n observations initiales.

Il est facile de construire un grand nombre d’échantillons bootstrap (i.e.

23 07/15

Page 24: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Qualité de prévision et risque

B = 100) sur lesquels calculer l’estimateur concerné. La loi simulée de cetestimateur est une approximation asymptotiquement convergente sous des hy-pothèses raisonnables 1 de la loi de l’estimateur. Cette approximation fournitainsi des estimations du biais, de la variance, donc d’un risque quadratique, etmême des intervalles de confiance (avec B beaucoup plus grand) de l’estima-teur sans hypothèse (normalité) sur la vraie loi. Les grands principes de cetteapproche sont rappelés dans l’annexe sur le bootstrap.

Estimateur naïfSoit z∗ un échantillon bootstrap des données tiré selon la loi empirique F

associée à l’échantillon d’apprentissage dn

z∗ = (x∗1, y∗1), . . . , (x∗n, y∗n).

L’estimateur plug-in de l’erreur de prévision RP (f(dn)) est donné par :

Rn(fz∗ ,dn) =

1

n

n∑i=1

l(yi, fz∗(xi))

où fz∗ désigne l’estimation de f à partir de l’échantillon bootstrap.Il conduit à l’estimation bootstrap de l’erreur moyenne de prévisionEDn∼P⊗n [RP (f(D

n)] par

RBoot = EZ∗∼F [Rn(fZ∗ ,dn)] = EZ∗∼F

[1

n

n∑i=1

l(yi, fZ∗(xi))

].

Cette estimation est approchée par simulation :

RBoot =1

B

B∑b=1

1

n

n∑i=1

l(yi, fz∗b(xi)).

L’estimation ainsi construite de l’erreur de prévision est généralement biaiséepar optimisme car, au gré des simulations, les mêmes observations (xi, yi)apparaissent à la fois dans l’estimation du modèle et dans celle de l’erreur.D’autres approches visent à corriger ce biais.

1. Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations.

Estimateur out-of-bagLa première s’inspire simplement de la validation croisée. Elle considère

d’une part les observations tirées dans l’échantillon bootstrap et, d’autre part,celles qui sont laissées de côté pour l’estimation du modèle mais retenue pourl’estimation de l’erreur.

Roob =1

n

n∑i=1

1

Bi

∑b∈Ki

l(yi, fz∗b(xi))

où Ki est l’ensemble des indices b des échantillons bootstrap ne contenant pasla ième observation à l’issue des B simulations et Bi = |Ki| le nombre de ceséchantillons ; B doit être suffisamment grand pour que toute observation n’aitpas été tirée au moins une fois ou bien les termes avec Ki = 0 sont supprimés.

L’estimation Roob résout le problème d’un biais optimiste auquel estconfrontée RBoot mais n’échappe pas au biais introduit pas la réduction telqu’il est signalé pour l’estimation pas validation croisée RCV. C’est ce qui aconduit Efron et Tibshirani (1997) [7] a proposer des correctifs.

Estimateur .632-bootstrapLa probabilité qu’une observation soit tirée dans un échantillon bootstrap

estP [xi ∈ x∗b] = 1− (1− 1

n)n ≈ 1− 1

e≈ 0, 632.

Très approximativement, la dégradation de l’estimation provoquée par lebootstrap et donc la surévaluation de l’erreur sont analogues à celle de la va-lidation croisée avec K = 2. À la suite d’un raisonnement trop long pourêtre reproduit ici, Efron et Tibshirani (1997) proposent de compenser excèsd’optimisme du taux apparent d’erreur et excès de pessimisme du bootstrapout-of-bag par une combinaison :

R.632 = 0, 368× Rn(f(dn),dn) + 0, 632× Roob.

3.3.1 Remarques

• Toutes les estimations du risque empirique considérées (pénalisation, va-lidation croisée, bootstrap) sont asymptotiquement équivalentes et il n’est

24 07/15

Page 25: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Qualité de prévision et risque

pas possible de savoir laquelle concrètement sera, à n fini, la plus précise.Une large part d’arbitraire ou d’"expérience" préside donc le choix d’uneestimation plutôt qu’une autre.

• Conceptuellement, le bootstrap est plus compliqué et pratiquement encorepeu utilisé. Néanmoins, cet outil joue un rôle central dans les algorithmesrécents de combinaison de modèles en association avec une estimationout-of-bag de l’erreur. Il ne peut être négligé.

• L’estimateur .632-bootstrap pose des problèmes en situation de sur-ajustement aussi les mêmes auteurs ont proposé un rectificatif complé-mentaire noté .632+bootstrap.

• Comme le signale Vapnik, la résolution d’un problème de modélisation :régression ou discrimination à fin prédictive doit, dans la mesure du pos-sible, d’éviter de se ramener à un problème finalement beaucoup pluscomplexe comme celui de l’estimation d’une densité multidimension-nelle. C’est ainsi typiquement le cas en analyse discriminante non pa-ramétrique.

Ce qu’il faut retenir en conclusion, c’est que l’estimation d’une erreur de pré-vision est une opération délicate aux conséquences importantes. Il est doncnécessaire

• d’utiliser le même estimateur pour comparer l’efficacité de deux mé-thodes,

• de se montrer très prudent, en dehors de tout système d’hypothèses pro-babilistes, sur le caractère absolu d’une estimation dans l’objectif d’unecertification.

Dans ces deux dernières situations, le recours à un échantillon test de bonnetaille est difficilement contournable alors qu’en situation de choix de modèleau sein d’une même famille, un estimateur (petit échantillon de validation,validation croisée) plus économique est adapté en supposant implicitement quele biais induit est identique d’un modèle à l’autre.

3.4 Discrimination et courbe ROC

Dans une situation de discrimination le seul critère de risque comme le tauxd’erreur de classement n’est pas toujours bien adapté surtout, par exemple,dans le cadre de classes déséquilibrées : un modèle trivial qui ne prédit jamaisune classe peu représentée ne commet pas un taux d’erreur supérieur au pour-centage de cette classe. Cette situation est souvent délicate à gérer et nécessite

une pondérations des observations ou encore l’introduction de coûts de mau-vais classement dissymétriques afin de forcer le modèle à prendre en compteune petite classe.

Discrimination à deux classes

Dans le cas du problème le plus élémentaire à deux classes, d’autres critèressont proposés afin d’évaluer plus précisément une qualité de discrimination. Laplupart des méthodes vues (régression logistique), ou à venir dans les chapitrequi suivent, évaluent, pour chaque individu i, un score ou une probabilité πique cette individu prenne la modalité Y = 1 (ou succès, ou possession d’unactif, ou présence d’une maladie...). Cette probabilité ou ce score compris entre0 et 1 est comparé avec une valeur seuil s fixée a priori (en général 0, 5) :

Si πi > s, yi = 1 sinon yi = 0.

Pour un échantillon de taille n dont l’observation de Y est connue ainsi queles scores πi fournis par un modèle, il est alors facile de construire la matricedite de confusion croisant les modalités de la variable prédite au seuil s aveccelles de la variable observée dans une table de contingence :

Prévision Observation TotalY = 1 Y = 0

yi = 1 n11(s) n10(s) n1+(s)yi = 0 n01(s) n00(s) n0+(s)Total n+1 n+0 n

Dans une situation classique de diagnostic médical ou en marketing lesquantités suivantes sont considérées :

• Vrais positifs les n11(s) observations bien classées (yi = 1 et Y = 1),• Vrais négatifs les n00(s) observations bien classées (yi = 0 et Y = 0),• Faux négatifs les n01(s) observations mal classées (yi = 0 et Y = 1),• Faux positifs les n10(s) observations mal classées (yi = 1 et Y = 0),• Le taux d’erreur : t(s) = n01(s)+n10(s)

n ,• Le taux de vrais positifs ou sensibilité = n11(s)

n+1ou taux de positifs pour

les individus qui le sont effectivement,• Le taux de vrais négatifs ou spécificité = n00(s)

n+0ou taux de négatifs pour

les individus qui le sont effectivement,

25 07/15

Page 26: Apprentissage Statistique, Modélisation, Prévision, Data Mining

12 Qualité de prévision et risque

• Le taux de faux positifs = 1− Spécificité = 1− n00(s)n+0

= n10(s)n+0

.En revanche, en météorologie, d’autres taux sont utilisés :

• Le taux de bonnes prévisions : H = n11(s)n+1(s)

,

• Le taux de fausses alertes : F = n10(s)n+0

,• Le score de Pierce : PSS= H−F , compris entre−1 et 1, évalue la qualité

d’un modèle de prévision. Si ce score est supérieur à 0, le taux de bonnesprévisions est supérieur à celui des fausses alertes et plus il est proche de1, meilleur est le modèle.

Le score de Pierce a été conçu pour la prévision d’événements climatiquesrares afin de pénaliser les modèles ne prévoyant jamais ces événements (H =0) ou encore générant trop de fausses alertes (F = 1). Le modèle idéal pré-voyant tous les événements critiques (H = 1) sans fausse alerte (F = 0). Descoûts de mauvais classement peuvent être introduits pour pondérer ce score.

Courbe ROC et AUC

Les notions de spécificité et de sensibilité proviennent de la théorie du si-gnal ; leurs valeurs dépendent directement de celle du seuil s. En augmentants, la sensibilité diminue tandis que la spécificité augmente car la règle de déci-sion devient plus exigeante ; un bon modèle associe grande sensibilité et grandespécificité pour la détection d’un ”signal”. Ce lien est représenté graphique-ment par la courbe ROC (Receiver Operating Caracteristic) de la sensibilité(”probabilité” de détecter un vrai signal) en fonction de 1 moins la spécificité(”probabilité” de détecter un faux signal) pour chaque valeur s du seuil. Notonsque la courbe ROC est une fonction monotone croissante :

1− n00(s)

n+0< 1− n00(s

′)

n+0⇒ s < s′ ⇒ n11(s)

n+1<n11(s

′)

n+1.

La figure 1 donne un exemple de courbes ROC associée au score d’appétencede la carte visa premier. Plus la courbe se rapproche du carré, meilleure estla discrimination, correspondant à la fois à une forte sensibilité et une grandespécificité. L’aire sous la courbe : AUC (area under curve) mesure la qualité dediscrimination du modèle tandis qu’une analyse de la courbe aide au choix duseuil. Ainsi, dans l’exemple considéré, un seuil de 0, 6 ne pénalise pas énor-mément le nombre de vrais positifs écartés tout en économisant des envoispublicitaires (faux positifs) par rapport à un seuil de 0, 5.

FIGURE 1 – Données bancaires : Courbes ROC estimées sur l’échantillon testpour différentes méthodes de prévision ou de score d’appétence

26 07/15

Page 27: Apprentissage Statistique, Modélisation, Prévision, Data Mining

13 Qualité de prévision et risque

L’aire sous la courbe est calculée en considérant toutes les paires (i, i′) for-mées d’un premier individu avec yi = 1 et d’un second avec yi′ = 0. Une paireest dite concordante si πi > πi′ ; discordante sinon. Le nombre d’ex œquo estn+0n+1−nc−nd où nc est le nombre de paires concordantes et nd le nombrede paires discordantes. Alors,

AUC =nc + 0, 5(n+0n+1 − nc − nd)

n+0n+1.

On montre par ailleurs (voir par exemple Tenenhaus 2007) que le numé-rateur de cette expression est encore la Statistique de test de Mann-Whitneytandis que le coefficient de Gini, qui est le double de la surface entre la diago-nale et la courbe, vaut 2AUC− 1.

Attention, pour comparer des modèles ou méthodes de complexités diffé-rentes, ces courbes doivent être estimées sur un échantillon test. Elles sontbien évidemment optimistes sur l’échantillon d’apprentissage. De plus, l’AUCne donne pas un ordre total pour classer des modèles car les courbes ROCpeuvent se croiser.

Références[1] H. Akaïke, A new look at the statistical model identification, IEEE Tran-

sactions on Automatic Control 19 (1974).

[2] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and re-gression trees, Wadsworth & Brooks, 1984.

[3] T. M. Cover et P. E. Hart, Nearest neighbor pattern classification, IEEETrans. Inform. Theory 13 (1967), 21–27.

[4] P Craven et G. Wahba, Smoothing Noisy Data with Spline Functions,Technometrics 21 (1979), 215–223.

[5] L. P. Deveroye et T.J. Wagner, Distribution-Free Consistency Results inDiscrimination and Regression Function Estimation, Annals of Statistics8 (1980), 231–239.

[6] B. Efron, The Jackknife, the Bootstrap and other Resampling Methods,SIAM, 1982.

[7] B. Efron et R. Tibshirani, Improvements on Cross-Validation : The .632+Bootstrap Method, Journal of the American Statistical Association 92(1997), no 438, 548–560.

[8] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661–675.

[9] G. Schwarz, Estimating the dimension of a model, Annals of Statistics 6(1978), 461–464.

[10] C. Spiegelman et J. Sacks, Consistent Window Estimation in Nonpara-metric Regression, Annals of Statististics 8 (1980), 240–246.

[11] M. Stone, An Asymptotic Equivalence of Choice of Model by Cross-Validation and Akaike’s Criterion, Journal of The Royal Statistical So-ciety B 39 (1977), 44–47.

[12] V.N. Vapnik, Statistical learning theory, Wiley Inter science, 1999.

27 07/15

Page 28: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Sélection de modèle dans le cas gaussien

Sélection de modèle dans le casgaussien

RésuméLe modèle linéaire gaussien ou régression multiple est considérépour l’objectif de la prévision d’une variable quantitative par unensemble de variables quantitatives ou quantitatives et qualitatives(analyse de covariance). Recherche d’un modèle parcimonieux assu-rant un bon équilibre entre la qualité de l’ajustement et la variancedes paramètres afin de minimiser le risque empirique. Algorithmes(backward, forward, stepwise...) de sélection de modèle par sélectionde variables et minimisation de critères pénalisés (Cp, AIC, BIC).Algorithmes de sélection de modèle par pénalisation (ridge, lasso,elastic net).Retour au plan du cours

1 Régression multiple

1.1 Modèle

Le modèle de régression linéaire multiple est l’outil statistique le plus ha-bituellement mis en œuvre pour l’étude de données multidimensionnelles. Casparticulier de modèle linéaire, il constitue la généralisation naturelle de la ré-gression simple.

Une variable quantitative Y dite à expliquer (ou encore, réponse, exogène,dépendante) est mise en relation avec p variables quantitatives X1, . . . ,Xp

dites explicatives (ou encore de contrôle, endogènes, indépendantes, régres-seurs).

Les données sont supposées provenir de l’observation d’un échantillon sta-tistique de taille n (n > p+ 1) de R(p+1) :

(x1i , . . . , xji , . . . , x

pi , yi) i = 1, . . . , n.

L’écriture du modèle linéaire dans cette situation conduit à supposer

que l’espérance de Y appartient au sous-espace de Rn engendré par1,X1, . . . ,Xp où 1 désigne le vecteur de Rn constitué de “1” . C’est-à-dire que les (p+ 1) variables aléatoires vérifient :

Yi = β0 + β1X1i + β2X

2i + · · ·+ βpX

pi + εi i = 1, 2, . . . , n

avec les hypothèses suivantes :

1. Les εi sont des termes d’erreur indépendants et identiquement distribués ;E(εi) = 0, V ar(ε) = σ2I.

2. Les termes Xj sont supposés déterministes (facteurs contrôlés) ou bienl’erreur ε est indépendante de la distribution conjointe de X1, . . . ,Xp.On écrit dans ce dernier cas que :

E(Y|X1, . . . ,Xp) = β0+β1X1+β2X

2+· · ·+βpXp et V ar(Y|X1, . . . ,Xp) = σ2.

3. Les paramètres inconnus β0, . . . , βp sont supposés constants.

4. En option, pour l’étude spécifique des lois des estimateurs, une quatrièmehypothèse considère la normalité de la variable d’erreur ε (N (0, σ2I)).Les εi sont alors i.i.d. de loi N (0, σ2).

Les données sont rangées dans une matrice X(n × (p + 1)) de terme gé-néral Xj

i , dont la première colonne contient le vecteur 1 (Xi0 = 1), et dans

un vecteur Y de terme général Yi. En notant les vecteurs ε = [ε1 · · · εp]′ etβ = [β0β1 · · ·βp]′, le modèle s’écrit matriciellement :

Y = Xβ + ε.

1.2 Estimation

Conditionnellement à la connaissance des valeurs des Xj , les paramètresinconnus du modèle : le vecteur β et σ2 (paramètre de nuisance), sont esti-més par minimisation des carrés des écarts (M.C.) ou encore, en supposant(4.), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alorsles mêmes expressions, l’hypothèse de normalité et l’utilisation de la vraisem-blance conférant à ces derniers des propriétés complémentaires.

28 07/15

Page 29: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Sélection de modèle dans le cas gaussien

1.3 Estimation par M.C.

L’expression à minimiser sur β ∈ Rp+1 s’écrit :

n∑i=1

(Yi − β0 − β1X1i − · · · − βpX

pi )2 = ‖Y −Xβ‖2

= (Y −Xβ)′(Y −Xβ)

= Y′Y − 2β′X′Y + β′X′Xβ.

Par dérivation matricielle de la dernière équation on obtient les “équationsnormales” :

X′Y −X′Xβ = 0

dont la solution correspond bien à un minimum car la matrice hessienne 2X′Xest semi définie-positive.

Nous faisons l’hypothèse supplémentaire que la matrice X′X est inversible,c’est-à-dire que la matrice X est de rang (p + 1) et donc qu’il n’existe pas decolinéarité entre ses colonnes. En pratique, si cette hypothèse n’est pas vérifiée,il suffit de supprimer des colonnes de X et donc des variables du modèle ouune autre approche de réduction de dimension (régression ridge, Lasso, PLS...) est à mettre en oeuvre.

Alors, l’estimation des paramètres βj est donnée par :

β = (X′X)−1X′Y

et les valeurs ajustées (ou estimées, prédites) de Y ont pour expression :

Y = Xβ = X(X′X)−1

X′Y = HY

où H = X(X′X)−1

X′ est appelée “hat matrix” ; elle met un chapeau à Y.Géométriquement, c’est la matrice de projection orthogonale dans Rn sur lesous-espace Vect(X) engendré par les vecteurs colonnes de X.

On notee = Y − Y = Y −Xβ = (I−H)Y

le vecteur des résidus ; c’est la projection de Y sur le sous-espace orthogonalde Vect(X) dans Rn.

1.4 Propriétés

Les estimateurs des M.C. β0, β1, . . . , βp sont des estimateurs sans biais :E(β) = β, et, parmi les estimateurs sans biais fonctions linéaires des Yi,ils sont de variance minimum (théorème de Gauss-Markov) ; ils sont donc“BLUE” : best linear unbiaised estimators. Sous hypothèse de normalité, lesestimateurs du M.V. sont uniformément meilleurs (efficaces) et coïncident avecceux des M.C.

On montre que la matrice de covariance des estimateurs se met sous la forme

E[(β − β)(β − β)′] = σ2(X′X)−1,

celle des prédicteurs est

E[(Y −Xβ)(Y −Xβ)′] = σ2H

et celle des estimateurs des résidus est

E[ee′] = σ2(I−H)

tandis qu’un estimateur sans biais de σ2 est fourni par :

σ2 =‖e‖2

n− p− 1=‖Y −Xβ‖2

n− p− 1=

SSEn− p− 1

.

Ainsi, les termes σ2hii sont des estimations des variances des prédicteurs Yi.

La conséquence immédiate importante est que si la matrice X′X est malconditionnée (déterminant proche de 0), son inversion fait apparaître destermes très élevés sur la diagonale et conduit donc à des variances très im-portantes des estimations des paramètres.

1.5 Sommes des carrés

SSE est la somme des carrés des résidus (sum of squared errors),

SSE =∥∥∥Y − Y

∥∥∥2 = ‖e‖2 .

On définit également la somme totale des carrés (total sum of squares) par

SST =∥∥Y −Y1

∥∥2 = Y′Y − nY2

29 07/15

Page 30: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Sélection de modèle dans le cas gaussien

et la somme des carrés de la régression (regression sum of squares) par

SSR =∥∥∥Y −Y1

∥∥∥2 = Y′Y − nY2= Y′HY − nY2

= β′X′Y − nY2

.

On vérifie alors : SST = SSR + SSE.

1.6 Coefficient de détermination

On appelle coefficient de détermination le rapport

R2 =SSRSST

qui est donc la part de variation de Y expliquée par le modèle de régression.Géométriquement, c’est un rapport de carrés de longueur de deux vecteurs.C’est donc le cosinus carré de l’angle entre ces vecteurs : Y et sa projection Ysur Vect(X).

Attention, dans le cas extrême où n = (p + 1), c’est-à-dire si le nombre devariables explicatives est grand comparativement au nombre d’observations,R2 = 1. Ou encore, il est géométriquement facile de voir que l’ajout de va-riables explicatives ne peut que faire croître le coefficient de détermination.

La quantité R est appelée coefficient de corrélation multiple entre Y et lesvariables explicatives, c’est le coefficient de corrélation usuel entre Y et saprévision Y.

1.7 Inférence dans le cas gaussien

En principe, l’hypothèse optionnelle (4.) de normalité des erreurs est néces-saire pour cette section. En pratique, des résultats asymptotiques, donc validespour de grands échantillons, ainsi que des études de simulation, montrent quecette hypothèse n’est pas celle dont la violation est la plus pénalisante pour lafiabilité des modèles.

Inférence sur les coefficients

Pour chaque coefficient βj on note σ2j l’estimateur de la variance de βj

obtenu en prenant j-ème terme diagonal de la matrice σ2(X′X)−1. On montreque la statistique

βj − βjσj

suit une loi de Student à (n − p − 1) degrés de liberté. Cette statistique estdonc utilisée pour tester une hypothèse H0 : βj = a ou pour construire unintervalle de confiance de niveau 100(1− α)% :

βj ± tα/2;(n−p−1)σ2j .

Attention, cette statistique concerne un coefficient et ne permet pas d’inférerconjointement (cf. §3.4) sur d’autres coefficients car ils sont corrélés entre eux ;de plus elle dépend des absences ou présences des autres variablesXk dans lemodèle. Par exemple, dans le cas particulier de deux variables X1 et X2 trèscorrélées, chaque variable, en l’absence de l’autre, peut apparaître avec un co-efficient significativement différent de 0 ; mais, si les deux sont présentes dansle modèle, elles peuvent chacune apparaître avec des coefficients insignifiants.

De façon plus générale, si c désigne un vecteur non nul de (p+1) constantesréelles, il est possible de tester la valeur d’une combinaison linéaire c′β desparamètres en considérant l’hypothèse nulle H0 : c′β = a ; a connu. SousH0, la statistique

c′β − a(σ2c′(X′X)

−1c)1/2

suit une loi de Student à (n− p− 1) degrés de liberté.

Inférence sur le modèle

Le modèle peut être testé globalement. Sous l’hypothèse nulle H0 : β1 =β2 = . . . = βp = 0, la statistique

SSR/pSSE/(n− p− 1)

=MSRMSE

suit une loi de Fisher avec p et (n− p− 1) degrés de liberté. Les résultats sonthabituellement présentés dans un tableau “d’analyse de la variance” sous laforme suivante :

Source devariation d.d.l.

Somme descarrés Variance F

Régression p SSR MSR=SSR/p MSR/MSEErreur n− p− 1 SSE MSE=SSE/(n− p− 1)Total n− 1 SST

30 07/15

Page 31: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Sélection de modèle dans le cas gaussien

Inférence sur un modèle réduit

Le test précédent amène à rejeter H0 dès que l’une des variables Xj estliée à Y. Il est donc d’un intérêt limité. Il est souvent plus utile de tester unmodèle réduit c’est-à-dire dans lequel certains coefficients, à l’exception dela constante, sont nuls contre le modèle complet avec toutes les variables. Enayant éventuellement réordonné les variables, on considère l’hypothèse nulleH0 : β1 = β2 = . . . = βq = 0, q < p.

Notons respectivement SSRq , SSEq , R2q les sommes de carrés et le coef-

ficient de détermination du modèle réduit à (p − q) variables. Sous H0, lastatistique

(SSR− SSRq)/qSSE/(n− p− 1)

=(R2 −R2

q)/q

(1−R2)/(n− p− 1)

suit une loi de Fisher à q et (n− p− 1) degrés de liberté.

Dans le cas particulier où q = 1 (βj = 0), la F -statistique est alors le carréde la t-statistique de l’inférence sur un paramètre et conduit donc au mêmetest.

1.8 Prévision

Connaissant les valeurs des variables Xj pour une nouvelle observation :x′0 = [x10, x

20, . . . , x

p0] appartenant au domaine dans lequel l’hypothèse de li-

néarité reste valide, une prévision, notée y0 de Y ou E(Y) est donnée par :

y0 = β0 + β1x10 + · · ·+ βpx

p0.

Les intervalles de confiance des prévisions de Y et E(Y), pour une valeurx0 ∈ Rp et en posant v0 = (1|x′0)′ ∈ Rp+1, sont respectivement

y0 ± tα/2;(n−p−1)σ(1 + v′0(X′X)−1v0)1/2,

y0 ± tα/2;(n−p−1)σ(v′0(X′X)−1v0)1/2.

1.9 Diagnostics de colinéarité

La validité d’un modèle de régression multiple dépend de la bonne vérifica-tion des hypothèses préalables :

• homoscédasticité : variance σ2 des résidus constante,

• linéarité du modèle : paramètres βj constant,• absence de points influents : distance de Cook

Di =1

s2(p+ 1)(y − y(i))

′(y − y(i)),

• éventuellement la normalité des résidus.Ces diagnostics obtenus par l’étude des résidus du modèle sont très classiqueen régression linéaire, ils ne sont pas repris ici afin de se focaliser sur ceux liésà la possible colinéarité des variables explicatives.

En effet, l’estimation des paramètres ainsi que celle de leur écart-type (stan-dard error) nécessite le calcul explicite de la matrice (X′X)−1. Dans le cas ditmal conditionné où le déterminant de la matrice X′X n’est que légèrement dif-férent de 0, les résultats conduiront à des estimateurs de variances importantes.Il s’agit donc de diagnostiquer ces situations critiques puis d’y remédier. Dansles cas descriptif ou prédictif on supprime des variables à l’aide des procé-dures de choix de modèle mais, pour un objectif explicatif nécessitant toutesles variables, d’autres solutions doivent être envisagées : régression biaisée oupénalisée (ridge, lasso), régression sur composantes principales ou PLS.

VIF

La plupart des logiciels proposent des diagnostics de colinéarité. Le plusclassique est le facteur d’inflation de la variance (VIF)

Vj =1

1−R2j

où R2j désigne le coefficient de détermination de la régression de la variable

Xj sur les autres variables explicatives ; Rj est alors un coefficient de corré-lation multiple, c’est le cosinus de l’angle dans Rn entreXj et le sous-espacevectoriel engendré par les variables X1, . . . ,Xj−1,Xj+1, . . . ,Xp. PlusXj est “linéairement” proche de ces variables et plus Rj est proche de 1 ;on montre alors que la variance de l’estimateur de βj est d’autant plus éle-vée. Évidemment, cette variance est minimum lorsque Xj est orthogonal ausous-espace engendré par les autres variables.

31 07/15

Page 32: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Sélection de modèle dans le cas gaussien

Conditionnement

De façon classique, les qualités numériques de l’inversion d’une matricesont quantifiées par son indice de conditionnement. On note λ1, . . . , λp les va-leurs propres de la matrice des corrélations R rangées par ordre décroissant. Ledéterminant de R est égal au produit des valeurs propres. Ainsi, des problèmesnumériques, ou de variances excessives apparaissent dès que les dernières va-leurs propres sont relativement trop petites. L’indice de conditionnement est lerapport

κ = λ1/λp

de la plus grande sur la plus petite valeur propre.

En pratique, si κ < 100 on considère qu’il n’y a pas de problème. Celui-cidevient sévère pour κ > 1000. Cet indice de conditionnement donne un aperçuglobal des problèmes de colinéarité tandis que les VIF, les tolérances ou encorel’étude des vecteurs propres associés au plus petites valeurs propres permettentd’identifier les variables les plus problématiques.

1.10 Exemple

Les données sont extraites de Jobson (1991)[3] et décrivent les résultatscomptables de 40 entreprises du Royaume Uni.

RETCAP Return on capital employedWCFTDT Ratio of working capital flow to total debtLOGSALE Log to base 10 of total salesLOGASST Log to base 10 of total assetsCURRAT Current ratioQUIKRAT Quick ratioNFATAST Ratio of net fixed assets to total assetsFATTOT Gross sixed assets to total assetsPAYOUT Payout ratioWCFTCL Ratio of working capital flow to total current liabilitiesGEARRAT Gearing ratio (debt-equity ratio)CAPINT Capital intensity (ratio of total sales to total assets)INVTAST Ratio of total inventories to total assets

Modèle complet

La procédure SAS/REG fournit les résultats classiques de la régression mul-tiple.

Analysis of VarianceSum of Mean

Source DF Squares Square F Value Prob>F(1)

Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)Error 27 0.14951 (3) 0.00554 (6)C Total 39 0.70820 (4)

Root MSE 0.07441 (9) R-square 0.7889 (12)Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13)C.V. 52.12940 (11)

(1) degrés de liberté de la loi de Fisher du test global(2) SSR(3) SSE ou déviance(4) SST=SSE+SSR(5) SSR/DF(6) MSE=SSE/DF est l’estimation de σ2

(7) Statistique F du test de Fisher du modèle global(8) P (fp;n−p−1 > F ) ; H0 est rejetée au niveau α si P < α(9) s =racine de MSE(10) moyenne empirique de la variable à expliquée(11) Coefficient de variation 100× (9)/(10)(12) Coefficient de détermination R2

(13) Coefficient de détermination ajusté R′2

Parameter EstimatesParameter Standard T for H0: Variance

Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation(1) (2) (3) (4) (5) (6)

INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805...

(1) estimations des paramètres (βj)(2) écarts-types de ces estimations σj

(3) statistique T du test de Student de H0 : βj = 0(4) P (tn−p−1 > T ) ; H0 est rejetée au niveau α si P < α(5) 1−R2

(j)

(6) VIF=1/(1−R2(j))

Ces résultats soulignent les problèmes de colinéarités. De grands “VIF” (fac-

32 07/15

Page 33: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Sélection de modèle dans le cas gaussien

teurs d’inflation de la variance) sont associés à de grands écart-types des esti-mations des paramètres. D’autre part les nombreux tests de Student non signifi-catifs montrent que trop de variables sont présentes dans le modèle. Cette idéeest renforcée par le calcul de l’indice de conditionnement : 8.76623/0.00125.

2 Analyse de covarianceL’analyse de covariance se situe encore dans le cadre général du modèle li-

néaire et où une variable quantitative est expliquée par plusieurs variables à lafois quantitatives et qualitatives. Dans les cas les plus complexes, on peut avoirplusieurs facteurs (variables qualitatives) avec une structure croisée ou hiérar-chique ainsi que plusieurs variables quantitatives intervenant de manière li-néaire ou polynomiale. Le principe général, dans un but explicatif ou décision-nel, est toujours d’estimer des modèles “intra-groupes” et de faire apparaître(tester) des effets différentiels “inter-groupes” des paramètres des régressions.Ainsi, dans le cas plus simple où seulement une variable parmi les explicativesest quantitative, nous sommes amenés à tester l’hétérogénéité des constanteset celle des pentes (interaction) entre différents modèles de régression linéaire.

Ce type de modèle permet donc, toujours avec un objectif prédictif, de s’in-téresser à la modélisation d’une variable quantitative par un ensemble de va-riables explicatives à la fois quantitatives et qualitatives. La possible prise encompte d’interactions complique singulièrement la procédure de sélection devariables.

2.1 Modèle

Le modèle est explicité dans le cas élémentaire où une variable quantitativeY est expliquée par une variable qualitative T à J niveaux et une variablequantitative, appelée encore covariable, X . Pour chaque niveau j de T , onobserve nj valeurs X1j , . . . , Xnjj de X et nj valeurs Y1j , . . . , Ynjj de Y ;n =

∑Jj=1 nj est la taille de l’échantillon.

En pratique, avant de lancer une procédure de modélisation et tests, unedémarche exploratoire s’appuyant sur une représentation en couleur (une parmodalité j de T) du nuage de points croisant Y etX et associant les droites derégression permet de se faire une idée sur les effets respectifs des variables :parallélisme des droites, étirement, imbrication des sous-nuages.

On suppose que les moyennes conditionnelles E[Y|T ], c’est-à-dire calcu-lées à l’intérieur de chaque cellule, sont dans le sous-espace vectoriel engendrépar les variables explicatives quantitatives, iciX . Ceci s’écrit :

Yij = β0j + β1jXij + εij ; j = 1, . . . , J ; i = 1, · · · , nj

où les εij sont i.i.d. suivant une loi centrée de variance σ2 qui sera supposéeN (0, σ2) pour la construction des tests.

Notons Y le vecteur des observations [Yij |i = 1, nj ; j = 1, J ]′ mis encolonne, x le vecteur [Xij |i = 1, nj ; j = 1, J ]′, ε = [εij |i = 1, nj ; j = 1, J ]′

le vecteur des erreurs, 1j les variables indicatrices des niveaux et 1 la colonnede 1s. On note encore x.1j le produit terme à terme des deux vecteurs, c’est-à-dire le vecteur contenant les observations de x sur les individus prenant leniveau j de T et des zéros ailleurs.

La résolution simultanée des J modèles de régression est alors obtenue enconsidérant globalement le modèle :

Y = Xβ + ε

dans lequel X est la matrice n × 2J constituée des blocs [1j |X.1j ] ; j =1, . . . , J . L’estimation de ce modèle global conduit, par bloc, à estimer lesmodèles de régression dans chacune des cellules.

Comme pour l’analyse de variance, les logiciels opèrent une reparamétri-sation faisant apparaître des effets différentiels par rapport au dernier niveau(SAS/GLM, SAS/INSIGHT) ou par rapport à un effet moyen (Systat), afind’obtenir directement les bonnes hypothèses dans les tests. Ainsi, dans le pre-mier cas, on considère la matrice de même rang (sans la Jème indicatrice)

X = [1|X|11| · · · |1J−1|x.11| · · · |x.1J−1]

associée aux modèles :

Yij = β0J + (β0j − β0J) + β1JXij + (β1j − β1J)Xij + εij ;

j = 1, . . . , J − 1; i = 1, . . . , nj .

33 07/15

Page 34: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Sélection de modèle dans le cas gaussien

2.2 Tests

Différentes hypothèses sont alors testées en comparant le modèle complet

Y = β0J1 + (β01 − β0J)11 + · · ·+ (β0J−1 − β0J)1J−1 + β1Jx +

+ (β11 − β1J)x.11 + · · ·+ (β1J−1 − β1J)x.1J−1 + ε

à chacun des modèles réduits :

(i) Y = β0J1 + (β01 − β0J)11 + · · ·+ (β0J−1 − β0J)1J−1 + β1Jx + ε

(ii) Y = β0J1 + (β01 − β0J)11 + · · ·+ (β0J−1 − β0J)1J−1 + ε

(iii) Y = β0J1 + β1Jx + (β1j − β1J)x.11 + · · ·++(β1J−1 − β1J)x.1J−1 + ε

(iv) Y = β0J1 + ε

par un test de Fisher. Ceci revient à considérer les hypothèses suivantes :• Hi

0 : pas d’interaction entre variables X et T, β11 = · · · = β1J , les droitespartagent la même pente β1J .

• Hii0 : β11 = · · · = β1J=0 (pas d’effet de x)

• Hiii0 :β01 = · · · = β0J , les droites partagent la même constante à l’origine

β0J .• Hiv

0 les variables X et T n’ont aucun effet sur Y.On commence donc par évaluer i, si le test n’est pas significatif, on regarde ii

qui, s’il n’est pas non plus significatif, conduit à l’absence d’effet de la variableX . De même, toujours si i n’est pas significatif, on s’intéresse à iii pour jugerde l’effet du facteur T .

3 Choix de modèle par sélection de variables

3.1 Introduction

De façon un peu schématique, on peut associer la pratique de la modélisa-tion statistique à trois objectifs qui peuvent éventuellement être poursuivis encomplémentarité.

Descriptif : Il vise à rechercher de façon exploratoire les liaisons entre Yet d’autres variables, potentiellement explicatives, Xj qui peuvent êtrenombreuses afin, par exemple d’en sélectionner un sous-ensemble. À

cette stratégie, à laquelle peuvent contribuer des Analyses en Compo-santes Principales, correspond des algorithmes de recherche (pas à pas)moins performants mais économiques en temps de calcul si p est grand.Attention, si n est petit, et la recherche suffisamment longue avec beau-coup de variables explicatives, il sera toujours possible de trouver un“bon” modèle expliquant y ; c’est l’effet data mining dans les modèleséconométriques appelé maintenant data snooping.

Explicatif : Le deuxième objectif est sous-tendu par une connaissance apriori du domaine concerné et dont des résultats théoriques peuvent vou-loir être confirmés, infirmés ou précisés par l’estimation des paramètres.Dans ce cas, les résultats inférentiels précédents permettent de construirele bon test conduisant à la prise de décision recherchée. Utilisées hors dece contexte, les statistiques de test n’ont plus alors qu’une valeur indica-tive au même titre que d’autres critères plus empiriques.

Prédictif : Dans le troisième cas, l’accent est mis sur la qualité des esti-mateurs et des prédicteurs qui doivent, par exemple, minimiser une er-reur quadratique moyenne. C’est la situation rencontrée en apprentissage.Ceci conduit à rechercher des modèles parcimonieux c’est-à-dire avec unnombre volontairement restreint de variables explicatives. Le “meilleur”modèle ainsi obtenu peut donner des estimateurs légèrement biaisés auprofit d’un compromis pour une variance plus faible. Un bon modèle n’estdonc plus celui qui explique le mieux les données au sens d’une déviance(SSE) minimale (ou d’un R2 max) au prix d’un nombre important de va-riables pouvant introduire des colinéarités. Le bon modèle est celui quiconduit aux prévisions les plus fiables.

Certes, le théorème de Gauss-Markov indique que, parmi les estimateurssans biais, celui des moindres carrés est de variance minimum. Néanmoins,il peut être important de préférer un estimateur légèrement biaisé si le gainen variance est lui plus significatif. C’est tout le problème de trouver un bonéquilibre entre biais et variance afin de minimiser un risque quadratique deprévision. Nous allons illustrer ceci par un exemple très simple (mais pédago-gique) en régression polynomiale : on représente ci-dessous un jeu de donnéespour lesquelles Yi = f(xi) + εi, i = 1, . . . , n et xi ∈ [0, 1]. On ajuste despolynômes de degrés croissants sur ces données, le critère R2 augmente pouratteindre la valeur 1 pour le polynôme qui passe par toutes les observations.L’ajustement du modèle mesuré par la R2 croît logiquement avec le nombre

34 07/15

Page 35: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Sélection de modèle dans le cas gaussien

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

2

x

y

Régression linéaire simple

0.0 0.2 0.4 0.6 0.8 1.0

01

2

x

y

Polynôme de degré 2

FIGURE 1 – A gauche : y = β0 + β1x + ε, R2 = 0.03, A droite : y =β0 + β1x+ β2x

2 + ε, R2 = 0.73.

de paramètres.

Le R2 ne peut-être un “bon” critère de sélection de modèles ; il ne peutservir qu’à comparer des modèles de même dimension car sinon conduit àsélectionner le modèle le plus complexe, c’est-à-dire celui correspond au plusgrand espace de projection, et conduit donc au sur-ajustement.

Il y a principalement deux façons de “biaiser” un modèle dans le but derestreindre la variance :

• en réduisant le nombre de variables explicatives et donc en simplifiant lemodèle (sélection ou pénalisation lasso),

• en contraignant les paramètres du modèle, en les rétrécissant (schrinkage),en régression ridge qui opère une régularisation.

Commençons par décrire les procédures de sélection.

3.2 Etude du risque quadratique

On se place ici sur Y = Rn, muni de la norme euclidienne. On écrit lemodèle sous la forme :

Y = µ+ ε,

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Polynôme de degré 5

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Polynôme de degré 10

FIGURE 2 – A gauche : y = β0+β1x+ . . .+β5x5+ε,R2 = 0.874,

A droite : y = β0 + β1x+ . . .+ β10x10 + ε, R2 = 1.

avec Y = (Y1, . . . , Yn)′, µ = (f(X1), . . . , f(Xn))′ et ε = (ε1, . . . , εn)′.Le risque quadratique moyen de l’estimateur µ = Xβ de µ est :

R(µ) = EY′,Y[‖Y′ − µ‖2],

où Y′ est un vecteur de Rn indépendant de Y et de même loi que Y. On aalors, en utilisant le théorème de Cochran,

R(µ) = nσ2 + pσ2 + ‖µ−ΠV (µ)‖2.

‖µ − ΠV (µ)‖2 représente le terme de biais, il décroit lorsque l’espace Vcroit (au sens de l’inclusion), pσ2 représente la variance de l’estimateur :E[‖µ−E(µ)‖2] et croit avec la dimension de V , nσ2 correspond au risque del’oracle µ.

3.3 Critères de sélection de variables

De nombreux critères de choix de modèle sont présentés dans la littératuresur la régression linéaire multiple. Citons le critère d’information d’Akaïke

35 07/15

Page 36: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Sélection de modèle dans le cas gaussien

(AIC), celui bayésien de Sawa (BIC). . . Ils sont équivalents lorsque le nombrede variables à sélectionner, ou niveau du modèle, est fixé. Le choix du critèreest déterminant lorsqu’il s’agit de comparer des modèles de niveaux différents.Certains critères se ramènent, dans le cas gaussien, à l’utilisation d’une expres-sion pénalisée de la fonction de vraisemblance afin de favoriser des modèlesparcimonieux. En pratique, les plus utilisés ou ceux généralement fournis parles logiciels sont les suivants.

Statistique du F de Fisher

Ce critère, justifié dans le cas explicatif car basé sur une qualité d’ajuste-ment est aussi utilisé à titre indicatif pour comparer des séquences de modèlesemboîtés. La statistique partielle de Fisher est

(SSR− SSRq)/qSSE/(n− p− 1)

=(R2 −R2

q)

(1−R2)

n− p− 1

q

dans laquelle l’indice q désigne les expressions concernant le modèle réduitavec (p − q) variables explicatives. On considère alors que si l’accroissement(R2 −R2

q) est suffisamment grand :

R2 −R2q >

q

(n− p− 1)Fα;q,(n−p−1),

l’ajout des q variables au modèle est justifié.

R2 et R2 ajusté

Le coefficient de détermination R2 = 1−SSE/SST, directement lié à la dé-viance (SSE) est aussi un indice de qualité mais qui a la propriété d’être mono-tone croissant en fonction du nombre de variables. Il ne peut donc servir qu’àcomparer deux modèles de même niveau c’est-à-dire avec le même nombre devariables.

En revanche, le R2 ajusté :

R′2

= 1− n− 1

n− p− 1(1−R2) = 1− SSE/(n− p− 1)

SST/(n− 1).

dans lequel le rapport SSE/SST est remplacé par un rapport des estimationssans biais des quantités σ2 et σ2

y introduit une pénalisation liée au nombre deparamètres à estimer.

Ce coefficient s’exprime encore par

1− (n− 1)MSESST

ainsi dans la comparaison de deux modèles partageant la même SST, on ob-serve queR′2 > R′

2j si et seulement si MSE<MSEj ; MSE et MSEj désignant

respectivement l’erreur quadratique moyenne du modèle complet et celle d’unmodèle à j variables explicatives. Maximiser le R2 ajusté revient donc à mini-miser l’erreur quadratique moyenne.

Cas des variables ordonnées

Nous avons considéré ci-dessus un modèle linéaire avec les p covariablesX(1), . . . ,X(p), mais on peut envisager d’autres estimateurs, et déterminer uncritère pour sélectionner le "meilleur" estimateur de la collection considérée.Si on sait à priori que les variables X(1), . . . ,X(p) sont classées par ordred’importance, on peut envisager, pour tout m de 1 à p, l’estimateur linéairefonction des m− 1 premières variables :X(1), . . . ,X(m−1). En notant Vm lesous-espace vectoriel de Rn engendré par ces variables et le vecteur 1 de Rn ,et µm l’estimateur associé : µm = ΠVm

(Y), on obtient

R(µm) = nσ2 +mσ2 + ‖µ−ΠVm(µ)‖2.

On cherche à déterminer, parmi la collection d’estimateurs (µm,m = 1, . . . p)un estimateur de risque minimal. Par Pythagore,

R(µm) = nσ2 +mσ2 + ‖µ‖2 − ‖ΠVm(µ)‖2.

Puisque nσ2 + ‖µ‖2 ne dépend pas du modèle considéré, minimiser R(µm)équivaut à minimiser R′(µm) = mσ2 − ‖ΠVm

(µ)‖2.En notant que ‖ΠVm

(Y)‖2−mσ2 est un estimateur sans biais de ‖ΠVm(µ)‖2,

on obtient un estimateur sans biais du risque R′(µm) :

R′(µm) = −‖ΠVm(Y)‖2 + 2mσ2.

Ceci conduit au critère CP de Mallows (1973)[5], qui consiste à sélectionnerle modèle m qui minimise le critère

Crit(m) = −‖ΠVm(Y)‖2 + 2mσ2.

36 07/15

Page 37: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Sélection de modèle dans le cas gaussien

m = argminm=1,...,pCrit(m),

µ est alors estimé par µm. On peut montrer (mais la démonstration est loind’être triviale !) que le risque de l’estimateur ainsi sélectionné est "proche" decelui de l’oracle. (cf Concentration inequalities and statistical applications, P.Massart).Remarque : On peut estimer la variance σ2 des variables εi par ‖Y −ΠV (Y)‖2/(n − p − 1), cet estimateur est sans biais si Y obéit au modèlelinéaire Y = Xβ + ε.Un autre critère, classiquement utilisé, est le critère BIC, pour lequel le facteur2 dans la pénalité est remplacé par log(n).

Cp de Mallows

Dans le cas général et évidemment le plus courant en pratique, les variablesne sont pas pré-ordonnées par importance. L’indicateur proposé par Mallows(1973)[5] est une estimation de l’erreur quadratique moyenne de prévision quis’écrit aussi comme la somme d’une variance et du carré d’un biais. L’erreurquadratique moyenne de prévision s’écrit ainsi :

MSE(Yi) = Var(Yi) + [Biais(Yi)]2

puis après sommation et réduction :

1

σ2

n∑i=1

MSE(Yi) =1

σ2

n∑i=1

Var(Yi) +1

σ2

n∑i=1

[Biais(Yi)]2.

En supposant que les estimations du modèle complet sont sans biais et en uti-lisant des estimateurs de Var(Yi) et σ2, l’expression de l’erreur quadratiquemoyenne totale standardisée (ou réduite) pour un modèle à j variables expli-catives s’écrit :

Cp = (n− q − 1)MSEjMSE

− [n− 2(q + 1)]

et définit la valeur du Cp de Mallows pour les q variables considérées. Il estalors d’usage de rechercher un modèle qui minimise le Cp tout en fournissantune valeur inférieure et proche de (q + 1). Ceci revient à considérer que le

2 4 6 8 10

23

45

67

8

k

CP

CP de Mallows

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

2

x

y

Polynôme de degré 3

FIGURE 3 – Cp de Mallow en fonction du degré du polynôme et modèle sélec-tion de degré 3.

“vrai” modèle complet est moins fiable qu’un modèle réduit donc biaisé maisd’estimation plus précise.

La figure 3 montre le comportement du Cp dans l’exemple de la régres-sion polynomial. Ce critère décroît avec le biais jusqu’à un choix optimal dedimension 3 avec de ré-augmenter avec la variance.

AIC, BIC et PRESS

Dans le cas du modèle linéaire, et si la variance des observations est suppo-sée connue, le critère AIC (Akaïke’s Information criterion) est équivalent aucritère Cp de Mallows.

Le PRESS de Allen est l’introduction historique de la validation croiséeou leave one out (loo). On désigne par Y(i) la prévision de Yi calculée sanstenir compte de la ième observation (Yi, X

1i , . . . , X

pi ), la somme des erreurs

quadratiques de prévision (PRESS) est définie par

1

n

n∑i=1

[yi − f (−i)(xi)

]2=

1

n

n∑i=1

[yi − f(xi)

1− hii

]2.

et permet de comparer les capacités prédictives de deux modèles.

La vignette sur Qualité de prévision et risque donne plus de détails sur cesderniers critères.

37 07/15

Page 38: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Sélection de modèle dans le cas gaussien

3.4 Algorithmes de sélection de variables

Lorsque p est grand, il n’est pas raisonnable de penser explorer les 2p mo-dèles possibles afin de sélectionner le “meilleur” au sens de l’un des critèresci-dessus. Différentes stratégies sont donc proposées qui doivent être choisiesen fonction de l’objectif recherché, de la valeur de p et des moyens de cal-cul disponibles ! deux types d’algorithmes sont résumés ci-dessous par ordrecroissant de temps de calcul nécessaire c’est-à-dire par nombre croissant demodèles considérés parmi les 2p et donc par capacité croissante d’optimalité.On donne pour chaque algorithme l’option selection à utiliser dans la pro-cédure REG de SAS.

Pas à pas

Sélection (forward) À chaque pas, une variable est ajoutée au modèle. C’estcelle dont la valeur p (“prob value”)associée à la statistique partielle dutest de Fisher qui compare les deux modèles est minimum. La procédures’arrête lorsque toutes les variables sont introduites ou lorsque p reste plusgrande qu’une valeur seuil fixée par défaut à 0, 50.

Élimination (backward) L’algorithme démarre cette fois du modèle com-plet. À chaque étape, la variable associée à la plus grande valeur p estéliminée du modèle. La procédure s’arrête lorsque les variables restantdans le modèle ont des valeurs p plus petites qu’un seuil fixé par défaut à0, 10.

Mixte (stepwise) Cet algorithme introduit une étape d’élimination de va-riable après chaque étape de sélection afin de retirer du modèle d’éven-tuels variables qui seraient devenues moins indispensables du fait de laprésence de celles nouvellement introduites.

Global

L’algorithme de Furnival et Wilson (1974)[2]est utilisé pour comparer tousles modèles possibles en cherchant à optimiser l’un des critères :R2,R2 ajusté,ou Cp de Mallows (rsquare, adjrsq, cp) choisi par l’utilisateur. Parsouci d’économie, cet algorithme évite de considérer des modèles de certainessous-branches de l’arborescence dont on peut savoir a priori qu’ils ne sontpas compétitifs. En général les logiciels exécutant cet algorithme affichent le(best=1) ou les meilleurs modèles de chaque niveau q.

3.5 Sélection en analyse de covariance

Un modèle d’analyse de covariance pose des problèmes spécifiques de sélec-tion notamment par la prise en compte possible d’interactions entre variablesdans la définition du modèle. La recherche d’un modèle efficace, donc parci-monieux, peut conduire à négliger des interactions ou effets principaux lors-qu’une faible amélioration du R2 le justifie et même si le test correspondantapparaît comme significatif. L’utilisation du Cp est théoriquement possiblemais en général ce critère n’est pas calculé car d’utilisation délicate. En ef-fet, il nécessite la considération d’un “vrai” modèle de référence ou tout dumoins d’un modèle de faible biais pour obtenir une estimation raisonnable dela variance de l’erreur. En régression multiple (toutes les variables explicativesquantitatives), le modèle complet est considéré comme étant celui de faiblebiais mais analyse de covariance quels niveaux de complexité des interactionsfaut-il considérer pour construire le modèle complet jugé de faible biais ? Il stalors plus simple et plus efficace d’utiliser le critère AIC ou le PRESS ; AICest systématiquement utilisé dans plusieurs logiciels comme R ou EnterpriseMiner de SAS.

L’algorithme de recherche descendant est le plus couramment utilisé avec lacontrainte suivante :

un effet principal n’est supprimé qu’à la condition qu’il n’apparaisse plusdans une interaction.

Voici, à titre d’exemple, une étape intermédiaire d’une sélection de variablespas à pas stepwize avec l’option both de la fonction StepAIC de R. A chaqueétape, le critère AIC est évalué par suppression ou rajout de chacune des va-riables. L’option minimisant le critère AIC est retenue avant de passer à l’étapesuivante. Le modèle ne comprend pas d’interactions.

Step: AIC=-60.79lpsa ~ lcavol + lweight + age + lbph + svi + pgg45

Df Sum of Sq RSS AIC- pgg45 1 0.6590 45.526 -61.374<none> 44.867 -60.788+ lcp 1 0.6623 44.204 -60.231- age 1 1.2649 46.132 -60.092

38 07/15

Page 39: Apprentissage Statistique, Modélisation, Prévision, Data Mining

12 Sélection de modèle dans le cas gaussien

- lbph 1 1.6465 46.513 -59.293+ gleason 3 1.2918 43.575 -57.622- lweight 1 3.5646 48.431 -55.373- svi 1 4.2503 49.117 -54.009- lcavol 1 25.4190 70.286 -19.248

Step: AIC=-61.37lpsa ~ lcavol + lweight + age + lbph + svi

En effet, supprimer un effet principal alors que la variable est présentedans une interaction ne change en rien le modèle car l’espace engendré parl’ensemble des indicatrices sélectionnées reste le même ; la matrice X estconstruite sous contrainte de rang et retirer une colonne (effet principal) faitautomatiquement entrer une indicatrice d’interaction supplémentaire. Le mo-dèle est inchangé mais l’interprétation plus compliquée car il ne s’agit plus dedécomposer un effet principal et ses interactions.

C

3.6 Exemple de sélectionParmi les trois types d’algorithmes et les différents critères de choix, une

des façons les plus efficaces consiste à choisir les options du programme ci-dessous. Tous les modèles (parmi les plus intéressants selon l’algorithme deFurnival et Wilson) sont considérés. Seul le meilleur pour chaque niveau, c’est-à-dire pour chaque valeur p du nombre de variables explicatives sont donnés.Il est alors facile de choisir celui minimisant l’un des critères globaux (Cp ouBIC).

options linesize=110 pagesize=30 nodate nonumber;title;proc reg data=sasuser.ukcomp2 ;model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST

NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT/ selection=rsquare cp rsquare bic best=1;

run;

N = 40 Regression Models for Dependent Variable: RETCAPR-sq. Adjust. C(p) BIC Variables in Model

In R-sq1 0.105 0.081 78.393 -163.2 WCFTCL2 0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT3 0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT4 0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT5 0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT6 0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT7 0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT

8 0.769 0.709 7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT9 0.776 0.708 8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT

CURRAT10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT

QUIKRAT CURRAT11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST

PAYOUT QUIKRAT CURRAT12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT

INVTAST PAYOUT QUIKRAT CURRAT

Dans cet exemple, Cp et BIC se comportent de la même façon. Avec peu devariables, le modèle est trop biaisé. Ils atteignent un minimum pour un modèleà 4 variables explicatives puis croissent de nouveau selon la première bissec-trice. La maximisation du R2 ajusté conduirait à une solution beaucoup moinsparcimonieuse. On note par ailleurs que l’algorithme remplace WCFTCL parWCFTDT. Un algorithme par sélection ne peut pas aboutir à la solution opti-male retenue.

4 Régression régularisée ou pénaliséeL’autre stratégie qui cherche à conserver l’ensemble ou tout du moins la

plupart des variables explicatives pose un problème de multicolinéarité. Il estrésolu par une procédure de régularisation.

4.1 Régression ridge

Modèle et estimation

Ayant diagnostiqué un problème mal conditionné mais désirant conservertoutes les variables, il est possible d’améliorer les propriétés numériques et lavariance des estimations en considérant un estimateur légèrement biaisé desparamètres.

On se place dans le modèle linéaire

Y = Xβ + ε,

X =

1 X

(1 X2

1 . Xp1

1 X12 X2

2 . Xp2

. . . . .1 X1

n X2n . Xp

n

,

39 07/15

Page 40: Apprentissage Statistique, Modélisation, Prévision, Data Mining

13 Sélection de modèle dans le cas gaussien

β =

β0β1..βp

, β =

β1β2..βp

.

On note X0 = (1, 1, . . . , 1)′, et X la matrice X privée de sa première co-lonne. L’estimateur ridge est défini par un critère des moindres carrés, avecune pénalité de type L2 :

DÉFINITION 1. — L’estimateur ridge de β dans le modèle

Y = Xβ + ε,

est défini par :

βRidge = argminβ∈Rp+1

n∑i=1

(Yi −p∑j=0

X(j)i βj)

2 + λ

p∑j=1

β2j

,

où λ est un paramètre positif, à choisir.

A noter que le paramètre β0 n’est pas pénalisé.

PROPOSITION 2. — L’estimateur ridge s’exprime aussi sous la forme :

β0Ridge = Y ,

β1β2..

βp

Ridge

= argminβ∈Rp

(‖Y(c) −X(c)β‖2 + λ‖β‖2

).

où X(c) désigne la matrice X recentrée (par colonnes) et Y(c) désigne levecteur Y recentré.

On suppose désormais que X et Y sont centrés. On trouve l’estimateur ridgeen résolvant les équations normales qui s’expriment sous la forme :

X′Y = (X′X + λIp)β.

On obtient :βRidge = (X′X + λIp)

−1X′Y.

La solution est donc explicite et linéaire en Y.

Remarques :1. X′X est une matrice symétrique positive (pour tout vecteur u de Rp,u′(X′X)u = ‖Xu‖2 ≥ 0. Il en résulte que pour tout λ > 0, X′X + λIpest nécessaire inversible.

2. La constante β0 n’intervient pas dans la pénalité, sinon, le choix de l’ori-gine pour Y aurait une influence sur l’estimation de l’ensemble des para-mètres. On obtient β0 = Y, ajouter une constante à Y ne modifie pas lesβj pour j ≥ 1.

3. L’estimateur ridge n’est pas invariant par renormalisation des vecteursX(j), il est préférable de normaliser les vecteurs avant de minimiser lecritère.

4. On montre que la régression ridge revient encore à estimer le modèlepar les moindres carrés sous la contrainte que la norme du vecteur β desparamètres ne soit pas trop grande :

βRidge = arg minβ

‖Y −Xβ‖2 ; ‖β‖2 < c

.

La régression Ridge conserve toutes les variables mais, contraignant lanorme des paramètres βj , elle les empêche de prendre de trop grandesvaleurs et limite ainsi la variance.

Optimisation de la pénalisation

La figure 4 montre quelques résultats obtenus par la méthode ridge en fonc-tion de la valeur de la pénalité λ = l sur l’exemple de la régression polyno-miale. Plus la pénalité augmente et plus la solution obtenue est régulière ouencore, plus le biais augmente et la variance diminue. Il y a sur-ajustementavec une pénalité nulle : le modèle passe par tous les points mais oscille dan-geureusement ; il y a sous-ajustement avec une pénalité trop grande.

Comme dans tout problème de régularisation, le choix de la valeur du para-mètre λ est crucial est déterminera le choix de modèle. La validation croiséeest généralement utilisée pour optimiser le choix car la lecture du graphique

40 07/15

Page 41: Apprentissage Statistique, Modélisation, Prévision, Data Mining

14 Sélection de modèle dans le cas gaussien

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Régression Ridge, l=0

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Régression Ridge, l=10^−7

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Régression Ridge, l=10^−4

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Régression Ridge, l=0.1

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Régression Ridge, l=10

0.0 0.2 0.4 0.6 0.8 1.0

−0.

50.

00.

51.

01.

52.

02.

5

x

y

Régression Ridge, l=10^4

FIGURE 4 – Pénalisation ridge du modèle polynomial

0e+00 1e−04 2e−04 3e−04 4e−04 5e−04

−20

−10

010

20

x$lambda

t(x$

coef

)

FIGURE 5 – Chemin de régularisation en régression ridge en fonction du para-mètre de la pénalisation. A droite, régression polynomiale et à gauche, retoursur capital).

(cf. figure 5) montrant l’évolution des paramètres en fonction du coefficientou chemins de régularisation ridge n’est pas suffisante pour déterminer unevaleur “optimale”.

Le principe de la validation croisée qui permet d’estimer sans biais une er-reur de prévision est détaillé par ailleurs.

Interprétation par la SVD

La décomposition en valeur singulière (SVD) de la matrice X donne unenouvel éclairage sur la régression ridge, et permet de l’interpréter comme uneméthode de seuillage. La décomposition SVD deX s’écrit sous la forme :

X = UDV′,

où X est de taille n × p, U de taille n × n, D est une matrice "diagonale" detaille n× p dont tous les éléments sont ≥ 0 et ordonnés par ordre décroissant,et V est de taille p × p. De plus, les matrices U et V sont orthogonales :UU′ = U′U = In, VV′ = V′V = Ip.On a alors

XβRidge = UD(D′D + λIp)−1D′U′Y.

On suppose n ≤ p. On note u(1), . . . ,u(n) les colonnes de la matrice U. Ennotant d1 ≥ . . . ≥ dp ≥ 0 les éléments diagonaux de la matrice D, UD est la

41 07/15

Page 42: Apprentissage Statistique, Modélisation, Prévision, Data Mining

15 Sélection de modèle dans le cas gaussien

matrice de taille n× p dont la j-ème colonne est dju(j). On a alors

XβRidge =

p∑j=1

uj

(d2j

d2j + λ

)(uj)′Y.

Comparons cet estimateur à l’estimateur des moindres carrés (qui correspondà λ = 0) :

Xβ =

p∑j=1

uj(uj)′Y.

(uj)′Y correspond à la j-ème composante de Y dans la base formée deu1, . . . ,un.Dans le cas de la régression ridge, on multiplie cette composante par le facteurd2j/

(d2j + λ

)∈]0, 1[, on dit que cette composante est seuillée.

Remarques :1) Plus λ est grand, plus les coefficients sont seuillés.2) x 7→ x/(x+ λ) est croissante de x pour x > 0. Les plus grands coefficientssont peu seuillés : si d2j >> λ, d2j/

(d2j + λ

)est proche de 1. Le seuil décroit

lorsque j augmente puisque dj décroit.On peut donner une interprétation en termes d’Analyse en composantes prin-cipales. X étant centrée, X′X/n est la matrice de variance-covariance empi-rique des vecteurs qui composent la matriceX .

X′X = VD′DV′,

où D′D est la matrice diagonale des d2i . On note v1, . . . ,vp les vecteurs co-lonnes de Rp de la matrice V.Soit v un vecteur de Rp de norme 1.

V ar(Xv) = (Xv)′(Xv) = v′(X′X)v,

ceci est maximal pour v = v1 et vaut d21.z1 = Xv1 est la première composante principale de la matrice X.Les vecteurs propres orthogonaux v1, . . . ,vp sont les directions principales(ou directions de Karhunen Loeve) de X. Les variables zj = Xvj sont lescomposantes principales. On remarque que

zj = Xvj = UDV′vj = dju(j).

On voit donc que la régression ridge seuille peu les premières composantesprincipales (pour lesquelles dj est grand, et davantage les dernières compo-santes principales).On associe à la procédure ridge la quantité df(λ) appelée nombre de degrés deliberté effectifs dans la régression ridge et définie par :

df(λ) =

p∑j=1

d2jd2j + λ

.

Si λ = 0, df(λ) = p (pas de seuillage), si λ → ∞, df(λ) → 0, à la limite,tous les coefficients sont nuls.

4.2 Régression LASSO

La régression ridge permet donc de contourner les problèmes de colinéaritémême en présence d’un nombre important de variables explicatives ou prédic-teurs (p > n). La principale faiblesse de cette méthode est liée aux difficultésd’interprétation car, sans sélection, toutes les variables sont concernées dansle modèle. D’autres approches par régularisation permettent également une sé-lection, c’est le cas de la régression LASSO.

Modèle et estimation

La méthode Lasso (Tibshirani, 1996)[8] correspond à la minimisation d’uncritère des moindres carrés avec une pénalité de type l1 (et non plus l2 commedans la régression ridge). On note ‖β‖1 =

∑pj=1 |βj |.

DÉFINITION 3. — L’estimateur Lasso de β dans le modèle

Y = Xβ + ε,

est défini par :

βLasso = argminβ∈Rp

n∑i=1

(Yi −p∑j=0

X(j)i βj)

2 + λ

p∑j=1

|βj |

,

où λ est un paramètre positif, à choisir.

42 07/15

Page 43: Apprentissage Statistique, Modélisation, Prévision, Data Mining

16 Sélection de modèle dans le cas gaussien

On peut montrer que ceci équivaut au problème de minimisation suivant :

βLasso = argminβ,‖β‖1≤t(‖Y −Xβ‖2),

pour un t convenablement choisi.

Comme dans le cas de la régression Ridge, le paramètre λ est un paramètrede régularisation :

• Si λ = 0, on retrouve l’estimateur des moindres carrés.• Si λ tend vers l’infini, on annule tous les βj , j = 1, . . . , p.

La solution obtenue est dite parcimonieuse (sparse en anglais), car elle com-porte beaucoup de coefficients nuls. Si la matrice X est orthogonale (X′X =Id), on obtient une solution explicite.

PROPOSITION 4. — Si X′X = Ip, la solution de la minimisation en β ducritère Lasso

‖Y −Xβ‖2 + 2λ‖β‖1

est la suivante : pour tout j = 1, . . . , p,

βj = signe(βj)(|βj | − λ)1|βj |≥λ,

où β est l’estimateur des moindres carrés : β = X′Y.

L’estimateur ainsi obtenu correspond à un seuillage doux (soft thresholding)de l’estimateur des moindres carrés. Les coefficients βj sont remplacés parφλ(βj) où

φλ : x 7→ signe(x)(|x| − λ)+.

Autre pénalisation

La méthode LASSO équivaut à minimiser le critère

Crit(β) =n∑i=1

(Yi − β0 − β1X(1)i − β2X

(2)i − . . .− βpX

(p)i )2

sous la contrainte∑pj=1 |βj | ≤ t, pour un t > 0.

Le logiciel R introduit une contrainte sous forme d’une borne relative pour∑pj=1 |βj | : la contrainte s’exprime sous la forme

p∑j=1

|βj | ≤ κp∑j=1

|β(0)j |,

où β(0) est l’estimateur des moindres carrés et κ ∈ [0, 1].

Pour κ = 1 on retrouve l’estimateur des moindres carrés (pas de contrainte)et pour κ = 0, tous les βj , j ≥ 1, sont nuls (contrainte maximale).

Utilisation de la régression Lasso

La pénalisation est optimisée comme en régression ridge par validation croi-sée.

Grâce à ses solutions parcimonieuses, cette méthode est surtout utilisée poursélectionner des variables dans des modèles de grande dimension ; on peutl’utiliser si p > n c’est-à-dire s’il y a plus de variables que d’observations. Bienentendu, dans ce cas, les colonnes de la matrice X ne sont pas linéairementindépendantes. Il n’y a donc pas de solution explicite, on utilise des procéduresd’optimisation pour trouver la solution. Il faut néanmoins utiliser la méthodeavec précaution lorsque les variables explicatives sont corrélées. Pour que laméthode fonctionne, il faut néanmoins que le nombre de variables influentes(correspondant à des βj différents de 0) ne dépasse pas n et que les variablesnon influentes ne soient pas trop corrélées à celles qui le sont.

Attention aux grandes ou “ultra grandes” dimensions : Verzalen (2012)[9] amontré (risque minimax) que si

k

nlog(

p

k) >

1

2

où k est le nombre de coefficients non nuls, aucune méthode d’estimation etde sélection de variables n’est pertinente. Exemples en analyse de donnéestranscriptomiques :

• p = 5000 gènes et n = 40 microarrays, k = 4, kn log( pk ) = 0.71,• p = 600 gènes et n = 40 microarrays, k = 4, kn log( pk ) = 0.50.

43 07/15

Page 44: Apprentissage Statistique, Modélisation, Prévision, Data Mining

17 Sélection de modèle dans le cas gaussien

4.3 Elastic Net

La méthode Elastic Net permet de combiner la régression ridge et la régres-sion Lasso, en introduisant les deux types de pénalités simultanément.

Le critère à minimiser est :

n∑i=1

(Yi − β0 − β1X(1)i − β2X

(2)i − . . .− βpX

(p)i )2

α p∑j=1

|βj |+ (1− α)

p∑j=1

β2j

• Pour α = 1, on retrouve la méthode LASSO.• Pour α = 0, on retrouve la régression Ridge.

Il ya dans ce dernier cas deux paramètres à optimiser par validation croisée.

4.4 Sélection par réduction de dimension

Le principe de ces approches consiste à calculer la régression sur un en-semble de variables orthogonales deux à deux. celles-ci peuvent être obtenuesà la suite d’une analyse en composantes principales ou décomposition en va-leur singulière de la matrice X : C’est la régression sur les composantes prin-cipales associées aux plus grandes valeurs propres.

L’autre approche ou régression PLS (partial least square consiste à recher-cher itérativement une composante linéaire des variables de plus forte cova-riance avec la variable à expliquer sous une contrainte d’orthogonalité avec lescomposantes précédentes.

Ce deux méthodes sont développées dans une vignette spécifique.

5 Exemples

5.1 Prévision de la concentration d’ozone

Les données

Les données proviennent des services de Météo-France et s’intéresse à laprévision de la concentration en Ozone dans 5 stations de mesure ; ces sites

ont été retenus pour le nombre important de pics de pollution qui ont été dé-tectés dans les périodes considérées (étés 2002, 2003, 2005). Un pic de pol-lution est défini ici par une concentration dépassant le seuil de 150µg/m3.Météo-France dispose déjà d’une prévision (MOCAGE), à partir d’um modèlephysique basé sur les équations du comportement dynamique de l’atmosphère(Navier et Stockes). Cette prévision fait partie du dispositif d’alerte des pou-voirs publics et prévoit donc une concentration de pollution à 17h locale pourle lendemain. L’objet du travail est d’en faire une évaluation statistique puisde l’améliorer en tenant compte d’autres variables ou plutôt d’autres prévi-sions faites par Météo-France. Il s’agit donc d’intégrer ces informations dansun modèle statistique global.

Les variables

Certaines variables de concentration ont été transformées afin de rendre sy-métrique (plus gaussienne) leur distribution.

O3-o Concentration d’ozone effectivement observée ou variable à prédire,

03-pr prévision "mocage" qui sert de variable explicative ;

Tempe Température prévue pour le lendemain,

vmodule Force du vent prévue pour le lendemain,

lno Logarithme de la concentration observée en monoxyde d’azote,

lno2 Logarithme de la concentration observée en dioxyde d’azote,

rmh20 Racine de la concentration en vapeur d’eau,

Jour Variable à deux modalités pour distinguer les jours "ouvrables" (0) desjours "fériés-WE" (1).

Station Une variable qualitative indique la station concernée : Aix-en-Provence, Rambouillet, Munchhausen, Cadarache, et Plan de Cuques.

Modèle physique

Les graphiques de la figure 6 représente la première prévision de la concen-tration d’ozone observée, ainsi que ses résidus, c’est-à-dire celle obtenue parle modèle physique MOCAGE. Ces graphes témoignent de la mauvaise qua-lité de ce modèle : les résidus ne sont pas répartis de façon symétrique et lesdeux nuages présentent une légère forme de "banane" signifiant que des com-posantes non linéaires du modèle n’ont pas été prises en compte. D’autre part,

44 07/15

Page 45: Apprentissage Statistique, Modélisation, Prévision, Data Mining

18 Sélection de modèle dans le cas gaussien

0 50 100 200 300

050

150

250

Valeurs predites

Val

eurs

obs

erve

es

0 50 100 200 300

−10

0−

500

5010

0

Valeurs preditesR

ésid

us

FIGURE 6 – Ozone : prévision et résidus du modèle MOCAGE de Météo-France pour 5 stations.

la forme d’entonnoir des résidus montrent une forte hétéroscédasticité. Celasignifie que la variance des résidus et donc des prévisions croît avec la valeur.En d’autre terme, la qualité de la prévision se dégrade pour les concentrationsélevées justement dans la zone "sensible".

Modèle sans interaction

Un premier modèle est estimé avec R :

fit.lm=lm(O3-o~O3-pr+vmodule+lno2+lno+s-rmh2o+jour+station+TEMPE,data=donne)

Il introduit l’ensemble des variables explicatives mais sans interaction. Lesrésultats numériques sont fournis ci-dessous.

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -4.99738 7.87028 -0.635 0.52559O3_pr 0.62039 0.05255 11.805 < 2e-16 ***vmodule -1.73179 0.35411 -4.891 1.17e-06 ***lno2 -48.17248 6.19632 -7.774 1.83e-14 ***lno 50.95171 5.98541 8.513 < 2e-16 ***

s_rmh2o 135.88280 50.69567 2.680 0.00747 **jour1 -0.34561 1.85389 -0.186 0.85215stationAls 9.06874 3.37517 2.687 0.00733 **stationCad 14.31603 3.07893 4.650 3.76e-06 ***stationPla 21.54765 3.74155 5.759 1.12e-08 ***stationRam 6.86130 3.05338 2.247 0.02484 *TEMPE 4.65120 0.23170 20.074 < 2e-16 ***

Residual standard error: 27.29 on 1028 degrees of freedomMultiple R-Squared: 0.5616, Adjusted R-squared: 0.5569F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16

A l’exception de la variable indiquant la nature du jour, l’ensemble des coef-ficients sont jugés significativement différent de zéro mais la qualité de l’ajus-tement est faible (R2).

Modèle avec interaction

La qualité d’ajustement du modèle précédent n’étant pas très bonne, un autremodèle est considéré en prenant en compte les interactions d’ordre 2 entre lesvariables. Compte tenu de la complexité du modèle qui un découle, un choixautomatique est lancé par élimination successive des termes non significatifs(algorithme backward). Le critère optimisé est celui (AIC) d’Akaïke. Plusieursinteractions ont été éliminées au cours de la procédure mais beaucoup sub-sistent dans le modèle. Attention, les effets principaux lno2, vmodule nepeuvent être retirés car ces variables apparaissent dans une interaction. En re-vanche on peut s’interroger sur l’opportunité de conserver celle entre la forcedu vent et la concentration de dioxyde d’azote.

Df Deviance Resid. Df Resid. Dev F Pr(>F)NULL 1039 1745605O3_pr 1 611680 1038 1133925 969.9171 < 2.2e-16 ***station 4 39250 1034 1094674 15.5594 2.339e-12 ***vmodule 1 1151 1033 1093523 1.8252 0.1769957lno2 1 945 1032 1092578 1.4992 0.2210886s_rmh2o 1 24248 1031 1068330 38.4485 8.200e-10 ***TEMPE 1 248891 1030 819439 394.6568 < 2.2e-16 ***O3_pr:station 4 16911 1026 802528 6.7038 2.520e-05 ***O3_pr:vmodule 1 8554 1025 793974 13.5642 0.0002428 ***O3_pr:TEMPE 1 41129 1024 752845 65.2160 1.912e-15 ***station:vmodule 4 7693 1020 745152 3.0497 0.0163595 *station:lno2 4 12780 1016 732372 5.0660 0.0004811 ***station:s_rmh2o 4 19865 1012 712508 7.8746 2.997e-06 ***station:TEMPE 4 27612 1008 684896 10.9458 1.086e-08 ***vmodule:lno2 1 1615 1007 683280 2.5616 0.1098033vmodule:s_rmh2o 1 2407 1006 680873 3.8163 0.0510351 .lno2:TEMPE 1 4717 1005 676156 7.4794 0.0063507 **s_rmh2o:TEMPE 1 42982 1004 633175 68.1543 4.725e-16 ***

45 07/15

Page 46: Apprentissage Statistique, Modélisation, Prévision, Data Mining

19 Sélection de modèle dans le cas gaussien

0 50 100 200 300

−10

0−

500

5010

0

Valeurs predites

Rés

idus

0 50 100 200 300

−10

0−

500

5010

0

Valeurs preditesR

ésid

us

FIGURE 7 – Ozone : Résidus des modèles linéaire et quadratique.

Ce sont surtout les graphes de la figure 7 qui renseignent sur l’adéquation desmodèles. Le modèle quadratique fournit une forme plus "linéaire" des résiduset un meilleur ajustement avec un R2 de 0,64 mais l’hétéroscédasticité resteprésente, d’autres approches s’avèrent nécessaires afin de réduire la varianceliée à la prévision des concentrations élevées.

5.2 Données de spectrométrie NIR

Objectif

Ce type de problème se rencontre en contrôle de qualité sur une chaînede fabrication agroalimentaire, ici des biscuits (cookies). Il est nécessaire decontrôler le mélange des ingrédients avant cuisson afin de s’assurer que lesproportions en lipides, sucre, farine, eau, sont bien respectées. Il s’agit de sa-voir s’il est possible de dépister au plus tôt une dérive afin d’intervenir surles équipements concernés. Les mesures et analyses, faites dans un laboratoireclassique de chimie, sont relativement longues et coûteuses ; elles ne peuventêtre entreprises pour un suivi régulier ou même en continue de la production.Dans ce contexte, un spectromètre en proche infrarouge (NIR) mesure l’absor-bance c’est-à-dire les spectres dans les longueurs d’ondes afin de construire unmodèle de prévision de la concentration en sucre.

Les données

Les données originales sont dues à Osbone et al. (1984) [6] et ont été sou-vent utilisées pour la comparaison de méthodes (Stone et al. 1990 [7], Brownet al. 2001 [1], Krämer et al. 2008 [4]). Elles sont accessibles dans R au sein dela librairie ppls. Les mesures ont été faites sur deux échantillons, l’un de taille40 prévu pour l’apprentissage, l’autre de taille 32 pour les tests. Pour chacunde ces 72 biscuits, les compositions en lipides, sucre, farine, eau, sont mesu-rées par une approche classique tandis que le spectre est observé sur toutes leslongueurs d’ondes entre 1100 et 2498 nanomètres, régulièrement espacés de 2nanomètres. Nous avons donc 700 valeurs observées, ou variables potentielle-ment explicatives, par échantillon de pâte à biscuit.

Résultats par régression pénalisée

Typiquement, cette étude se déroule dans un contexte de très grande dimen-sion avec p >> n. L’étude détaillée de ces données fait l’objet d’un scénarioavec le logiciel R.

Voici quelques résultats partiels concernant les méthodes de régression parrégression ridge et régression LASSO. La comparaison globale des résultatsdes différentes approches de modélisation est reportée en conclusion.

Références[1] P.J. Brown, T. Fearn et M. Vannucci, Bayesian Wavelet Regression on

Curves with Applications to a Spectroscopic Calibration Problem, Jour-nal of the American Statistical Society 96 (2001), 398–408.

[2] G. M. Furnival et R. W. Wilson, Regression by leaps and bounds, Techno-metrics 16 (1974), 499–511.

[3] J.D. Jobson, Applied Multivariate Data Analysis, t. I : Regression and ex-perimental design, Springer-Verlag, 1991.

[4] Nicole Krämer, Anne Laure Boulesteix et Gerhard Tutz, Penalized PartialLeast Squares with applications to B-spline transformations and functio-nal data, Chemometrics and Intelligent Laboratory Systems 94 (2008),60–69.

[5] C.L. Mallows, Some Comments on Cp, Technometrics 15 (1973), 661–675.

46 07/15

Page 47: Apprentissage Statistique, Modélisation, Prévision, Data Mining

20 Sélection de modèle dans le cas gaussien

FIGURE 8 – Cookies : Régression ridge ; chemin de régularisation des para-mètres et optimisation de la pénalisation.

FIGURE 9 – Cookies : Régression lasso ; chemin de régularisation des para-mètres et optimisation de la pénalisation.

[6] B. G. Osborne, T. Fearn, A. R. Miller et S. Douglas, Application of NearInfrared Reflectance spectroscopy to the compositional analysis of biscuitsand biscuit doughs, J. Sci. Food Agric. 35 (1984), 99–105.

[7] M. Stone et R. J. Brooks, Continuum regression : cross-validated sequen-tially constructed prediction embracing ordinary least squares, partialleast squares and principal components regression, Journal of The RoyalStatistical Society B 52 (1990), 237–269.

[8] R. Tibshirani, Regression shrinkage and selection via the lasso, J. Royal.Statist. Soc B 58 (1996), 267–288.

[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-high-dimensional phenomenons, Electron. J. Statistics 6 (2012), 38–90, http://arxiv.org/pdf/1008.0526.pdf.

47 07/15

Page 48: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Composantes principales et régressions PLS parcimonieuses

Composantes principales et régressionsPLS parcimonieuses

Résumé

L’introduction de pénalisations en norme L1 induit une sélection devariables “optimale” en régression. Même si, numériquement, cen’est pas indispensable pour les méthodes de régression ou projec-tion sur composantes orthogonales avec réduction de dimension, lemême type de pénalisation est introduit afin de simplifier la construc-tion des composantes et donc leur interprétation lorsque le nombrede variables est important. Cette démarche conduit à la définition deversions parcimonieuses de l’Analyse en Composantes Principaleset de la régression PLS pour différents objectifs : exploration, com-paraison ou intégration de deux jeux de données en version régres-sion ou canonique, analyse discriminante PLS.

Retour au plan du cours

1 Introduction

1.1 Objectif

L’intérêt principal des méthodes de cette vignette réside dans leur capacitéà prendre en compte des données de grande dimension et même de très grandedimension lorsque le nombre de variables p est largement plus grand que lenombre d’individus n : p >> n. La sélection de variables devient inefficaceet même ingérable par les algorithmes usuels. La construction d’un modèlede régression requiert alors une pénalisation (ridge, lasso, elastic net) ou uneréduction de dimension : régression sur composantes principales ou régressionPLS.

1.2 Régression sur composantes principales

La régression sur composantes principales ou PCR est simple par son prin-cipe et sa mise en œuvre. L’objectif est de “résumer” l’ensemble des variables

X1, . . . , Xp par un sous-ensemble de variables Z1, . . . , Zr deux à deux ortho-gonales et combinaisons linéaires des variables X1, . . . , Xp. Avec r = p il n’ya pas de réduction de dimension et le même ajustement qu’en régression clas-sique est obtenu : même espace de projection engendré. Les variables Z1, . . . ,Zp sont simplement les composantes principales associées des variables X1,. . . , Xp obtenues par l’analyse en composantes principales ou encore la dé-composition en valeurs singulières de la matrice X. Pour éviter les problèmesd’unité et l’influence d’une hétérogénéité des variances, les variables sont cen-trées et réduites. C’est donc l’ACP réduite qui est calculée.

La première composante Z1 =∑pj=1 αjX

j est de variance maximale lapremière valeur propre λ1 de l amatrice des corrélations avec

∑α2j = 1. Tan-

dis que Zm est combinaison linéaire de variance maximale λj et orthogonaleà Z1, . . . , Zm−1.

La PCR considère un prédicteur de la forme :

Y PCR =

r∑m=1

θmZm

avec

θm =〈Zm, Y 〉‖Zm‖2

obtenu par une procédure classique de régression.

Le choix r = p redonne l’estimateur des moindres carrés car le même espaceest engendré tandis que r < p élimine les composantes de variances nulles outrès faibles et donc résout par là les problèmes de colinéarité même dans lescas extrêmes où (p > n). Le choix de r est optimisé de façon classique parvalidation croisée.

Bien évidemment, l’interprétation des composantes est rendu difficile si pest grand. La PCR est à rapprocher de la régression ridge qui seuille les co-efficients des composantes principales tandis que la PCR annule ceux d’ordresupérieur à r.

Le principal Problème posée par la PCR est que les premières composantes,associées aux plus grandes valeurs propres, ne sont pas nécessairement corré-lées avec Y et ne sont donc pas nécessairement les meilleures candidates pourrésumer ou modéliser Y .

48 07/15

Page 49: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Composantes principales et régressions PLS parcimonieuses

Cette remarque justifie les développements de la régression PLS ou partialleast square.

1.3 Régression PLS

La régression PLS (partial least square) est une méthode ancienne(Wold, 1966)[10] largement utilisée, notamment en chimiométrie dans l’agro-alimentaire, lors de l’analyse de données spectrales (Near Infra-Red ou HPLC)discrètisées et donc toujours de grande dimension. La régression PLS s’avèreconcrètement une méthode efficace qui justifie son emploi très répandu maisprésente le défaut de ne pas se prêter à une analyse statistique traditionnellequi exhiberait les lois de ses estimateurs. Elle est ainsi restée un marge desapproches traditionnelles de la Statistique mathématique.

Différentes version de régression PLS sont proposées en fonction de l’ob-jectif poursuivi ; voir Tenenhaus (1998)[8] pour une présentation détaillée :

PLS1 Une variable cible Y quantitative est à expliquer, modéliser, prévoir parp variables explicatives quantitatives Xj .

PLS2 Version canonique. Mettre en relation un ensemble de q variables quan-titatives Y k et un ensemble de p variables quantitatives Xj .

PLS2 Version régression. Chercher à expliquer, modéliser un ensemble de qvariables Y k par un ensemble de p variables explicatives quantitativesXj .

PLS-DA Version discriminante. Cas particulier du cas précédent. La variableY qualitative à q classes est remplacée par q variables indicatrices (dummyvariables) de ces classes.

Une application utile de la PLS2 en version canonique s’opère, par exempleen Biologie à haut débit, dans la comparaison de deux plates-formes ou deuxtechnologies de mesures sur le même échantillon : Affymetrix vs. Agilent ouencore entre les résultats obtenus par séquençage (RNA Seq) et biopuces. Tou-jours en Biologie, la PLS2 en version régression permet d’intégrer des jeux dedonnées observées à des niveaux différents sur le même échantillon : expliquerpar exemple un ensemble de métabolites ou de phénotypes par des transcrits.

Dans un objectif seulement prévisionnel, l’approche PLS s’avère plutôt effi-cace mais, si l’objectif est aussi la recherche d’une interprétation, c’est-à-direnécessairement la recherche des variables les plus pertinentes parmi un très

grand nombre, les composantes obtenues sont difficilement exploitables. C’estpourquoi il a été proposé (Lê Cao et al. 2008[5], 2009[4], 2011[3]) de couplerles deux approches : pénalisation L1 de type Lasso pour une sélection des va-riables utilisées dans la construction des composantes orthogonales. Cette dé-marche passe par l’utilisation d’un algorithme parcimonieux (Shen et Huang,2008)[7] de SVD (décomposition en valeur singulière). Celui-ci permet, à lafois, de définir des versions parcimonieuses de l’ACP et aussi de la PLS enremarquant que l’algorithme de la PLS peut être défini comme une successionde premières étapes de SVD.

L’objectif principal est donc la construction de versions parcimonieuses (enanglais sparse) des différentes méthodes de régression PLS. Aux résultatsnumériques, éventuellement de prévision, s’ajoutent des représentations gra-phiques en petite dimension très utiles pour aider à l’interprétation.

2 Régression PLSQuelques rappels pour introduire cette méthode largement employée pour

traiter les situations présentant une forte multicolinéarité et même lorsque lenombre d’observations est inférieur au nombre de variables explicatives.

2.1 Régression PLS1

Une variable cible Y quantitative est à expliquer, modéliser, prévoir par pvariables explicatives quantitatives Xj . Comme pour la régression sur com-posantes principales, le principe est de rechercher un modèle de régressionlinéaire sur un ensemble de composantes orthogonales construites à partir decombinaisons linéaires des p variables explicatives centrées Xj . Dans le casde la PLS, la construction des composantes est optimisée pour que celles-cisoient les plus liées à la variable Y à prédire au sens de la covariance empi-rique, alors que les composantes principales ne visent qu’à extraire une part devariance maximale sans tenir compte d’une variable cible.

Soit X(n× p) la matrice des variables explicatives centrées avec n pouvantêtre inférieur à p. On cherche une matrice U de coefficients ou pondérations(loading vectors) définissant les r composantes Ξh (ou variables latentes) parcombinaisons linéaires des variables Xj :

Ξ = XU.

49 07/15

Page 50: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Composantes principales et régressions PLS parcimonieuses

La matrice U est solution du problème suivant :

Pour h = 1, . . . , r, uh = arg maxu

Cov(Y,Ξh)2

= arg maxu

u′X′YY′Xu

Avec u′huh = 1

et ξ′hξh = u′X′YY′Xu = 0, pour ` = 1 . . . , h− 1.

La matrice U est obtenue par la démarche itérative de l’algorithme 1 ; ilsuffit ensuite de calculer la régression de Y sur les r variables ξh centrées,appelées variables latentes ainsi construites. Le choix du nombre de compo-santes r est optimisé par validation croisée.

ALGORITHME 1 : Régression PLS1X matrice des variables explicatives centrées,Calcul de la matrice U des coefficients.for h = 1 à r do

uh = X′Y

‖X′Y ‖ ,

ξh = XuhDéflation de X : X = X− ξhξ′hX

end for

Exemple de PLS1 sur les données de cancer de la prostate

La figure 1 donne l’estimation par validation croisée (10-fold) de l’erreurde prévision en fonction de la dimension tandis que la figure 2 (gauche) estune aide à l’interprétation. Les loadings sont les coefficients ou importancedes variables sur la première composante PLS. Le graphe de droite de la figure2 indique simplement la plus ou moins bonne qualité de l’ajustement avec unchoix de 6 composantes PLS.

2.2 Régression PLS2

Définition

L’algorithme précédent de PLS1 se généralise à une variable à expliquer Ymultidimensionnelle (PLS2) : Mettre en relation ou chercher à expliquer, mo-

0 2 4 6 8 10

0.8

0.9

1.0

1.1

lpsa

number of components

RM

SE

P

FIGURE 1 – Données cancer : optimisation du nombre de composantes enPLS1

−0.

10.

00.

10.

20.

30.

40.

5

lpsa

variable

regr

essi

on c

oeffi

cien

t

lcav lwei age lbph svi1 lcp gl7 gl8 gl9 pg45

0 1 2 3 4 5

12

34

lpsa, 6 comps, validation

measured

pred

icte

d

6 composantes PLS

FIGURE 2 – Données cancer : Coefficient (loadings) des variables sur la pre-mière composante et qualité de l’ajustement avec 6 composantes.

50 07/15

Page 51: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Composantes principales et régressions PLS parcimonieuses

déliser un ensemble de q variables Y k par un ensemble de p variables explica-tives Xj . Le critère à optimiser devient une somme des carrés des covariancesentre une composante et chacune des variables réponses. Plusieurs variantesde la régression PLS multidimensionnelle ont été proposées ; le même critèreest optimisé mais sous des contraintes différentes. La version “canonique” (parréférence à l’analyse canonique de deux ensembles de variables), où les deuxensembles de données jouent des rôles symétriques, diffère de la version “ré-gression” (un paquet de variable expliqué par un autre) par l’étape dite de dé-flation de l’algorithme général de PLS.

Dans les deux cas, la PLS se définit par la recherche (cf. 3) de :• variables latentes ξh et ωh, (h = 1, . . . , r)

ξ1 = Xu1 et ω1 = Yv1

solutions demax

||u||=||v||=1cov(Xu,Yv),

• puis itérations sous contraintes d’orthogonalité par déflations de X et Y.• Les vecteurs de coefficients (uh,vh)h=1,...,r sont appelés vecteurs loa-

dings.Tous ces vecteurs sont schématisés dans la figure 3.

Deux types de déflation sont considérés, l’un faisant jouer un rôle symé-trique entre les variables (mode canonique), tandis que l’autre suppose que lesvariables X sont expliquées par celles Y . La régression PLS est à rapprocherde l’analyse canonique des corrélations qui s’utilise dans le même contexte dedeux variables multidimensionnellesX et Y à mettre en relation. La différencevient du critère optimisé en analyse canonique qui est la corrélation entre lesvariables latentes plutôt que la covariance :

max||u||=||v||=1

cor(Xu,Yv).

Cette optimisation requiert l’inversion des matrices X′X et Y′Y. Ces inver-sions sont impossibles en cas de colinéarité des variables et donc évidemmentsi n < p ou n < q. Une version régularisée ou ridge de l’analyse canoniquerend les calculs possibles (Gonzales et al. 2008) mais les interprétations restentdifficiles pour des grandes valeurs de p ou q.

v1v2

d1d2

vH

dH

c 1c 2

u1u2

c H

uH

12

.

.

.

n

12

.

.

.

n

X Y

ξ ξ ξ1 2 ω ω ω1 2

ξ ω

V

H H

DC

U

1 2 . . . . p 1 2 . . . . . q

FIGURE 3 – PLS2 : les matrices X and Y sont successivement décomposées enensembles de coefficients (loading vectors) (u1, . . . ,ur), (v1, . . . ,vr) et en-sembles de variables latentes (ξ1, . . . , ξr), (ω1, . . . ,ωr), où r est la dimensionrecherchée ou nombre de composantes.

Algorithme

Historiquement, la régression PLS est construite par l’algorithme NIPALS(Non linear Iterative PArtial Least Square algorithm) (cf. 2) dans lequel chaqueitération h, h = 1, . . . , r de l’algorithme décompose X et Y en faisant inter-venir une étape de déflation spécifique à l’objectif.

Cet algorithme, en itérant des régressions partielles, présente de nombreuxavantages. Il n’est pas nécessaire d’inverser une matrice comme en analysecanonique ; de plus il accepte des données manquantes et même propose, parla PLS, une méthode d’imputation de celles-ci.

ALGORITHME 2 : NIPALSX et Y matrices des données centréesInitialiser ω1 par la première colonne de Yfor h = 1 à r do

while Convergence pas atteinte douh = X′ωh/ω

′hωh

uh = uh/u′huh est le vecteur loading associé à X

ξh = Xuh est la variable latente associée à Xvh = Y′ξh/(ξ

′hξh)

51 07/15

Page 52: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Composantes principales et régressions PLS parcimonieuses

vh = vh/v′hvh est le vecteur loading associé à Y

ωh = Y′vh est la variable latente associée à Yend whilech = X′ξ/ξ′ξ régression partielle de X sur ξdh = Y′ω/ω′ω régression partielle de Y sur ωRésidus X← X− ξc′ ou déflationRésidus Y ← Y − ωd′ ou déflation

end for

Le nombre r d’itérations est à fixer ou “optimiser” par l’utilisateur tandisque la convergence de chaque étape h est analogue à celle, relativement rapide(moins d’une dizaine d’itérations), d’un algorithme de puissance itérée. Eneffet, à la convergence, les vecteurs vérifient :

YY′XX′u = λu

Y′XX′Yω = λω

XX′YY′v = λv

X′YY′Xξ = λξ

où u,ω,v et ξ sont donc les vecteurs propres respectifs des matricesYY′XX′,Y′XX′Y,XX′YY′,X′YY′X associés à la même plus grandevaleur propre λ. L’étape de déflation permet donc de calculer successivementles vecteurs propres associés aux valeurs propres décroissantes.

En résumé,• La régression PLS2 gère des données incomplètes, bruitées, colinéaires

ou de très grande dimension• calcule les variables latentes ξh et ωh qui renseignent (graphes) sur les

similarités et/ou dissimilarités des observations,• et les vecteurs loading uh et vh qui renseignent sur l’importance des va-

riables Xj et Yk,• trace les Graphes illustrant les covariations des variables.

Variante de l’algorithme

Une autre approche consiste à calculer directement les vecteurs propres dela matrice X′YY′X ou encore et c’est équivalent, les valeurs et vecteurs sin-guliers de la décomposition en valeurs singulières (SVD) de la matrice X′Y.

Néanmoins, la perspective de gérer les données manquantes ou encore celle deréaliser les calculs sans avoir à stocker des matrices p × p pour p très grand,rend l’algorithme NIPALS tout à fait pertinent même s’il est numériquementmoins performant.

PLS mode Régression vs. canonique

Deux modes de déflation sont proposés selon que les variables jouent un rôlesymétrique ou que les variables X sont supposées expliquées par celles Y .

• Mode “canonique” : Xh = Xh−1 − ξhc′h et Yh = Yh−1 − ωhd′h• Mode “régression” : Xh = Xh−1 − ξhc′h et Yh = Yh−1 − ξhv′hLa PLS en mode canonique poursuit donc le même objectif que l’analyse

canonique des corrélations en rendant les calculs possibles même si p > n carla PLS ne nécessite pas l’inversion des matrices de corrélation. Toujours avec lemême objectif de rendre possible les calculs, des versions régularisées (normeL2) de l’analyse canonique ont été proposées de façon analogue à la régressionridge. Néanmoins, cette approche conduit à des graphiques et interprétationsdifficiles lorsque p est grand.

PLS-DA ou discrimination PLS

La régression PLS peut facilement s’adaptée au cas de la classification su-pervisée, ou analyse discriminante décisionnelle (PLS-Discriminant Analysis),dans lequel p variables quantitatives Xj expliquent une variable qualitativeY à m modalités. Il suffit de générer le paquet des m variables indicatricesou dummy variables Y k et d’exécuter l’algorithme PLS2 (mode régression)en considérant comme quantitatives ces variables indicatrices. Le choix dunombre de dimensions peut être optimisé en minimisant l’erreur de prévisiondes classes par validation croisée.

2.3 Représentations graphiques

Les représentations graphiques des individus, comme celles des variablesinitiales, sont analogues à celles obtenues en analyse canonique.

• Les variables initiales sont représentées par leurs coefficients sur les va-riables latentes ;

• les individus par leurs valeurs sur les composantes deX (ou de Y ) commeen ACP.

52 07/15

Page 53: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Composantes principales et régressions PLS parcimonieuses

3 Méthodes parcimonieuses

3.1 Objectif

La régression PLS est une régression sur composantes orthogonales qui ré-sout efficacement les problèmes de multicolinéarité ou de trop grand nombrede variables en régression comme en analyse canonique. La contre partie, ouprix à payer, est l’accroissement souvent rédhibitoire de la complexité de l’in-terprétation des résultats. En effet, chaque composante est obtenue par combi-naison linéaire d’un nombre pouvant être très important de l’ensemble des pvariables.

Pour aider à l’interprétation, l’objectif est donc de limiter, ou contraindre,le nombre de variables participant à chaque combinaison linéaire. La façonsimple de procéder est d’intégrer une contrainte de type Lasso dans l’al-gorithme PLS2. Plusieurs approches on été proposées, celle décrite ci-aprèss’avère rapide et efficace.

3.2 Sparse SVD

La démarche adoptée est issue d’une construction d’une version parcimo-nieuse de l’ACP proposée par Shen et Huang (2008)[7]. Considérant quel’ACP admet pour solution la décomposition en valeurs singulières (SVD) dela matrice centrée X, la sparse PCA (s-PCA) est basée sur un algorithme quirésout le problème :

minu,v||M− uv′||2F + Pλ(v)

où le vecteur v contient les paramètres des combinaisons linéaires des va-riables initiales. Une pénalisation de type L1 (λ||v||1) conduit à l’annulationdes paramètres les plus petits pour ne laisser qu’un ensemble restreint de para-mètres non-nuls dont l’effectif dépend directement de la valeur λ de la pénali-sation.

ALGORITHME 3 : sparse SVDDécomposer M = U∆V′

M0 = Mfor h de 1 à r do

Fixer vold = δhv?h

uold = u?h avec v?h et v?h de norme 1while Pas de convergence de unew et vnew dovnew = gλ(M′

h−1uold)unew = M′

h−1vnew/||Mh−1vnew||uold = unew, vold = vnew

end whilevnew = vnew/||vnew||Mh = Mh−1 − δhunewv′new

end for

L’algorithme peut adopter différents types de fonction de pénalisation, celleretenue est une fonction de seuillage “doux” avec

gλ(y) = sign(y)(|y| − λ)+.

3.3 Sparse PLS

Ayant remarqué qu’un étape h de PLS2 est la première étape de la décom-position en valeur singulière de la matrice Mh = X′hYh, la version parcimo-nieuse de la PLS2 est simplement construite en itérant r fois l’algorithme desparse SVD (s-SVD) qui cherche à résoudre :

minuh,vh

||Mh − uhv′h||2F + Pλ1

(uh) + Pλ2(vh.

Comme pour l’algorithme de sparse-SVD, une pénalisation de type L1

(λ||v||1) conduit à l’annulation des paramètres les plus petits pour ne laisserqu’un ensemble restreint de paramètres non-nuls dont l’effectif dépend direc-tement des valeurs λ1 et λ2 de pénalisation.

Plus précisément, l’algorithme adopte pour pénalisation des fonctions deseuillage “doux” composante par composante avec

Pλ1(uh) =

p∑j=1

sign(uhj)(|uhj | − λ1)+

Pλ2(vh) =

q∑j=1

sign(vhj)(|vhj | − λ2)+.

53 07/15

Page 54: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Composantes principales et régressions PLS parcimonieuses

Entre deux étapes de s-SVD, les matrices Xh et Yh subissent une déflation(mode régression ou canonique) avant de passer à l’étape suivante.

Cette démarche soulève des questions délicates d’optimisation du nombrer de dimensions et celle des valeurs des paramètres de la fonction de pénali-sation. En mode régression (PLS2 ou PLS-DA) il est possible d’optimiser ceschoix en minimisant des erreurs de prévision estimées par validation croisée.En mode canonique, le “degré” de parcimonie comme le nombre de dimen-sions doivent être fixés a priori par l’utilisateur. Plus concrètement, ce sontsouvent des choix a priori qui sont opérés en fonction de l’objectif de l’uti-lisateur : recherche de peu de variables assimilées, par exemple, à des bio-marqueurs ou de “beaucoup” de variables dans le cadre d’une tentative decompréhension globale de la structure des données. De même, le nombre decomposantes r est choisi avec une valeur réduite afin de construire des repré-sentations graphiques r ≤ 3 plus élémentaire pour aider à l’interprétation.

En résumé, ce sont donc les capacités d’interprétation d’un problème quiguident concrètement le choix à moins qu’un objectif de construction d’unmeilleur modèle de prévision conduisent à une optimisation par validationcroisée.

Dans le cas particulier de PLS-DA, la sélection de variables s’opère sur leseul ensemble des variables X et donc un seul paramètre λ est à régler.

Attention, les variables latentes successivement calculées perdent leur pro-priété de stricte orthogonalité du fait de la pénalisation. Cela ne s’est pas avérégênant sur les quelques premières dimensions et donc composantes calculéesen pratique.

4 Exemples

4.1 PLS1 de données de spectrométrie NIR

Les données (cookies) sont celles étudiées par régression pénalisée. Commepour les autres techniques, le paramètre de complexité, ici le nombre de com-posantes, est optimisé par validation croisée. Le graphe de la figure 4 montrel’évolution de l’erreur quadratique (ou risque) d’apprentissage (en noir) et decelle estimée par validation croisée (en rouge).

Une fois la dimension optimale déterminée, les prévisions des taux de sucre

FIGURE 4 – Cookies : Optimisation du nombre de composante en régressionPLS par validation croisée et graphe des résidus calculés sur l’échantillon test.

sont calculés pour l’échantillon test afin d’obtenir le graphe des résidus.

4.2 sPLS de données simulées

Le modèle de simulation est celui proposé par (Chun et Keles, 2010)[2]. Lesdonnées générées permettent de voir le rôle de la pénalisation dans la sélectiondes variables en PLS mode canonique. Elles sont constituées de

• n = 40, p = 5000 (X var.), q = 50 (Y var.)• 20 variables X et 10 variables Y d’effet µ1

• 20 variables X et 20 variables Y d’effet µ2

4.3 Analyse canonique par sPLS2

Les données (NCI) concernent 60 lignées cellulaires de tumeurs. L’objectifest de comparer deux plate-formes. Sur la première (cDNA chip) ont été obser-vées les expressions de p = 1375 gènes tandis que sur la 2ème (Affymetrix) cesont q = 1517 gènes qui sont concernés. Une grande majorité des gènes, sontcommuns aux deux tableaux X(60× 1375) et Y(60× 1517).

Les deux technologies de mesure d’expression des gènes conduisent-elles àdes résultats globalement comparables pour l’étude de ces lignées cellulairescancéreuses ?

54 07/15

Page 55: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Composantes principales et régressions PLS parcimonieuses

0 20 40 60 80 100

dim 1

0 20 40 60 80 100

dim 2

0 20 40 60 80 100

dim 3

0 20 40 60 80 100

dim 1

0 20 40 60 80 100

dim 2

0 20 40 60 80 100

dim 3

FIGURE 5 – Effet de la pénalisation sur les vecteurs “loading” associés à lamatrice X ; PLS à gauche et sPLS à droite.

H460

7860

22

, ξ

)

BR

CNS

CO

LE

ME

NS

OV

PR

RE

1 1(ω , ξ )

FIGURE 6 – Les “individus “lignées cellulaires” sont représentées dans lesdeux espaces : (ξ1,ω1) vs. (ξ2,ω2). La longueur de chaque vecteur soulignel’impact de la technologie utilisée sur chaque type de cellule.

CO RE OV BR PR CNS LEU ME7 8 6 8 2 9 6 8

TABLE 1 – Effectifs des répartitions des échantillons des lignées cellulaires en8 types de cancer et 3 types de cellules : épithéliales, mésenchymales, méla-nomes

4.4 Recherche de bio-marqueurs par sPLS-DA

Les données

Les qualités prédictives de la sPLS-DA peuvent-être comparées avec cellesdes autres méthodes abordées dans ce cours, notamment celles d’agrégationde modèles. Lê Cao et al. (2011)[3] ont mené cette comparaison systématiquesur un ensemble de jeux de données publiques dont des données relatives à ladiscrimination de 5 types de cancer du cerveau. Les expressions de p = 6144gènes sont observés sur n = 90 individus.

La question est donc de savoir si la mesure des expressions d’une sélectionde gènes est pertinente pour aider à diagnostiquer ces différents types de can-cer. Les gènes les plus discriminants au sens de la régressions sPLS-DA sontreprésentés par leur coefficients (loadings ) dans la base des deux premièrescomposantes (figure 7). Le réseau (figure 8) est celui des gènes connus dans lalittérature pour intervenir sur ces pathologies.

Parmi les gènes sélectionnés par la sPLS-DA (figure 7), une couleur parti-culière est attribuée à ceux déjà connus et présents dans le réseau.

5 Robustesse d’une sélection

5.1 Principe

Le grand nombre de variables au regard de la taille de l’échantillon sou-lève quelques doutes quand à la robustesse ou la stabilité d’une sélection devariables au sein d’un modèle ; n’est-elle pas finalement qu’un artefact lié àl’échantillon observé ?

Bach (2008)[1] d’une part, Meinshausen et Bülhmann (2008)[6] d’autre part

55 07/15

Page 56: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Composantes principales et régressions PLS parcimonieuses

−1.0 −0.5 0.0 0.5 1.0

−1.0

−0.5

0.0

0.5

1.0

Comp 1

Com

p 2

D12676_at

MLLT3D31764_at

D79998_at

STAB1

D89667_atL00205_at

SCN1B

M20471_at

M31520_at

M33653_at

M74089_at

M83233_at

INSM1

SIRPA

U21858_at

U30521_atAP3B2

MAB21L1U56833_at

SORL1

U85267_at

X16560_at

X68836_at

X78520_at

PEA15

Z50022_at

BTN2A2

STMN2

LRRC16A

PON2

U30255_at

X63578_rna1_at

X53777_at

Y00764_at

TNFRSF1A

GRM4BAD

Cyclin D1

Neuronatin

BARD1

NDF1

ALDOC

PTMA

CIP4

PGHD

PEA15

CD97

HG384.HT384_at

M28213_s_at

U76272_at

Midkine

FIGURE 7 – Représentation des individus dans les deux premières compo-santes

FIGURE 8 – Représentation (Gene Go software) en réseau des gènes déjà iden-tifiés comme liés à ces pathologies de tumeurs cérébrales.

56 07/15

Page 57: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Composantes principales et régressions PLS parcimonieuses

ont proposé des stratégies pour évaluer cette stabilité, éventuellement l’opti-miser en les utilisant pour régler le paramètre de pénalisation. Ils partent de lamême idée : étudier les occurrences ou non des sélections des variables dansun modèle pour une pénalisation donnée sur des échantillons bootstrap (Bach,2008)[1] ou sur des sous-échantillons aléatoires (Meinshausen et Bülhmann,2010)[6]. Ils étudient ces stratégies dans le cas du modèle linéaire avec pénali-sation Lasso et montrent dans ce cas des propriétés asymptotiques de conver-gence vers la bonne sélection. Bach (2008)[1] s’intéresse à la sélection obtenuepar intersection de toutes les sélections sur chacun des échantillons bootstraptandis que Meinshausen et Bülhmann (2010)[6] compte le nombre de fois oùune variables est sélectionnée pour une valeur donnée de la pénalisation.

5.2 Exemple

Le graphique de la figure 9 est obtenu en synthétisant les stratégies précé-dentes. Sur chacun des 50 échantillons bootstrap, une sPLS-DA est calculéepour différentes valeurs de la pénalisation. On ne s’intéresse ici qu’à la pre-mière composante (h = 1). Dans ce cas de seuillage doux, la pénalisationrevient à fixer le nombre de variables intervenant dans la construction de lapremière variable latente. La probabilité d’occurrence d’une variable ou gèneest tout simplement estimée par le ratio du nombre de fois où elle a été sé-lectionnée. Quelques variables ou gènes apparaissent assez systématiquementsélectionnés,principalement 4 d’entre eux. Il apparaît que les données obser-vées ne peuvent garantir la sélection que d’un nombre restreint de gènes. Ceconstat serait à rapprocher du résultat théorique de Verzelen (2012)[9] dans lecas du modèle gaussien. Celui-ci met en évidence qu’un problème de ultra-haute dimension se manifeste si

2k log(p/k)

n>

1

2.

Avec les effectifs (n=90, p=6144) de l’exemple présenté, cette contrainte, dansle cas gaussien, signifierait qu’il est illusoire de vouloir sélectionner plus de 6gènes. Pour un tout autre modèle, c’est aussi ce que nous signifie le graphique.Seule la considération d’un petit nombre de gènes dont la sélection est relati-vement stable sur les différents échantillons bootstrap est raisonnable sur cesdonnées compte tenu de la faible taille de l’échantillon.

5 10 15 20 25 30 35 40 45 50 100 200 500 1

0.0

0.2

0.4

0.6

0.8

1.0

Brain − dim 1

number of selected variables

prob

abili

ty

FIGURE 9 – Probabilités de sélection des différentes variables (gènes) sur lapremière composante en fonction de la valeur de la pénalisation en sPLS-DA.

57 07/15

Page 58: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Composantes principales et régressions PLS parcimonieuses

Références[1] F. Bach, Bolasso : model consistent Lasso estimation through the boots-

trap, Proceedings of the Twenty-fifth International Conference on Ma-chine Learning (ICML) (2008), 33–40.

[2] H. Chun et S. Keles, Sparse partial least squares regression for simulta-neous dimension reduction and variable selection, Journal of the RoyalStatistical Society : Series B 72 (2010), 3–25.

[3] K. A. Lê Cao, S. Boistard et P. Besse, Sparse PLS Discriminant Ana-lysis : biologically relevant feature selection and graphical displays formulticlass problems, BMC Bioinformatics 12 (2011), no 253.

[4] K. A. Lê Cao, P.G.P Martin, C. Robert-Granié et P. Besse, Sparse Cano-nical Methods for Biological Data Integration : application to a cross-platform study, BMC Bioinformatics 10 (2009), no 34.

[5] K. A. Lê Cao, D. Rossouw, C. Robert-Granié et P. Besse, A sparse PLSfor variable selection when integrating Omics data, Statistical Applica-tions in Genetics and Molecular Biology 7 (2008), no 35.

[6] N. Meinshausen et P. Bühlmann, Stability selection, Journal of the RoyalStatistical Society : Series B 72 (2008), 417–473.

[7] H. Shen et J.Z. Huang, Sparse principal component analysis via regulari-zed low rank matrix approximation, Journal of Multivariate Analysis 99(2008), 1015–1034.

[8] M. Tenenhaus, La régression PLS : théorie et applications, Technip,1998.

[9] Nicolas Verzelen, Minimax risks for sparse regressions : Ultra-high-dimensional phenomenons, Electron. J. Statistics 6 (2012), 38–90,http://arxiv.org/pdf/1008.0526.pdf.

[10] H. Wold, Multivariate analysis, Academic Press,, 1966.

58 07/15

Page 59: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Régression logistique ou modèle binomial

Régression logistique ou modèlebinomial

RésuméRappels sur la régression logistique ou modèle binomial du modèlelinéaire général. Définition de la notion de rapport de cote utiledans l’interprétation du rôle des paramètres ; modèle pour une va-riable binomiale ou une variable binaire 0, 1) de Bernoulli ; estima-tion, propriétés et difficultés spécifiques à ce modèle ; extension à lamodélisation d’une variable polytomique ou ordinale. Les lois desobservations sont discrètes et associées à des dénombrements : bi-nomiale, multinomiale. Choix de modèle en régression logistique etexemples.Retour au plan du cours

1 IntroductionHistoriquement, la régression logistique ou régression binomiale fut la pre-

mière méthode utilisée, notamment en marketing pour le scoring et en épi-démiologie, pour aborder la modélisation d’une variable binaire binomiale(nombre de succès pour ni essais) ou de Bernoulli (avec ni = 1) : posses-sion on non d’un produit, bon ou mauvais client, décès ou survie d’un patient,absence ou présence d’une pathologie...

Bien connue dans ces types d’application et largement répandue, la régres-sion logistique conduit à des interprétations pouvant être complexes mais ren-trées dans les usages pour quantifier, par exemple, des facteurs de risque liésà une pathologie, une faillite... Cette méthode reste donc celle la plus utiliséemême si, en terme de qualité prévisionnelle, d’autres approches sont suscep-tibles, en fonction des données étudiées, d’apporter de bien meilleurs résultats.Il est donc important de bien maîtriser les différents aspects de la régressionlogistiques dont l’interprétation des paramètres, la sélection de modèle par sé-lection de variables ou par régularisation (LASSO).

Cas particulier de modèle linéaire général, la régression logistique reprend

la plupart des usages des méthodes de cette famille : estimation par maximi-sation de la vraisemblance, statistiques de test suivant asymptotiquement deslois du chi-deux, calcul des résidus, observations influentes, critère pénalisé(AIC) d’Akaïke[?] pour la sélection de modèle. Néanmoins, certaines spéci-ficités méritent d’être soulignées pour un meilleur usage de même qu’il estimportant de rappeler que d’autres méthodes peuvent conduire à de meilleureprévision, donc de meilleurs scores et que c’est souvent un bon investissementque de faire évouer ses habitudes.

2 Odds et odds ratioUne première section définit quelques notions relatives à l’étude de la liaison

entre variables qualitatives. Elles sont couramment utilisées dans l’interpréta-tion des modèles de régression logistique.

Une variable

Soit Y une variable qualitative à J modalités. On désigne la chance (ouodds 1 de voir se réaliser la j-ème modalité plutôt que la kème par le rapport

Ωjk =πjπk

où πj est la probabilité d’apparition de la j-ème modalité. Cette quantité estestimée par le rapport nj/nk des effectifs observés sur un échantillon. Lorsquela variable est binaire et suit une loi de Bernouilli de paramètre π, l’odds est lerapport π/(1− π) qui exprime une cote ou chance de gain.

Par exemple, si la probabilité d’un succès est 0.8, celle d’un échec est 0.2.L’odds du succès est 0.8/0.2=4 tandis que l’odds de l’échec est 0.2/0.8=0.25.On dit encore que la chance de succès est de 4 contre 1 tandis que celle d’échecest de 1 contre 4.

2.1 Table de contingence

On considère maintenant une table de contingence 2 × 2 croisant deux va-riables qualitatives binaires X1 et X2. les paramètres de la loi conjointe se

1. Il n’existe pas, même en Québécois, de traduction consensuelle de “odds” qui utilise néan-moins souvent le terme “cote”.

59 07/15

Page 60: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Régression logistique ou modèle binomial

mettent dans une matrice : [π11 π12π21 π22

]où πij = P [X1 = i et X2 = j] est la probabilité d’occurrence de chaquecombinaison.

• Dans la ligne 1, l’odds que la colonne 1 soit prise plutôt que la colonne 2est :

Ω1 =π11π12

.

• Dans la ligne 2, l’odds que la colonne 1 soit prise plutôt que la colonne 2est :

Ω2 =π21π22

.

On appelle odds ratio (rapport de cote) le rapport

Θ =Ω1

Ω2=π11π22π12π21

.

Ce rapport prend la valeur 1 si les variables sont indépendantes, il est supérieurà 1 si les sujets de la ligne 1 ont plus de chances de prendre la première colonneque les sujets de la ligne 2 et inférieur à 1 sinon.

Exemple : supposons qu’à l’entrée dans une école d’ingénieurs, 7 garçonssur 10 sont reçus tandis que seulement 4 filles sur 10 le sont. L’odds des gar-çons est alors de 0.7/0.3=2.33 tandis que celle des filles est de 0.4/0.6=0.67.L’odds ratio est de 2.33/0.67=3.5. La chance d’être reçu est 3.5 plus grandepour les garçons que pour les filles.

L’odds ratio est également défini pour deux lignes (a, b) et deux colonnes(c, d) quelconques d’une table de contingence croisant deux variables à J etK modalités. L’odds ratio est le rapport

Θabcd =Ωa

Ωb=πacπbdπadπbc

estimé par l’odds ratio empirique Θabcd =nacnbdnadnbc

.

3 Régression logistique

3.1 Type de données

Cette section décrit la modélisation d’une variable qualitative Z à 2 moda-lités : 1 ou 0, succès ou échec, présence ou absence de maladie, panne d’un

équipement, faillite d’une entreprise, bon ou mauvais client. . . . Les modèlesde régression précédents adaptés à l’explication d’une variable quantitative nes’appliquent plus directement car le régresseur linéaire usuel Xβ ne prend pasdes valeurs simplement binaires. L’objectif est adapté à cette situation en cher-chant à expliquer les probabilités

π = P (Z = 1) ou 1− π = P (Z = 0),

ou plutôt une transformation de celles-ci, par l’observation conjointe des va-riables explicatives. L’idée est en effet de faire intervenir une fonction réellemonotone g opérant de [0, 1] dans R et donc de chercher un modèle linéaire dela forme :

g(πi) = x′iβ.

Il existe de nombreuses fonctions, dont le graphe présente une forme sig-moïdale et qui sont candidates pour remplir ce rôle, trois sont pratiquementdisponibles dans les logiciels :probit : g est alors la fonction inverse de la fonction de répartition d’une loi

normale, mais son expression n’est pas explicite.log-log avec g définie par

g(π) = ln[− ln(1− π)]

mais cette fonction est dissymétrique.logit est définie par

g(π) = logit(π) = lnπ

1− πavec g−1(x) =

ex

1 + ex.

Plusieurs raisons, tant théoriques que pratiques, font préférer cette dernièresolution. Le rapport π/(1 − π), qui exprime une “cote”, est l’odds et la ré-gression logistique s’interprète donc comme la recherche d’une modélisationlinéaire du “log odds” tandis que les coefficients de certains modèles exprimentdes “odds ratio” c’est-à-dire l’influence d’un facteur qualitatif sur le risque (oula chance) d’un échec (d’un succès) de Z.

Cette section se limite à la description de l’usage élémentaire de la régres-sion logistique. Des compléments concernant l’explication d’une variable qua-litative ordinale (plusieurs modalités), l’intervention de variables explicativesavec effet aléatoire, l’utilisation de mesures répétées donc dépendantes, sont àrechercher dans la bibliographie.

60 07/15

Page 61: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Régression logistique ou modèle binomial

3.2 Modèle binomial

On considère, pour i = 1, . . . , I , différentes valeurs fixées x1i , . . . , xqi des

variables explicatives X1, . . . , Xq . Ces dernières pouvant être des variablesquantitatives ou encore des variables qualitatives, c’est-à-dire des facteurs issusd’une planification expérimentale.

Pour chaque groupe, c’est-à-dire pour chacune des combinaisons de valeursou facteurs, on réalise ni observations (n =

∑Ii=1 ni) de la variable Z qui se

mettent sous la forme y1/n1, . . . , yI/nI où yi désigne le nombre de “succès”observés lors des ni essais. On suppose que toutes les observations sont indé-pendantes et qu’à l’intérieur d’un même groupe, la probabilité πi de succès estconstante. Alors, la variable Yi sachant ni et d’espérance E(Yi) = niπi suitune loi binomiale B(ni, πi) dont la fonction de densité s’écrit :

P (Y = yi) =

(niyi

)πyi

i (1− πi)(ni−yi).

On suppose que le vecteur des fonctions logit des probabilités πi appartientau sous-espace vectX1, . . . , Xq engendré par les variables explicatives :

logit(πi) = x′iβ i = 1, . . . , I

ce qui s’écrit encore

πi =ex

′iβ

1 + ex′iβ

i = 1, . . . , I.

Le vecteur des paramètres est estimé par maximisation de la log-vraisemblance. Il n’y a pas de solution analytique, celle-ci est obtenue par desméthodes numériques itératives (par exemple Newton Raphson) dont certainesreviennent à itérer des estimations de modèles de régression par moindres car-rés généralisés avec des poids et des métriques adaptés à chaque itération.

L’optimisation fournit une estimation b de β, il est alors facile d’en déduireles estimations ou prévisions des probabilités πi :

πi =ex

′ib

1 + ex′ib

et ainsi celles des effectifsyi = niπi.

Remarques1. La matrice X issue de la planification expérimentale est construite avec

les mêmes règles que celles utilisées dans le cadre de l’analyse de co-variance mixant variables explicatives quantitatives et qualitatives. Ainsi,les logiciels gèrent avec plus ou moins de clarté le choix des variablesindicatrices et donc des paramètres estimables ou contrastes associés.

2. Attention, La situation décrite précédemment correspond à l’observationde données groupées. Dans de nombreuses situations concrètes et sou-vent dès qu’il y a des variables explicatives quantitatives, les observationsxi sont toutes distinctes. Ceci revient donc à fixer ni = 1; i = 1, . . . , Idans les expressions précédentes et la loi de Bernouilli remplace la loibinomiale. Certaines méthodes ne sont alors plus applicables et les com-portements asymptotiques des distributions des statistiques de test ne sontplus valides, le nombre de paramètres tendant vers l’infini.

3. Dans le cas d’une variable explicative X dichotomique, un logicielcomme SAS fournit, en plus de l’estimation d’un paramètre b, celle desodds ratios ; b est alors le log odds ratio ou encore, eb est l’odds ratio (lerapport de cote). Ceci s’interprète en disant que Y a eb fois plus de chancede succès (ou de maladie comme par un exemple un cancer du poumon)quand X = 1 (par exemple pour un fumeur).

4. Attention dans SAS, la procédure LOGISTIC adopte une paramétrisation(−1, 1) analogue à celle de la procédure CATMOD mais différente decelle des modules GENMOD ou SAS/Insight (0, 1). Ceci explique lesdifférences observées dans l’estimation des paramètre d’une procédureà l’autre mais les modèles sont identiques/ Mêmes exprimés dans desbases différentes, les espaces engendrés par les vecteurs des indicatricessélectionnées sont les mêmes.

3.3 Régressions logistiques polytomique et ordinale

3.3.1 Généralisation

La régression logistique adaptée à la modélisation d’une variable dichoto-mique se généralise au cas d’une variable Y à plusieurs modalités ou polyto-mique. Si ces modalités sont ordonnés, on dit que la variable est qualitativeordinale. Ces types de modélisation sont très souvent utilisés en épidémiologieet permettent d’évaluer ou comparer des risques par exemples sanitaires. Des

61 07/15

Page 62: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Régression logistique ou modèle binomial

estimations d’odds ratio ou rapports de cotes sont ainsi utilisés pour évaluer etinterpréter les facteurs de risques associés à différents types (régression poly-tomique) ou seuils de gravité (régression ordinale) d’une maladie ou, en mar-keting, cela s’applique à l’explication, par exemple, d’un niveau de satisfactiond’un client. Il s’agit de comparer entre elles des estimations de fonctions logit.

Dans une situation de data mining ou fouille de données, ce type d’approchese trouve lourdement pénalisé lorsque, à l’intérieur d’un même modèle polyto-mique ou ordinal, plusieurs types de modèles sont en concurrence pour chaquefonction logit associée à différentes modalités. Différents choix de variables,différents niveaux d’interaction rendent trop complexe et inefficace cette ap-proche. Elle est à privilégier uniquement dans le cas d’un nombre restreint devariables explicatives avec un objectif explicatif ou interprétatif.

Logits cumulatifs

À titre illustratif, explicitons le cas simple d’une variable Y à k modalitésordonnées expliquée par une seule variable dichotomiqueX . Notons πj(X) =

P (Y = j|X) avec∑k

j=1 πj(X) = 1. Pour une variable Y à k modalités, ilfaut, en toute rigueur, estimer k − 1 prédicteurs linéaires :

gj(X) = αj + βjX pourj = 1, . . . , k − 1

et, dans le cas d’une variable ordinale, la fonction lien logit utilisée doit tenircompte de cette situation particulière.

Dans la littérature, trois types de fonction sont considérées dépendant del’échelle des rapports de cote adoptée :

• échelle basée sur la comparaison des catégories adjacentes deux à deux,• sur la comparaison des catégories adjacentes supérieures cumulées,• et enfin sur la comparaison des catégories adjacentes cumulées.

Pour k = 2, les trois situations sont identiques. C’est le dernier cas qui est leplus souvent adopté ; il conduit à définir les fonctions des “logits cumulatifs”de la forme :

logπj+1 + · · ·+ πkπ1 + · · ·+ πj

pourj = 1, . . . , k − 1.

Pour un seuil donné sur Y , les catégories inférieures à ce seuil, cumulées, sontcomparées aux catégories supérieures cumulées. Les fonctions logit définies

sur cette échelle dépendent chacune de tous les effectifs, ce qui peut conduireà une plus grande stabilité des mesures qui en découlent.

Proportionnalité des rapports de cote

Si les variables indépendantes sont nombreuses dans le modèle ou si la va-riable réponse Y comporte un nombre élevé de niveaux, la description desfonctions logit devient fastidieuse. La pratique consiste plutôt à déterminer uncoefficient global b (mesure d’effet) qui soit la somme pondérée des coeffi-cients bj . Ceci revient à faire l’hypothèse que les coefficients sont homogènes(idéalement tous égaux), c’est-à-dire à supposer que les rapports de cotes sontproportionnels. C’est ce que calcule implicitement la procédure LOGISTIC deSAS appliquée à une variable réponse Y ordinale en estimant un seul para-mètre b mais k − 1 termes constants correspondant à des translations de lafonctions logit.

La procédure LOGISTIC fournit le résultat du test du score sur l’hypothèseH0 de l’homogénéité des coefficients βj .

Le coefficient b mesure donc l’association du facteur X avec la gravité de lamaladie et peut s’interpréter comme suit : pour tout seuil de gravité choisi surY , la cote des risques d’avoir une gravité supérieure à ce seuil est eb fois plusgrande chez les exposés (X = 1) que chez les non exposés (X = 0).

4 Choix de modèle

4.1 Recherche pas à pas

Principalement deux critères (test du rapport de vraisemblance et test deWald), sont utilisés de façon analogue au test de Fisher du modèle linéairegaussien. Ils permettent de comparer un modèle avec un sous-modèle et d’éva-luer l’intérêt de la présence des termes complémentaires. On suit ainsi unestratégie descendante à partir du modèle complet. L’idée est de supprimer, unterme à la fois, la composante d’interaction ou l’effet principal qui apparaîtcomme le moins significatif au sens du rapport de vraisemblance ou du testde Wald. Les tests présentent une structure hiérarchisée. SAS facilite cette re-cherche en produisant une décomposition (Type III) de ces indices permettantde comparer chacun des sous-modèles excluant un des termes avec le modèleles incluant tous.

62 07/15

Page 63: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Régression logistique ou modèle binomial

Attention, du fait de l’utilisation d’une transformation non linéaire (logit),même si des facteurs sont orthogonaux, aucune propriété d’orthogonalité nepeut être prise en compte pour l’étude des hypothèses. Ceci impose l’élimina-tion des termes un par un et la ré-estimation du modèle. D’autre part, un termeprincipal ne peut être supprimé que s’il n’intervient plus dans des termes d’in-teraction.

4.2 Critère

L’approche précédente favorise la qualité d’ajustement du modèle. Dans unbut prédictif, certains logiciels, comme Splus/R ou Enterpirse Miner, proposentd’autres critères de choix (AIC, BIC). Une estimation de l’erreur de prévisionpar validation croisée est aussi opportune dans une démarche de choix de mo-dèle.

4.3 Pénalisation

Des versions Lasso, elastic-net, PLS... de la régression logistique ont étéproposées. Elles sont utilisées comme dans le cadre du modèle linéaire gaus-sien.

5 Exemples

5.1 Exemple élémentaire avec SAS

Les donnéesOn étudie l’influence du débit et du volume d’air inspiré sur l’occurrence

(codée 1) de la dilatation des vaisseaux sanguins superficiels des membres in-férieurs. Un graphique élémentaire représentant les modalités de Y dans lescoordonnées de X1 ×X2 est toujours instructif. Il montre une séparation rai-sonnable et de bon augure des deux nuages de points. Dans le cas de nom-breuses variables explicatives quantitatives, une analyse en composantes prin-cipales s’impose. Les formes des nuages représentés, ainsi que l’allure desdistributions (étudiées préalablement), incitent dans ce cas à considérer par lasuite les logarithmes des variables. Une variable un ne contenant que des “1”dénombrant le nombre d’essais est nécessaire dans la syntaxe de genmod. Lesdonnées sont en effet non groupées.

D I L A T 0 1

D E B I T

0

1

2

3

4

V O L U M E

0 1 2 3 4

FIGURE 1 – Dilatation : Nuage des modalités de Y dans les coordonnées desvariables explicatives.

proc logistic data=sasuser.debvol;model dilat=l_debit l_volume;run;proc genmod data=sasuser.debvol;model dilat/un=l_debit l_volume/d=bin;run;

The LOGISTIC ProcedureIntercept

Intercept andCriterion Only Covariates Chi-Square for CovariatesAIC 56.040 35.216 .SC 57.703 40.206 .-2 LOG L 54.040 29.216(1) 24.824 with 2 DF (p=0.0001)Score . . 16.635 with 2 DF (p=0.0002)

Parameter(2) Standard Wald(3) Pr > Standardized OddsVariable DF Estimate Error Chi-Square Chi-Square Estimate RatioINTERCPT 1 2.8782 1.3214 4.7443 0.0294 . .L_DEBIT 1 -4.5649 1.8384 6.1653 0.0130 -2.085068 0.010L_VOLUME 1 -5.1796 1.8653 7.7105 0.0055 -1.535372 0.006

Cette procédure fournit des critères de choix de modèle dont la déviance(1), le vecteur b des paramètres (2) et les statistiques des tests (3) comparantle modèle excluant un terme par rapport au modèle complet tel qu’il est décritdans la commande.

Criteria For Assessing Goodness Of Fit

63 07/15

Page 64: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Régression logistique ou modèle binomial

Criterion DF Value Value/DFDeviance 36 29.2156 0.8115 (1)Scaled Deviance 36 29.2156 0.8115 (2)Pearson Chi-Square 36 34.2516 0.9514 (3)Scaled Pearson X2 36 34.2516 0.9514Log Likelihood . -14.6078 .

Analysis Of Parameter EstimatesParameter DF Estimate (4) Std Err ChiSquare (5) Pr>ChiINTERCEPT 1 -2.8782 1.3214 4.7443 0.0294L_DEBIT 1 4.5649 1.8384 6.1653 0.0130L_VOLUME 1 5.1796 1.8653 7.7105 0.0055SCALE (6) 0 1.0000 0.0000 . .

(1) Déviance du modèle par rapport au modèle saturé.(2) Déviance pondérée si le paramètre d’échelle est différent de 1 en cas de sur-dispersion.(3) Statistique de Pearson, voisine de la déviance, comparant le modèle au modèle saturé .(4) Paramètres du modèle.(5) Statistique des tests comparant le modèle excluant un terme par rapport au modèle complet.(6) Estimation du paramètre d’échelle si la quasi-vraisemblance est utilisée.

5.2 Régression logistique ordinale

On étudie les résultats d’une étude préalable à la législation sur le port dela ceinture de sécurité dans la province de l’Alberta à Edmonton au Canada(Jobson, 1991). Un échantillon de 86 769 rapports d’accidents de voitures ontété compulsés afin d’extraire une table croisant :

1. Etat du conducteur : Normal ou Alcoolisé

2. Sexe du conducteur

3. Port de la ceinture : Oui Non

4. Gravité des blessures : 0 : rien à 3 : fatalesLes modalités de la variable à expliquer concernant la gravité de l’accidentsont ordonnées. Mais dans cet exemple, l’hypothèseH0 de proportionnalité desrapports de cote est rejetée. Le problème est alors simplifié en regroupant lesconséquences d el’accident en seulement 2 modalités avec ou sans séquelles.

Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept Gr0 1 1.8699 0.0236 6264.9373 <.0001Intercept Gr1 1 2.8080 0.0269 10914.3437 <.0001Intercept Gr2 1 5.1222 0.0576 7917.0908 <.0001sexe Sfem 1 -0.3118 0.0121 664.3353 <.0001alcool A_bu 1 -0.5017 0.0190 697.0173 <.0001ceinture Cnon 1 -0.1110 0.0174 40.6681 <.0001

Test de score pour l’hypothèse des cotes proportionnellesKhi-2 DDL Pr > Khi-233.3161 6 <.0001

Modèle élémentaire GrO vs. GrN

Estimations des rapports de cotesEffet Valeur estimée IC de Wald à 95 %

sexe Sfem vs Shom 1.873 1.786 1.964alcool A_bu vs Ajeu 2.707 2.512 2.918ceinture Cnon vs Coui 1.244 1.162 1.332

5.3 Cancer du seinLes données (Wisconsin BreastCancer Database) sont dispo-

nibles dans la librairie mlbench du logiciel R. Elles servent très souvent debase de référence à des comparaisons de techniques d’apprentissage. Les va-riables considérées sont :Cl.thickness Clump ThicknessCell.size Uniformity of Cell SizeCell.shape Uniformity of Cell ShapeMarg.adhesion Marginal AdhesionEpith.c.size Single Epithelial Cell SizeBare.nuclei Bare NucleiBl.cromatin Bland ChromatinNormal.nucleoli Normal NucleoliMitoses MitosesClass "benign" et "malignant".

La dernière variable est celle à prédire, les variables explicatives sont ordi-nales ou nominales à 10 classes. Il reste 683 observations après la suppressionde 16 présentant des valeurs manquantes.

Ce jeu de données est assez particulier car plutôt facile à ajuster. Une esti-mation utilisant toutes les variables conduit à des messages critiques indiquantun défaut de convergence et des probabilités exactement ajustées. En fait lemodèle s’ajuste exactement aux données en utilisant toutes les variables aussil’erreur de prévision nécessite une estimation plus soignée. Une séparationentre un échantillon d’apprentissage et un échantillon test ou une validationcroisée permet une telle estimation.

On trouve alors qu’un modèle plus parcimonieux et obtenu par une dé-marche descendante, de sorte que les paramètres soient significatifs au sensd’un test du Chi2, conduit à des erreurs de prévision plus faibles sur un échan-tillon test indépendant qu’un modèle ajustant exactement les données. La qua-lité de l’ajustement du modèle se résume sous la forme d’une matrice de confu-sion évaluant les taux de bien et mal classés sur l’échantillon d’apprentissagetandis que l’erreur de prévision est estimée à partir de l’échantillon test.

64 07/15

Page 65: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Régression logistique ou modèle binomial

# erreur d’ajustementbenign malignant

FALSE 345 6TRUE 13 182

# erreur de prévisionbenign malignant

FALSE 84 5TRUE 2 46

Le taux d’erreur apparent estimé sur l’échantillon d’apprentissage est de3,5% (0% avec le modèle complet) tandis que le taux d’erreur estimé sans biaissur l’échantillon test est de 5,1% (5,8 avec le modèle complet). Ces estimationsdemanderont à être affinées afin de comparer les méthodes entre elles.

5.4 Pic d’ozone

Plutôt que de prévoir la concentration de l’ozone puis un dépassement éven-tuel d’un seuil, il pourrait être plus efficace de prévoir directement ce dépas-sement en modélisant la variable binaire associée. Attention toutefois, ces dé-passements étant relativement peu nombreux (17%), il serait nécessaire d’enaccentuer l’importance par l’introduction d’une fonction coût ou une pondé-ration spécifique. Ceci est un problème général losqu’il s’agit de prévoir desphénomènes rares : un modèle trivial ne les prévoyant jamais ne commettraitfinalement qu’une erreur relative faible. Ceci revient à demander au spécialistede quantifier le risque de prévoir un dépassement du seuil à tort par rapport àcelui de ne pas prévoir ce dépassement à tort. Le premier à des conséquenceséconomiques et sur le confort des usagers par des limitations de trafic tandisque le 2ème a des conséquences sur l’environnement et la santé de certainespopulations. Ce n’est plus un problème "statistique".

La recherche descendante d’un meilleur modèle au sens du critère d’Akaïkeconduit au résultat ci-dessous.

Df Deviance Resid. Df Resid. Dev P(>|Chi|)NULL 831 744.34O3_pr 1 132.89 830 611.46 9.576e-31vmodule 1 2.42 829 609.04 0.12s_rmh2o 1 33.71 828 575.33 6.386e-09station 4 16.59 824 558.74 2.324e-03TEMPE 1 129.39 823 429.35 5.580e-30

On peut s’interroger sur l’intérêt de la présence de la variable vmodule quirend plus faible la prévision de l’erreur au sens d’Akaïke mais dont le coef-ficient n’est pas significatif au sens du test du Chi-deux ; ce critère étant lié àune qualité d’ajustement. L’erreur estimée sur l’échantillon test ne permet pasde départager ces modèles car les matrices de transition similaires conduisentà la même estimation du taux d’erreur de 11,5% tandis que la même erreur estde 13,2% pour le modèle MOCAGE. Un modèle de régression logistique fai-sant intervenir les interactions d’ordre 2 et optimisé par algorithme descendantaboutit à une erreur de 10,6% tandis que le modèle quantitatif de régressionquadratique du chapitre précédent conduit à une erreur de 10,1% avec le mêmeprotocole et les mêmes échantillons d’apprentissage et de test.

Matrices de confusion de l’échantillon test pour différents modèles :0 1 0 1 0 1 0 1

FALSE 163 19 FALSE 162 18 FALSE 163 17 FALSE 160 13TRUE 5 21 TRUE 6 22 TRUE 5 23 TRUE 8 27

logistique sans vmodule avec vmodule avec interactions quantitatif

Notons que les erreurs ne sont pas "symétriques" et sont affectées du mêmebiais : tous ces modèles "oublient" systématiquement plus de dépassements deseuils qu’ils n’en prévoient à tort. Une analyse plus poussée de l’estimationde l’erreur de prévision est évidemment nécessaire. À ce niveau de l’étude, cequi est le plus utile au météorologue, c’est l’analyse des coefficients les plussignificativement présents dans la régression quadratique, c’est-à-dire avec lesinteractions. Ils fournissent des indications précieuses sur les faiblesses ou in-suffisances de leur modèle physique.

5.5 Données bancaires

Il s’agit de modéliser une variable binaire représentant la possession ou nonde la carte visa premier en fonction du comportement bancaire d’un client. Cetexemple est typique de la construction d’un score d’appétence en marketingquantitatif. Comme dans l’exemple précédent, la possession de ce type de pro-duit est rare aussi, un échantillon spécifique, non représentatif, a été construiten sur-représentant cette possession.

Plusieurs stratégies peuvent être mises en œuvre sur ces données selon lestransformations et codages réalisés sur les variables qualitatives. Elles sont ex-plorées dans le scénario afférent. La stratégie adoptée ici consiste à rechercherun “meilleur” modèle à l’aide de la procédure SAS/STAT logistic en as-

65 07/15

Page 66: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Régression logistique ou modèle binomial

sociation avec l’un des trois algorithmes de sélection (forward, backward oustepwise).

La sélection de variables ainsi retenue est ensuite utilisée avec la procéduregenmod aux sorties plus explicites qui est également mise en œuvre dans lemodule SAS Enterprise Miner. Le taux apparent d’erreur est évalué à partir dumême échantillon d’apprentissage et donc de manière nécessairement biaiséepar optimisme. Il mesure la qualité d’ajustement du modèle illustrée par lamatrice de confusion de l’échantillon ci-dessous associé à un taux d’erreur de11,5%.

YVAR1(CARVPR) PREDYFrequency|Percent | 0| 1| Total---------+--------+--------+

0 | 659 | 53 | 712| 61.65 | 4.96 | 66.60

---------+--------+--------+1 | 70 | 287 | 357| 6.55 | 26.85 | 33.40

---------+--------+--------+Total 729 340 1069

68.19 31.81 100.00

Il est notable, sur cet exemple (voir le scénario sur ces données), de trou-ver un bien meilleur résultat (meilleure prévision de 11.5% au lieu de 16%)lorsque les variables quantitatives sont découpées en classes et donc renduesqualitatives. Intuitivement, nous pourrions penser que découper des variablesquantitatives en classes conduit à une “perte d’information” et donc à un moinsbon modèle. Cette intuition est fausse sur cet exemple, le découpage en classeconduit en fait à un modèle plus flexible (plus de paramètres) fonctionnantcomme une approximation rudimentaire par fonctions étagées de transforma-tions non linéaires des variables explicatives. Plus flexible (approximativementnon-linéaire) mais sans être trop complexe, le modèle obtenu fournit, sur ceexemple, de meilleures prévisions et donc un meilleur score.

Dans ce type d’application, il est très classique d’estimer la courbe ROC surl’échantillon test afin de calibrer le seuil en fontion des objectifs du servicemarketing plutôt que de le laisser par défaut à 0, 5.

FIGURE 2 – Données bancaires : estimation sur l’échantillon test de la courbeROC associée à la régression logistique.

66 07/15

Page 67: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Apprentissage non paramétrique en régression

Apprentissage non paramétrique enrégression

RésuméDifférentes méthodes d’estimation non paramétriques en régressionsont présentées. Tout d’abord les plus classiques : estimation par despolynômes, estimation sur des bases de splines, estimateurs à noyauet par projection sur des bases orthonormées (Fourier, ondelettes).Des contrôles du risque quadratique et des calculs de vitesses deconvergences sont effectués. Nous présentons également les modèlesadditifs généralisés ainsi que les arbres de régression CART et laméthode KRLS (kernel regression least square).Retour au plan du cours

1 IntroductionOn se place dans le cadre d’un modèle de régression :

Yi = f(Xi) + εi, i = 1, . . . n.

Nous supposerons que les variables Xi appartiennent à Rd, les Yi sont réelles.• Soit les Xi sont déterministes, et nous supposerons les variables εi sont

i.i.d., centrées, de variance σ2.

• Soit les Xi sont aléatoires et nous supposerons les variables εi indépen-dantes des Xi, i.i.d., centrées, de variance σ2.

En l’absence de toute hypothèse sur la fonction de régression f , noussommes dans un cadre non paramétrique. Nous allons proposer plusieurs typesde méthodes d’apprentissage pour la fonction f : l’ estimation par des splines,les estimateurs à noyaux et les estimateurs par projection sur des bases or-thonormées, notamment des bases d’ondelettes. Nous verrons également uneméthode qui permet de contourner le fléau de la dimension dans le cas desmodèles additifs, enfin nous introduirons les arbres CART.

2 Estimation par des polynômes par mor-ceaux.

Dans ce chapitre, on suppose que les Xi appartiennent à un compact de R,que l’on peut supposer égal à [0, 1].

2.1 Estimation par des constantes par morceaux

On peut estimer la fonction f par une fonction constante par morceaux surune partition de [0, 1]. (Ces estimateurs sont les analogues en régression desestimateurs par histogramme en densité, on les appelle régressogrammes).On découpe [0, 1] en D intervalles de même taille :

Ik,D = 1]k/D,(k+1)/D], k = 0, . . . , D − 1.

Il est naturel d’estimer la fonction f sur l’intervalle Ik,D par la moyenne desvaleurs de Yi qui sont telles que Xi ∈ Ik,D, soit pour tout x ∈ Ik,D, on pose

fD(x) =

∑i,Xi∈Ik,D Yi

]i,Xi ∈ Ik,D

si ]i,Xi ∈ Ik,D 6= 0 et

fD(x) = 0 si ]i,Xi ∈ Ik,D = 0.

On peut aussi écrire fD(x) sous la forme

fD(x) =

∑ni=1 Yi1Xi∈Ik,D∑ni=1 1Xi∈Ik,D

.

On suppose dans la suite que D < n, si pour tout i, Xi = i/n, ceci entraîneque pour tout k, ]i,Xi ∈ Ik,D 6= 0.

Cet estimateur correspond à l’estimateur des moindres carrés de f sur lemodèle paramétrique des fonctions constantes par morceaux sur les intervallesIk,D :

SD = f(x) =D∑k=1

ak1x∈Ik,D.

67 07/15

Page 68: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Apprentissage non paramétrique en régression

En effet, si on cherche à minimiser

h(a1, . . . , aD) =n∑i=1

(Yi −

D∑k=1

ak1Xi∈Ik,D

)2

=D∑k=1

∑i,Xi∈Ik,D

(Yi − ak)2,

(1)la minimisation est obtenue pour

al =

∑i,Xi∈Il,D Yi

]i,Xi ∈ Il,D, ∀l.

2.2 Polynômes par morceaux

L’estimation par des polynômes par morceaux de degré m sur la partitiondéfinie par les intervalles Ik,D, 1 ≤ k ≤ D correspond à la minimisation ducritère :

n∑i=1

(Yi −

D∑k=1

(ak,0 + ak,1Xi + . . .+ ak,mXmi )1Xi∈Ik,D

)2

=

D∑k=1

∑i,Xi∈Ik,D

(Yi − ak,0 − ak,1Xi − . . .− ak,mXmi )2.

Sur tout intervalle Ik,D, on ajuste un polynôme de degré m, par la méthodedes moindres carrés en minimisant le critère :∑

i,Xi∈Ik,D

(Yi − ak,0 − ak,1Xi − . . .− ak,mXmi )2.

Il s’agit simplement d’un modèle linéaire en les paramètres (ak,0, . . . , ak,m),il y a donc une solution explicite. Le problème du choix des paramètres D etm se pose.

2.3 Ajustement des paramètres

Revenons au cas de l’estimation par des constantes par morceaux, et consi-dérons le problème du choix du paramètre D. On peut alors distinguer deuxcas extrêmes :

• Si D est de l’ordre de n, on a un seul point Xi par intervalle Ik,D eton estime f par Yi sur chaque intervalle Ik,D. On a une fonction trèsirrégulière, qui reproduit simplement les observations. On fait alors dusur-ajustement.

• SiD = 1, on estime f sur [0, 1] par la moyenne de toutes les observationsYi. Si f est très loin d’être une fonction constante, l’estimateur sera malajusté.

Il faut donc trouver un bon compromis entre ces deux situations extrêmespour le choix de D.

2.4 Performances de l’estimateur.

Nous allons majorer le risque quadratique de l’estimateur, pour un choixconvenable deD, dans le cas où la fonction de régression f est Lipschitzienne :on suppose que f est dans la classe de fonctions

S1,R = f ∈ L2([0, 1]),∀x, y ∈ [0, 1], |f(x)− f(y)| ≤ R|x− y|.

THÉORÈME 1. — Dans le modèle

Yi = f(i

n) + εi, i = 1, . . . , n,

l’estimateur

fD(x) =

∑ni=1 Yi1Xi∈Ik,D∑ni=1 1Xi∈Ik,D

,

avecD = D(n) = [(nR2)1/3]

vérifiesup

f∈S1,REf [‖fD − f‖22] ≤ C(σ)R

23n−

23 .

Bien entendu, ce résultat est purement théorique, car en pratique, on ne sait passi la fonction f appartient à la classe S1,R. Nous verrons à la Section 10 desméthodes pratiques de choix de D par validation croisée.

Démonstration. —

68 07/15

Page 69: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Apprentissage non paramétrique en régression

• Calcul de l’espérancePour tout x ∈ Ik,D,

Ef(fD(x)

)=

∑i,Xi∈Ik,D f(Xi)

]i,Xi ∈ Ik,D.

Ef(fD(x)

)− f(x) =

∑i,Xi∈Ik,D (f(Xi)− f(x))

]i,Xi ∈ Ik,D.

Si on fait l’hypothèse que f ∈ S1,R alors pour x et Xi dans le mêmeintervalle Ik,D, |x − Xi| ≤ 1/D, ce qui implique |f(x) − f(Xi)| ≤RD−1. Ainsi

|Biais(fD(x))| = |Ef(fD(x)

)− f(x)| ≤ R

D.

• Calcul de la variance

Var(fD(x)) = Ef [(fD(x)− Ef (fD(x)))2]

=σ2

]i,Xi ∈ Ik,D.

On utilise comme critère pour mesurer les performances de notre estimateurle risque L2([0, 1], dx) c’est-à-dire

L(fD, f) = Ef [

∫ 1

0

(fD(x)− f(x))2dx].

On a aussi

L(fD, f) =

∫ 1

0

Ef [(fD(x)− f(x))2]dx.

Or,

Ef [(fD(x)− f(x))2] = Ef [(fD(x)− Ef (fD(x)) + Ef (fD(x))− f(x)

)2

]

= Ef [(fD(x)− Ef (fD(x)))2] + [Ef (fD(x))− f(x)]2

= Var(fD(x)) + Biais2(fD(x))

≤ σ2

]i,Xi ∈ Ik,D+R2D−2.

Puisque Xi = i/n, on remarque aisément que ]i,Xi ∈ Ik,D ≥ [n/D] ≥n/(2D) si on suppose D ≤ n/2. Ceci implique :

L(fD, f) ≤ 2σ2D

n+R2D−2.

Il reste à choisir D pour optimiser ce risque quadratique. En posant

D = [(nR2)1/3],

et on obtientL(fD, f) ≤ C(σ)R

23n−

23 .

3 Estimation sur des bases de splinesNous supposons ici que les Xi appartiennent R. Les estimateurs de la

section précédente ne sont pas continus, pour obtenir des estimateurs qui sontdes polynômes par morceaux et qui ont des propriétés de régularité, on utiliseles bases de splines.

3.1 Splines linéaires et cubiques

f(x) = β0 + β1x+ β2(x− a)+ + β3(x− b)+ + β4(x− c)+ + . . .+

où 0 < a < b < c . . . sont les points qui déterminent les intervalles de lapartition (appelés les nœuds).

f(x) = β0 + β1x si x ≤ a= β0 + β1x+ β2(x− a)+ si a ≤ x ≤ b= β0 + β1x+ β2(x− a)+ + β3(x− b)+ si b ≤ x ≤ c

La fonction f est continue, si on veut imposer plus de régularité (par exemplef de classe C2), on utilise des splines cubiques.

f(x) = β0+β1x+β2x2+β3x

3+β4(x−a)3++β5(x−b)3

++β4(x−c)3++. . .+

69 07/15

Page 70: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Apprentissage non paramétrique en régression

La fonction (x − a)3 s’annule ainsi que ses dérivées d’ordre 1 et 2 en a doncf est de classe C2.Pour éviter les problèmes de bords, on impose souvent des contraintes supplé-mentaires aux splines cubiques, notamment la linéarité de la fonction sur lesdeux intervalles correspondant aux extrémités.On se place sur [0, 1]. ξ0 = 0 < ξ1 < . . . < ξK < 1.

f(x) = β0 + β1x+ β2x2 + β3x

3 +

K∑k=1

θk(x− ξk)3+.

On impose f ′′(0) = f (3)(0) = 0, f ′′(ξK) = f (3)(ξK) = 0. On en déduit :

β2 = β3 = 0,K∑k=1

θk(ξK − ξk) = 0,K∑k=1

θk = 0.

f(x) = β0 + β1x+K∑k=1

θk[(x− ξk)3+ − (x− ξK)3

+]

= β0 + β1x+

K−1∑k=1

θk(ξK − ξk)[(x− ξk)3

+ − (x− ξK)3+

(ξK − ξk)]

On pose γk = θk(ξK − ξk) et dk(x) =(x−ξk)3+−(x−ξK)3+

(ξK−ξk) .∑K−1k=1 γk = 0.

f(x) = β0 + β1x+K−2∑k=1

γk(dk(x)− dK−1(x)).

On obtient la base de splines naturels :

N1(x) = 1, N2(x) = x, ∀1 ≤ k ≤ K − 2, Nk+2(x) = dk(x)− dK−1(x).

On doit choisir la position et le nombre de nœuds.

3.2 Méthodes de régularisation

On se place dans un modèle de régression : Yi = f(Xi) + εi, 1 ≤ i ≤ n.On minimise parmi les fonctions f splines naturels de nœuds en les Xi

(f(x) =∑nk=1 θkNk(x)) le critère pénalisé :

C(f, λ) =n∑i=1

(Yi − f(Xi))2 + λ

∫ 1

0

(f ′′(t))2dt,

où λ > 0. En notant Ωl,k =∫ 1

0N ′′k (x)N ′′l (x)dx et Ni,j = Nj(Xi), le critère

à minimiser est

C(θ, λ) = ‖Y −Nθ‖2 + λθ∗Ωθ.

La solution est :

θ = (N∗N + λΩ)−1N∗Y

et

f(x) =n∑k=1

θkNk(x). (2)

THÉORÈME 2. — On note

F = f, C2([0, 1]),

∫ 1

0

f ′′2(t)dt < +∞.

On se donne n ≥ 2, 0 < X1 < . . . < Xn < 1 et (y1, . . . , yn) ∈ Rn. Pourf ∈ F , et λ > 0, on note

C(f, λ) =n∑i=1

(Yi − f(Xi))2 + λ

∫ 1

0

(f ′′(t))2dt.

Pour tout λ > 0, il existe un unique minimiseur dans F de C(f, λ), qui est lafonction définie en (2).

70 07/15

Page 71: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Apprentissage non paramétrique en régression

4 Estimateurs à noyauOn considère le modèle

Yi = f(Xi) + εi, i = 1, . . . , n (3)

où les Xi appartiennent à Rd, les εi sont i.i.d. centrées de variance σ2, les Xi

et les εi sont indépendantes.

4.1 Définition des estimateurs a noyau.

DÉFINITION 3. — On appelle noyau une fonction K : Rd → R telle que∫K2 < +∞ et

∫K = 1.

DÉFINITION 4. — On se donne un réel h > 0 (appelé fenêtre) et un noyau K.On appelle estimateur à noyau de f dans le modèle (3) associé au noyau K età la fenêtre h la fonction fh définie par :

fh(x) =

∑ni=1 YiK

(x−Xi

h

)∑ni=1K

(x−Xi

h

) .

Dans le cas où les Xi sont de loi uniforme sur [0, 1]d, on trouve aussi la défi-nition suivante :

fh(x) =1

nhd

n∑i=1

YiK

(x−Xi

h

). (4)

Si par exemple d = 1 et K(u) = (1/2)1|u|≤1, fh(x) est la moyenne des Yitels que |Xi − x| ≤ h. Il s’agit d’un estimateur constant par morceaux.Cas extrêmes :Supposons d = 1 et les Xi équirépartis sur [0, 1].-Si h = 1/n, l’estimateur est très irrégulier et reproduit simplement lesobservations.-Si h ≥ 1, pour tout x, fh(x) =

∑ni=1 Yi/n.

Il faut donc, ici encore chercher une valeur de h qui réalise un boncompromis entre le terme de biais et le terme de variance.

Remarque : on utilise plus généralement des noyaux réguliers, ce quipermet d’obtenir des estimateurs réguliers.Exemples de noyaux en dimension 1 :-Le noyau triangulaire K(x) = (1− |x|)1|x|≤1.-Le noyau gaussien K(x) = 1√

2πe−x

2/2.

-Le noyau parabolique K(x) = 34 (1− x2)1|x|≤1.

4.2 Propriétés des estimateurs à noyau.

Pour simplifier les calculs, on se place dans un modèle où les Xi sont aléa-toires, de loi uniforme sur [0, 1], et on considère l’estimateur défini en (4).

THÉORÈME 5. — On suppose que f ∈ Σ(β,R) définie par

Σ(β,R) =f ∈ Cl([0, 1]),∀x, y ∈ [0, 1], |f (l)(x)− f (l)(y)| ≤ R|x− y|α

,

où β = l + α avec l entier et α ∈]0, 1].On fait les hypothèses suivantes sur K :H1∫ujK(u)du = 0 pour j = 1, . . . , l.

H2∫|u|β |K(u)|du < +∞.

En choisissant h de sorte que h ≈ (nR2)−1/(1+2β), on obtient, ∀f ∈ Σ(β,R),

Ef(∫ 1

0

(fh(x)− f(x))2

)≤ C(β, σ, ‖s‖∞)R

21+2β n−

2β1+2β .

Démonstration. —

Calcul du biais : en notant Kh = (1/h)K(./h),

Ef (fh(x)) =

∫ 1

0

f(y)Kh(x− y)dy = f ? Kh(x).

On a alors, puisque∫K = 1,

Ef (fh(x))− f(x) =

∫(f(x− uh)− f(x))K(u)du.

71 07/15

Page 72: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Apprentissage non paramétrique en régression

On utilise un développement de Taylor :

f(x− uh) = f(x)− f ′(x)uh+ f ′′(x)(uh)2

2+ . . .+ f (l)(x− τuh)

(−uh)l

l!

avec 0 ≤ τ ≤ 1. En utilisant l’hypothèse H1,

Ef (fh(x))− f(x) =

∫f (l)(x− τuh)

(−uh)l

l!K(u)du

=

∫(f (l)(x− τuh)− f (l)(x))

(−uh)l

l!K(u)du.

Puisque f ∈ Σ(β,R), et en utilisant l’hypothèse H2, on obtient

|Ef (fh(x))− f(x)| ≤ Rταhβ 1

l!

∫|u|β |K(u)|du.

Calcul de la variance :

V ar(fh(x)) =1

n2

n∑i=1

V ar(YiKh(x−Xi)).

≤ 1

n2

n∑i=1

Es[Y 2i K

2h(x−Xi)]

=1

n2

n∑i=1

E[f2(Xi)K2h(x−Xi) + ε2

iK2h(x−Xi)].

De plus,

E[f2(Xi)K2h(x−Xi)] =

∫f2(y)

1

h2K2(

x− yh

)dy

=

∫f2(x− uh)

1

hK2(u)du

≤ ‖f‖2∞1

h

∫K2.

E[ε2iK

2h(x−Xi)] = σ2

∫1

h2K2(

x− yh

)dy

=σ2

h

∫K2.

Il en résulte que

V ar(fh(x)) ≤ C(‖f‖∞, σ)1

nh.

Puisque

Ef(∫ 1

0

(fh(x)− f(x))2dx

)=

∫ 1

0

(Biais2(fh(x)) + V ar(fh(x))

)dx,

on obtient

Ef(∫ 1

0

(fh(x)− f(x))2dx

)≤ C(β, σ, ‖f‖∞)

(R2h2β +

1

nh

).

En choisissant h de sorte que

R2h2β ≈ 1

nh,

c’est-à-dire h ≈ (nR2)−1/(1+2β), on obtient le résultat souhaité.

5 Estimation ponctuelle par des polynômeslocaux

Dans la section 2, nous nous étions donné une partition à priori, elle nedépendait pas des observations. L’estimation de la fonction de régression enun point x était construite à partir des observations pour lesquelles Xi étaitdans le même intervalle de la partition que x, ce qui conduit à des estimateursirréguliers. Une idée naturelle est d’estimer la fonction de régression en unpoint x à partir des observations pour lesquelles Xi est "proche" de x. Plusgénéralement, on introduit une fonction de poids (wi(x)) construite à partir

72 07/15

Page 73: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Apprentissage non paramétrique en régression

d’un noyau : wi(x) = K((Xi−x)/h) qui va attribuer un poids plus importantaux observations pour lesquelles Xi est "proche" de x, et on minimise (en a)la somme des carrés pondérée :

n∑i=1

wi(x)(Yi − a)2.

La solution est donnée par

a = fn(x) =

∑ni=1 wi(x)Yi∑ni=1 wi(x)

, (5)

ce qui correspond à l’estimateur à noyau de la fonction de régression ! On peutgénéraliser la formule ci-dessus en remplaçant la constante a par un polynômede degré p : on se donne un point x en lequel on souhaite estimer la fonctionde régression. Pour u dans un voisinage de x, on considère le polynôme

Px(u, a) = a0 + a1(u− x) + . . .+app!

(u− x)p.

On cherche à estimer la fonction de régression au voisinage de x par le poly-nôme Px(u, a) où le vecteur a = (a0, . . . ap) est obtenu par minimisation dela somme des carrés pondérée :

n∑i=1

wi(x)(Yi − a0 − a1(Xi − x)− . . .− app!

(Xi − x)p)2.

La solution obtenue est le vecteur a(x) = (a0(x), . . . ap(x)), l’estimateur localde la fonction de régression f est

fn(u) = a0(x) + a1(x)(u− x) + . . .+ap(x)

p!(u− x)p.

Au point x, où l’on souhaite réaliser l’estimation, on obtient :

fn(x) = a0(x).

Attention, cet estimateur ne correspond pas à celui que l’on obtient en (5),qui correspond à p = 0 (c’est l’estimateur à noyau). Si p = 1, on parle de

régression linéaire locale. On peut expliciter la valeur de a0(x) à partir d’uncritère des moindres carrés pondérés : soit Xx la matrice

Xx =

1 X1 − x . . . (X1−x)p

p!

1 X2 − x . . . (X2−x)p

p!

. . . .

. . . .

1 Xn − x . . . (Xn−x)p

p!

.

Soit Wx la matrice diagonale de i-ème élément sur la diagonale wi(x). On aalors :n∑i=1

wi(x)(Yi−a0−a1(Xi−x)−. . .−app!

(Xi−x)p)2 = (Y−Xxa)∗Wx(Y−Xxa).

Minimiser l’expression ci-dessus conduit à l’estimateur des moindres carréspondérés :

a(x) = (X∗xWxXx)−1X∗xWxY,

et l’estimateur par polynômes locaux au point x correspond à fn(x) = a0(x),c’est-à-dire au produit scalaire du vecteur Y avec la première ligne de la ma-trice (X∗xWxXx)−1X∗xWx. On obtient le théorème suivant :

THÉORÈME 6. — L’estimateur par polynômes locaux au point x est

fn(x) =n∑i=1

li(x)Yi

où l(x)∗ = (l1(x), . . . , ln(x)),

l(x)∗ = e∗1(X∗xWxXx)−1X∗xWx,

avec e∗1 = (1, 0, . . . , 0).

E(fn(x)) =n∑i=1

li(x)f(Xi)

Var(fn(x)) = σ2n∑i=1

l2i (x).

73 07/15

Page 74: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Apprentissage non paramétrique en régression

6 Estimateurs par projectionOn se place dans le modèle

Yi = f(Xi) + εi, i = 1, . . . , n. (6)

Soit (φj , j ≥ 1) une base orthonormée de L2([0, 1]). On se donne D ≥ 1 eton pose

SD = Vectφ1, . . . , φD.

On note fD la projection orthogonale de f sur SD dans L2([0, 1]) :

fD =D∑j=1

〈f, φj〉φj ,

θj = 〈f, φj〉 =

∫ 1

0

f(x)φj(x)dx.

Il est naturel d’estimer θj par

θj =1

n

n∑i=1

Yiφj(Xi).

En effet, si les Xi sont déterministes,

E(θj) =1

n

n∑i=1

f(Xi)φj(Xi),

et si fφj est régulière et les Xi équirépartis sur [0, 1], ceci est proche de θj . Siles Xi sont aléatoires, de loi uniforme sur [0, 1], on a

E(θj) = θj .

On introduit alors l’estimateur

fD(x) =D∑j=1

θjφj(x),

appelé estimateur par projection.

Exemple de la base Fourier On note (φj , j ≥ 1) la base trigonomé-trique de L2([0, 1]) :

φ1(x) = 1[0,1],

φ2k(x) =√

2 cos(2πkx) ∀k ≥ 1

φ2k+1(x) =√

2 sin(2πkx) ∀k ≥ 1.

On obtient pour tout D ≥ 1, l’estimateur

fD(x) =1

n

D∑j=1

n∑i=1

Yiφj(Xi)φj(x).

Nous allons énoncer les performances de l’estimateur, lorsque la fonction derégression f appartient à une classe de fonctions périodiques, régulières.

DÉFINITION 7. — Soit L > 0 et β = l+ α avec l ∈ N et α ∈]0, 1]. On définitla classe Σper(β,R) par

Σper(β,R) =f ∈ Cl([0, 1]),∀j = 0, . . . , l, f (j)(0) = f (j)(1),

∀x, y ∈ [0, 1], |f (l)(x)− f (l)(y)| ≤ R|x− y|α.

THÉORÈME 8. — Dans le modèle

Yi = f(i

n) + εi, i = 1, . . . , n,

où les εi sont i.i.d. de loi N (0, σ2), l’estimateur fD défini pour tout x ∈ [0, 1]par :

fD(x) =1

n

D∑j=1

n∑i=1

Yiφj(Xi)φj(x)

avec D = [(nR2)1/(1+2β)], vérifie pour tout β > 1, R > 0,

supf∈Σper(β,R)

Ef(‖fD − f‖22

)≤ C(β, σ)R

−21+2β n

2β1+2β .

Nous introduisons, dans le chapitre suivant, la définition des bases d’onde-lettes, qui sont utilisées en particulier si la fonction à estimer est très irrégulière.

74 07/15

Page 75: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Apprentissage non paramétrique en régression

7 Bases d’ondelettes et estimation parseuillage

Dans ce chapitre, on s’intéresse à l’estimation de fonctions spatialement in-homogènes, c’est-à-dire qui peuvent être très régulières dans certaines zonespuis très irrégulières (présentant des pics) dans certaines parties de l’espace.Les bases d’ondelettes sont des bases orthonormées, qui sont bien adaptéespour l’estimation de fonctions de ce type. Nous supposerons ici que les Xi

appartiennent à [0, 1], mais nous traiterons également en TP des exemples endimension 2 dans le cadre du traitement d’images.

7.1 Bases d’ondelettes

Base de Haar

La base de Haar est la base d’ondelettes la plus simple. L’ondelette père (oufonction d’échelle) est définie par

φ(x) = 1 si x ∈ [0, 1[,

= 0 sinon.

L’ondelette mère (ou fonction d’ondelette) est définie par

ψ(x) = −1 si x ∈ [0, 1/2],

= 1 si x ∈]1/2, 1].

Pour tout j ∈ N, k ∈ N, on pose

φj,k(x) = 2j/2φ(2jx− k), ψj,k(x) = 2j/2ψ(2jx− k).

THÉORÈME 9. — Les fonctions (φ, ψj,k, j ∈ N, k ∈ 0, . . . , 2j − 1) formentune base orthonormée de L2([0, 1]).

Il résulte de ce théorème que l’on peut développer une fonction de L2([0, 1])dans cette base :

f(x) = αφ(x) +

∞∑j=0

2j−1∑k=0

βj,kψj,k(x).

α =∫ 1

0f(x)φ(x)dx est appelé "coefficient d’échelle" et les βj,k =∫ 1

0f(x)ψj,k(x)dx sont appelés "détails". On appelle approximation de f au

niveau de résolution J la fonction

fJ = αφ(x) +

J−1∑j=0

2j−1∑k=0

βj,kψj,k(x).

Cette expression comporte 2J coefficients. Comme l’espace engendré par lesfonctions (φ, ψj,k, 0 ≤ j ≤ J − 1, 0 ≤ k ≤ 2j − 1) est l’espace des fonc-tions constantes par morceaux sur les intervalles de longueur 1/2J , c’est-à-direl’espace engendré par les fonctions (φJ,k, 0 ≤ k ≤ 2J − 1), on a aussi

fJ =

2J−1∑k=0

αJ,kφJ,k(x),

où αJ,k =∫ 1

0f(x)φJ,k(x)dx.

La base de Haar est simple à définir, les fonctions sont à support com-pact, néanmoins cette base fournit des approximations qui ne sont pasrégulières. Il existe d’autres bases d’ondelettes à la fois à support compactet régulières, par exemple les ondelettes de Daubechies (voir Daubechies(1992) : Ten Lectures on wavelets).

7.2 Estimation d’une fonction de régression avec desondelettes

Les ondelettes sont bien adaptées pour l’analyse des signaux recueillis surune grille régulière, dyadique. On les utilise en traitement du signal et del’image. On considère le modèle

Yk = f(k

N) + εk, k = 1, . . . , N = 2J ,

75 07/15

Page 76: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Apprentissage non paramétrique en régression

On considère les N = 2J premières fonctions d’une base d’ondelettes sur[0, 1] : (φ, ψj,k, 0 ≤ j ≤ J −1, 0 ≤ k ≤ 2j −1). On note W la matrice N ∗N

W =1√N

φ(1/N) ψ0,0(1/N) . . . ψJ−1,2J−1(1/N)

. . . .φ(i/N) ψ0,0(i/N) . . . ψJ−1,2J−1(i/N)

. . . .φ(N/N) ψ0,0(N/N) . . . ψJ−1,2J−1(N/N)

Dans le cas de la base de Haar, W est une matrice orthogonale (la base estorthonormée pour le produit scalaire discret). On note W ∗ la transposée de Wet

θ = W ∗Y,

la tranformée en ondelettes du vecteur Y .Il s’agit de l’estimateur des moindres carrés de θ dans le modèle Y = Wθ+ εsi W est orthogonale.

θj,k =1√N

N∑l=1

ψj,k(l

N)Yl =

1√N

N∑l=1

ψj,k(l

N)f(

l

N) + εl

≈√Nβj,k + εl

εl =1√N

N∑l=1

ψj,k(l

N)εl

∼ N (0,σ2

N

N∑l=1

ψ2j,k(

l

N)).

Dans le cas de la base de Haar, σ2

N

∑Nl=1 ψ

2j,k( l

N ) = σ2. On peut reconstruirele signal à partir de sa transformée en ondelettes par la transformation inverse :

Y = (W ∗)−1θ.

Y = Wθdans le cas de la base de Haar.

Débruitage par approximation linéaire :

On approxime la fonction de régression f par projection orthogonale de fsur VJ0 :

fJ0 = αφ+

J0−1∑j=0

2j−1∑k=0

βj,kψj,k,

ce qui correspond à regarder seulement les 2J0 premiers coefficients d’onde-lettes. Pour estimer fJ0 , dans θ, on ne garde que les 2J0 premiers coefficients,les autres sont annulés, cela forme le vecteur noté θJ0 , puis on reconstruit lesignal débruité :

YJ0 = (W ∗)−1θJ0 .

La fonction de régression f est alors estimée par

fJ0(x) =1√N

(φ(x), ψ0,0(x), . . . , ψJ−1,2J−1(x))θJ0 .

fJ0(x) = αφ(x) +

J0−1∑j=0

2j−1∑k=0

βj,kψj,k(x)

où θJ0 =√N(α, βj,k, j = 0, . . . J0 − 1, k = 0, . . . , 2j − 1, 0, . . . , 0). Il faut

choisir le paramètre J0 de manière optimale.

Débruitage par approximation non linéaire via le seuillage :

La méthode de seuillage consiste à minimiser en θ ∈ RN le critère pénaliséavec une pénalité de type l1 :

C(θ) = ‖Y −Wθ‖2 + 2λ‖θ‖1,

avec ‖θ‖1 =∑Ni=1 |θi|. Nous supposerons ici que la matrice W est orthogo-

nale, ce qui permet de trouver une solution explicite.

C(θ) = ‖Y ‖2 + ‖Wθ‖2 − 2〈Y,Wθ〉+ 2λ‖θ‖1,= ‖Y ‖2 + ‖θ‖2 − 2θ∗W ∗Y + 2λ‖θ‖1.

76 07/15

Page 77: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Apprentissage non paramétrique en régression

Minimiser C(θ) équivaut à minimiser en θ

C ′(θ) = ‖θ‖2 − 2θ∗W ∗Y + 2λ‖θ‖1

= −2N∑i=1

θiθi + 2λN∑i=1

|θi|+N∑i=1

θ2i .

Ceci est minimal si pour tout i, θi est du même signe que θi. On a donc θiθi =|θi||θi|.

C ′(θ) = −2N∑i=1

|θi||θi|+ 2λN∑i=1

|θi|+N∑i=1

θ2i

=N∑i=1

(|θi| − (|θi| − λ)

)2

−N∑i=1

(|θi| − λ)2.

Minimiser ce critère en θ équivaut à minimiser

N∑i=1

(|θi| − (|θi| − λ)

)2

.

La solution est donc :

|θi| = |θi| − λ si |θi| ≥ λ= 0 si |θi| ≤ λ

θi = signe(θi)(|θi| − λ)1|θi|≥λ.

Il s’agit du seuillage dit "doux" (soft thresholding), on applique une fonctioncontinue à θi. Le seuillage dur ("soft thresholding") consiste à poser

θi = θi1|θi|≥λ.

on reconstruit le signal débruité :

Y = Wθ.

La fonction de régression f est estimée par

fN (x) =1√N

(φ(x), ψ0,0(x), . . . , ψJ−1,2J−1(x))θ.

En notant θ =√N(α, βj,k, j = 0, . . . , J − 1, k = 0, . . . 2j−1), on obtient

fN (x) = αφ(x) +J−1∑j=0

2j−1∑k=0

βj,kψj,k(x).

En pratique, il faut choisir le seuil λ, on prend généralement λ =σ√

2 log(N).

θ = W ∗Y =1√N

N∑l=1

ψj,k(l

N)f(

l

N) + εl

avecε = W ∗ε ∼ NN (0, σ2IN ).

On peut montrer que

E

(sup

1≤i≤N|εi|)≈ σ

√2 log(N).

Les coefficients qui sont inférieurs à σ√

2 log(N) sont considérés comme dubruit et sont annulés. Ces méthodes de seuillages fournissent des estimateurspermettant d’estimer des signaux très irréguliers (notamment des fonctionsavec des pics).

8 Modèles additifs généralisésLes méthodes d’estimation présentées précédemment vont se heurter au

fléau de la dimension. Sous certaines hypothèses de structure sur la fonctionde régression, on peut contourner ce problème. Nous allons nous intéresser icià des fonctions de régression additives. Nous nous plaçons dans le modèle

Yi = f(Xi) + εi,

où les εi sont i.i.d. centrées de variance σ2, et les Xi ∈ Rd. Nous supposonsque la fonction de régression f est additive, c’est-à-dire que

f(Xi,1, . . . ,Xi,d) = α+ f1(Xi,1) + . . .+ fd(Xi,d).

77 07/15

Page 78: Apprentissage Statistique, Modélisation, Prévision, Data Mining

12 Apprentissage non paramétrique en régression

Pour assurer l’unicité d’une telle écriture, on impose que∫Rfj(xj)dxj = 0, ∀j = 1, . . . , d.

Nous allons décrire dans ce chapitre une méthode d’estimation des compo-santes de ce modèle additif, il s’agit des modèles GAM (Generalized AdditiveModels). Nous supposerons que chacune des fonctions unidimensionnelles estestimée à l’aide de Splines comme dans la section 3.2. On introduit alors lecritère pénalisé :

Crit(α, f1, f2, . . . , fp) =n∑i=1

Yi − α− d∑j=1

fj(Xi,j)

2

+d∑j=1

λj

∫(f ′′j )2(xj)dxj ,

où les λj ≥ 0 sont des paramètres de régularisation. On peut montrer que lasolution de la minimisation de ce critère est un modèle de additif de splinescubiques, chaque fonction fj étant un spline cubique de la variable xj , dontles nœuds correspondent aux valeurs différentes des Xi,j , i = 1, . . . n. Pourgarantir l’unicité du minimiseur, on impose les contraintes

∀j = 1, . . . , d,

n∑i=1

fj(Xi,j) = 0.

Sous ces conditions, on obtient α =∑ni=1 Yi/n, et si la matrice des variables

d’entrées Xi,j n’est pas singulière, on peut montrer que le critère est stric-tement convexe, et admet donc un unique minimiseur. L’algorithme suivant,appelé algorithme de backfitting, converge vers la solution :

Algorithme de backfitting pour les modèles GAM :

1. Initialisation : α =∑ni=1 Yi/n, fj = 0 ∀j.

2. Pour l = 1 à N iterPour j = 1 à d

• fj minimise

n∑i=1

Yi − α−∑k 6=j

fk(Xi,k)− fj(Xi,j)

2

+ λj

∫(f ′′j )2(xj)dxj ,

• fj := fj − 1n

∑ni=1 fj(Xi,j).

Arrêt lorsque toutes les fonctions fj sont "stabilisées".

Le même algorithme peut être utilisée avec d’autres méthodes d’ajustementque les splines : estimateurs par polynômes locaux, à noyaux, par projection ..Les modèles additifs généralisés sont une extension des modèles linéaires,les rendant plus flexibles, tout en restant facilement interprétables. Ces mo-dèles sont très largement utilisés en modélisation statistique, néanmoins, entrès grande dimension, il est difficile de les mettre en œuvre, et il sera utile deles combiner à un algorithme de sélection (pour réduire la dimension).

9 Kernel Regression Least SquareUn exemple élémentaire de machine à noyau.• L’objectif est ici de présenter une méthode qui fournit des prédicteurs non

linéaires.• Le point commun avec les méthodes présentées précédemment est qu’il

s’agit d’une méthode de régularisation basée sur un critère des moindrescarrés pénalisés.

• On note (Xi, Yi)1≤i≤n les observations, avec Xi ∈ Rp, Yi ∈ R.• On se donne un noyau k défini sur Rp, symétrique, semi-défini positif :

k(x,y) = k(y,x);

n∑i,j=1

cicjk(Xi,Xj) ≥ 0.

• Exemples de noyaux sur Rp :– Linéaire :

k(Xi,Xj) = Xi′Xj = 〈Xi,Xj〉

– Polynomial :k(Xi,Xj) = (Xi

′Xj + 1)d

78 07/15

Page 79: Apprentissage Statistique, Modélisation, Prévision, Data Mining

13 Apprentissage non paramétrique en régression

– Gaussien :

k(Xi,Xj) = exp

(−‖Xi −Xj‖2

σ2

).

• On cherche un prédicteur de la forme

f(x) =n∑i=1

cjk(Xj ,x), c ∈ Rn.

• On note K la matrice définie par Ki,j = k(Xi,Xj).• La méthode consiste à minimiser pour f de la forme ci-dessus le critère

des moindres carrés pénalisés :n∑i=1

(Yi − f(Xi))2 + λ‖f‖2K ,

‖f‖2K =n∑

i,j=1

cicjk(Xi,Xj).

• De manière équivalente, on minimise pour c ∈ Rn le critère

‖Y −Kc‖2 + λc′Kc.

• La solution est explicite :

c = (K + λIn)−1Y.

• On obtient le prédicteur

f(x) =n∑j=1

cjk(Xj ,x).

Y = Kc.

• Avec le noyau correspondant au produit scalaire, on retrouve un estima-teur linéaire :

K = XX′, c = (XX′ + λIn)−1Y,

f(x) =n∑j=1

cj〈Xj ,x〉.

• La méthode fournit des estimateurs non linéaires pour les noyaux polyno-miaux ou gaussiens par exemple.

• Un intérêt important de la méthode précédente est la possibilité de géné-ralisation à des prédicteurs Xi qui ne sont pas nécessairement dans Rpmais qui peuvent être de nature complexe (graphes, séquence d’ADN ..)dès lors que l’on sait définir un noyau k(x,y) symétrique et semi-définipositif agissant sur ces objets.

• Ceci fait appel à la théorie des RKHS Reproducing Kernel Hilbert Spacesou Espaces de Hilbert à noyau reproduisant.

10 Arbres de régression CARTLes méthodes basées sur les arbres reposent sur une partition de l’espace

des variables d’entrée, puis on ajuste un modèle simple (par exemple un mo-dèle constant) sur chaque élément de la partition. On suppose que l’on a unéchantillon de taille n : (Xi, Yi)1≤i≤n avec Xi ∈ Rd et Yi ∈ R. L’algo-rithme CART permet de définir, à partir de l’échantillon d’apprentissage, unepartition automatique de l’espace des variables d’entrées Xi. Supposons quel’espace où varient les Xi soit partitionné en M régions, notées R1, . . . RM .On introduit la classe F des fonctions constantes par morceaux sur chacunedes régions :

F = f, f(x) =M∑m=1

cm1x∈Rm.

L’estimateur des moindres carrés de la fonction de régression f sur la classe Fminimise le critère

M∑m=1

(Yi − f(Xi))2,

parmi les fonctions f ∈ F . La solution est

f(x) =M∑m=1

cm1x∈Rm ,

où cm est la moyenne des observations Yi pour lesquelles Xi ∈ Rm. Pourconstruire la partition, CART procède de la manière suivante : étant donné

79 07/15

Page 80: Apprentissage Statistique, Modélisation, Prévision, Data Mining

14 Apprentissage non paramétrique en régression

une variable de séparation X(j) et un point de séparation s, on considère lesdemi-espaces

R1(j, s) = X = (X(1), . . . , X(d))/X(j) ≤ s et R2(j, s) = X/X(j) > s.

La variable de séparation X(j) et un point de séparation s sont choisis de ma-nière à résoudre

minj,s

[∑

i,Xi∈R1(j,s)

(Yi − c1)2 +∑

i,Xi∈R2(j,s)

(Yi − c2)2].

Ayant déterminé j et s, on partitionne les données en les deux régions corres-pondantes, puis on recommence la procédure de séparation sur chacune desdeux sous-régions, et ainsi de suite sur chacune des sous-régions obtenues. Lataille de l’arbre est un paramètre à ajuster, qui va gouverner la complexité dumodèle : un arbre de trop grande taille va conduire à un sur-ajustement (tropgrande variance), au contraire un arbre de petite taille va mal s’ajuster à lafonction de régression (biais trop élevé). Il est donc nécessaire de choisir unetaille "optimale" de manière adaptative à partir des observations. La stratégieadoptée consiste à construire un arbre de grande taille, puis à l’élaguer en intro-duisant un critère pénalisé. On dira que T est un sous-arbre de T0 si T peut êtreobtenu en élaguant T0, c’est-à-dire en réduisant le nombre de nœuds de T0. Onnote |T | le nombre de nœuds terminaux de l’arbre T et Rm,m = 1, . . . |T |, lapartition correspondant à ces nœuds terminaux. On note Nm le nombre d’ob-servations pour lesquelles Xi ∈ Rm. On a donc

cm =1

Nm

∑i,Xi∈Rm

Yi,

et on introduit le critère

Cλ(T ) =

|T |∑m=1

∑i,Xi∈Rm

(Yi − cm)2 + λ|T |.

Pour tout λ, on peut montrer qu’il existe un unique arbre minimal Tλ quiminimise le critère Cλ(T ). Pour trouver l’arbre Tλ, on supprime par étapessuccessives le nœud interne de l’arbre T qui réduit le moins le critère∑m

∑i,Xi∈Rm(Yi − cm)2. Ceci donne une succession de sous-arbres, dont

on peut montrer qu’elle contient l’arbre Tλ.

Le paramètre de régularisation λ doit à son tour être calibré pour réaliser unbon compromis entre le biais et la variance de l’estimateur ainsi obtenu, ou demanière équivalente entre un bon ajustement aux données et une taille pas tropimportante pour l’arbre. La méthode de validation croisée, décrite en annexe,peut être utilisée.

Annexe : Choix d’un paramètre de lissage parvalidation croisée

Dans le cas des estimateurs à noyaux, et pour les estimateurs par polynômeslocaux, on doit choisir la fenêtre h ; pour les estimateurs constants par mor-ceaux (ou polynômes par morceaux), ainsi que pour les estimateurs par pro-jection, on doit choisir un paramètreD (nombre de morceaux de la partition oudimension de l’espace de projection sur lequel on réalise l’estimation), pour lesarbres CART, on doit choisir le paramètre λ de la procédure d’élaguage. Dansce chapitre, nous allons décrire la méthode de validation croisée, qui est uneméthode possible pour choisir ces paramètres, ce qui correspond à sélectionnerun estimateur dans une collection d’estimateurs.

Notons λ le paramètre à choisir. Soit fn,λ l’estimateur de la fonction derégression f associé à ce paramètre λ. On considère l’erreur quadratiquemoyenne :

R(λ) = E

(1

n

n∑i=1

(fn,λ(Xi)− f(Xi))2

).

Idéalement, on souhaiterait choisir λ de manière à minimiser R(λ), mais cettequantité dépend de la fonction inconnue f .

Une première idée est d’estimer R(λ) par l’erreur d’apprentissage :

1

n

n∑i=1

(Yi − fn,λ(Xi))2,

mais cette quantité sous-estime R(λ) et conduit à un sur-ajustement. Ceci estdû au fait que l’on utilise les mêmes données pour construire l’estimateur fn,λ

80 07/15

Page 81: Apprentissage Statistique, Modélisation, Prévision, Data Mining

15 Apprentissage non paramétrique en régression

(qui est construit pour bien s’ajuster à l’échantillon d’apprentissage) et pour es-timer l’erreur commise par cet estimateur. Pour avoir une meilleure estimationdu risque, on doit construire l’estimateur du risque avec des observations quin’ont pas été utilisées pour construire l’estimateur fn,λ. Idéalement, si on avaitassez d’observations, on pourrait les séparer en un échantillon d’apprentissageet un échantillon test. Ce n’est généralement pas le cas, et on souhaite utiliserl’ensemble des données d’apprentissage pour la construction de l’estimateur.On va alors avoir recours à la validation croisée. On partitionne l’échantillond’apprentissage en V blocs, notés B1, . . .BV , de tailles à peu près identiques.Pour tout v de 1 à V , on note f (−v)

n,λ l’estimateur obtenu en supprimant del’échantillon d’apprentissage les données appartenant au bloc Bv .

DÉFINITION 10. — On définit le score de validation croisée V -fold par :

CV = R(λ) =1

N

N∑i=1

(Yi − f (−v(i))n,λ (Xi))

2,

où f (−v(i))n,λ est l’estimateur de f obtenu en enlevant les observations du bloc

qui contient l’observation i.

Le principe de la validation croisée est de choisir une valeur λ de λ qui mi-nimise la quantité R(λ). Un cas particulier correspond à la validation croiséeleave-one-out, obtenue quand on considère n blocs, chacun réduits à une ob-servation.

DÉFINITION 11. — Le score de validation croisée leave-one-out est définipar :

CV = R(λ) =1

n

n∑i=1

(Yi − f (−i)n,λ (Xi))

2,

où f (−i)n,λ est l’estimateur de f obtenu en enlevant l’observation (Xi, Yi).

L’idée de la validation croisée leave-one-out vient du calcul suivant :

E((Yi − f (−i)n,λ (Xi))

2) = E((Yi − f(Xi) + f(Xi)− f (−i)n,λ (Xi))

2)

= σ2 + E((f(Xi)− f (−i)n,λ (Xi))

2)

' σ2 + E((f(Xi)− fn,λ(Xi))2).

On obtient donc E(R(λ)) ' σ2 +R(λ).

Le calcul de R(λ) peut s’avérer long, mais dans certains cas, il n’est pasnécessaire de recalculer n fois un estimateur de la fonction de régression. Pourla plupart des méthodes traitées dans ce chapitre, l’estimateur correspond à unalgorithme de moyennes locales, c’est-à-dire est de la forme

fn,λ(x) =n∑j=1

Yj lj(x),

avec∑nj=1 lj(x) = 1, et on peut montrer que

f(−i)n,λ (x) =

n∑j=1

Yj l(−i)j (x),

avec

l(−i)j (x) = 0 si j = i

=lj(x)∑k 6=i lk(x)

si j 6= i.

THÉORÈME 12. — Sous les hypothèses ci-dessus concernant l’estimateur, lescore de validation croisée leave-one-out est égal à :

CV = R(λ) =1

n

n∑i=1

(Yi − fn,λ(Xi)

1− li(Xi)

)2

.

On trouve également dans les logiciels une définition légèrement différente :

DÉFINITION 13. — On appelle score de validation croisée généralisée laquantité :

GCV (λ) =1

n

n∑i=1

(Yi − fn,λ(Xi)

1− ν/n

)2

,

où ν/n =∑ni=1 li(Xi)/n.

81 07/15

Page 82: Apprentissage Statistique, Modélisation, Prévision, Data Mining

16 Apprentissage non paramétrique en régression

Dans cette définition, li(Xi) est remplacé par la moyenne des li(Xi). En pra-tique, les deux méthodes donnent généralement des résultats assez proches. Enutilisant l’approximation (1− x)−2 ≈ 1 + 2x pour x proche de 0, on obtient :

GCV (λ) ≈ 1

n

n∑i=1

(Yi − fn,λ(Xi))2 +

2νσ2

n,

où σ2 = 1n

∑ni=1(Yi− fn,λ(Xi))

2. Cela correspond au critèreCp de Mallows.

82 07/15

Page 83: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Analyse Discriminante Décisionnelle

Analyse Discriminante Décisionnelle

Résumé

Une variable qualitative Y à m modalités est modélisé par p va-riables quantitatives Xj , j = 1, . . . , p. L’objectif est la prévisionde la classe d’un ou de nouveaux individus sur lesquels les va-riables Xj , j = 1, . . . , p sont également observés. Différents mo-dèles d’analyse discriminante décisionnelle sont considérés : règlelinéaire et quadratique de décision dans le cas gaussien, règle nonparamétrique et k plus proches voisins.

Retour au plan du cours

1 IntroductionIl s’agit de la modélisation d’une variable qualitative Y à m modalités par

p variables quantitatives Xj , j = 1, . . . , p observées sur un même échantillonΩ de taille n. L’objectif de l’analyse discriminante décisionnelle déborde lesimple cadre descriptif de l’analyse factorielle discriminante (AFD). Disposantd’individus sur lesquels on a observé les Xj mais pas Y , il s’agit de déciderde la modalité T` de Y (ou de la classe correspondante) de ces individus. Onparle aussi de problème d’affectation. L’ADD s’applique donc également à lasituation précédente de la régression logistique (m = 2) mais aussi lorsque lenombre de classes est plus grand que 2.

Pour cela, on va définir et étudier dans ce chapitre des règles de décision(ou d’affectation) et donner ensuite les moyens de les évaluer sur un seul in-dividu ; x = (x1, . . . , xp) désigne les observations des variables explicativessur cet individu, g`; ` = 1, . . . ,m les barycentres des classes calculés surl’échantillon et x le barycentre global.

La matrice de covariance empirique se décompose en

S = Se + Sr.

où Sr est appelée variance intraclasse (within) ou résiduelle :

Sr = Xr′DXr =

m∑`=1

∑i∈Ω`

wi(xi − g`)(xi − g`)′,

et Se la variance interclasse (between) ou expliquée :

Se = G′DG = X

′eDXe =

m∑`=1

w`(g` − x)(g` − x)′.

2 Règle de décision issue de l’AFD

2.1 Cas général : m quelconque

DÉFINITION 1. — On affectera l’individu x à la modalité de Y minimisant :

d2S−1

r(x,g`), ` = 1, . . . ,m.

Cette distance se décompose en

d2S−1

r(x,g`) = ‖x− g`‖2S−1

r= (x− g`)

′S−1r (x− g`)

et le problème revient donc à maximiser

g′`S−1r x− 1

2g′`S

−1r g`.

Il s’agit bien d’une règle linéaire en x car elle peut s’écrire : A`x + b`.

2.2 Cas particulier : m=2

Dans ce cas, la dimension r de l’AFD vaut 1. Il n’y a qu’une seule valeurpropre non nulle λ1, un seul vecteur discriminant v1 et un seul axe discriminant∆1. Les 2 barycentres g1 et g2 sont sur ∆1, de sorte que v1 est colinéaire àg1 − g2.

L’application de la règle de décision permet d’affecter x à T1 si :

g′1S−1r x− 1

2g′1S

−1r g1 > g′2S

−1r x− 1

2g′2S

−1r g2

c’est-à-dire encore si

(g1 − g2)′S−1r x > (g1 − g2)′S−1

r

g1 + g2

2.

83 07/15

Page 84: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Analyse Discriminante Décisionnelle

Remarque

La règle de décision liée à l’AFD est simple mais elle est limitée et insuffi-sante notamment si les variances des classes ne sont pas identiques. De plus,elle ne tient pas compte de l’échantillonnage pour x : tous les groupes n’ontpas nécessairement la même probabilité d’occurrence.

3 Règle de décision bayésienne

3.1 Introduction

Dans cette optique, on considère que la variable Y , qui indique le grouped’appartenance d’un individu, prend ses valeurs dans T1, . . . , Tm et est mu-nie d’une loi de probabilité π1, . . . , πm. Les probabilités π` = P [T`] repré-sentent les probabilités a priori des classes ou groupes ω`. On suppose que lesvecteurs x des observations des variables explicatives suivent, connaissant leurclasse, une loi de densité

f`(x) = P [x | T`]par rapport à une mesure de référence 1.

3.2 Définition

Une règle de décision est une application δ de Ω dans T1, . . . , Tm qui,à tout individu, lui affecte une classe connaissant x. Sa définition dépend ducontexte de l’étude et prend en compte la

• connaissance ou non de coûts de mauvais classement,• connaissance ou non des lois a priori sur les classes,• nature aléatoire ou non de l’échantillon.

On désigne par c` | k le coût du classement dans T` d’un individu de Tk. Lerisque de Bayes d’une règle de décision δ exprime alors le coût moyen :

Rδ =m∑k=1

πk

m∑`=1

c` | k

∫x | δ(x)=T`

fk(x)dx

où∫x | δ(x)=T` fk(x)dx représente la probabilité d’affecté x à T` alors qu’il

est dans Tk.

1. La mesure de Lebesgues pour des variables réelles, celle de comptage pour des variablesqualitatives

3.3 Coûts inconnus

L’estimation des coûts n’est pas du ressort de la Statistique et, s’ils ne sontpas connus, on suppose simplement qu’ils sont tous égaux. La minimisationdu risque ou règle de Bayes revient alors à affecter tout x à la classe la plusprobable c’est-à-dire à celle qui maximise la probabilité conditionnelle a pos-teriori : P [T` | x]. Par le théorème de Bayes, on a :

P [T` | x] =P [T` et x]

P [x]=P [T`].P [x | T`]

P [x]

avec le principe des probabilités totales : P [x] =∑m`=1 P [T`].P [x | T`].

Comme P [x] ne dépend pas de `, la règle consistera à choisir T` maximisant

P [T`].P [x | T`] = π`.P [x | T`];

P [x | T`] est la probabilité d’observer x au sein de la classe T`. Pour une loidiscrète, il s’agit d’une probabilité du type P [x = xlk | T`] et d’une densitéf(x | T`) pour une loi continue. Dans tous les cas nous utiliserons la notationf`(x).

La règle de décision s’écrit finalement sous la forme :

δ(x) = arg max`=1,...,m

π`f`(x).

3.4 Détermination des a priori

Les probabilités a priori π` peuvent effectivement être connues a priori :proportions de divers groupes dans une population, de diverses maladies. . . ;sinon elles sont estimées sur l’échantillon d’apprentissage :

π` = w` =n`n

(si tous les individus ont le même poids)

à condition qu’il soit bien un échantillon aléatoire susceptible de fournir desestimations correctes des fréquences. Dans le cas contraire il reste à considérertous les π` égaux.

3.5 Cas particuliers• Dans le cas où les probabilités a priori sont égales, c’est par exemple le

cas du choix de probabilités non informatives, la règle de décision bayé-sienne revient alors à maximiser f`(x) qui est la vraisemblance, au sein

84 07/15

Page 85: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Analyse Discriminante Décisionnelle

de T`, de l’observation x. La règle consiste alors à choisir la classe pourlaquelle cette vraisemblance est maximum.

• Dans le cas où m = 2, on affecte x à T1 si :

f1(x)

f2(x)>π2

π1

faisant ainsi apparaître un rapport de vraisemblance. D’autre part, l’intro-duction de coûts de mauvais classement différents selon les classes amèneà modifier la valeur limite π2/π1.

Finalement, il reste à estimer les densités conditionnelles f`(x). Les diffé-rentes méthodes d’estimation considérées conduisent aux méthodes classiquesde discrimination bayésienne objets des sections suivantes.

4 Règle bayésienne avec modèle normalOn suppose dans cette section que, conditionnellement à T`, x =

(x1, . . . , xp) est l’observation d’un vecteur aléatoire gaussien N (µ`,Σ`) ; µ`est un vecteur de Rp et Σ` une matrice (p× p) symétrique et définie-positive.La densité de la loi, au sein de la classe T`, s’écrit donc :

f`(x) =1√

2π(det(Σ`))1/2exp

[−1

2(x− µ`)

′Σ−1` (x− µ`)

].

L’affectation de x à une classe se fait en maximisant π`.f`(x) par rapport à lsoit encore la quantité :

ln(π`)−1

2ln(det(Σ`))−

1

2(x− µ`)

′Σ−1` (x− µ`).

4.1 Hétéroscédasticité

Dans le cas général, il n’y a pas d’hypothèse supplémentaire sur la loi dex et donc les matrices Σ` sont fonction de `. Le critère d’affectation est alorsquadratique en x. Les probabilités π` sont supposées connues mais il est né-cessaire d’estimer les moyennes µ` ainsi que les covariances Σ` en maximi-sant, compte tenu de l’hypothèse de normalité, la vraisemblance. Ceci conduità estimer la moyenne

µ` = g`

par la moyenne empirique de x dans la classe l pour l’échantillon d’apprentis-sage et Σ` par la matrice de covariance empirique S∗Rl :

S∗Rl =1

n` − 1

∑i∈Ω`

(xi − g`)(xi − g`)′

pour ce même échantillon.

4.2 Homoscédasticité

On suppose dans ce cas que les lois de chaque classe partagent la mêmestructure de covariance Σ` = Σ. Supprimant les termes indépendants de l, lecritère à maximiser devient

ln(π`)−1

2µ′`Σ

−1` µ` + µ′`Σ

−1` x

qui est cette fois linéaire en x. Les moyennes µ` sont estimées comme pré-cédemment tandis que Σ est estimée par la matrice de covariance intraclasseempirique :

S∗R =1

n−m

m∑`=1

∑i∈Ω`

(xi − g`)(xi − g`)′.

Si, de plus, les probabilités π` sont égales, après estimation le critère s’écrit :

x`′S∗−1R x− 1

2x`′S∗−1R x`.

On retrouve alors le critère de la section 2 issu de l’AFD.

4.3 Commentaire

Les hypothèses : normalité, éventuellement l’homoscédasticité, doivent êtrevérifiées par la connaissance a priori du phénomène ou par une étude préalablede l’échantillon d’apprentissage. L’hypothèse d’homoscédasticité, lorqu’elleest vérifiée, permet de réduire très sensiblement le nombre de paramètres à es-timer et d’aboutir à des estimateurs plus fiables car de variance moins élevée.Dans le cas contraire, l’échantillon d’apprentissage doit être de taille impor-tante.

85 07/15

Page 86: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Analyse Discriminante Décisionnelle

5 Règle bayésienne avec estimation non pa-ramétrique

5.1 Introduction

En Statistique, on parle d’estimation non paramétrique ou fonctionnellelorsque le nombre de paramètres à estimer est infini. L’objet statistique à es-timer est alors une fonction par exemple de régression y = f(x) ou encoreune densité de probabilité. Dans ce cas, au lieu de supposer qu’on a affaire àune densité de type connu (normale) dont on estime les paramètres, on chercheune estimation f de la fonction de densité f . Pour tout x de R, f(x) est doncestimée par f(x).

Cette approche très souple a l’avantage de ne pas nécessiter d’hypothèseparticulière sur la loi (seulement la régularité de f pour de bonnes propriétésde convergence), en revanche elle n’est applicable qu’avec des échantillons degrande taille d’autant plus que le nombre de dimensions p est grand (curse ofdimensionality).

Dans le cadre de l’analyse discriminante, ces méthodes permettent d’estimerdirectement les densités f`(x). On considère ici deux approches : la méthodedu noyau et celle des k plus proches voisins.

5.2 Méthode du noyau

Estimation de densité

Soit y1, . . . , yn n observations équipondérées d’une v.a.r. continue Y dedensité f inconnue. Soit K(y) (le noyau) une densité de probabilité unidi-mensionnelle (sans rapport avec f ) et h un réel strictement positif. On appelleestimation de f par la méthode du noyau la fonction

f(y) =1

nh

n∑i=1

K

(y − yih

).

Il est immédiat de vérifier que

∀y ∈ R, f(y) ≥ 0 et∫ +∞

−∞f(y)dy = 1;

h est appelé largeur de fenêtre ou paramètre de lissage ; plus h est grand, plusl’estimation f de f est régulière. Le noyau K est choisi centré en 0, unimodalet symétrique. Les cas les plus usuels sont la densité gaussienne, celle uniformesur [−1, 1] ou triangulaire : K(x) = [1 − |x|]1[−1,1](x). La forme du noyaun’est pas très déterminante sur la qualité de l”estimation contrairement à lavaleur de h.

Application à l’analyse discriminante

La méthode du noyau est utilisée pour calculer une estimation non paramé-trique de chaque densité f`(x) qui sont alors des fonctions définies dans Rp.Le noyau K∗ dont donc être choisi multidimensionnel et

f`(x) =1

n`hp

∑i∈Ω`

K∗(

x− xih

).

Un noyau multidimensionnel peut être défini à partir de la densité usuelle delois : multinormale Np(0,Σp) ou uniforme sur la sphère unité ou encore parproduit de noyaux unidimensionnels :

K∗(x) =

p∏j=1

K(xj).

5.3 k plus proches voisins

Cette méthode d’affectation d’un vecteur x consiste à enchaîner les étapesdécrites dans l’algorithme ci-dessous.

Algorithme des k plus proches voisins (k-nn)1. Choix d’un entier k : 1 ≥ k ≥ n.2. Calculer les distances dM(x,xi) , i = 1, . . . , n où M est la métrique

de Mahalanobis c’est-à-dire la matrice inverse de la matrice de variance(ou de variance intraclasse).

3. Retenir les k observations x(1), . . . ,x(k) pour lesquelles ces distancessont les plus petites.

4. Compter les nombres de fois k1, . . . , km que ces k observations appa-raissent dans chacune des classes.

86 07/15

Page 87: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Analyse Discriminante Décisionnelle

TABLE 1 – Cancer : estimations des taux d’erreurs de prévision obtenus pardifférents types d’analyse discriminante

Méthode apprentissage validations croisée testlinéaire 1,8 3,8 3,6kNN 2,5 2,7 2,9

5. Estimer localement les densités conditionnelles par

f`(x) =k`

kVk(x);

où Vk(x) est le volume de l’ellipsoïde z|(z − x)′M(z − x) =dM(x,x(k)).

Pour k = 1, x est affecté à la classe du plus proche élément.

Comme toute technique, celles présentées ci-dessus nécessitent le réglaged’un paramètre (largeur de fenêtre ou nombre de voisins considérés). Ce choixs’apparente à un choix de modèle et nécessite le même type d’approche à sa-voir l’optimisation d’un critère (erreur de classement, validation croisée.

6 Exemples

6.1 Cancer du sein

Par principe, l’analyse discriminante s’applique à des variables explicativesquantitatives. Ce n’est pas le cas des données qui sont au mieux ordinales. Ilest clair que construire une fonction de discrimination comme combinaison deces variables n’a guère de sens. Néanmoins, en s’attachant uniquement à laqualité de prévision sans essayer de construire une interprétation du plan ou dela surface de discrimination, il est d’usage d’utiliser l’analyse discriminante defaçon "sauvage". Les résultats obtenus sont résumés dans le tableau 1. L’ana-lyse discriminante quadratique, avec matrice de variance estimée pour chaqueclasse n’a pas pu être calculée. Une des matrices n’est pas inversible.

TABLE 2 – Ozone : estimations des taux d’erreurs de prévision obtenus pardifférents types d’analyse discriminante

Méthode apprentissage validations croisée testlinéaire 11,9 12,5 12,0quadratique 12,7 14,8 12,5

TABLE 3 – Banque : estimations des taux d’erreurs de prévision obtenus pardifférents types d’analyse discriminante

Méthode apprentissage validations croisée testlinéaire 16,5 18,3 18quadratique 17,8 22,0 30kNN 23,5 29,8 29

6.2 Concentration d’ozone

Dans cet exemple aussi, deux variables sont qualitatives : le type de jour à2 modalités ne pose pas de problème mais remplacer la station par un entierest plutôt abusif. D’ailleurs, la méthode des plus proches voisins ne l’acceptentpas, une transformation des données serait nécessaire.

6.3 Carte visa

Comme pour les données sur le cancer, les données bancaires posent unproblème car elles associent différents types de variables. Il est possible de lecontourner, pour celles binaires, en considérant quantitative, l’indicatrice dela modalité (0 ou 1). Pour les autres, certaines procédures (DISQUAL pourdiscrimination sur variables qualitatives) proposent de passer par une analysefactorielle multiple des correspondances pour rendre tout quantitatif mais cecin’est pas implémenté de façon standard dans les logiciels d’origine américaine.

Pour l’analyse discriminante, R ne propose pas de sélection automatique devariable mais inclut une estimation de l’erreur par validation croisée. Les résul-tats trouvés sont résumés dans le tableau 3. Seule une discrimination linéaire

87 07/15

Page 88: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Analyse Discriminante Décisionnelle

FIGURE 1 – Banque : Deux exécutions de l’optimisation du choix de k parvalidation croisée.

semble fournir des résultats raisonnables, la recherche d’une discriminationquadratique n’apporte rien pour ces données. De son côté, SAS propose unesélection automatique (procédure stepdisc) mais les résultats obtenus ne sontpas sensiblement meilleurs après sélection.

Le choix de k dans la méthode des k plus proches voisins est souvent déli-cat ; chaque exécution de l’estimation de l’erreur par validation croisée conduità des résultats aléatoires et très différents et k “optimal” oscille entre 10 et 30(fig. 1) !

88 07/15

Page 89: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Arbres binaires de décision

Arbres binaires de décision

Résumé

Méthodes de construction d’arbres binaires de décision, modélisantune discrimination (classification trees) ou une régression (regres-sion trees). Principes et algorithmes de construction des arbres, cri-tères d’homogénéité et construction des nœuds, élagage pour l’ob-tention d’un modèle parcimonieux.

Retour au plan du cours

1 IntroductionComplémentaires des méthodes statistiques plus classiques : analyse discri-

minante, régression linéaire, les solutions obtenues sont présentées sous uneforme graphique simple à interpréter, même pour des néophytes, et consti-tuent une aide efficace pour l’aide à la décision. Elles sont basées sur un dé-coupage, par des hyperplans parallèles aux axes, de l’espace engendré par lesvariables explicatives. Nommées initialement partitionnement récursif ou seg-mentation, les développements importants de Breiman et col. (1984)[1] lesont fait connaître sous l’acronyme de CART : Classification and RegressionTree ou encore de C4.5 (Quinlan, 1993) dans la communauté informatique.L’acronyme correspond à deux situations bien distinctes selon que la variableà expliquer, modéliser ou prévoir est qualitative (discrimination ou en anglaisclassification) ou quantitative (régression).

2 Construction d’un arbre binaire

2.1 Principe

Les données sont constituées de l’observation de p variables quantitativesou qualitatives explicatives Xj et d’une variable à expliquer Y qualitative à mmodalités T`; ` = 1 . . . ,m ou quantitative réelle, observées sur un échan-tillon de n individus.

La construction d’un arbre de discrimination binaire (cf. figure 2.1) consiste

à déterminer une séquence de nœuds.• Un nœud est défini par le choix conjoint d’une variable parmi les explica-

tives et d’une division qui induit une partition en deux classes. Implicite-ment, à chaque nœud correspond donc un sous-ensemble de l’échantillonauquel est appliquée une dichotomie.

• Une division est elle-même définie par une valeur seuil de la variablequantitative sélectionnée ou un partage en deux groupes des modalités sila variable est qualitative.

• À la racine ou nœud initial correspond l’ensemble de l’échantillon ; laprocédure est ensuite itérée sur chacun des sous-ensembles.

L’algorithme considéré nécessite :

1. la définition d’un critère permettant de sélectionner la “meilleure” divi-sion parmi toutes celles admissibles pour les différentes variables ;

2. une règle permettant de décider qu’un nœud est terminal : il devient ainsiune feuille ;

3. l’affectation de chaque feuille à l’une des classes ou à une valeur de lavariable à expliquer.

Le point (ii) est le plus délicat. Il correspond encore à la recherche d’un mo-dèle parcimonieux. Un arbre trop détaillé, associé à une sur-paramétrisation,est instable et donc probablement plus défaillant pour la prévision d’autres ob-servations. La contribution majeure de Breiman et col. (1984)[1] est justementune stratégie de recherche d’arbre optimal. Elle consiste à

1. construire l’arbre maximal Amax,

2. ordonner les sous-arbres selon une séquence emboîtée suivant la décrois-sance d’un critère pénalisé de déviance ou de taux de mal-classés,

3. puis à sélectionner le sous-arbre optimal ; c’est la procédure d’élagage.

Tous ces points sont détaillés ci-dessous.

2.2 Critère de division

Une division est dite admissible si aucun des deux nœuds descendants quien découlent n’est vide. Si la variable explicative est qualitative ordinale avecm modalités, elle fournit (m − 1) divisions binaires admissibles. Si elle estseulement nominale le nombre de divisions passe à 2(m−1) − 1. Une variablequantitative se ramène au cas ordinal.

89 07/15

Page 90: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Arbres binaires de décision

@@@@@@

@@@@@

@@@@@

Tj T` Tj

Revenu < 10000 Revenu > 10000

Sexe=H Sexe=F Age < 50 Age > 50

FIGURE 1 – Exemple élémentaire d’arbre de classification.

Attention, l’algorithme tend à favoriser la sélection de variables explicativesavec beaucoup de modalités car celles-ci offrent plus de souplesse dans laconstruction de deux sous groupes. Ces variables sont à utiliser avec parci-monie car susceptibles de favoriser un sur-apprentissage ; il est souvent préfé-rable de réduire le nombre de modalités par fusion de modalités comme c’estclassique en analyse des correspondances multiple.

Le critère de division repose sur la définition d’une fonction d’hétérogénéitéou de désordre explicitée dans la section suivante. L’objectif étant de partagerles individus en deux groupes les plus homogènes au sens de la variable àexpliquer. L’hétérogénéité d’un nœud se mesure par une fonction non négativequi doit être

1. nulle si, et seulement si, le nœud est homogène : tous les individus appar-tiennent à la même modalité ou prennent la même valeur de Y .

2. Maximale lorsque les valeurs de Y sont équiprobables ou très dispersées.

La division du nœud k crée deux fils, gauche et droit. Pour simplifier, ilssont notés (k + 1) et (k + 2) mais une re-numérotation est nécessaire pourrespecter la séquence de sous-arbres qui sera décrite dans la section suivante.

Parmi toutes les divisions admissibles du nœud k, l’algorithme retient cellequi rend la somme D(k+1) +D(k+2) des désordres des nœuds fils minimales.Ceci revient encore à résoudre à chaque étape k de construction de l’arbre :

maxdivisions deXj ;j=1,p

Dk − (D(k+1) +D(k+2))

Graphiquement, la longueur de chaque branche peut être représentée propor-tionnellement à la réduction de l’hétérogénéité occasionnée par la division.

2.3 Règle d’arrêt

La croissance de l’arbre s’arrête à un nœud donné, qui devient donc ter-minal ou feuille, lorsqu’il est homogène c’est-à-dire lorsqu’il n’existe plus departition admissible ou, pour éviter un découpage inutilement fin, si le nombred’observations qu’il contient est inférieur à une valeur seuil à choisir en généralentre 1 et 5.

2.4 Affectation

Dans le cas Y quantitative, à chaque feuille est associée une valeur : lamoyenne des observations associées à cette feuille. Dans le cas qualitatif,chaque feuille ou nœud terminal est affecté à une classe T` de Y en consi-dérant le mode conditionnel :

• celle la mieux représentée dans le nœud et il est ensuite facile de compterle nombre d’objets mal classés ;

• la classe a posteriori la plus probable au sens bayésien si des probabilitésa priori sont connues ;

• la classe la moins coûteuse si des coûts de mauvais classement sont don-nés.

3 Critères d’homogénéitéDeux cas sont à considérer, les arbres de régression ou de classification.

3.1 Y quantitative

On considère le cas plus général d’une division en J classes. Soit n individuset une partition en J classes de tailles nj ; j = 1, . . . , J avec n =

∑Jj=1 nj .

On numérote i = 1, . . . , nj les individus de la jème classe. Soit µij (resp.yij)

90 07/15

Page 91: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Arbres binaires de décision

la valeur “théorique” (resp. l’observation) de Y sur l’individu (i, j) : le ièmede la jème classe. L’hétérogénéité de la classe j est définie par :

Dj =

nj∑i=1

(µij − µ.j)2 avec µ.j =

nj∑i=1

µij .

L’hétérogénéité de la partition est définie par :

D =

J∑j=1

Dj =

J∑j=1

nj∑i=1

(µij − µ.j)2;

c’est l’inertie intra (homogène à la variance intraclasse) qui vaut D = 0 si etseulement si µij = µ.j pour tout i et tout j.

La différence d’hétérogénéité entre l’ensemble non partagé et l’ensemblepartagé selon la partition J est

∆ =J∑j=1

nj∑i=1

(µij − µ..)2 −J∑j=1

nj∑i=1

(µij − µ.j)2 où µ.. =1

n

J∑j=1

nj∑i=1

µij .

=J∑j=1

nj(µ.. − µ.j)2;

c’est encore homogène à la variance inter classe ou “désordre” des barycentresqui vaut ∆ = n1n2((µ.1 − µ.2)2 pour J = 2 dans le cas qui nous intéresse.

L’objectif, à chaque étape, est de maximiser ∆ c’est-à-dire de trouver lavariable induisant une partition en 2 classes associée à une inertie (variance)intraclasse minimale ou encore qui rend l’inertie (la variance) interclasse laplus grande.

Les quantités sont estimées :

Dj par Dj =

nj∑i=1

(yij − y.j)2 (1)

D par D =J∑j=1

Dj =J∑j=1

nj∑i=1

(yij − y.j)2. (2)

Sous hypothèse gaussienne :

Yij = µ.j + uij avec + uij ∼ N (0, σ2),

la log-vraisemblance

logL = Cste− n

2log(σ2)− 1

2σ2

J∑j=1

nj∑i=1

(yij − µ.j)2

est rendue maximale pour

Lµ = supµ

logL = Cste− n

2log(σ2)− 1

2σ2

J∑j=1

nj∑i=1

(yij − y.j)2.

Pour le modèle saturé (une classe par individu) : yij = µij + uij , cet optimumdevient :

Ls = supµ

logL = Cste− n

2log(σ2).

La déviance (par rapport au modèle saturé) s’exprime alors comme :

Dµ = 2σ2(Ls − Lµ) = D.

Le raffinement de l’arbre est donc associé à une décroissance, la plus rapidepossible, de la déviance. C’est l’optique retenue dans le logiciel Splus. On peutencore dire que la division retenue est celle qui rend le test de Fisher (analysede variance), comparant les moyennes entre les deux classes, le plus significatifpossible.

3.2 Y qualitative

Dans ce cas, il existe plusieurs fonctions d’hétérogénéité, ou de désordred’un nœud. Ce peut être le nombre de mal classés, un critère défini à partir dela notion d’entropie ou encore à partir de la concentration de Gini. Un derniercritère est basé sur la statistique de test du χ2. En pratique, il s’avère quele choix du critère importe moins que celui du niveau d’élagage. Le premiercritère (entropie) est souvent préféré (Splus) car il s’interprète encore commeun terme de déviance mais d’un modèle multinomial cette fois.

91 07/15

Page 92: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Arbres binaires de décision

Critère d’entropie

On considère une variable à expliquer qualitative, Y à m modalités ou caté-gories T numérotées ` = 1, . . . ,m. L’arbre induit une partition pour laquellen+k désigne l’effectif de la kème classe ou kème nœud. Soit

p`k = P [T` | k] avecm∑`=1

p`k = 1

la probabilité qu’un élément du k-ième nœud appartienne à la `-ième classe.

Le désordre du k-ième nœud, défini à partir de l’entropie, s’écrit avec laconvention 0 log(0) = 0. :

Dk = −2

m∑`=1

n+kp`k log(p`k)

tandis que l’hétérogénéité ou désordre de la partition est encore :

D =K∑k=1

Dk = −2K∑k=1

m∑`=1

n+kp`k log(p`k).

Cette quantité est positive ou nulle, elle est nulle si et seulement si les proba-bilités p`k ne prennent que des valeurs 0 sauf une égale à 1 correspondant àl’absence de mélange.

Désignons par n`k l’effectif observé de la `-ième classe dans le k-ièmenœud. Un nœud k de l’arbre représente un sous-ensemble de l’échantillon d’ef-fectif n+k =

∑m`=1 n`k.

Les quantités sont estimées :

Dk parDk = −2m∑`=1

n+kn`kn+k

logn`kn+k

(3)

D par D =K∑k=1

Dk = −2K∑k=1

m∑`=1

n`k logn`kn+k

. (4)

Considérons, pour chaque classe ou nœud k, un modèle multinomial à m ca-

tégories de paramètre :

pk = (p1k, . . . , pmk), avecm∑`=1

p`k = 1.

Pour ce modèle, la logvraisemblance :

logL = Cste +K∑k=1

m∑`=1

n`k log(p`k)

est rendue maximale pour

Lµ = supp`k

logL = Cste +

K∑k=1

m∑`=1

n`k logn`kn+k

.

Pour le modèle saturé (une catégorie par objet), cet optimum prend la valeur dela constante et la déviance (par rapport au modèle saturé) s’exprime comme :

D = −2K∑k=1

m∑`=1

n`k logn`kn+k

= D.

Comme pour l’analyse discriminante décisionnelle, les probabilités condi-tionnelles sont définies par la règle de Bayes lorsque les probabilités a prioriπ` d’appartenance à la `-ième classe sont connues. Dans le cas contraire, lesprobabilités de chaque classe sont estimées sur l’échantillon et donc les pro-babilités conditionnelles s’estiment simplement par des rapports d’effectifs :p`k est estimée par n`k/n+k. Enfin, il est toujours possible d’introduire, lors-qu’ils sont connus, des coûts de mauvais classement et donc de se ramener àla minimisation d’un risque bayésien.

Remarques :• La fonction d’entropie peut être remplacée par l’indice de Gini 1 −∑m

`=1 p2`k qui conduit à une autre définition de l’hétérogénéité également

utilisée mais qui ne s’interprète pas en terme de déviance d’un modèlecomme dans le cas de l’entropie. Les résultats sont en général assez simi-laires.

92 07/15

Page 93: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Arbres binaires de décision

• La fonction d’hétérogénéité dans le cas de l’arbre de régression revientà chercher la division rendant le test de Fisher le plus significatif. Defaçon analogue, l’algorithme CHAID (CHi-square Automatic InteractionDetector) utilise la statistique d’un test du Chi-deux afin de définir la fonc-tion d’hétérogénéité. Cette option de l’algorithme est implémentée dansles logiciels SAS et SPSS.

• Une variante de l’algorithme permet de prendre en compte des observa-tions avec données manquantes de certaines variables explicatives. Il suf-fit de déterminer pour chaque nœuds une séquence ordonnée de divisionspossibles. Au moment de calculer une prévision, si une donnée manquepour l’application d’une division ou règle de décision, la division sui-vante est prise en compte jusqu’à ce qu’une décision soit prise à chacundes noœuds rencontrés.

4 ÉlagageDans des situations complexes, la démarche proposée conduit à des arbres

extrêmement raffinés et donc à des modèles de prévision très instables carfortement dépendants des échantillons qui ont permis leur estimation. On setrouve donc dans une situation de sur-ajustement à éviter au profit de modèlesplus parcimonieux donc plus robuste au moment de la prévision. Cet objectifest obtenu par une procédure d’élagage ou (pruning) de l’arbre.

Le principe de la démarche, introduite par Breiman et col. (1984)[1],consiste à construire une suite emboîtée de sous-arbres de l’arbre maximumpar élagage successif puis à choisir, parmi cette suite, l’arbre optimal au sensd’un critère. La solution ainsi obtenue par un algorithme pas à pas n’est pasnécessairement globalement optimale mais l’efficacité et la fiabilité sont pré-férées à l’optimalité.

4.1 Construction de la séquence d’arbres

Pour un arbreA donné, on noteK le nombre de feuilles ou nœuds terminauxde A ; la valeur de K exprime la complexité de A. La mesure de qualité dediscrimination d’un arbre A s’exprime par un critère

D(A) =

K∑k=1

Dk(A)

où Dk(A) est le nombre de mal classés ou la déviance ou le coût de mauvaisclassement de la kème feuille de l’arbre A.

La construction de la séquence d’arbres emboîtés repose sur une pénalisa-tion de la complexité de l’arbre :

C(A) = D(A) + γK.

Pour γ = 0, Amax = AK minimise C(A). En faisant croître γ, l’une desdivisions de AK , celle pour laquelle l’amélioration de D est la plus faible(inférieure à γ), apparaît comme superflue et les deux feuilles obtenues sontregroupées (élaguées) dans le nœud père qui devient terminal ; AK devientAK−1.

Le procédé est itéré pour la construction de la séquence emboîtée :

Amax = AK ⊃ AK−1 ⊃ · · ·A1

où A1, le nœud racine, regroupe l’ensemble de l’échantillon.

Un graphe représente la décroissance ou éboulis de la déviance (ou du tauxde mal classés) en fonction du nombre croissant de feuilles dans l’arbre ou,c’est équivalent, en fonction de la valeur décroissante du coefficient de pénali-sation γ.

4.2 Recherche de l’arbre optimal

Les procédures d’élagage diffèrent par la façon d’estimer l’erreur de prédic-tion. Le graphe précédemment obtenu peut se lire comme un éboulis de valeurpropre. Quand l’amélioration du critère est jugé trop petite ou négligeable,on élague l’arbre au nombre de feuilles obtenues. L’évaluation de la dévianceou du taux de mauvais classement estimé par re-substitution sur l’échantillond’apprentissage est biaisée (trop optimiste). Une estimation sans biais est obte-nue par l’utilisation d’un autre échantillon (validation) ou encore par validationcroisée. La procédure de validation croisée présente dans ce cas une particula-rité car la séquence d’arbres obtenue est différente pour chaque estimation surl’un des sous-échantillons. L’erreur moyenne n’est pas, dans ce cas, calculéepour chaque sous-arbre avec un nombre de feuilles donné mais pour chaquesous-arbre correspondant à une valeur fixée du coefficient de pénalisation. Àla valeur de γ minimisant l’estimation de l’erreur de prévision, correspond

93 07/15

Page 94: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Arbres binaires de décision

ensuite l’arbre jugé optimal dans la séquence estimée sur tout l’échantillond’apprentissage.

Le principe de sélection d’un arbre optimal est donc décrit dans l’algorithmeci-dessous.

ALGORITHME 1 : Sélection d’arbre ou élagageConstruction de l’arbre maximal Amax.Construction de la séquence AK . . . A1 d’arbres emboîtés.Estimation sans biais (échantillon de validation ou validation croisée) desdéviances D(AK), . . . , D(A1).Représentation de D(Ak) en fonction de k ou de γ.Choix de k rendant D(Ak) minimum.

4.3 Remarques pratiques• Ces méthodes sont surtout efficaces que pour des tailles d’échantillons

importantes et elles sont très calculatoires. Les deux raisons : modèle gra-phique de décision simple à interpréter, puissance de calcul nécessaire,suffisent à expliquer leur popularité récente.

• Elles ne requièrent pas d’hypothèses sur les distributions des variables etsemblent particulièrement adaptées au cas où les variables explicativessont nombreuses. En effet, la procédure de sélection des variables est in-tégrée à l’algorithme construisant l’arbre et les interactions sont prises encompte. Il est ainsi fréquent d’associer arbre et régression logistique. Lespremières division d’un arbre sont utilisées pour construire une variablesynthétique intégrée à une régression logistique afin de sélectionner lesquelques interactions apparaissant comme les plus pertinentes.

• En classification, la recherche de division est par ailleurs invariable partransformation monotone des variables explicatives quantitatives. Celaconfère une certaine robustesse vis-à-vis de possibles valeurs atypiques.

• La définition d’un arbre nécessite en dernier lieu une optimisation délicatede la complexité par élagage afin d’éviter le sur-ajustement.

• Cet algorithme suivant une stratégie pas à pas hiérarchisée, peut, commedans le cas du choix de modèle en régression, passer à coté d’un opti-mum global ; il se montre par ailleurs très instable et donc sensible à desfluctuations d’échantillon. Cette instabilité ou variance de l’arbre est une

conséquence de la structure hiérarchique : une erreur de division en débutd’arbre est propagée tout au long de la construction.

• De plus le découpage de l’espace des solutions par un ensemble d’hyper-plans parallèles aux axes conduit à des solutions très abruptes, sans pos-sibilité de lisser les “angles”. Le bagging est présenté plus loin commeune solution pour réduire la variance d’un arbre et lisser le découpage enhyperplans.

• Plusieurs variantes on été proposées puis abandonnées : arbres ternairesplutôt que binaires, règle de décision linéaire plutôt que dichotomique.La première renforce inutilement l’instabilité alors que si une décisionternaire est indispensable, elle est la succession de deux divisions binaires.La deuxième rend l’interprétation trop complexe donc le modèle moinsutile.

5 Exemples

5.1 Cancer du sein

Un arbre de discrimination est estimé sur l’échantillon d’apprentissage,élagué par validation croisée et représenté dans la figure 2. La prévision del’échantillon test par cet arbre conduit à la matrice de confusion :

predq.tree benign malignantbenign 83 5malignant 3 46

avec un taux d’erreur estimé à 5,8%.

5.2 Concentration d’ozone

Arbre de régression

Un arbre de régression est estimé pour prévoir la concentration d’ozone.La librairie rpart du logiciel R prévoit une procédure d’élagage par valida-tion croisée afin d’optimiser le coefficient de pénalisation. L’arbre (figure 3)montre bien quelles sont les variables importantes intervenant dans la prévi-sion. Mais, compte tenu de la hiérarchisation de celles-ci, due à la structurearborescente du modèle, cette liste n’est pas similaire à celle mise en évidence

94 07/15

Page 95: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Arbres binaires de décision

|

Cell.shape=1,2

Bare.nuclei=1,2

Epith.c.size=1,2,3

Cell.shape=3,4,5,6,7,8,9,10

Bare.nuclei=3,4,5,6,7,8,9,10

Epith.c.size=4,5,6,7,8,9,10

benign 358/188

benign 318/4

malignant40/184

benign 32/20

benign 30/1

malignant2/19

malignant8/164

FIGURE 2 – Cancer : arbre de décision élagué par validation croisée (R).

dans le modèle gaussien. On voit plus précisément ici la complexité des inter-actions entre la prédiction par MOCAGE et l’effet important de la températuredans différentes situations. Les résidus de l’échantillon test du modèle d’arbrede régression prennent une structure particulière (figure 4) car les observationscommunes à une feuille terminale sont affectées de la même valeur. Il y a doncune colonne par feuille. La précision de l’ajustement peut s’en trouver altérée(R2 = 0, 68) mais il apparaît que ce modèle est moins soumis au problèmed’hétéroscédasticité très présent dans le modèle gaussien.

Arbre de discrimination

Un modèle est estimé afin de prévoir directement le dépassement d’un seuil.Il est de complexité similaire à l’arbre de régression mais ne fait pas jouerle même rôle aux variables. La température remplace la prévision MOCAGEde l’ozone comme variable la plus importante. Les prévisions de dépassementde seuil sur l’échantillon test sont sensiblement moins bonnes que celle de larégression, les taux sont de 14,4% avec l’arbre de régression et de 14,5% direc-tement avec l’arbre de discrimination. Les matrices de confusion présentent lesmêmes biais que les modèles de régression en omettant un nombre important

FIGURE 3 – Ozone : arbre de régression élagué par validation croisée (R).

95 07/15

Page 96: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Arbres binaires de décision

0 50 100 200 300

050

150

250

Valeurs predites

Val

eurs

obs

erve

es

0 50 100 200 300

−10

0−

500

5010

0

Valeurs preditesR

ésid

us

FIGURE 4 – Ozone : Valeurs observées et résidus de l’échantillon test.

de dépassements.

5.3 Carte Visa Premier

L’étude des données bancaires s’intéresse soit aux données quantitativesbrutes soient à celles-ci après découpage en classes des variables quantita-tives. Ce découpage rend des services en régression logistique car le modèleconstruit s’en trouve plus flexible : plus de paramètres mais moins de degrésde liberté, comme l’approximation par des indicatrices (des classes) de trans-formations non linéaires des variables. Il a été fait "à la main" en prenant lesquantiles comme bornes de classe ; C’est un usage courant pour obtenir desclasses d’effectifs égaux et répartit ainsi au mieux la précision de l’estima-tion des paramètres mais ce choix n’est pas optimal au regard de l’objectifde prévision. Dans le cas d’un modèle construit à partir d’un arbre binaire, ilest finalement préférable de laisser faire celui-ci le découpage en classe c’est-à-dire de trouver les valeurs seuils de décision. C’est la raison pour laquelle,l’arbre est préférablement estimé sur els variables quantitatives et qualitativesinitiales.

Le module SAS/STAT ne fournit pas d’estimation d’arbre de décision, il fautfaire appel au module SAS Enterprise Miner. Celui-ci, par principe, propose

FIGURE 5 – Banque : choix du nombre de feuilles par échantillon de valida-tion.

le découpage de l’échantillon en trois parties apprentissage, validation et test.L’élagage de l’arbre estimé sur l’échantillon d’apprentissage est optimisé pourminimiser l’erreur estimée sur l’échantillon de validation. C’est le graphiquede la figure 5. La librairie rpart de R propose d’optimiser l’élagage par va-lidation croisée. L’arbre ainsi obtenu est représenté dans la figure 6 Cet arbreconduit à la matrice de confusion suivante sur l’échantillon test avec un tauxd’erreur estimé à 8%.

vistest Cnon CouiCnon 127 6Coui 10 57

Références[1] L. Breiman, J. Friedman, R. Olshen et C. Stone, Classification and regres-

sion trees, Wadsworth & Brooks, 1984.

96 07/15

Page 97: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Arbres binaires de décision

|

MOYRVL< 3.02

RELAT>=5.5

FACANL< 11.44

DMVTPL>=2.602

DMVTPL< 1.199

AGER< 26

DMVTPL>=2.602

DMVTPL< 2.674

FACANL< 11.32

MOYRVL>=3.02

RELAT< 5.5

FACANL>=11.44

DMVTPL< 2.602

DMVTPL>=1.199

AGER>=26

DMVTPL< 2.602

DMVTPL>=2.674

FACANL>=11.32

Cnon569/294

Cnon475/90

Cnon462/61

Cnon457/51

Cnon381/28

Cnon76/23

Cnon76/3

Coui0/20

Coui5/10

Coui13/29

Cnon8/0

Coui5/29

Coui94/204

Coui93/121

Cnon70/17

Cnon67/10

Coui3/7

Coui23/104

Coui1/83

Endpoint = CARVP

FIGURE 6 – Banque : arbre de décision élagué par validation croisée dans R.

97 07/15

Page 98: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Réseaux de neurones

Réseaux de neurones

Résumé

Définition et caractéristiques des réseaux de neurones ou percep-trons multicouches spécifiques pour la régression et la discrimina-tion ou classification supervisée. Structure, fonction de transfert, es-timation du gradient par rétro-propagation et algorithmes d’appren-tissage des poids en contrôlant le sur-ajustement par régularisation.

Retour au plan du cours

1 Introduction

1.1 Historique

Nous nous intéressons ici à une branche de l’Informatique fondamentalequi, sous l’appellation d’Intelligence Artificielle, a pour objectif de simulerdes comportements du cerveau humain. Les premières tentatives de modélisa-tion du cerveau sont anciennes et précèdent même l’ère informatique. C’est en1943 que Mc Culloch (neurophysiologiste) et Pitts (logicien) ont proposé lespremières notions de neurone formel. Ce concept fut ensuite mis en réseau avecune couche d’entrée et une sortie par Rosenblatt en 1959 pour simuler le fonc-tionnement rétinien et tacher de reconnaître des formes. C’est l’origine du per-ceptron. Cette approche dite connexioniste a atteint ses limites technologiques,compte tenu de la puissance de calcul de l’époque, mais aussi théoriques audébut des années 70.

L’approche connexioniste à connaissance répartie a alors été supplantée parl’approche symbolique ou séquentielle qui promouvait les systèmes experts àconnaissance localisée. L’objectif était alors d’automatiser le principe de l’ex-pertise humaine en associant trois concepts :

• une base de connaissance dans laquelle étaient regroupées “toutes” lesconnaissances d’experts humains sous forme de propositions logiques élé-mentaires ou plus élaborées en utilisant des quantificateurs (logique dupremier ordre).

• une base de faits contenant les observations du cas à traiter comme, par

exemple, des résultats d’examens, d’analyses de sang, de salive pour desapplications biomédicales de choix d’un antibiotique,

• un moteur d’inférence chargé d’appliquer les règles expertes sur la basede faits afin d’en déduire de nouveaux faits jusqu’à la réalisation d’unobjectif comme l’élaboration du traitement d’un infection bactérienne.

Face aux difficultés rencontrées lors de la modélisation des connaissances d’unexpert humain, au volume considérable des bases de connaissance qui en dé-coulaient et au caractère exponentiel de la complexité des algorithmes d’infé-rence mis en jeu, cette approche s’est éteinte avec les années 80. En effet, il aété montré que les systèmes basés sur le calcul des prédicats du premier ordreconduisaient à des problèmes NP complets.

L’essor technologique et quelques avancées théoriques :• estimation du gradient par rétro-propagation de l’erreur (Hopkins, 1982),• analogie de la phase d’apprentissage avec les modèles markoviens de sys-

tèmes de particules de la mécanique statistique (verres de spin) par (Hop-field, 1982),

au début des années 80 ont permis de relancer l’approche connexioniste. Celle-ci a connu au début des années 90 un développement considérable si l’onconsidère le nombre de publications et de congrès qui lui ont été consacrésmais aussi les domaines d’applications très divers où elle apparaît. Sur de nom-breux objectifs, justement ceux propres au data mining, les réseaux neuronauxne rentrent pas nécessairement en concurrence avec des méthodes statistiquesbientôt centenaires mais apportent un point de vue complémentaire qu’il estimportant de considérer.

Finalement, la motivation initiale de simulation du cortex cérébral a été ra-pidement abandonné alors que les méthodes qui en découlaient ont trouvé leurpropre intérêt de développement méthodologique et leurs champs d’applica-tions.

1.2 Réseaux de neurones

Un réseau neuronal est l’association, en un graphe plus ou moins complexe,d’objets élémentaires, les neurones formels. Les principaux réseaux se dis-tinguent par l’organisation du graphe (en couches, complets. . . ), c’est-à-direleur architecture, son niveau de complexité (le nombre de neurones, présenceou non de boucles de rétroaction dans le réseau), par le type des neurones (leurs

98 07/15

Page 99: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Réseaux de neurones

Σ | f

x1QQQQs

x2 PPPPqxj -

...xp

3

- y

FIGURE 1 – Représentation d’un neurone formel.

fonctions de transition ou d’activation) et enfin par l’objectif visé : apprentis-sage supervisé ou non, optimisation, systèmes dynamiques.

1.3 Neurone formel

De façon très réductrice, un neurone biologique est une cellule qui se carac-térise par

• des synapses, les points de connexion avec les autres neurones, fibres ner-veuses ou musculaires ;

• des dentrites, les “entrées” du neurones ;• l’axone, la “sortie” du neurone vers d’autres neurones ou fibres muscu-

laires ;• le noyau qui active la sortie en fonction des stimulations en entrée.

Par analogie, le neurone formel est un modèle qui se caractérise par un étatinterne s ∈ S, des signaux d’entrée x1, . . . , xp et une fonction d’activation

s = h(x1, . . . , xp) = f

α0 +

p∑j=1

αjxj

= f(α0 +α′x).

La fonction d’activation opère une transformation d’une combinaison affinedes signaux d’entrée, α0 étant appelé le biais du neurone. Cette combinaisonaffine est déterminée par un vecteur de poids [α0, . . . , αp] associé à chaqueneurone et dont les valeurs sont estimées dans la phase d’apprentissage. Ilsconstituent “la mémoire” ou “connaissance répartie” du réseau.

Les différents types de neurones se distinguent par la nature f de leur fonc-tion d’activation. Les principaux types sont :

• linéaire f est la fonction identité,• sigmoïde f(x) = 1/(1 + ex),• seuil f(x) = 1[0,+∞[(x),• radiale f(x) =

√1/2π exp(−x2/2),

• stochastiques f(x) = 1 avec la probabilité 1/(1 + e−x/H), 0 sinon (Hintervient comme une température dans un algorithme de recuit simulé),

• . . .Les modèles linéaires et sigmoïdaux sont bien adaptés aux algorithmes d’ap-

prentissage impliquant (cf. ci-dessous) une rétro-propagation du gradient carleur fonction d’activation est différentiable ; ce sont les plus utilisés. Le mo-dèle à seuil est sans doute plus conforme à la “réalité” biologique mais posedes problèmes d’apprentissage. Enfin le modèle stochastique est utilisé pourdes problèmes d’optimisation globale de fonctions perturbées ou encore pourles analogies avec les systèmes de particules. On ne le rencontre pas en datamining.

2 Perceptron multicoucheNous ne nous intéresserons dans ce cours qu’à une structure élémentaire

de réseau, celle dite statique ne présentant pas de boucle de rétroaction etdans un but d’apprentissage supervisé. Tant les systèmes dynamiques, avecboucle de rétroaction, que les réseaux dit “cartes de Kohonen” ou cartes auto-organisatrices ne sont pas abordés. Ces derniers sont en fait des algorithmes declassification non-supervisée.

2.1 Architecture

Le perceptron multicouche (PMC) est un réseau composé de couches suc-cessives. Une couche est un ensemble de neurones n’ayant pas de connexion

99 07/15

Page 100: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Réseaux de neurones

x1 - HHHHHHj

JJJJJJJJJ

LLLLLLLLLLLLLL

x2 - *

HHHH

HHj

JJJJJJJJJ

...

xj - HHHHHHj

*

...

xp - *

Σ | f

Σ | f

...

Σ | f

Σ | f

@@@@@@R-

- y

FIGURE 2 – Exemple de perceptron multicouche élémentaire avec une couchecachée et une couche de sortie.

entre eux. Une couche d’entrée lit les signaux entrant, un neurone par entréexj , une couche en sortie fournit la réponse du système. Selon les auteurs, lacouche d’entrée qui n’introduit aucune modification n’est pas comptabilisée.Une ou plusieurs couches cachées participent au transfert. Un neurone d’unecouche cachée est connecté en entrée à chacun des neurones de la couche pré-cédente et en sortie à chaque neurone de la couche suivante.

2.2 Fonction de transfert

Par souci de cohérence, les mêmes notations ont été conservées à tra-vers les différents chapitres. Ainsi, les entrées d’un réseau sont encore no-tées X1, . . . , Xp comme les variables explicatives d’un modèle tandis que lespoids des entrées sont des paramètres α,β à estimer lors de la procédured’apprentissage et que la sortie est la variable Y à expliquer ou cible du mo-dèle.

Un perceptron multicouche réalise donc une transformation des variablesd’entrée :

Y = φ(X1, . . . , Xp;α)

où α est le vecteur contenant chacun des paramètres αjk` de la jème entréedu kème neurone de la `ème couche ; la couche d’entrée (` = 0) n’est pasparamétrée, elle ne fait que distribuer les entrées sur tous les neurones de lacouche suivante.

Un théorème dit d”approximation universelle” montre que cette structureélémentaire à une seule couche cachée est bien suffisante pour prendre encompte les problèmes classiques de modélisation ou apprentissage statistique.En effet, toute fonction régulière peut être approchée uniformément avec uneprécision arbitraire et dans un domaine fini de l’espace de ses variables, par unréseau de neurones comportant une couche de neurones cachés en nombre finipossédant tous la même fonction d’activation et un neurone de sortie linéaire.

De façon usuelle et en régression (Y quantitative), la dernière couche estconstituée d’un seul neurone muni de la fonction d’activation identité tandisque les autres neurones (couche cachée) sont munis de la fonction sigmoïde.En classification binaire, le neurone de sortie est muni également de la fonc-tion sigmoïde tandis que dans le cas d’une discrimination à m classes (Y qua-litative), ce sont m neurones avec fonction sigmoïde, un par classe, qui sontconsidérés en sortie.

100 07/15

Page 101: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Réseaux de neurones

Ainsi, en régression avec un perceptron à une couche cachée de q neuroneset un neurone de sortie, cette fonction s’écrit :

y = φ(x;α, β) = β0 + β′z

avec zk = f(αk0 +αk′x); k = 1, . . . , q.

2.3 Apprentissage

Supposons que l’on dispose d’une base d’apprentissage de taille n d’obser-vations (x1i , . . . , x

pi ; yi) des variables explicativesX1, . . . , Xp et de la variable

à prévoir Y . Considérons le cas le plus simple de la régression avec un réseauconstitué d’un neurone de sortie linéaire et d’une couche à q neurones dontles paramètres sont optimisés par moindres carrés. Ceci se généralise à toutefonction perte dérivable et donc à la discrimination à m classes.

L’apprentissage est l’estimation des paramètres αj=0,p;k=1,q et βk=0,q parminimisation de la fonction perte quadratique (ou d’un fonction d’entropie enclassification) :

Q(α, β) =n∑

i=1

Qi =n∑

i=1

[yi − φ(x;α, β)]2.

Différents algorithmes d’optimisation sont proposés, ils sont généralement ba-sés sur une évaluation du gradient par rétro-propagation.

2.3.1 Rétro-propagation de l’erreur

Il s’agit donc dévaluer la dérivée de la fonction côut en une observationet par rapport aux différents paramètres. Soit zki = f(αk0 + αk

′xi) etzi = z1i, . . . , zqi. Les dérivées partielles de la fonction perte quadratiques’écrivent :

∂Qi

∂βk= −2(yi − φ(xi))(β

′zi)zki = δizki

∂Qi

∂αkj= −2(yi − φ(xi))(β

′zi)βkf′(α′kxi)xip = skixip.

Les termes δi et ski sont respectivement les termes d’erreur du modèle cou-rant à la sortie et sur chaque neurone caché. Ces termes d’erreur vérifient les

équations dites de rétro-propagation :

ski = f ′(α′kxi)βkδi

dont les termes sont évaluée sen deux passes. Une passe “avant”, avec les va-leurs courantes des poids, l’application des différentes entrées xi au réseaupermet de déterminer les valeurs ajustées φ(xi). La passe “retour” permet en-suite de déterminer les δi qui sont “rétro-propagés” afin de calculer les ski etainsi obtenir les évaluations des gradients.

2.3.2 Algorithmes d’optimisation

Sachant évaluer les gradients, différents algorithmes, plus ou moins sophis-tiqués, sont implémentés. Le plus élémentaire est une utilisation itérative dugradient : en tout point de l’espace des paramètres, le vecteur gradient de Qpointe dans la direction de l’erreur croissante. Pour faire décroître Q il suffitdonc de se déplacer en sens contraire. Il s’agit d’un algorithme itératif modi-fiant les poids de chaque neurone selon :

β(r+1)k = β

(r)k − τ

n∑i=1

∂Qi

∂β(r)k

α(r+1)kp = α

(r)kp − τ

n∑i=1

∂Qi

∂α(r)kp

.

ALGORITHME 1 : Rétro propagation élémentaire du gra-dientInitialisationLes poids bjk` par tirage aléatoire selon une loi uniforme sur [0, 1].Normaliser dans [0, 1] les données d’apprentissage.while Q > errmax ou niter<itermax do

Ranger la base d’apprentissage dans un nouvel ordre aléatoire.for chaque élément i = 1, . . . , n de la base do

Calculer ε(i) = yi−φ(x1i , . . . , xpi ; (b)(i−1)) en propageant les entrées

vers l’avant.

101 07/15

Page 102: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Réseaux de neurones

L’erreur est “rétro-propagée” dans les différentes couches afin d’af-fecter à chaque entrée une responsabilité dans l’erreur globale.Mise à jour de chaque poids bjk`(i) = bjk`(i− i) + ∆bjk`(i)

end forend while

Le coefficient de proportionnalité τ est appelé le taux d’apprentissage. Ilpeut être fixe, à déterminer par l’utilisateur, ou encore varier en cours d’exé-cution selon certaines heuristiques. Il paraît en effet intuitivement raisonnableque, grand au début pour aller plus vite, ce taux décroisse pour aboutir à unréglage plus fin au fur et à mesure que le système s’approche d’une solution.

Bien d’autres méthodes d’optimisation ont été adaptées à l’apprentissaged’un réseau : méthodes du gradient avec second ordre utilisant une approxi-mation itérative de la matrice hessienne (algorithme BFGS, de Levenberg-Marquardt) ou encore une évaluation implicite de cette matrice par la méthodedite du gradient conjugué. La littérature sur le sujet propose quantités de re-cettes destinées à améliorer la vitesse de convergence de l’algorithme ou bienlui éviter de rester collé à une solution locale défavorable. D’autres heuris-tiques proposent d’ajouter un terme d’inertie afin d’éviter des oscillations del’algorithme.

D’autres algorithmes encore sont des versions adaptatives. Lorsque de nou-velles observations sont proposées une à une au réseau. Dans ce dernier typed’algorithme, des propriétés de dynamique markovienne (processus ergodiqueconvergeant vers la mesure stationnaire) impliquent une convergence presquesûre : la probabilité d’atteindre une précision fixée a priori tend vers 1 lorsquela taille de l’échantillon d’apprentissage tend vers l’infini.

On pourra se reporter à l’abondante littérature sur le sujet (Haykin, 1994)[1]pour obtenir des précisions sur les algorithme d’apprentissage et leurs nom-breuses variantes. Il est important de rappeler la liste des choix qui sont laissésà l’utilisateur. En effet, même si les logiciels proposent des valeurs par défaut,il est fréquent que cet algorithme connaisse quelques soucis de convergence.

2.4 Contrôle de la complexité

Choix des paramètres

L’utilisateur doit donc déterminer

1. les variables d’entrée et la variable de sortie ; leur faire subir comme pourtoutes méthodes statistiques, d’éventuelles transformations.

2. L’architecture du réseau : le nombre de couches cachées (en généralune ou deux) qui correspond à une aptitude à traiter des problèmes denon-linéarité, le nombre de neurones par couche cachée. Ces deux choixconditionnent directement le nombre de paramètres (de poids) à estimeret donc la complexité du modèle. Ils participent à la recherche d’un boncompromis biais/variance c’est-à-dire à l’équilibre entre qualité d’appren-tissage et qualité de prévision.

3. Trois autres paramètres interviennent également sur ce compromis : lenombre maximum d’itérations, l’erreur maximum tolérée et un termeéventuel de régularisation (decay). En renforçant ces critères on améliorela qualité de l’apprentissage ce qui peut se faire au détriment de celle dela prévision.

4. Le taux d’apprentissage ainsi qu’une éventuelle stratégie d’évolution decelui-ci.

En pratique, tous ces paramètres ne peuvent être réglés simultanément parl’utilisateur. Celui-ci est confronté à des choix concernant principalement lecontrôle du sur-apprentissage : limiter le nombre de neurones ou la durée d’ap-prentissage ou encore augmenter le coefficient de pénalisation de la norme desparamètres. Ceci nécessite de déterminer un mode d’estimation de l’erreur :échantillon validation ou test, validation croisée ou bootstrap. Ces choix sontsouvent pris par défaut dans la plupart des logiciels commerciaux. Il est im-portant d’en connaître les implications.

Durée de l’apprentissage

La stratégie la plus simple (SAS Enterprise Miner) consiste à considéré unéchantillon indépendant de validation et à arrêter l’apprentissage lorsque l’er-reur sur cet échantillon de validation commence à se dégrader tandis que cellesur l’échantillon d’apprentissage ne peut que continuer à décroître.

Nombre de neurones

Le nombre de couches reste restreint car toute fonction continue d’un com-pact de RP dans Rq peut être approchée avec une précision arbitraire par unréseau à une couche cachée en adaptant le nombre de neurones. Le contrôle

102 07/15

Page 103: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Réseaux de neurones

de la complexité du modèle ou plus généralement d’un sur-apprentissage peutêtre déterminé en optimisant le nombre de neurones par minimisation d’uneestimation de l’erreur de prévision par exemple par validation croisée.

Régularisation

Une option importante car efficace pour éviter le sur-apprentissage consisteà introduire une terme de pénalisation ou régularisation, comme en régressionridge, dans le critère à optimiser. Celui-ci devient alors : Q(θ) + γ‖θ‖2.

Le paramètre γ (decay) doit être réglé par l’utilisateur ; plus il est impor-tant et moins les paramètres ou poids peuvent prendre des valeurs “chaoti-ques” contribuant ainsi à limiter les risques de sur-apprentissage. Une stratégiesimple et sans doute efficace, surtout si la taille de l’échantillon ne permet pasde prendre en compte une partie validation, consiste à introduire un nombreplutôt grand de neurones puis à optimiser le seul paramètre de régularisation(decay) par validation croisée.

2.5 Remarques

Les champs d’application des PMC sont très nombreux : discrimination,prévision d’une série temporelle, reconnaissance de forme. . . Ils sont en géné-ral bien explicités dans les documentations des logiciels spécialisés.

Les critiques principales énoncées à l’encontre du PMC concernent les dif-ficultés liés à l’apprentissage (temps de calcul, taille de l’échantillon, localitéde l’optimum obtenu) ainsi que son statut de boîte noir. En effet, contraire-ment à un modèle de discrimination ou un arbre, il est a priori impossible deconnaître l’influence effective d’une entrée (une variable) sur le système dèsqu’une couche cachée intervient. Néanmoins, des techniques de recherche desensibilité du système à chacune des entrées permettent de préciser les idées et,éventuellement de simplifier le système en supprimant certaines des entrées.

En revanche, ils possèdent d’indéniables qualités lorsque l’absence de linéa-rité et/ou le nombre de variables explicatives rendent les modèles statistiquestraditionnelles inutilisables. Leur flexibilité alliée à une procédure d’apprentis-sage intégrant la pondération (le choix) des variables comme de leurs interac-tions peuvent les rendre très efficaces.

3 ExemplesLes réseaux de neurones étant des boîtes noires, les résultats fournis ne sont

guère explicites et ne conduisent donc pas à des interprétations peu informa-tives du modèle. Seule une étude des erreurs de prévisions et, dans le cas d’unerégression, une étude des résidus, permet de se faire une idée de la qualité dumodèle.

3.1 Cancer du sein

La prévision de l’échantillon test par un réseau de neurones conduit à lamatrice de confusion ci-dessous et donc une erreur estimée de 3%.

benign malignantFALSE 83 1TRUE 3 50

3.2 Concentration d’ozone

La comparaison des résidus (figure 3 montre que le problème de non-linéarité qui apparaissait sur les modèles simples (MOCAGE, régression li-néaire) est bien résolu et que ces résidus sont plutôt moins étendus, mais lephénomène d’hétéroscédasticité est toujours présent quelque soit le nombre deneurones utilisés. Il a été choisi relativement important (10) et conduit doncà un bon ajustement (R2 = 0, 77) mais devra être réduit pour optimiser laprévision.

L’optimisation des paramètres d’un réseau de neurones est instable commepour les proches voisins car chaque exécution de l’estimation de l’erreur parvalidation croisée fournit des résultats différents. Elle est en plus très com-pliquée par le nombre de paramètres à optimiser : nombre de neurones sur lacouche (size), pénalisation (decay), nombre d’itérations. Une fonction de lalibrairie e1071 permet de faire varier à la fois la taille et la pénalisation etfournit des graphiques élégants (figure 4) mais les exécutions sont très longueset les résultats pas toujours pertinents. Le plus efficace semble être de fixer“assez grands” la taille (nombre de neurones) et le nombre d’itérations pour sefocaliser sur le seul réglage de la pénalisation.

Comme pour les arbres de décision, les réseaux de neurones ne proposentpas de modèles très efficaces sur cet exemple. Les taux d’erreur de prévision

103 07/15

Page 104: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Réseaux de neurones

0 50 100 200 300

050

150

250

Valeurs predites

Vale

urs

obse

rvee

s

0 50 100 200 300

−100

−50

050

100

Valeurs predites

Rés

idus

FIGURE 3 – Ozone : Valeurs observées et résidus de l’échantillon test en fonc-tion des valeurs prédites par un réseau de 10 neurones

655

660

665

670

675

680

2.0 2.5 3.0 3.5 4.0

1.0

1.5

2.0

2.5

3.0

Performance of ‘nnet’

size

deca

y

FIGURE 4 – Ozone : optimisation des paramètres (pénalisation et nombre deneurones) par validation croisée.

False positive rate

True

pos

itive

rat

e

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

___

logitnnetrnnetq

FIGURE 5 – Ozone : courbes ROC pour la régression logistique et les réseauxde neurones.

du dépassement du seuil sont de 14,4% à partir du modèle quantitatif et de15,6% avec une prévision directement qualitative. Les courbes ROC estiméessur l’échantillon test permettent de comparer les méthodes. Dans ce cas etpour l’échantillon test concerné, la méthode la plus efficace (figure 5) pourprévoir le dépassement du pic d’ozone est un réseau de neurone modélisant laconcentration plutôt que la prévision directe du dépassement (logit ou réseauqualitatif).

3.3 Données bancaires

Une fonction de la librairie e1071, pratique mais très chronophage, pro-pose une automatisation de l’optimisation des paramètres (decay, nombre deneurones). Elle produit une carte de type contour permettant d’évaluer "à l’œil"les valeurs optimales. La prévision de l’échantillon test par ce réseau de neu-rones conduit à la matrice de confusion ci-dessous et donc une erreur estiméede 21,5% :

pred.vistest FALSE TRUEFALSE 110 16

104 07/15

Page 105: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Réseaux de neurones

TRUE 27 47

Références[1] T.J. Haykin, Neural network, a comprehensive foundation, Prentice-Hall,

1994.

105 07/15

Page 106: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Agrégation de modèles

Agrégation de modèles

Résumé

Les algorithmes décrits sont basés sur des stratégies adaptatives(boosting) ou aléatoires (bagging, random forest) permettant d’amé-liorer l’ajustement par une combinaison ou agrégation d’un grandnombre de modèles tout en évitant le sur-ajustement. Définitions, op-timisation et principes d’utilisation de ces algorithmes.

Retour au plan du cours

1 IntroductionDeux types d’algorithmes sont abordés. Ceux reposants sur une construc-

tion aléatoires d’une famille de modèles : bagging pour bootstrap aggrega-ting (Breiman 1996)[2] et les forêts aléatoires (random forests) de Breiman(2001)[4] qui propose une amélioration du bagging spécifique aux modèlesdéfinis par des arbres binaires (CART). Ceux basés sur le boosting (Freund etShapiro,1996)[6] et qui reposent sur une construction adaptative, déterministeou aléatoire, d’une famille de modèles. Ces algorithmes se sont développésà la frontière entre apprentissage machine (machine learning) et Statistique.De nombreux articles comparatifs montrent leur efficacité sur des exemplesde données simulées et surtout pour des problèmes réels complexes (voir parexemple Ghattas, 2000)[10] tandis que leurs propriétés théoriques sont unthème de recherche toujours actif.

Les principes du bagging ou du boosting s’appliquent à toute méthode demodélisation (régression, CART, réseaux de neurones) mais n’ont d’intérêt, etréduisent sensiblement l’erreur de prévision, que dans le cas de modèles in-stables, donc plutôt non linéaires. Ainsi, l’utilisation de ces algorithmes n’aguère de sens avec la régression multilinéaire ou l’analyse discriminante. Ilssont surtout mis en œuvre en association avec des arbres binaires comme mo-dèles de base. En effet, l’instabilité déjà soulignés des arbres apparaît alorscomme une propriété essentielle à la réduction de la variance par agrégationde modèles.

2 Famille de modèles aléatoires

2.1 Bagging

Principe et algorithme

Soit Y une variable à expliquer quantitative ou qualitative, X1, . . . , Xp lesvariables explicatives et φ(x) un modèle fonction de x = x1, . . . , xp ∈ Rp.On note n le nombre d’observations et

z = (x1, y1), . . . , (xn, yn)

un échantillon de loi F .

L’espérance φ(.) = EF (φz) de l’estimateur définie sur l’échantillon z, estun estimateur sans biais de variance nulle. Considérons B échantillons indé-pendants notés zbb=1,B et construisons une agrégation des modèles dans lecas où la variable à expliquer Y est :

• quantitative : φB(.) = 1B

∑Bb=1 φzb

(.),

• qualitative : φB(.) = argmaxj cardb | φzb

(.) = j

.Dans le premier cas, il s’agit d’une simple moyenne des résultats obtenus pourles modèles associés à chaque échantillon, dans le deuxième, un comité demodèles est constitué pour voter et élire la réponse la plus probable. Dans cedernier cas, si le modèle retourne des probabilités associées à chaque modalitécomme en régression logistique ou avec les arbres de décision, il est aussisimple de calculer des moyennes de ces probabilités.

Le principe est élémentaire, moyenner les prévisions de plusieurs modèlesindépendants permet de réduire la variance et donc de réduire l’erreur de pré-vision.

Cependant, il n’est pas réaliste de considérer B échantillons indépendants.Cela nécessiterait généralement trop de données. Ces échantillons sont doncremplacés par B réplications d’échantillons bootstrap obtenus chacun par ntirages avec remise selon la mesure empirique F . Ceci conduit à l’algorithmeci-dessous.

106 07/15

Page 107: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Agrégation de modèles

ALGORITHME 1 : BaggingSoit x0 à prévoir etz = (x1, y1), . . . , (xn, yn) un échantillonfor b = 1 à B do

Tirer un échantillon bootstrap z∗b .Estimer φzb

(x0) sur l’échantillon bootstrap.end forCalculer l’estimation moyenne φB(x0) = 1

B

∑Bb=1 φzb

(x0) ou le résultatdu vote.

Erreur out-of-bag

Il est naturel et techniquement facile d’accompagner ce calcul par une esti-mation out-of-bag de l’erreur de prévision car sans biais, ou plutôt pessimiste,comme en validation croisée. Celle-ci décroît en principe régulièrement enfonction du nombre de modèles avant de se stabiliser en indiquant le nombrede modèles ou échantillons bootstrap nécessaires à l’agrégation.

Pour chaque observation (yi,xi) considérer les seuls modèles estimés sur unéchantillon bootstrap ne contenant pas cette observation (à peu près 1/3). Pré-voir la valeur y comme précédemment (moyenne ou vote) et calculer l’erreurde prévision associée ; moyenner sur toute les observations.

Utilisation

En pratique, CART est souvent utilisée comme méthode de base pourconstruire une famille de modèles c’est-à-dire d’arbres binaires. L’effet ob-tenu, par “moyennage” d’arbres, est un "lissage" du pavage de l’espace desobservations pour la construction des règles de décision. Trois stratégies d’éla-gage sont possibles :

1. laisser construire et garder un arbre complet pour chacun des échantillons,

2. construire un arbre d’au plus q feuilles,

3. construire à chaque fois l’arbre complet puis l’élaguer par validation croi-sée.

La première stratégie semble en pratique un bon compromis entre volume descalculs et qualité de prévision. Chaque arbre est alors affecté d’un faible biaiset d’une grande variance mais la moyenne des arbres réduit avantageusementcelle-ci. En revanche, l’élagage par validation croisée pénalise lourdement lescalculs sans gain substantiel de qualité.

Cet algorithme a l’avantage de la simplicité, il s’adapte et se programmefacilement quelque soit la méthode de modélisation mise en œuvre. Il posenéanmoins quelques problèmes :

• temps de calcul important pour évaluer un nombre suffisant d’arbres jus-qu’à ce que l’erreur de prévision out-of-bag ou sur un échantillon valida-tion se stabilise et arrêt si elle tend à augmenter ;

• nécessiter de stocker tous les modèles de la combinaison afin de pouvoirutiliser cet outil de prévision sur d’autres données,

• l’amélioration de la qualité de prévision se fait au détriment de l’inter-prétabilité. Le modèle finalement obtenu devient une boîte noire commedans le cas du perceptron.

2.2 Forêts aléatoires

Motivation

Dans les cas spécifique des modèles CART (arbres binaires), Breiman(2001)[4] propose une amélioration du bagging par l’ajout d’une “randomi-sation”. L’objectif est donc de rendre plus “indépendants” les arbres de l’agré-gation en ajoutant du hasard dans le choix des variables qui interviennent dansles modèles. Cette approche semble plus particulièrement fructueuse dans dessituations hautement multidimensionnelles (cf. Caruana et al. 2008)[5], c’est-à-dire lorsque le nombre de variables explicatives p est très important. C’est lecas lorsqu’il s’agit, par exemple, de discriminer des courbes, spectres, signaux,biopuces.

Plus précisément, la variance de la moyenne de B variables i.i.d., chacunede variance σ2, est σ2/B. Si les variables sont identiquement distribuées maisavec une corrélation ρ des variables prises deux à deux, la variance de lamoyenne devient :

ρσ2 +1− ρB

σ2.

Comme dans le cas indépendant, le 2ème terme décroît avec B mais le pre-

107 07/15

Page 108: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Agrégation de modèles

mier limite considérablement l’avantage du bagging si la corrélation est éle-vée. C’est ce qui motive principalement la “randomisation” introduite dansl’algorithme ci-dessous afin de réduire ρ.

Algorithme

Le bagging est appliqué à des arbres binaires de décision en ajoutant untirage aléatoire de m variables explicatives parmi les p.

ALGORITHME 2 : Forêts AléatoiresSoit x0 à prévoir etz = (x1, y1), . . . , (xn, yn) un échantillonfor b = 1 à B do

Tirer un échantillon bootstrap z∗bEstimer un arbre sur cet échantillon avec randomisation des variables :la recherche de chaque nœud optimal est précédé d’un tirage aléatoired’un sous-ensemble de m prédicteurs.

end forCalculer l’estimation moyenne φB(x0) = 1

B

∑Bb=1 φzb

(x0) ou le résultatdu vote.

Paramètres de l’algorithme

La stratégie d’élagage peut, dans le cas des forêts aléatoires, être plus élé-mentaire qu’avec le bagging en se limitant à des arbres de taille q relativementréduite voire même triviale avec q = 2 (stump). En effet, avec le seul bag-ging, des arbres limités à une seule fourche risquent d’être très semblables(fortement corrélés) car impliquant les mêmes quelques variables apparaissantcomme les plus explicatives. Dans la stratégie par défaut de l’algorithme, c’estsimplement le nombre minimum d’observation par mœuds qui limite la taillede l’arbre, il est fixé à par défaut à 5. Ce sont donc des arbres plutôt completsqui sont considérés, chacun de faible biais mais de variance importante.

La sélection aléatoire d’un nombre réduit de m prédicteurs potentiels àchaque étape de construction d’un arbre, accroît significativement la variabilitéen mettant en avant nécessairement d’autres variables. Chaque modèle de baseest évidemment moins performant mais, l’union faisant la force, l’agrégationconduit finalement à de bons résultats. Le nombre m de variables tirées aléa-

toirement peut, selon les exemples traités, être un paramètre sensible avec deschoix par défaut pas toujours optimaux :

• m =√p dans un problème de classification,

• m = p/3 dans un problème de régression.Comme pour le bagging, l’évaluation itérative de l’erreur out-of-bag per-

met de contrôler le nombre B d’arbres de la forêt de même qu’éventuellementoptimiser le choix de m.

Importance des variables

Comme pour tout modèles construit par agrégation ou boîte noire, il n’y apas d’interprétation directe. Néanmoins des informations pertinentes sont ob-tenues par le calcul et la représentation graphique d’indices proportionnels àl’importance de chaque variable dans le modèle agrégé et donc de sa partici-pation à la régression ou à la discrimination. C’est évidemment d’autant plusutile que les variables sont très nombreuses. Deux critères sont ainsi proposéspour évaluer l’importance de la jème variable.

• Le premier (Mean Decrease Accuracy repose sur une permutation aléa-toire des valeurs de cette variable. Plus la qualité, estimée par une l’erreurout-of-bag, de la prévision est dégradée par la permutation des valeursde cette variable, plus celle-ci est importante. Une fois le b-ème arbreconstruit, l’échantillon oout-of-bag est prédit par cet arbre et l’erreur es-timée enregistrée. Les valeurs de la j-ème variables sont aléatoirementpermutées dans l’échantillon out-of-bag et l’erreur à nouveau calculée. Ladécroissance de la qualité de prévision est moyennée sur tous les arbres etutilisée pour évaluer l’importance de la variable j dans la forêt. Il s’agitdonc d’une mesure globale mais indirecte de l’influence d’une variablesur la qualité des prévisions.

• Le deuxième (Mean Decrease Gini) est local, basé sur la décroissanced’entropie ou encore la décroissance de l’hétérogénéité définie à partir ducritère de Gini. L’importance d’une variable est alors une somme pondé-rée des décroissances d’hétérogénéité induites lorsqu’elle est utilisée pourdéfinir la division associée à un nœud.

Implémentations

• L’implémentation la plus utilisée est celle de la librairie randomForestde R qui ne fait qu’interfacer le programme original développé en Fortran

108 07/15

Page 109: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Agrégation de modèles

77 par Léo Breiman et Adele Cutler qui maintient le site dédié à cet algo-rithme.

• Le site du logiciel Weka développé à l’université Waikato de NouvelleZélande propose une version en Java.

• Une version très proche de l’algorithme original est disponible dans lalibrairie Scikit-learn de Python.

• Une autre version adaptée aux données massives est proposées dans la li-brairie MLlib deSpark, technologie développée pur interfacer différentesarchitectures matérielles/logicielles avec des systèmes de gestion de fi-chiers de données distribuées. Elle sera décrite par ailleurs.

Autres utilisations

Depuis la publication initiale de l’algorithme (Breiman, 2001)[4], cette mé-thode a beaucoup été testée, comparée (Caruana et al. 2008[5]), analysée.Elle devient dans beaucoup d’articles d’apprentissage machine la méthode à"battre" en matière de qualité de prévision alors que ses propriétés théoriquesde convergence, difficiles à étudier, commencent à être publiées (Scornet et al.2015)[13]. Néanmoins elle peut conduire aussi à de mauvais résultats notam-ment lorsque le problème est tout à fait linéaire et donc qu’une simple régres-sion PLS conduit à de bonnes prévisions même en grande dimension. C’est lecas par exemple de données de spectrométrie en proche infra-rouge (NIR).

Devenu le "couteau suisse" de l’apprentissage, les forêts aléatoires sont uti-lisées à différentes fins (consulter le site dédié) :

• Similarité ou proximité entre observations. Après la construction d’unchaque arbre, incrémenter la similarité ou proximité de deux observationsqui se trouvent dans la même feuille. Sommer sur la forêt, normaliser parle nombre d’arbres. Un positionnement multidimensionnel peut représen-ter ces similarités ou la matrice des dissimilarités qui en découle.

• Détection d’observations atypiques multidimensionnelles (outliers) ou de"nouveautés" (novelties) pour signifier qu’une observation n’appartientpas aux classes connues. Un critère d"anormalité" par rapport à une classeest basé sur la notion précédente de proximités (faible) d’une observationaux autres observations de sa classe.

• Classification non supervisée. Si aucune variables Y n’est à modéliser,l’idée est de se ramener au cas précédant en simulant des observationsconstituant une deuxième classe synthétique à partir de celles connues

(première classe). Pour ce faire, chaque colonne (variable) est aléatoire-ment permutée détruisant ainsi la structure de corrélation entre les va-riables. Une forêt est estimée pour modéliser la variable ainsi créée puisles mêmes approches : matrice de dissimilarités, classification non super-visée à partir de cette matrice, positionnement multidimensionnel, détec-tion d’observations atypiques, sont développées.

• Imputation de données manquantes.• Modèles de durée de vie (survival forest).

3 Famille de modèles adaptatifs

3.1 Principes du Boosting

Le boosting diffère des approches précédentes par ses origines et ses prin-cipes. L’idée initiale, en apprentissage machine, était d’améliorer les compé-tences d’un faible classifieur c’est-à-dire celle d’un modèle de discriminationdont la probabilité de succès sur la prévision d’une variable qualitative est lé-gèrement supérieure à celle d’un choix aléatoire. L’idée originale de Schapirede 1990 a été affinée par Freund et Schapire (1996)[6] qui ont décrit l’algo-rithme original AdaBoost (Adaptative boosting) pour la prévision d’une va-riable binaire. De nombreuses études ont ensuite été publiées pour adapter cetalgorithme à d’autres situations : k classes, régression, paramètre de schrin-kage et rendre compte de ses performances sur différents jeux de données. Cestests ont montré le réel intérêt pratique de ce type d’algorithme pour réduiresensiblement la variance (comme le bagging) mais aussi le biais de prévisioncomparativement à d’autres approches. En effet, comme les arbres sont identi-quement distribués par bagging, l’espérance de B arbres est la même que l’es-pérance d’un arbre. Cela signifie que le biais d’arbres agrégés par bagging estle même que celui d’un seul arbre. Ce n’est plus le cas avec le boosting. Cetalgorithme est même considéré comme la meilleure méthode ”off-the-shelf”c’est-à-dire ne nécessitant pas un long prétraitement des données ni un réglagefin de paramètres lors de la procédure d’apprentissage.

Le boosting adopte le même principe général que le bagging : constructiond’une famille de modèles qui sont ensuite agrégés par une moyenne pondérédes estimations ou un vote. Il diffère nettement sur la façon de construire la fa-mille qui est dans ce cas récurrente : chaque modèle est une version adaptative

109 07/15

Page 110: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Agrégation de modèles

du précédent en donnant plus de poids, lors de l’estimation suivante, aux obser-vations mal ajustées ou mal prédites. Intuitivement, cet algorithme concentredonc ses efforts sur les observations les plus difficiles à ajuster tandis quel’agrégation de l’ensemble des modèles permet d’échapper au sur-ajustement.

Les algorithmes de boosting proposés diffèrent par différentes caractéris-tiques :

• la façon de pondérer c’est-à-dire de renforcer l’importance des observa-tions mal estimées lors de l’itération précédente,

• leur objectif selon le type de la variable à prédire Y : binaire, qualitativeà k classes, réelles ;

• la fonction perte, qui peut être choisie plus ou moins robuste aux valeursatypiques, pour mesurer l’erreur d’ajustement ;

• la façon d’agréger, ou plutôt pondérer, les modèles de base successifs.La littérature sur le sujet présente donc de très nombreuses versions de cetalgorithme et il est encore difficile de dire lesquelles sont les plus efficaces etsi une telle diversité est bien nécessaire. Il serait fastidieux de vouloir explicitertoutes les versions, ce chapitre en propose un choix arbitraire.

3.2 Algorithme de base

Décrivons la version originale du boosting pour un problème de discrimi-nation élémentaire à deux classes en notant δ la fonction de discrimination àvaleurs dans −1, 1. Dans cette version, le modèle de base retourne l’identitéd’une classe, il est encore nommé Adaboost discret. Il est facile de l’adapterà des modèles retournant une valeur réelle comme une probabilité d’apparte-nance à une classe.

ALGORITHME 3 : AdaBoost (adaptive boosting)Soit x0 à prévoir etz = (x1, y1), . . . , (xn, yn) un échantillonInitialiser les poids w = wi = 1/n ; i = 1, . . . , n.for m = 1 àM do

Estimer δm sur l’échantillon pondéré par w.Calculer le taux d’erreur apparent :

Ep =∑ni=1 wi1δm(xi) 6= yi∑n

i=1 wi.

Calculer les logit : cm = log((1− Ep)/Ep).Calculer les nouvelles pondérations :

wi ← wi. exp [cm1δm(xi) 6= yi] ; i = 1, . . . , n.

end forRésultat du vote : φM (x0) = signe

[∑Mm=1 cmδm(x0)

].

Les poids de chaque observations sont initialisés à 1/n pour l’estimationdu premier modèle puis évoluent à chaque itération donc pour chaque nou-velle estimation. L’importance d’une observation wi est inchangée si elle estbien classée, elle croît sinon proportionnellement au défaut d’ajustement dumodèle. L’agrégation finale des prévisions :

∑Mm=1 cmδm(x0) est une com-

binaison pondérée par les qualités d’ajustement de chaque modèle. Sa valeurabsolue appelée marge est proportionnelle à la confiance que l’on peut attri-buer à son signe qui fournit le résultat de la prévision. Attention, un contrôledoit être ajouté en pratique pour bien vérifier que le “classifieur” de base estbien faible mais pas mauvais à savoir que cm garde bien des valeurs positives ;que le taux d’erreur apparent ne soit pas supérieur à 50%.

Ce type d’algorithme est largement utilisé avec un arbre (CART) commemodèle de base. De nombreuses applications montrent que si le “classifieurfaible” est un arbre trivial à deux feuilles (stump), AdaBoost fait mieux qu’unarbre sophistiqué pour un volume de calcul comparable : autant de feuillesdans l’arbre que d’itérations dans AdaBoost. Hastie et col. (2001)[11] discutentla meilleure stratégie d’élagage applicable à chaque modèle de base. Ils lecomparent avec le niveau d’interaction requis dans un modèle d’analyse devariance. Le cas q = 2 correspondant à la seule prise en compte des effetsprincipaux. Empiriquement ils recommandent une valeur comprise entre 4 et8.

De nombreuses adaptations ont été proposées à partir de l’algorithme ini-tial. Elles font intervenir différentes fonctions pertes offrant des propriétés derobustesse ou adaptées à une variable cible Y quantitative ou qualitative à plu-sieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002)[12]liste une bibliographie détaillée.

110 07/15

Page 111: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Agrégation de modèles

3.3 Version aléatoire

À la suite de Freund et Schapire (1996)[6], Breiman (1998)[3] développeaussi, sous le nom d’Arcing (adaptively resample and combine), une versionaléatoire, et en pratique très proche, du boosting. Elle s’adapte à des classifieurspour lesquels il est difficile voire impossible d’intégrer une pondération desobservations dans l’estimation. Ainsi plutôt que de jouer sur les pondérations,à chaque itération, un nouvel échantillon est tiré avec remise, comme pour lebootstrap, mais selon des probabilités inversement proportionnelles à la qualitéd’ajustement de l’itération précédente. La présence des observations difficilesà ajuster est ainsi renforcée pour que le modèle y consacre plus d’attention.L’algorithme adaboost précédent est facile à adapter en ce sens en regardantcelui développé ci-dessous pour la régression et qui adopte ce point de vue.

3.4 Pour la régression

Différentes adaptations du boosting ont été proposées pour le cas de la ré-gression, c’est-à-dire lorsque la variable à prédire est quantitative. Voici l’al-gorithme de Drucker (1997) dans la présentation de Gey et Poggi (2002)[9]qui en étudient les performances empiriques en relation avec CART. Freund etSchapire (1996) ont proposé Adaboost.R avec le même objectif tandis que lepoint de vue de Friedman (2002)[7] est décrit plus loin dans l’algorithme 5.

ALGORITHME 4 : Boosting pour la régressionSoit x0 à prévoir etz = (x1, y1), . . . , (xn, yn) un échantillonInitialiser p par la distribution uniforme p = pi = 1/n ; i = 1, . . . , n.for m = 1 à M do

Tirer avec remise dans z un échantillon z∗m suivant p.Estimer φm sur l’échantillon z∗m.Calculer à partir de l’échantillon initial z :

lm(i) = Q(yi, φm(xi)

)i = 1, . . . , n; (Q : fonction perte)

Em =n∑i=1

pilm(i);

wi = g(lm(i))pi. (g continue non décroissante)

Calculer les nouvelles probabilités : pi ← wi∑ni=1 wi

.end forCalculer φ(x0) moyenne ou médiane des prévisions φm(x0) pondérées pardes coefficients log( 1

βm).

Précisions :• Dans cet algorithme la fonction perte Q peut être exponentielle, quadra-

tique ou, plus robuste, la valeur absolue. Le choix usuel de la fonctionquadratique est retenu par Gey et Poggi (2002)[9].

• Notons Lm = supi=1,...,n lm(i) le maximum de l’erreur observée par lemodèle φm sur l’échantillon initial. La fonction g est définie par :

g(lm(i)) = β1−lm(i)/Lmm (1)

avec βm =Em

Lm − Em. (2)

• Comme pour AdaBoost discret, une condition supplémentaire est ajoutéeà l’algorithme. Il est arrêté ou réinitialisé à des poids uniformes si l’erreurse dégrade trop : si Em < 0.5Lm.

L’algorithme génère M prédicteurs construits sur des échantillons bootstrapz∗m dont le tirage dépend de probabilités p mises à jour à chaque itération.Cette mise à jour est fonction d’un paramètre βm qui est un indicateur de laperformance, sur l’échantillon z, dum-ième prédicteur estimé sur l’échantillonz∗m. La mise à jour des probabilités dépend donc à la fois de cet indicateurglobal βm et de la qualité relative lm(i)/Lm de l’estimation du i-ème individu.L’estimation finale est enfin obtenue à la suite d’une moyenne ou médiane desprévisions pondérées par la qualité respective de chacune de ces prévisions.Gey et Poggi (2002)[9] conseille la médiane afin de s’affranchir de l’influencede prédicteurs très atypiques.

3.5 Modèle additif pas à pas

Le bon comportement du boosting par rapport à d’autres techniques de dis-crimination est difficile à expliquer ou justifier par des arguments théoriques.À la suite d’une proposition de Breiman en 1999 (rapport technique) de consi-dérer le boosting comme un algorithme global d’optimisation, Hastie et col.

111 07/15

Page 112: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Agrégation de modèles

(2001)[11] présentent le boosting dans le cas binaire sous la forme d’une ap-proximation de la fonction φ par un modèle additif construit pas à pas :

φ(x) =M∑m=1

cmδ(x; γm)

est cette combinaison où cm est un paramètre, δ le classifieur (faible) de basefonction de x et dépendant d’un paramètre γm. Si Q est une fonction perte, ils’agit, à chaque étape, de résoudre :

(cm, γm) = argmin(c,γ)

n∑i=1

Q(yi, φm−1(xi) + cδ(xi; γ));

φm(x) = φm−1(x)+cmδ(x; γm) est alors une amélioration de l’ajustementprécédent.

Dans le cas d’adaboost pour l’ajustement d’une fonction binaire, la fonctionperte utilisée est Q(y, φ(x)) = exp[−yφ(x)]. il s’agit donc de résoudre :

(cm, γm) = argmin(c,γ)

n∑i=1

exp[−yi(φm−1(xi) + cδ(xi; γ))

];

= argmin(c,γ)

n∑i=1

wmi exp [−cyiδ(xi; γ)]

avec wmi = exp[−yiφm−1(xi)];

wmi ne dépendant ni de c ni de γ, il joue le rôle d’un poids fonction de laqualité de l’ajustement précédent. Quelques développements complémentairesmontrent que la solution du problème de minimisation est obtenue en deuxétapes : recherche du classifieur optimal puis optimisation du paramètre cm.

γm = argminγ

n∑i=1

1yi 6= δ(xi; γ),

cm =1

2log

1− EpEp

avec Ep erreur apparente de prévision tandis que les wi sont mis à jour avec :

w(m)i = w

(m−1)i exp[−cm].

On montre ainsi qu’adaboost approche φ pas à pas par un modèle additif enutilisant une fonction perte exponentielle tandis que d’aubres types de boostingsont définis sur la base d’une autre fonction perte :

AdaBoost Q(y, φ(x)) = exp[−yφ(x)],LogitBoost Q(y, φ(x)) = log2(1 + exp[−2yφ(x)],L2Boost Q(y, φ(x)) = (y − φ(x))2/2.

D’autres fonctions pertes sont envisageables pour, en particulier, un algo-rithme plus robuste face à un échantillon d’apprentissage présentant des er-reurs de classement dans le cas de la discrimination ou encore des valeursatypiques (outliers) dans le cas de la régression. Hastie et col. (2001)[11] com-parent les intérêts respectifs de plusieurs fonctions pertes. Celles jugées ro-bustes (entropie en discrimination, valeur absolue en régression) conduisent àdes algorithmes plus compliqués à mettre en œuvre.

3.6 Boosting, gradient adaptatif et arbres

Algorithme

Dans le même esprit d’approximation adaptative, Friedman (2002)[7] a pro-posé sous l’acronyme MART (multiple additive regression trees) puis souscelui de GBM (gradient boosting models) une famille d’algorithmes basés surune fonction perte supposée différentiable notée Q. Le principe de base est lemême que pour Adaboost, construire une séquence de modèles de sorte quechaque étape, chaque modèle ajouté à la combinaison, apparaisse comme unpas vers une meilleure solution. La principale innovation est que ce pas estfranchi dans la direction du gradient de la fonction perte lui-même approchépar un arbre de régression. L’algorithme ci-dessous décrit le cas de la régres-sion, il peut être adapté à celui de la classification.

ALGORITHME 5 : Gradient Tree Boosting pour la régressionSoit x0 à prévoirInitialiser φ0 = argminγ

∑ni=1Q(yi, γ)

for m = 1 àM do

112 07/15

Page 113: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Agrégation de modèles

Calculer rim = −[δQ(yi,φ(xi))

δφ(xi)

]φ=φm−1

,

Ajuster un arbre de régression aux rmi donnant les feuilles ou régionsterminales Rjm; j = 1, . . . , Jm.for m = 1 àM do

Calculer γjm = argminγ∑

xi∈RjmQ(yi, φm−1 + γ).

end forMise à jour : φm(x) = φm−1(x) +

∑Jmj=1 γjm1x ∈ Rjm.

end forRésultat : φM (x0).

L’algorithme est initialisé par un terme constant c’est-à-dire encore un arbreà une feuille. Les expressions du gradient reviennent simplement à calculerles résidus rmj du modèle à l’étape précédente. Les termes correctifs γjmsont ensuite optimisés pour chacune des régions Rjm définies par l’arbre derégression ajustant les résidus. Un algorithme de discrimination est similairecalculant autant de probabilités que de classes à prévoir.

Sur-ajustement et régularisation

Dans le dernier algorithme, le nombre d’itérations peut être contrôlé parun échantillon de validation. Comme pour d’autres méthodes (perceptron), ilsuffit d’arrêter la procédure lorsque l’erreur estimée sur cet échantillon arriveà se dégrader. Une possibilité complémentaire consiste à ajouter un coefficientν de rétrécissement (shrinkage comme en régression ridge). Compris entre 0et 1, celui-ci pénalise l’ajout d’un nouveau modèle dans l’agrégation et ralentitl’ajustement.

φm(x) = φm−1(x) + ν

Jm∑j=1

γjm1x ∈ Rjm

Il joue le rôle du coefficient decay du perceptron) et, si sa valeur est petite(< 0, 1) cela conduit à accroître le nombre d’arbres mais entraîne générale-ment une amélioration de la qualité de prévision. Le boosting est un algorithmequi peut effectivement converger exactement, donc éventuellement vers une si-tuation de sur-apprentissage. En pratique, cette convergence peut être renduesuffisamment lente pour être mieux contrôlée.

Interprétation

L’interprétabilité des arbres de décision sont une des raisons de leur succès.Leur lecture ne nécessite pas de compétences particulières en statistique. Cettepropriété est évidemment perdue par l’agrégation d’arbres ou de tout autremodèle. Néanmoins, surtout si le nombre de variables est très grand, il estimportant d’avoir une indication de l’importance relative des variables entrantdans la modélisation.

Des critères d’importance des variables sont néanmoins faciles à calculercomme dans le cas des forêts aléatoires.

Performances

En résumé, le boosting est susceptible de réduire la variance comme le bag-ging et également le biais par agrégation, il donne généralement de meilleursrésultats. De leur côté les forêts aléatoires basées sur des modèles de faiblebiais (arbres complets) permettent de réduire significativement la variance etconduisent donc à des résultats compétitifs avec le boosting.

Chaque problème, chaque jeu de données présente des spécificités et il estdifficile d’anticiper sur le choix d’une meilleure méthode, seule la comparaisondes erreurs sur des échantillons tests permet d’optimiser le choix. Ainsi, dansle cas d’un très grand nombre p de variables où seules quelques unes sontpertinentes, les forêts aléatoire peinent à les extraire, surtout évidemment si mest fixé trop petit. C’est en revanche dans cette situation que le boosting peuts’avérer plus performant.

La dernière version de boosting (GBM) adaptant et approchant le gradientpar un arbre peut s’avérer très performante surtout lorsque le coefficient derégularisation ou schrinkage est bien réglé. Néanmoins cette approche perd ensimplicité du fait du nécessiare réglage de plusieurs paramètres (choix de lafonction perte, de la profondeur des arbres, du coefficient de régularisation...).

Logiciels

Le bagging est très facile à programmer dans R mais il existe une librai-rie (ipred) qui en propose des implémentations efficaces. L’algorithme deboosting, ou plutôt la version de Friedman et col. (2000)[8] a été développéeet interfacée avec R dans la librairie gbm tandis que Friedman fait commer-

113 07/15

Page 114: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Agrégation de modèles

cialiser ses outils par la société Salford System. Schapire diffuse lui le logicielBoost texter sur sa page pour des utilisations non commerciales.

4 Super “apprenti” en régressionD’autres stratégies ont été proposées dans l’optique d’une prévision “bru-

te”en régression, sans sélection de variables ou objectif d’interprétation dumodèle. Elles procèdent en deux principales étapes :

• la première consiste à estimer un ensemble de modèles variés appartenantà celles des méthodes, de la régression au boosting en passant par lesréseaux de neuronnes.

• la deuxième construit une combinaison linéaire convexe (super learnerVan der Laan et al. (2007)[14]) ou une régression locale, à partir des mo-dèles précédents (COBRA de Biau et al. (2013)[1]).

4.1 Super learner

Le principe de l’approche proposée par van der Laan et al. (2007) [14] estsimple, il s’agit de calculer une combinaison convexe ou moyenne pondéréede plusieurs prévisions obtenues par plusieurs modèles. Les paramètres de lacombinaison sont optimisés en minimisant un critère de validation croisée. Laméthode est implémentée dans la librairie SuperLearner de R où toutesles combinaisons de méthodes ne sont pas possibles, seule une liste prédéfinieest implémentée à cette date (juin 2014) : glm, random forest, gbm,mars, svm. Son emploi est illustré dans le scénario d’analyse de données(QSAR) issues de criblage virtuel de molécules.

4.2 COBRA

Biau et al. (2013)[1] proposent de combiner une collection de m fonctionsde régression fk(k = 1,m) en tenant compte de la proximité entre les donnéesd’apprentissage avec l’observation à prévoir. Plus précisément, la prévisionen yx est obtenue à partir de m prévisions comme la moyenne non pondéréedes observations yi dont les prévisions par α ∗ m machines (α entre 0 et 1)sont dans les boules de rayon ε centrées en chaque fk(xi). Ils montrent que,asymptotiquement, cette combinaison d’estimateurs fait au moins aussi bien,au sens du risque quadratique ou erreur L2 de prévision, que la meilleure des

fonctions de régression de la collection.

Principe

La principale originalité de COBRA par rapport aux techniques d’agréga-tion de modèles précédentes, est que cette méthode n’opère pas une moyennede prévisions mais une moyenne d’observations : celles les plus proches desprévisions d’une famille de modèles ou de m machines. COBRA opère doncune forme de régression non-paramétrique avec une fonction noyau ou une no-tion de voisinage très complexe car elle dépend des prévisions d’une famille demachines. Biau et al. (2013) explique le principe par un exemple jouet reprisdans la figure 1.

Connaissant un ensemble d’apprentissage (xi, yi), les quantités f1 et f2 sontestimées. La prévision en x0 est construite de la façon suivante. Une sélectionsdes observations est opérée, ce sont celles qui vérifient pour un seuil ε choisi :

m = 1, 2 : |fm(xi)− fm(x0)| ≤ ε.

La simple moyenne des observations sélectionnées par unanimité fournit laprévision. Ce principe d’unanimité peut être relâché en acceptant qu’une pro-portion réduite α des M machines satisfassent la contrainte sur les observa-tions.

Sous des hypothèse que les machines sont bornées, Biau et al. (2013)montrent que le risque “collectif” est borné par le plus petit risque de toutesles machines plus un terme d’ordre `−2

2M+2 .

Illustration

Comme pour le Super learner cette approche est testée dans le scénariod’analyse de données (QSAR) issues de criblage virtuel de molécules. La li-brairie R COBRA implémente cette méthode en proposant une procédure d’op-timisation des paramètres α et ε. Tout type de modèle de régression peut êtreinclus dans la procédure COBRA, il est conseillé d’en utiliser des très “variés”linéaires et surtout non linéaires afin d’optimiser les chances du succès.

Bien entendu, même les faibles capacités d’interprétation de certains mé-thodes comme random forest avec les critères d’importance de variables nesont plus dconservées.

114 07/15

Page 115: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Agrégation de modèles

FIGURE 1 – COBRA : De gauche à droite et de bas en haut : L’ensemble d’ap-prentissage (Y fonction de X) ; il faut prévoir la valeur sur la ligne pointillée.Les estimations de chaque observation par deux machines (rouge et verte). Unetolérance (±ε à optimiser) détermine les observations retenues pour chaquemachine autour de la valeur à prévoir. La prévision est la moyenne (en bleu)des observations (en noir) sélectionnées pour toutes les machines à l’étapeprécédente.

5 Exemples

5.1 Cancer du seinLa prévision de l’échantillon test par ces algorithmes conduit aux matrices

de confusion :

bagging(ipred) adaboost(gbm) random forestbenign malignant benign malignant benign malignant

benign 83 3 84 1 83 0malignant 3 48 2 50 3 51

et, respectivement, des erreurs estimées de 4,4 et 2,2% pour cet exemple etavec les échantillons (apprentissage et test) tirés.

Il est remarquable de noter l’évolution des erreurs d’ajustement et de test surcet exemple (figure 2) en fonction du nombre d’arbres estimés par adaboost.L’erreur d’apprentissage arrive rapidement à 0 tandis que celle de test continueà décroître avant d’atteindre un seuil. Cet algorithme est donc relativementrobuste au sur-apprentissage avant, éventuellement, de se dégrader pour desraisons, sans doute, de précision numérique. Ce comportement à été relevédans beaucoup d’exemples dans la littérature.

5.2 Concentration d’ozone

Malgré une bonne prévision quantitative, la prévision du dépassement deseuil reste difficile pour l’algorithme des forêts aléatoires. Par une régressionou une discrimination, le taux d’erreur obtenu est le même (12,5%) sur lemême échantillon test et d’autres expérimentations sont nécessaires pour dé-partager, ou non, les différentes méthodes. Il semble que, à travers plusieursexemples, l’amélioration apportée à la prévision par des algorithmes d’agré-gation de modèles soit nettement plus probante dans des situations difficilesc’est-à-dire avec beaucoup de variables explicatives et des problèmes de mul-ticolinéarité.

Comme les réseaux de neurones, les algorithmes d’agrégation de modèlessont des boîtes noires. Néanmoins dans le cas des forêts, les critères d’impor-tance donnent des indications sur le rôle de celles-ci. Les voici ordonnées parordre croissant du critère basé sur celui de Gini pour la construction des arbres.

jour station lno lno2 vmodule s_rmh2o O3_pr TEMPE2.54 13.58 21.78 23.33 24.77 31.19 43.87 67.66

115 07/15

Page 116: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Agrégation de modèles

5 10 15

0.0

1.0

2.0

3.0

Err

.app

5 10 15

23

45

Err

.test

FIGURE 2 – Cancer : Évolution des taux d’erreur (%) sur les échantillonsd’apprentissage et de test en fonction du nombre d’arbres dans le modèle avecadaboost.

0 50 100 200 300

050

150

250

Valeurs predites

Val

eurs

obs

erve

es

0 50 100 150 200 250 300

−10

0−

500

5010

0

Valeurs predites

Rés

idus

FIGURE 3 – Ozone : Valeurs observées et résidus de l’échantillon test en fonc-tion des valeurs prédites par une forêt aléatoire

Les variables prépondérantes sont celles apparues dans la construction d’unseul arbre.

5.3 Données bancaires

Les arbres, qui acceptent à la fois des variables explicatives qualitatives etquantitatives en optimisant le découpage des variables quantitatives, se prêtentbien au traitement des données bancaires. on a vu qu’un seul arbre donnait desrésultats semble-t-il très corrects. Naturellement les forêts constitués d’arbresse trouvent également performantes sur ces données en gagnant en stabilité etsans trop se poser de problème concernant l’optimisation de paramètres. LesTPs décrivent également les résultats proposés par les algorithmes de bagginget de boosting sur les arbres en faisant varier certains paramètres comme leshrinkage dans le cas du boosting.

Les graphiques de la figure 4 montrent bien l’insensibilité des forêts au sur-apprentissage. Les taux d’erreurs estimés, tant par bootstrap (out-of-bag), quesur un échantillon test, se stabilisent au bout de quelques centaines d’itérations.Il est même possible d’introduire dans le modèle toutes les variables quanti-

116 07/15

Page 117: Apprentissage Statistique, Modélisation, Prévision, Data Mining

12 Agrégation de modèles

0 100 200 300 400 500

0.12

0.16

0.20

0.24

Index

Err

.oob

0 100 200 300 400 500

0.10

0.15

0.20

0.25

Index

Err

.test

FIGURE 4 – Banque : Évolution du taux de mal classés estimés "out-of-bag"et sur l’échantillon test en fonction du nombre d’arbres intervenant dans lacombinaison de modèles.

tatives et qualitatives, avec certaines dupliquées, en laissant l’algorithme faireson choix. Cet algorithme conduit à un taux d’erreur de 10,5% sur l’échantillontest avec la matrice de confusion :

Cnon CouiCnon 126 11Coui 10 53

tandis que les coefficients d’importance :

QSMOY FACANL RELAT DMVTPL QCREDL MOYRVL20.97 26.77 29.98 36.81 40.31 50.01

mettent en évidence les variables les plus discriminantes. De son côté, le boos-ting (sans schrinkage) fournit des résultats tout à fait comparables avec un tauxd’erreur de 11%.

Références[1] G. Biau, A. Ficher, B. Guedj et J. D. Malley, COBRA : A Nonlinear

Aggregation Strategy, Journal of Multivariate Analysis (2013).

[2] L. Breiman, Bagging predictors, Machine Learning 26 (1996), no 2, 123–140.

[3] , Arcing classifiers, Annals of Statistics 26 (1998), 801–849.

[4] , Random forests, Machine Learning 45 (2001), 5–32.

[5] Rich. Caruana, N. Karampatziakis et A. Yessenalina, An Empirical Eva-luation of Supervised Learning in High Dimensions, Proceedings of the25th International Conference on Machine Learning (New York, NY,USA), ICML ’08, ACM, 2008, p. 96–103, ISBN 978-1-60558-205-4.

[6] Y. Freund et R.E. Schapire, Experiments with a new boosting algorithm,Machine Learning : proceedings of the Thirteenth International Confe-rence, Morgan Kaufman, 1996, San Francisco, p. 148–156.

[7] J. H. Friedman, Stochastic gradient boosting, Computational Statisricsand Data Analysis 38 (2002), .

[8] J. H. Friedman, H. Hastie et R. Tibshirani, Additive logistic regression : astatistical view of boosting, The Annals of Statistics 28 (2000), 337–407.

[9] S. Gey et J. M. Poggi, Boosting and instabillity for regression trees, Rap.tech. 36, Université de Paris Sud, Mathématiques, 2002.

[10] B. Ghattas, Agrégation d’arbres de classification, Revue de StatistiqueAppliquée 48 (2000), no 2, 85–98.

[11] T. Hastie, R. Tibshirani et J Friedman, The elements of statistical lear-ning : data mining, inference, and prediction, Springer, 2009, Secondedition.

[12] R. Schapire, The boosting approach to machine learning. An overview,MSRI workshop on non linear estimation and classification, 2002, p. .

[13] E. Scornet, G. Biau et J. P. Vert, Consistency of random forests, The An-nals of Statistics (2015), à paraître.

[14] M. J. van der Laan, E. C. Polley et A. E. Hubbard, Super learner, Statis-tical Applications in Genetics and Molecular Biology 6 :1 (2007).

117 07/15

Page 118: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Machines à vecteurs supports

Machines à vecteurs supports

RésuméRecherche d’un hyperplan, dit de marge optimale (vaste), pour laséparation de deux classes dans un espace hilbertien défini parun noyau reproduisant associé au produit scalaire de cet espace.Estimation de l’hyperplan dans le cas linéaire et séparable ; lescontraintes actives du problème d’optimisation déterminent les vec-teurs supports. Extension au cas non linéaire par plongement dansun espace hilbertien à noyau reproduisant. Extension au cas non sé-parable par pénalisation.Retour au plan du cours

1 IntroductionLes Support Vector Machines souvent traduit par l’appellation de Sépara-

teur à Vaste Marge (SVM) sont une classe d’algorithmes d’apprentissage ini-tialement définis pour la discrimination c’est-à-dire la prévision d’une variablequalitative initialement binaire. Ils ont été ensuite généralisés à la prévisiond’une variable quantitative. Dans le cas de la discrimination d’une variable di-chotomique, ils sont basés sur la recherche de l’hyperplan de marge optimalequi, lorsque c’est possible, classe ou sépare correctement les données tout enétant le plus éloigné possible de toutes les observations. Le principe est doncde trouver un classifieur, ou une fonction de discrimination, dont la capacité degénéralisation (qualité de prévision) est la plus grande possible.

Cette approche découle directement des travaux de Vapnik en théorie del’apprentissage à partir de 1995. Elle s’est focalisée sur les propriétés de gé-néralisation (ou prévision) d’un modèle en contrôlant sa complexité. Voir à cesujet la vignette sur l’estimation d’un risque et la section introduisant la dimen-sion de Vapnik-Chernovenkis comme indicateur du pouvoir séparateur d’unefamille de fonctions associé à un modèle et qui en contrôle la complexité. Leprincipe fondateur des SVM est justement d’intégrer à l’estimation le contrôlede la complexité c’est-à-dire le nombre de paramètres qui est associé dans cecas au nombre de vecteurs supports. L’autre idée directrice de Vapnik dans

ce développement, est d’éviter de substituer à l’objectif initial : la discrimina-tion, un ou des problèmes qui s’avèrent finalement plus complexes à résoudrecomme par exemple l’estimation non-paramétrique de la densité d’une loi mul-tidimensionnelle en analyse discriminante.

Le principe de base des SVM consiste de ramener le problème de la discri-mination à celui, linéaire, de la recherche d’un hyperplan optimal. Deux idéesou astuces permettent d’atteindre cet objectif :

• La première consiste à définir l’hyperplan comme solution d’un problèmed’optimisation sous contraintes dont la fonction objectif ne s’exprimequ’à l’aide de produits scalaires entre vecteurs et dans lequel le nombrede contraintes “actives” ou vecteurs supports contrôle la complexité dumodèle.

• Le passage à la recherche de surfaces séparatrices non linéaires est obtenupar l’introduction d’une fonction noyau (kernel) dans le produit scalaireinduisant implicitement une transformation non linéaire des données versun espace intermédiaire (feature space) de plus grande dimension. D’oùl’appellation couramment rencontrée de machine à noyau ou kernel ma-chine. Sur le plan théorique, la fonction noyau définit un espace hilbertien,dit auto-reproduisant et isométrique par la transformation non linéaire del’espace initial et dans lequel est résolu le problème linéaire.

Cet outil devient largement utilisé dans de nombreux types d’applicationet s’avère un concurrent sérieux des algorithmes les plus performants (agré-gation de modèles). L’introduction de noyaux, spécifiquement adaptés à uneproblématique donnée, lui confère une grande flexibilité pour s’adapter à dessituations très diverses (reconnaissance de formes, de séquences génomiques,de caractères, détection de spams, diagnostics...). À noter que, sur le plan algo-rithmique, ces algorithmes sont plus pénalisés par le nombre d’observations,c’est-à-dire le nombre de vecteurs supports potentiels, que par le nombre devariables. Néanmoins, des versions performantes des algorithmes permettentde prendre en compte des bases de données volumineuses dans des temps decalcul acceptables.

Le livre de référence sur ce sujet est celui de Schölkopf et Smola (2002)[2].De nombreuses introduction et présentations des SVM sont accessibles sur dessites comme par exemple : www.kernel-machines.org. Guermeur etPaugam-Moisy (1999)[1] en proposent une en français.

118 07/15

Page 119: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Machines à vecteurs supports

2 Principes

2.1 Problème

Comme dans toute situation d’apprentissage, on considère une variable Yà prédire mais qui, pour simplifier cette introduction élémentaire, est suppo-sée dichotomique à valeurs dans −1, 1. Soit X = X1, . . . , Xp les va-riables explicatives ou prédictives et φ(x) un modèle pour Y , fonction dex = x1, . . . , xp ∈ Rp. Plus généralement on peut simplement considérerla variableX à valeurs dans un ensemble F .

On notez = (x1, y1), . . . , (xn, yn)

un échantillon statistique de taille n et de loi F inconnue. L’objectif est doncde construire une estimation φ de φ, fonction de F dans −1, 1, de sorte quela probabilité :

P (φ(X) 6= Y )

soit minimale.

Dans ce cas (Y dichotomique), le problème se pose comme la recherched’une frontière de décision dans l’espace F des valeurs de X . De façon clas-sique, un compromis doit être trouvé entre la complexité de cette frontière, quipeut s’exprimer aussi comme sa capacité à pulvériser un nuage de points parla VC dimension, donc la capacité d’ajustement du modèle, et les qualités degénéralisation ou prévision de ce modèle. Ce principe est illustré par la figure1.

2.2 Marge

La démarche consiste à rechercher, plutôt qu’une fonction φ à valeurs dans−1, 1, une fonction réelle f dont le signe fournira la prévision :

φ = signe(f).

L’erreur s’exprime alors comme la quantité :

P (φ(X) 6= Y ) = P (Y f(X) ≤ 0).

De plus, la valeur absolue de cette quantité |Y f(X)| fournit une indication surla confiance à accorder au résultat du classement.

FIGURE 1 – Sous-ajustement linéaire et sur-ajustement local (proches voisins)d’un modèle quadratique.

On dit que Y f(X) est la marge de f en (X, Y ).

2.3 Espace intermédiaire

Une première étape consiste à transformer les valeurs deX , c’est-à-dire lesobjets de F par une fonction Φ à valeurs dans un espaceH intermédiaire (fea-ture space) muni d’un produit scalaire. Cette transformation est fondamentaledans le principe des SVM, elle prend en compte l’éventuelle non linéarité duproblème posé et le ramène à la résolution d’une séparation linéaire. Ce pointest détaillé dans une section ultérieure. Traitons tout d’abord le cas linéairec’est-à-dire le cas où Φ est la fonction identité.

3 Séparateur linéaire

3.1 Hyperplan séparateur

La résolution d’un problème de séparation linéaire est illustré par la figure2. Dans le cas où la séparation est possible, parmi tous les hyperplans solutionspour la séparation des observations, on choisit celui qui se trouve le plus “loin”

119 07/15

Page 120: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Machines à vecteurs supports

FIGURE 2 – Recherche d’un hyperplan de séparation optimal au sens de lamarge maximale.

possible de tous les exemples, on dit encore, de marge maximale.

Dans le cas linéaire, un hyperplan est défini à l’aide du produit scalaire deH par son équation :

〈w, x〉+ b = 0

où w est un vecteur orthogonal au plan tandis que le signe de la fonction

f(x) = 〈w, x〉+ b

indique de quel côté se trouve le point x à prédire. Plus précisément, un pointest bien classé si et seulement si :

yf(x) > 0

mais, comme le couple (w, b) qui caractérise le plan est défini à un coefficientmultiplicatif près, on s’impose :

yf(x) ≥ 1.

Un plan (w, b) est un séparateur si :

yif(xi) ≥ 1 ∀i ∈ 1, . . . , n.

La distance d’un point x au plan (w, b) est donnée par :

d(x) =| 〈w, x〉+ b|‖w‖

=|f(x)|‖w‖

et, dans ces conditions, la marge du plan a pour valeur 2‖w‖2 . Chercher le plan

séparateur de marge maximale revient à résoudre le problème ci-dessous d’op-timisation sous contraintes (problème primal) : minw

12‖w‖

2

avec ∀i, yi(< w,xi > +b) ≥ 1.

Le problème dual est obtenu en introduisant des multiplicateurs de La-grange. La solution est fournie par un point-selle (w∗, b∗,λ∗) du lagrangien :

L(w, b,λ) = 1/2‖w‖22 −n∑i=1

λi [yi (< w,xi > +b)− 1] .

Ce point-selle vérifie en particulier les conditions :

λ∗i [yi (< w∗,xi > +b∗)− 1] = 0 ∀i ∈ 1, . . . , n.

Les vecteurs support sont les vecteurs xi pour lesquels la contrainte est active,c’est-à-dire les plus proches du plan, et vérifiant donc :

yi (< w∗,xi > +b∗) = 1.

Les conditions d’annulation des dérivées partielles du lagrangien permettentd’écrire les relations que vérifient le plan optimal, avec les λ∗i non nuls seule-ment pour les points supports :

w∗ =n∑i=1

λ∗i yixi etn∑i=1

λ∗i yi = 0.

Ces contraintes d’égalité permettent d’exprimer la formule duale du lagran-gien :

W (λ) =n∑i=1

λi −1

2

n∑i,j=1

λiλjyiyj < xi,xj > .

Pour trouver le point-selle, il suffit alors de maximiserW (λ) avec λi ≥ 0 pourtout i ∈ 1, ...n. La résolution de ce problème d’optimisation quadratique de

120 07/15

Page 121: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Machines à vecteurs supports

taille n, le nombre d’observations, fournit l’équation de l’hyperplan optimal :n∑i=1

λ∗i yi < x,xi > +b∗ = 0 avec b0 = −1

2[< w∗, svclass+1 > + < w∗, svclass−1 >] .

Pour une nouvelle observation x non apprise présentée au modèle, il suffit deregarder le signe de l’expression :

f(x) =n∑i=1

λ∗i yi 〈x,xi〉+ b∗

pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classeil faut lui attribuer.

3.2 Cas non séparable

Lorsque les observations ne sont pas séparables par un plan, il est nécessaired”’assouplir” les contraintes par l’introduction de termes d’erreur ξi qui encontrôlent le dépassement :

yi 〈w,xi〉+ b ≥ +1− ξi ∀i ∈ 1, . . . , n.

Le modèle attribue ainsi une réponse fausse à un vecteur xi si le ξi correspon-dant est supérieur à 1. La somme de tous les ξi représente donc une borne dunombre d’erreurs.

Le problème de minimisation est réécrit en introduisant une pénalisation parle dépassement de la contrainte :

min 12 ‖w‖

2+ δ

∑ni=1 ξi

∀i, yi 〈w,xi〉+ b ≥ +1− ξi

Remarques

• Le paramètre δ contrôlant la pénalisation est à régler. Plus il est grand etplus cela revient à attribuer une forte importance à l’ajustement. Il est leparamètre qui ajuste le compromis entre bon ajustement et bonne généra-lisation.

• Le problème dans le cas non séparable se met sous la même forme dualeque dans la cas séparable à une différence près : les coefficients λi sonttous bornés par la constante δ de contrôle de la pénalisation.

• De nombreux algorithmes sont proposés pour résoudre ces problèmesd’optimisation quadratique. Certains, proposant une décomposition del’ensemble d’apprentissage, sont plus particulièrement adaptés à prendreen compte un nombre important de contraintes lorsque n, le nombre d’ob-servation, est grand.

• On montre par ailleurs que la recherche des hyperplans optimaux répondbien au problème de la “bonne” généralisation. On montre aussi que, sil’hyperplan optimal peut être construit à partir d’un petit nombre de vec-teurs supports, par rapport à la taille de la base d’apprentissage, alors lacapacité en généralisation du modèle sera grande, indépendamment de lataille de l’espace.

• Plus précisément, on montre que, si lesX sont dans une boule de rayonR,l’ensemble des hyperplans de marge fixée δ a une VC-dimension bornéepar

R2

δ2avec ‖x‖ ≤ R.

• L’erreur par validation croisée (leave-one-out) et bornée en moyenne parle nombre de vecteurs supports. Ces bornes d’erreur sont bien relative-ment prédictives mais néanmoins trop pessimistes pour être utiles en pra-tique.

4 Séparateur non linéaire

4.1 Noyau

Revenons à la présentation initiale du problème. Les observations faites dansl’ensemble F (en général Rp) sont considérées comme étant transformées parune application non linéaire Φ de F dans H muni d’un produit scalaire et deplus grande dimension.

Le point important à remarquer, c’est que la formulation du problème deminimisation ainsi que celle de sa solution :

f(x) =n∑i=1

λ∗i yi 〈x,xi〉+ b∗

ne fait intervenir les éléments x et x′ que par l’intermédiaire de produits sca-laires : 〈x,x′〉. En conséquence, il n’est pas nécessaire d’expliciter la transfor-

121 07/15

Page 122: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Machines à vecteurs supports

FIGURE 3 – Rôle de l’espace intermédiaire dans la séparation des données.

mation Φ, ce qui serait souvent impossible, à condition de savoir exprimer lesproduits scalaires dans H à l’aide d’une fonction k : F × F → R symétriqueappelée noyau de sorte que :

k(x,x′) = 〈Φ(x),Φ(x′)〉 .

Bien choisi, le noyau permet de matérialiser une notion de “proximité” adaptéeau problème de discrimination et à sa structure de données.

Exemple

Prenons le cas trivial où x = (x1, x2) dans R2 et Φ(x) = (x21,√

2x1x2, x22)

est explicite. Dans ce cas,H est de dimension 3 et le produit scalaire s’écrit :

〈Φ(x),Φ(x′)〉 = x21x′21 + 2x1x2x

′1x′2 + x22x

′22

= (x1x′1 + x2x

′2)2

= 〈x,x′〉2

= k(x,x′).

Le calcul du produit scalaire dans H ne nécessite pas l’évaluation explicite deΦ. D’autre part, le plongement dansH = R3 peut rendre possible la séparationlinéaire de certaines structures de données (cf. figure 3).

4.2 Condition de Mercer

Une fonction k(., .) symétrique est un noyau si, pour tous les xi possibles, lamatrice de terme général k(xi,xj) est une matrice définie positive c’est-à-dire

quelle définit une matrice de produit scalaire.

Dans ce cas, on montre qu’il existe un espaceH et une fonction Φ tels que :

k(x,x′) = 〈Φ(x),Φ(x′)〉 .

Malheureusement, cette condition théorique d’existence est difficile à vé-rifier et, de plus, elle ne donne aucune indication sur la construction de lafonction noyau ni sur la transformation Φ. La pratique consiste à combinerdes noyaux simples pour en obtenir des plus complexes (multidimensionnels)associés à la situation rencontrée.

4.3 Exemples de noyaux• Linéaire

k(x,x′) = 〈x,x′〉

• Polynômialk(x,x′) = (c+ 〈x,x′〉)d

• Gaussienk(x,x′) = e−

‖x−x′‖2

2σ2

Beaucoup d’articles sont consacrés à la construction d’un noyau plus ou moinsexotique et adapté à une problématique posée : reconnaissance de séquences,de caractères, l’analyse de textes... La grande flexibilité dans la définition desnoyaux, permettant de définir une notion adaptée de similitude, confère beau-coup d’efficacité à cette approche à condition bien sur de construire et testerle bon noyau. D’où apparaît encore l’importance de correctement évaluer deserreurs de prévision par exemple par validation croisée.

Attention, les SVM à noyaux RBF gaussiens, pour lesquels, soit on est dansle cas séparable, soit la pénalité attribuée aux erreurs est autorisée à prendren’importe quelle valeur, ont une VC-dimension infinie.

4.4 SVM pour la régression

Les SVM peuvent également être mis en œuvre en situation de régression,c’est-à-dire pour l’approximation de fonctions quand Y est quantitative. Dansle cas non linéaire, le principe consiste à rechercher une estimation de la fonc-tion par sa décomposition sur une base fonctionnelle. la forme générale des

122 07/15

Page 123: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Machines à vecteurs supports

fonctions calculées par les SVM se met sous la forme :

φ(x,w) =∞∑i=1

wivi(x).

Le problème se pose toujours comme la minimisation d’une fonction coût,mais, plutôt que d’être basée sur un critère d’erreur quadratique (moindrescarrés), celle-ci s’inspire des travaux de Huber sur la recherche de modèlesrobustes et utilise des écarts absolus.

On note |.|ε la fonction qui est paire, continue, identiquement nulle sur l’in-tervalle [0, ε] et qui croit linéairement sur [ε,+∞]. La fonction coût est alorsdéfinie par :

E(w, γ) =1

n

n∑i=1

|yi − φ(xi,w)|ε + γ‖w‖2

où γ est, comme en régression ridge, un paramètre de régularisation assurantle compromis entre généralisation et ajustement. De même que précédemment,on peut écrire les solutions du problèmes d’optimisation. Pour plus de détails,se reporter à Schölkopf et Smola (2002)[2]. Les points de la base d’apprentis-sage associés à un coefficient non nul sont là encore nommés vecteurs support.

Dans cette situation, les noyaux k utilisés sont ceux naturellement associésà la définition de bases de fonctions. Noyaux de splines ou encore noyau deDériclet associé à un développement en série de Fourier sont des grands clas-siques. Ils expriment les produits scalaires des fonctions de la base.

5 ExemplesComme pour les réseaux de neurones, l’optimisation des SVM qui, en plus

du choix de noyau, peut comporter de 1 à 3 paramètres (pénalisation et éven-tuels paramètres du noyau) est délicate. La figure 4 montre 3 résultats de vali-dation croisée pour le simple noyau linéaire dans le cas des données NIR.

5.1 Cancer du sein

La prévision de l’échantillon test par un Séparateur à Vaste marge conduit àla matrice de confusion :

FIGURE 4 – Cookies : trois exécutions de la validation croisée estimant l’erreuren fonction de la pénalisation d’un noyau linéaire.

ign malignantbenign 83 1malignant 3 50

et donc une erreur estimée de 3%.

5.2 Concentration d’ozone

Un modèle élémentaire avec noyau par défaut (gaussien) et une pénalisationde 2 conduit à une erreur de prévision estimée à 12,0% sur l’échantillon test.La meilleure prévision de dépassement de seuil sur l’échantillon test initialest fournie par des SVM d’ε-régression. Le taux d’erreur est de 9,6% avec lamatrice de confusion suivante :

0 1FALSE 161 13TRUE 7 27

Ce résultat serait à confirmer avec des estimations systématiques de l’erreur.Les graphiques de la figure 5 montre le bon comportement de ce prédicteur.Il souligne notamment l’effet "tunnel" de l’estimation qui accepte des erreursautour de la diagonale pour se concentrer sur les observations plus éloignéesdonc plus difficiles à ajuster.

123 07/15

Page 124: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Machines à vecteurs supports

0 50 100 150 200 250 300

050

100

150

200

250

300

Valeurs predites

Val

eurs

obs

erve

es

0 50 100 150 200 250 300

−10

0−

500

5010

0

Valeurs preditesR

ésid

us

FIGURE 5 – Ozone : Valeurs observées et résidus en fonction des valeurs pré-dites pour l’échantillon test.

5.3 Données bancaires

Les données bancaires posent un problème car elles mixent variables quan-titatives et qualitatives. Celles-ci nécessiteraient la construction de noyaux trèsspécifiques. Leur traitement par SVM n’est pas détaillé ici.

Références[1] Y. Guermeur et H. Paugam-Moisy, Théorie de l’apprentissage de Vapnik

et SVM, Support Vector Machines, Apprentissage automatique (M. Sebbanet G. Venturini, réds.), Hermes, 1999, p. 109–138.

[2] B Schölkopf et A Smola, Learning with Kernels Support Vector Machines,Regularization, Optimization and Beyond, MIT Press, 2002.

124 07/15

Page 125: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Imputation de données manquantes

Imputation de données manquantes

Résumé

Cette vignette présente les différents types de problèmes soulevéspar la question très fréquente en pratique d’occurrences de donnéesmanquantes, que ce soit pour des données matricielles ou longitudi-nales. Les méthodes d’imputation de données manquantes sont dé-crites ; les plus rudimentaires : LOCF, imputation par la médiane,la moyenne..., de même que celles par modélisation ou apprentis-sage statistique : régression et régression locale, k-nn, régressionPLS, SVD, Random Forest ou encore par imputation multiple. Cesméthodes sont illustrées et leur efficacité comparée sur trois jeux dedonnées.

Retour au plan du cours

1 IntroductionMalgré la quantité croissante de données disponibles et l’émergence du Big

Data, les problématiques de données manquantes restent très répandues dansles problèmes statistiques et nécessitent une approche particulière. Ignorer lesdonnées manquantes peut entraîner, outre une perte de précision, de forts biaisdans les modèles d’analyse.

Les données sont constituées de p variables quantitatives ou qualitatives(Y1, . . . , Yp) observées sur un échantillon de n individus. Il existe des don-nées manquantes représentées par la matrice M dite d’indication des valeursmanquantes [13] dont la forme dépend du type de données manquantes.

Nous commencerons par donner une définition des données manquantes endéfinissant plusieurs types de données manquantes et en étudiant les réparti-tions possibles. Nous verrons ensuite quelques d’approches qui nécessitent lasuppression de données puis nous proposerons un certain nombre de méthodesde complétion, sans souci d’exhaustivité.

2 Typologie des données manquantes

2.1 Types de données manquantes

Afin d’aborder correctement l’imputation des données manquantes il fauten distinguer les causes, les données manquantes n’arrivant pas toujours parun pur hasard. Une typologie a été développée par Little & Rubin en 1987[13], les répartissant en 3 catégories :

- Missing completely at random (MCAR) : Une donnée est MCAR, c’està dire manquante de façon complètement aléatoire si la probabilité d’ab-sence est la même pour toutes les observations. Cette probabilité ne dé-pend donc que de paramètres extérieurs indépendants de cette variable.Par exemple : “si chaque participant à un sondage décide de répondre à laquestion du revenu en lançant un dé et en refusant de répondre si la face 6apparaît” [1]. A noter que si la quantité de données MCAR n’est pas tropimportante, ignorer les cas avec des données manquantes ne biaisera pasl’analyse. Une perte de précision dans les résultats est toutefois à prévoir.

- Missing at random (MAR) : Le cas des données MCAR est tout demême peu courant. Il arrive souvent que les données ne manquent pas defaçon complètement aléatoire. Si la probabilité d’absence est liée à une ouplusieurs autres variables observées, on parle de missingness at random(MAR). Il existe des méthodes statistiques appropriées qui permettronsd’éviter de biaiser l’analyse (voir 4)

- Missing not at random (MNAR) : La donnée est manquante de façonnon aléatoire (MNAR) si la probabilité d’absence dépend de la variable enquestion. Un exemple répandu [1][9] est le cas où des personnes avec unrevenu important refusent de le dévoiler. Les données MNAR induisentune perte de précision (inhérente à tout cas de données manquantes) maisaussi un biais qui nécessite le recours à une analyse de sensibilité.

2.2 Répartition des données manquantes

Soit Y = (yij) ∈ Rn×p la matrice rectangulaire des données pour p va-

riables Y1, . . . , Yp et n observations. Considérons M = (mij) la matrice d’in-dication des valeurs manquantes [13], qui va définir la répartition des donnéesmanquantes. On considèrera alors 3 types de répartition :

1. Les valeurs manquantes univariées. C’est à dire que pour une variable

125 07/15

Page 126: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Imputation de données manquantes

Yk seulement, si une observation yki est manquante, alors il n’y aura plusd’observation de cette variable. Une illustration est donnée Figure 1a.

2. Les valeurs manquantes sont dites monotones si Yj manquante pourun individu i implique que toutes les variables suivantes Ykk>j sontmanquantes pour cet individu (Figure 1b). L’indicateur de données man-quantes M est alors un entier M ∈ (1, 2, . . . , p) pour chaque individu,indiquant le plus grand j pour lequel Yj est observé.

3. Les valeurs manquantes sont non monotones (ou arbitraires), commele représente la Figure 1c Dans ce cas, on définit la matrice de valeursmanquantes par M = (mij) avec mij = 1 si yij est manquant et zérosinon.

(a) (b) (c)

FIGURE 1 – Répartitions des données manquantes. (a) univariées, (b) mono-tones et (c) arbitraires/non monotones

Cette répartition est valable pour les données longitudinales (voir Figure 2).La répartition monotone correspond alors à une censure à droite.

FIGURE 2 – Répartitions des données manquantes pour des variables longitu-dinales. (a) jeu complet, (b) arbitraires/non monotones et (c) monotones

2.3 Probabilité d’absence

La probabilité d’absence selon le type de données manquantes (MCAR,MAR, MNAR) peut alors être exprimé en fonction de M [13]. Les don-nées sont divisées en deux selon la matrice M d’indication des donnéesmanquantes. On définit donc Yobs = Y 1M=0 les données observées etYmis = Y 1M=1 les données manquantes telles que Y = Yobs, Ymis. Lemécanisme des données manquantes est caractérisé par la distribution condi-tionnelle de M sachant Y donnée par p(M |Y ).

- Dans le cas des données MCAR l’absence de données ne dépend pas desvaleurs de Y donc

p(M |Y ) = p(M) pour tout Y. (1)

- Considérons à présent le cas MAR. Soit Yobs la partie observée du jeu dedonnées et Ymis les données manquantes. MAR signifie que l’absence dedonnées dépend uniquement de Yobs :

p(M |Y ) = p(M |Yobs) pour tout Ymis. (2)

- Enfin, les données sont MNAR si la distribution de M dépend aussi deYmis.

Exemple pour un échantillon aléatoire univarié

Soit Y = (y1, . . . , yn)> où yi est l’observation d’une variable aléatoire pourl’individu i, et M = (M1, . . . ,Mn) où Mi = 0 pour les données observées etMi = 1 pour les données manquantes. On suppose également que la distribu-tion conjointe est indépendante des individus. Alors

p(Y,M) = p(Y )p(M |Y ) =n∏i=1

p(yi)n∏i=1

p(Mi|yi) (3)

où p(yi) est la densité de yi et p(Mi|yi) est la densité d’une loi de Bernoullipour l’indicateur binaire Mi avec la probabilité P(Mi = 1|yi) que yi soitmanquante.

Si P(Mi = 1|yi) = α avec α une constante qui ne dépend pas de yi alorsc’est un cas MCAR (ou dans ce cas aussi MAR). Si P(Mi = 1|yi) dépend deyi, le mécanisme de données manquantes est MNAR.

126 07/15

Page 127: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Imputation de données manquantes

3 Analyse sans complétion

3.1 Méthodes avec suppression de données

Dans certains cas, l’analyse est possible sans imputer les données man-quantes. En général, on se reporte à deux méthodes “classiques” :

- L’analyse des cas concrets, qui consiste à ne considérer que les indivi-dus pour lesquels toutes les données sont disponibles, i.e. en supprimantles lignes comportant des valeurs manquantes. C’est ce qui est fait au-tomatiquement avec R (na.action=na.omit). Cette méthode, on levoit bien Figure 3, risque de supprimer trop de données et d’augmenter debeaucoup la perte de précision. De plus, si les données ne sont pas MCAR,retirer des observations va induire un biais dans l’analyse puisque le sous-échantillon des cas représentés par les données manquantes ne sont pasforcément représentatifs de l’échantillon initial.

(a) (b)

FIGURE 3 – Répartitions des données manquantes. (a) données d’origine, va-leurs manquantes arbitraires, (b) observations restantes en analyse des cascomplets

- L’analyse des cas disponibles. Afin d’éviter de supprimer trop de don-nées, il est possible de faire de la suppression par paires (pairwise dele-tion) ou analyse des cas disponibles (available-case analysis). Différentsaspects du problème sont alors étudiés avec différents sous-échantillons.Cependant, les différentes analyses ne seront pas nécessairement compa-tibles entre elles.L’analyse des cas disponibles correspond aussi au cas où une variable estsupprimée du jeu de données à cause de sa trop grande quantité de valeursmanquantes.

3.2 Méthodes qui tolèrent les données manquantes

Si la plupart des méthodes d’analyse suppriment automatiquement les don-nées manquantes, certaines les tolèrent. C’est le cas par exemple des arbresCART qui considèrent des surrogate splits ou divisions de substitution : Aumoment du split d’un nœud, plusieurs couples variables / seuil “optimaux”sont considérés et mémorisés. Au moment de l’utilisation, si la donnée estmanquante pour une observation, ce n’est pas la meilleure division qui est uti-lisée mais celle juste après lui est substituée [7].

4 Méthodes d’imputationCette section donne un aperçu non exhaustif des méthodes de complétion

les plus courantes. On considère un jeu de données constitué de p variablesquantitatives ou qualitatives (Y1, . . . , Yp) observées sur un échantillon de nindividus. On définit la matrice M d’indication des valeurs manquantes parmij = 1yij manquante

4.1 Complétion stationnaire

Il existe plusieurs complétions stationnaires possibles. On peut par exemplechoisir de compléter par la valeur la plus fréquemment représentée (ConceptMost Common Attribute Value Fitting, CMCF [14]) ou plus simplement par ladernière valeur connue (Last observation carried forward, LOCF) :

(yij)mis = yi?j? = yi?j |mi?j = 0, j < j? (4)

Cette méthode peut sembler trop “naïve” mais est souvent utilisée pour poserles bases d’une comparaison entre méthodes de complétion.

4.2 Complétion par une combinaison linéaire des ob-servations

Une autre technique répandue consiste à remplacer toutes les valeurs man-quantes par une combinaison linéaire des observations. On retiendra le casd’imputation par la moyenne :

(yij)mis = yi?j? = Yj? (5)

127 07/15

Page 128: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Imputation de données manquantes

ou par la médiane :(yij)mis = yi?j? = Yj? (6)

Mais ce cas se généralise à toute combinaison linéaire pondérée des observa-tions.

Au lieu d’utiliser toutes les valeurs disponibles, il est possible de se res-treindre à des méthodes qui sélectionnent les valeurs les plus influentes. Parexemple, on présente ci-dessous des méthodes d’agrégation locale ou de ré-gression ainsi que des algorithmes combinant différents aspects.

4.3 Méthode des plus proches voisins (KNN)

La complétion par k plus proches voisins (k-nearest neighbors ou KNN)consiste à suivre l’algorithme suivant :

Algorithme des k plus proches voisins (k-nn)

1. Choix d’un entier k : 1 ≥ k ≥ n.2. Calculer les distances d(Yi? , Yi) , i = 1, . . . , n

3. Retenir les k observations Y(i1), . . . , Y(ik) pour lesquelles ces distancessont les plus petites.

4. Affecter aux valeurs manquantes la moyenne des valeurs des k voisins :

(yij)mis = yi?j? =1

k

(Y(i1) + . . .+ Y(ik)

)(7)

Comme pour la classification par KNN, la méthode des plus proches voisinsnécessite le choix du paramètre k par optimisation d’un critère. De plus, lanotion de distance entre les individus doit être choisie avec précaution. Onconsidèrera usuellement la distance Euclidienne ou de Mahalanobis.

4.4 Régression locale

La régression locale (en anglais LOcal regrESSion : LOESS) [15] permetégalement d’imputer des données manquantes. Pour cela, un polynôme de de-gré faible est ajusté autour de la donnée manquante par moindres carrés pon-dérés, en donnant plus de poids aux valeurs proches de la donnée manquante.

Soit Yi? une observation à laquelle il manque q valeurs manquantes. Onimpute ces données manquantes par régression locale en suivant l’algorithmeci-après.

Algorithme LOESS

1. Obtention des k plus proches voisins Y(i1), . . . , Y(ik)

2. Création des matrices A ∈ Rk×(n−q), B ∈ R

k×q et w ∈ R(n−q)×1 de

sorte que :

- Les lignes de A correspondent aux voisins privés des valeurs auxindices des données manquantes de Yi?

- Les colonnes de B correspondent aux valeurs des voisins aux in-dices des données manquantes de Yi?

- Le vecteur w correspond aux (n − q) valeurs observées de Yi? :wj = (yi?j)obs

3. Résolution du problème des moindres carrés

minx∈Rk

‖ A>x− w ‖ (8)

où ‖ · ‖ est la norme quadratique de Rk.

4. Le vecteur u des données manquantes s’exprime alors par

u = B>x = B>(A>)−1w (9)

avec (A>)−1 la matrice pseudo-inverse de A>.

4.5 Algorithme NIPALS

L’algorithme NIPALS (Nonlinear Iterative Partial Least Squares) est uneméthode itérative proche de la régression PLS, utilisée pour estimer les élé-ments d’une analyse en composantes principales d’un vecteur aléatoire de di-mension finie. Cet algorithme peut être adapté pour l’imputation de donnéesmanquantes [3]. Soit Y = (Y1, . . . , Yp) tel que ∀i ∈ 1, . . . , p, E(Yi) = 0

128 07/15

Page 129: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Imputation de données manquantes

(chaque colonne de la matrice est centrée). L’expansion de Y en termes decomposantes principales et de facteurs principaux est donnée par

Y =

q∑h=1

ξhuh (10)

où q = dimL2(Y ) et ξhh=1,...,q sont les composantes principales etuhh=1,...,q les vecteurs principaux de l’ACP de Y . Donc pour chaque va-riable Yi on a

Yi =

q∑h=1

ξhuh(i) (11)

L’idée étant que pour chaque h, uh(i) représente la pente de la régressionlinéaire de Yi sur la composante ξh. L’algorithme NIPALS va permettred’obtenir ξhh=1,...,q et uhh=1,...,q les approximations de ξhh=1,...,q etuhh=1,...,q .

Algorithme NIPALS

1. Y 0 = Y

2. Pour h = 1, . . . , q faire(a) ξh = Y h−11

(b) Tant que uh n’a pas convergé fairei. Pour i = 1, . . . , p faire

uh(i) =

∑j:yji,ξh(j) existe y

h−1ji ξh(j)∑

j:ξh(j) existe ξ2h(j)

ii. Normaliser uhiii. Pour i = 1, . . . , N faire

ξh(i) =

∑j:yij existe y

h−1ij uh(j)∑

j:yij existe u2h(j)

(c) Y h = Y h−1 − ξhu′h

On pourra alors approximer les données manquantes par

(yij)mis =

q∑h=1

ξh(i)uh(j) (12)

4.6 Par décomposition en valeurs singulières (SVD)

4.6.1 Cas où il y a suffisamment de données observées

S’il y a bien plus de données observées que de données manquantes, on sé-pare le jeu de données Y en deux groupes : d’un côté Y c avec les observationscomplètes et de l’autre Y m comprenant les individus pour lesquels certainesdonnées manquent. On considère alors la décomposition en valeurs singulières(SVD) tronquée du jeu complet [6] :

Y cJ = UJDJV>J (13)

oùDJ est la matrice diagonale comprenant les J premières valeurs singulièresde Y c. Les valeurs manquantes sont alors imputées par régression :

minβ∈RJ

∑i observées

Yi? − J∑j=1

vljβj

2

(14)

Soit V ?J la version tronquée de VJ , c’est à dire pour laquelle les lignes corres-pondant aux données manquantes de la ligne Yi? sont supprimées. Une solutiondu problème 14 est alors

β = (V ?>J V ?J )−1V ?>J Yi? (15)

La prédiction des données manquantes est donc donnée par

Yi? = V(?)J β (16)

où V (?)J est le complément de V ?J dans VJ .

Comme pour KNN, cette méthode nécessite le choix du paramètre J . On seramènera alors à un problème de minimisation :

minX de rang J

‖ Y c −X ‖F (17)

avec ‖ · ‖F la norme de Frobenius.

129 07/15

Page 130: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Imputation de données manquantes

4.6.2 Cas où il y a trop de données manquantes

Si les données manquantes sont trop nombreuses, cela induira un biais im-portant dans le calcul de la base de décomposition. De plus, il arrive qu’il y aitau moins une donnée manquante pour toutes les observations. Dans ce cas, ilfaut résoudre le problème suivant :

minUJ ,VJ ,DJ

‖ Y −m− UJDJV>J ‖? (18)

où ‖ · ‖? somme les carrés des éléments de la matrice, en ignorant les valeursmanquantes. m est le vecteur des moyennes des observations. La résolution dece problème suit l’algorithme suivant :

Algorithme de Complétion par SVD

1. Créer une matrice Y 0 pour laquelle les valeurs manquantes sont complé-tées par la moyenne,

2. Calculer la SVD solution du problème (18) pour la matrice complétée Y i.On crée ainsi Y i+1 en remplaçant les valeurs manquantes de Y par cellesde la régression.

3. Itérer l’étape précédente jusqu’à ce que ‖ Y i−Y i+1 ‖ / ‖ Y i ‖< ε, seuilarbitraire (souvent à 10−6)

4.7 Utilisation de Forêts aléatoires

Stekhoven et Bühlmann (2011)[5] ont proposé une méthode de complétionbasée sur les forêts aléatoires appelée MissForest. Un package R éponyme luiest associée. Cette méthode nécessite une première imputation “naïve”, pardéfaut une complétion par la moyenne, afin d’obtenir un échantillon d’appren-tissage complet. Puis une série de forêts aléatoires sont ajustées jusqu’à lapremière dégradation du modèle.

Pour formaliser cela, on décompose le jeu de données initial en quatre par-ties. Pour chaque variable Y s, s = 1, . . . , S dont les valeurs manquantes sontindexées par ismis ⊆ 1, . . . , n, on définit

1. ysobs les valeurs observées dans Y s

2. ysmis les valeurs manquantes dans Y s

3. Xs = Y \ Y s l’ensemble des régresseurs de Y s parmi lesquels on consi-dère

(a) xsobs les régresseurs observés pour isobs = i, . . . , n \ ismis(b) xsmis les régresseurs manquants pour ismis

La méthode suit alors l’algorithme suivant :

Algorithme MissForest

1. Première complétion “naïve” des valeurs manquantes.2. Soit k le vecteur des indices de colonnes de Y triées par quantité crois-

sante de valeurs manquantes ;3. Tant que γ n’est pas atteint faire

(a) Y oldimp = matrice précédemment imputée(b) Pour s dans k faire

i. Ajuster y(s)obs ∼ x(s)obs par forêt aléatoire

ii. Prédire y(s)mis avec les régresseurs x(s)misiii. Y newimp est la nouvelle matrice complétée par les valeurs prédites

y(s)mis

(c) mettre à jour le critère γ

Avec un critère d’arrêt γ atteint dès que la différence entre la matrice dedonnées nouvellement imputé et la précédente augmente pour la première fois.La différence de l’ensemble des variables continues est définie comme

∆N =

∑j∈N

(Y newimp − Y oldimp

)2∑j∈N

(Y newimp

)2 (19)

En cas de variables qualitatives on définit la différence par

∆F =

∑j∈F

∑ni=1 1Y new

imp 6=Y oldimp

#NA(20)

130 07/15

Page 131: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Imputation de données manquantes

4.8 Inférence Bayésienne

Soit θ la réalisation d’une variable aléatoire et soit p(θ) sa distribution apriori. La distribution a posteriori est donc donnée par :

p(θ|Yobs) ∝ p(θ)f(Yobs; θ) (21)

La méthode de data augmentation de Tanner et Wong (1987) [10] simulede manière itérative des échantillons aléatoires des valeurs manquantes et desparamètres du modèle, compte tenu des données observées à chaque itération,constituée d’une étape d’imputation (I) et d’une étape “postérieure” (P).

Soit θ(0) un tirage initial obtenu à partir d’une approximation de la distribu-tion a posteriori de θ. Pour une valeur θ(t) de θ à un instant t

Imputation (I) : soit Y (t+1)mis avec une densité p(Ymis|Yobs, θ(t))

Postérieure (P) : soit θ(t+1) avec une densité p(θ|Yobs, Y (t)mis)

Cette procédure itérative finira par obtenir un tirage de la distributionconjointe de (Ymis, θ|Yobs) lorsque t→ +∞

4.9 Imputation multiple

L’imputation multiple consiste, comme son nom l’indique, à imputer plu-sieurs fois les valeurs manquantes afin de combiner les résultats pour diminuerl’erreur (le bruit) due à l’imputation [4]. Cela permet également de définir unemesure de l’incertitude causée par la complétion.

Le maintien de la variabilité d’origine des données se fait en créant des va-leurs imputées qui sont basés sur des variables corrélées avec les données man-quantes et les causes d’absence. L’incertitude est prise en compte en créant desversions différentes de données manquantes et l’observation de la variabilitéentre les ensembles de données imputées.

4.10 Amelia II

Amelia II est un programme d’imputation multiple développé en 2011 parJames Honaker et al [8]. Le modèle s’appuie sur une hypothèse de normalité :Y ∼ Nk(µ,Σ), et nécessite donc parfois des transformations préalables desdonnées.

Soit M la matrice d’indication des données manquantes et θ = (µ,Σ) les

paramètres du modèle. Une autre hypothèse est que les données sont MARdonc

p(M |Y ) = p(M |Yobs) (22)

La vraisemblance p(Yobs|θ) s’écrit alors

p(Yobs,M |θ) = p(M |Yobs)p(Yobs|θ) (23)

DoncL(θ|Yobs) ∝ p(Yobs|θ) (24)

Or en utilisant la propriété itérative de l’espérance

p(Yobs|θ) =

∫p(Y |θ)dYmis (25)

On obtient donc la loi à posteriori

p(θ|Yobs) ∝ p(Yobs|θ) =

∫p(Y |θ)dYmis (26)

L’algorithme EMB d’Amelia II combine l’algorithme EM classique (dumaximum de vraisemblance) avec une approche bootstrap. Pour chaque tirage,les données sont estimées par bootstrap pour simuler l’incertitude puis l’algo-rithme EM est éxécuté pour trouver l’estimateur a posteriori θMAP pour lesdonnées bootstrap. Les imputations sont alors créées par tirage de Ymis selonsa distribution conditionnelle sur Yobs et des tirages de θ.

5 Exemple

5.1 Fraudes sur la consommation en gaz

Les différentes méthodes de complétion ont été testées et comparées sur unexemple de détection de fraudes sur la consommation en gaz. Soit Y ∈ RN×12tel que yij soit la consommation de gaz de l’individu i au mois j. La répartitiondes données manquantes est non monotone et on fait l’hypothèse de donnéesMAR. Après une transformation en log afin d’approcher la normalité, la com-plétion a été effectuée. Les résultats ont été comparés avec un échantillon testde 10% des données, préalablement retiré du set.

131 07/15

Page 132: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Imputation de données manquantes

Ce jeu de données réel comporte au moins une valeur manquante par indi-vidu, et au total 50.4% des données sont manquantes. Si on ne considère quela consommation mensuelle individuelle, sans variables exogènes, on obtientla répartition des erreurs de chaque méthode représentée Figure 4.

FIGURE 4 – Fraudes - Erreurs de complétion sur un échantillon test

5.2 Encours Boursiers Parisiens (EBP)

On s’intéresse aux cours des actifs boursiers sur la place de Paris de 2000à 2009. On considère 252 cours d’entreprises ou indices régulièrement cotéssur cette période. En se limitant au cas MCAR, on crée artificiellement de plusen plus de données manquantes à imputer. Pour 10% de données manquantes,une comparaison des méthodes d’imputations est données Figure 5. Trois mé-thodes se détachent visiblement : SVD, missForest et AmeliaII.

La robustesse de ces méthodes a été testée en augmentant graduellementla quantité de données manquantes. Les résultats sont donnés Figure 6 pourAmeliaII et Figure 7 pour missForest.

5.3 Maladies Coronariennes (CHD)

La plupart des méthodes d’imputation de sont définies que pour desvariables quantitatives. Mais certaines méthodes présentées ci-dessuspermettent d’imputer des données qualitatives, voire hétérogènes. C’estle cas de LOCF, KNN et missForest qui ont donc été testées sur un

FIGURE 5 – EBP - Erreurs de complétion sur un échantillon test de 10%

FIGURE 6 – EBP - Erreurs de complétion sur un échantillon test par AmeliaIIquand la quantité de valeurs manquantes augmente

jeu de données de référence sur les problèmes de complétion [11]. Lesdonnées ont été acquises par Detranao et al. (1989) [12] et mises à dispo-sition par Bache et Lichman (2013)[2]. Elles se présentent sous la formed’une matrice d’observations médicales Y ∈ R

N×14 de 14 variableshétérogènes pour N patients. Le jeu de données contient donc des va-riables quantitatives (age, pression, cholestérol, fréquencecardiaque maximale, oldpeak) et qualitatives (sexe, douleur,

132 07/15

Page 133: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Imputation de données manquantes

FIGURE 7 – EBP - Erreurs de complétion sur un échantillon test par missForestquand la quantité de valeurs manquantes augmente

sucre, cardio, angine, pente du pic, nombre devaisseaux cardiaques, thalassémie, absence/présencede maladie cardiaque).

En se limitant toujours au cas MCAR, on crée artificiellement de plus enplus de données manquantes à imputer. L’adéquation de l’imputation est don-née par la moyenne de l’erreur en valeur absolue dans le cas des données quan-titatives et par la distance de Hamming dans le cas des données qualitatives.Les résultats sont représentés Figure 8.

Références[1] Gelman A. et Hill J., Data Analysis Using Regression and Multilevel/-

Hierarchical Models, chap. 25, p. 529–563, Cambridge University Press,2007.

[2] K. Bache et M. Lichman, UCI Machine Learning Repository, 2013,http://archive.ics.uci.edu/ml.

[3] Preda C., Saporta G. et Hedi Ben Hadj Mbarek M., The NIPALS algo-rithm for missing functional data, Romanian Journal of Pure and AppliedMathematics 55 (2010), no 4, 315–326.

[4] Rubin D.B., Multiple Imputation for Nonresponse in Surveys, Wiley,

FIGURE 8 – CHD - Erreurs de complétion sur un échantillon test par LOCF(noir), KNN (rouge) et missForest (vert) quand la quantité de valeurs man-quantes augmente, pour une variable qualitative (au dessus) et quantitative (endessous)

1987.

[5] Stekhoven D.J. et Bühlmann P., MissForest - nonparametric missingvalue imputation for mixed-type data, Bioinformatics Advance Access(2011).

[6] Hastie et al, Imputing Missing Data for Gene Expression Arrays, Rap.tech., Division of Biostatistics, Stanford University, 1999.

[7] A. J. Feelders, Handling Missing Data in Trees : Surrogate Splits or Sta-tistical Imputation., PKDD, Lecture Notes in Computer Science, t. 1704,Springer, 1999, p. 329–334.

133 07/15

Page 134: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Imputation de données manquantes

[8] Honaker J., King G. et Blackwell M., Amelia II : A Program for MissingData, Journal of statistical software 45 (2011), no 7.

[9] Glasson Cicignani M. et Berchtold A., Imputation de Donnees Man-quantes : Comparaison de Differentes Approches, 42e Journees de Sta-tistique, 2010.

[10] Tanner M.A. et Wong W.H., The Calculation of Posterior Distributionsby Data Augmentation, Journal of the American Statistical Association82 (1987), no 398, 528–540.

[11] Setiawan N.A., Venkatachalam P.A. et Hani A.F.M., A ComparativeStudy of Imputation Methods to Predict Missing Attribute Values in Co-ronary Heart Disease Data Set, 4th Kuala Lumpur International Confe-rence on Biomedical Engineering 2008 (University of Malaya Depart-ment of Biomedical Engineering Faculty of Engineering, réd.), t. 21,Springer Berlin Heidelberg, 2008, p. 266–269.

[12] Detrano R., Janosi A., Steinbrunn W., Pfisterer M., Schmid J., Sandhu S.,Guppy K., Lee S. et Froelicher V., International Application of a NewProbability Algorithm for the Diagnosis of Coronary Artery Disease,American Journal of Cardiology 64 (1989), 304–310.

[13] Little R.J.A. et Rubin D.B., Statistical Analysis with Missing Data, Wileyseries in probability and statistics, 1987.

[14] Grzymala Busse J. W., Grzymala Busse W. J. et Goodwin L. K., Co-ping With Missing Attribute Values Based on Closest Fit in Preterm BirthData : A Rough Set Approach, Computational Intelligence 17 (2001),425–434.

[15] Cleveland W.S. et Devlin S.J., Locally-Weighted Regression : An Ap-proach to Regression Analysis by Local Fitting, Journal of the AmericanStatistical Association 83 (1988), no 403, 596–610.

134 07/15

Page 135: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 En guise de conclusion

En guise de conclusion

Résumé

Résumer les grandes lignes de ce cours dans une vue synthétique :méthodes et stratégies dans l’objectif d’une comparaison globaledes méthodes sur les différents jeux de données (cancer, pollution,carte visa). Il évoque enfin les pièges fréquents de telles démarcheset revient sur la place du statisticien.

Retour au plan du cours

1 Stratégies du data miningLes chapitres précédents décrivent les outils de base du prospecteur de don-

nées tandis que les logiciels commerciaux en proposent une intégration plus oumoins complète, plus ou moins conviviale de mise en œuvre. En pratique, l’en-chaînement de ces techniques permet la mise en place de stratégies de fouillebien définies. Celles-ci dépendent essentiellement des types de variables consi-dérés et des objectifs poursuivis.

Types de variables

Explicatives L’ensemble des p variables explicatives ou prédictives est notéX , il est constitué de variables• XR toutes quantitatives 1,• XE toutes qualitatives,• XR∪E un mélange de qualitatives et quantitatives.

À expliquer La variable à expliquer ou à prédire ou cible (target) peut être• Y quantitative,• Z qualitative à 2 modalités,• T qualitative.

1. Une variables explicative qualitative à 2 modalités (0,1) peut être considérée comme quan-titative ; c’est l’indicatrice des modalités.

Objectifs

Trois objectifs principaux sont poursuivis dans les applications classiquesde data mining :

1. Exploration multidimensionnelle ou réduction de dimension : produc-tion de graphes, d’un sous-ensemble de variables représentatives Xr, d’unensemble de composantes Cq préalables à une autre technique.

2. Classification (clustering) ou segmentation : production d’une variablequalitative Tr.

3. Modélisation (Y ou Z)/Discrimination (Z ou T ) production d’un mo-dèle de prévision de Y (resp. Z, T ).

D’autres méthodes plus spécifiques à certaines problématiques peuvent appa-raître (analyse sensorielle, analyse conjointe, SARIMA. . . mais leur usage restelimité à des contextes bien particuliers.

OutilsLes méthodes utilisables se classent en fonction de leur objectif et des types

de variables prédictives et cibles.

Exploration

ACP XR et ∅AFCM XE et ∅AFD XR et T

Classification

CAH XR et ∅NuéeDyn XR et ∅RNKoho XR et ∅

Modélisation

1. Modèle linéaire généralisé

RLM XR et Y

ANOVA XE et Y

ACOVA XR∪E et Y

Rlogi XR∪E et Z

135 07/15

Page 136: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 En guise de conclusion

Lglin XT et T

2. Analyse discriminante

ADpar/nopar XR et T

3. Classification and regression Tree

ArbReg XR∪E et Y

ArbCla XR∪E et T

4. Réseaux neuronaux

percep XR∪E et Y ou T

5. Agrégation de modèles

Bagging XR∪E et Y ou T

RandFor XR∪E et Y ou T

Boosting XR∪E et Y ou T

6. Support Vector Machine

SVM-R XR∪E et Y

SVM-C XR∪E et T

StratégiesLes stratégies classiques de la fouille de données consistent à enchaîner les étapes

suivantes :

1. Extraction de l’entrepôt des données éventuellement par sondage pour renforcerl’effort sur la qualité des données plutôt que sur la quantité.

2. Exploration• Tri à plat, et étude des distributions : transformation, recodage éventuel des

variables quantitatives, regroupement de modalités des variables qualitatives,élimination de variables (trop de données manquantes, quasi constantes, re-dondantes. . . ). Gestion des données manquantes et valeurs atypiques.

• Étude bivariée, recherche d’éventuelles relations non linéaires, de variables re-dondantes, d’incohérences.

• Étude multivariée, représentations en dimension réduite (ACP, AFCM) et clas-sification non-supervisée par classification ascendante hiérarchique (CAH) oukmeans ou stratégie mixte.

3. Apprentissage : régression ou discrimination (classification supervisée).• Itérer les étapes suivantes :

(a) Extraction d’un échantillon test,

(b) Estimation, optimisation (validation croisée) des modèles pour chacunedes méthodes utilisables.

(c) Prévision de l’échantillon test.

• Comparer les distributions et moyennes des erreurs de prévision, éventuelle-ment les courbes ROC.

• Choisir une méthode et le modèle associé de complexité “optimale” et le ré-estimer sur l’ensemble de l’échantillon.

4. Exploitation du modèle sur l’ensemble des données et diffusion des résultats.

2 Comparaison des résultatsLa procédure décrite ci-dessus a été systématiquement mise en œuvre en automa-

tisant dans R l’extraction aléatoire d’un échantillon test et les estimations, optimisa-tions des différents modèles. Les codes sont disponibles sous forme de scénarios sur lesite wikiwtat. La librairie caret (Kuhn, 2008)[1] s’avère très efficace pour mettre enœuvre cette démarche. L’optimisation des paramètres est réalisée par validation croisée.

Chaque échantillon test fournit donc une estimation sans biais de l’erreur de prévi-sion. La distribution de ces erreurs est alors représentée par des diagrammes en boîtes.En discrimination binaire, des courbes ROC complètent les résultats. Les figures sui-vantes synthétisent les résultats pour les données de cancer du sein, de chromatographieNIR (cookies), de prévision du pic d’ozone et enfin bancaires (appétence carte visa pre-mier). d’autres exemples sont traitées sur le site wikiwtat.

3 PiègesLes principaux pièges qui peuvent être rencontrés au cours d’une prospection

peuvent être le résultat d’un acharnement en quête de sens (data snooping). Cela si-gnifie qu’à force de creuser, contrairement à un prospecteur minier à la recherche dediamants bien réels, le prospecteur en données disposant d’un grand nombre de va-riables finit bien, en mode exploratoire, par trouver des relations semblant hautementsignificatives. Par exemple, au seuil classique, 5% des tests sont, à tort, significatifs etconduisent à des "faux positifs" ou des fausses corrélations. Il suffit donc d’en fairebeaucoup, de croiser beaucoup de variables, pour nécessairement trouver du "sens"dans des données. Encore une fois, il est préférable d’éviter le fonctionnement "Sha-dock" (cf. figure 10) : je n’ai qu’une chance sur un milliard de réussir ; je me dépêchedonc de rater le plus d’essais possibles.

En phase de modélisation, une sur-paramétrisation ou un sur-ajustement du modèlepeut parfaitement expliquer des données sans pour autant que les résultats soient ex-

136 07/15

Page 137: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 En guise de conclusion

err.lm err.tree err.neur err.bag err.rf err.svm

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.0

0.1

0.2

0.3

0.4

0.5

FIGURE 1 – Cancer : Diagrammes boîtes des taux d’erreurs. Le boosting estmis de côté pour des problèmes d’échelle et de comportement erratique prove-nant d’une focalisation extrême sur une observation imprévisible.

FIGURE 2 – Cookies : Résidus (apprentissage et test) des différents modèlesmettant en évidence la forte linéarité des données ainsi que les aspects volon-tairement atypiques de l’échantillon test original.

137 07/15

Page 138: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 En guise de conclusion

FIGURE 3 – Cookies : Diagrammes boîtes très proches des méthodes linéairesalors que les méthodes non-linéaires ne sont pas retenues car inefficaces. LesSVM (noyau linéaire) conduisent à la meilleure moyenne (0.70) devant la ré-gression ridge (0.84), elastic net (0.85), lasso, PLS (0.86)

FIGURE 4 – Ozone : Diagrammes boîtes des taux d’erreurs en régression.Meilleur comportement des SVM avec noyau linéaire (649) devant random fo-rest (666). L’analyse de covariance quadratique conduit à une moyenne élevée(774) mais reste utile pour l’interprétation.

FIGURE 5 – Ozone : Diagrammes boîtes des taux d’erreurs pour la prévisiondes dépassements de seuil. En moyenne, les deux stratégies (prévision en ré-gression ou directement du dépassement) sont finalement équivalentes pour lesmeilleures méthodes. Les moyennes se répartissent entre 11 % (random forest)et 14%.

138 07/15

Page 139: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 En guise de conclusion

FIGURE 6 – Ozone : Attention,l’échantillon test est petit et les courbes ROCsont fortement dispersées. Il est important d’en calculer une moyenne sur les50 échantillons tests.

FIGURE 7 – Ozone : Les courbes ROC moyennes, qui permettraient de déter-miner un seuil de déclenchement d’alerte, soulignent les meilleures comporte-ments des SVM et de Random forest après régression.

139 07/15

Page 140: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 En guise de conclusion

FIGURE 8 – Banque : Diagrammes boîtes des taux d’erreurs. En moyenne, lesméthodes basées sur des arbres l’emportent nettement avec celle d’agrégationde modèles (boosting 9%, ranfom forest et bagging 10 %) devant un arbre seul(11 %) très utile pour l’interprétation.

FIGURE 9 – banque : Les courbes ROC moyennes insistent sur le très boncomportement des agrégations de modèles (boosting, random forest, bagging)pour une très grande variété de choix de seuils contrairement à un arbre dediscrimination dont les qualité se détériorent pour des seuils faibles.

140 07/15

Page 141: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 En guise de conclusion

trapolables ou généralisables à d’autres données que celles étudiées. Les résultats deprévision seront donc entachés d’une forte erreur relative liée à la variance des estima-tions des paramètres. C’est toujours le problème de trouver un bon compromis entrele biais d’un modèle plus ou moins faux et la variance des estimateurs. Nous insistonsdonc sur les indispensables phases de choix de modèles et comparaison des méthodes.

4 Rôle du statisticien

4.1 Des compétences multiplesUne bonne pratique du Data Mining nécessite de savoir articuler toutes les méthodes

entrevues dans ce document. Rude tâche, qui ne peut être entreprise qu’à la conditiond’avoir très bien spécifié les objectifs de l’étude. On peut noter que certaines méthodespoursuivent les mêmes objectifs prédictifs. Dans les bons cas, données bien structurées,elles fourniront des résultats très similaires, dans d’autres une méthode peut se révélerplus efficace compte tenu de la taille de l’échantillon ou géométriquement mieux adap-tée à la topologie des groupes à discriminer ou encore en meilleure interaction avecles types des variables. Ainsi, il peut être important et efficace de découper en classesdes variables prédictives quantitatives afin d’approcher de façon sommaire une versionnon-linéaire du modèle par une combinaison de variables indicatrices. Cet aspect est parexemple important en régression logistique ou avec un perceptron mais inutile avec desarbres de décisions qui intègrent ce découpage en classes dans la construction du mo-dèle (seuils optimaux). D’autre part, les méthodes ne présentent pas toutes les mêmesfacilités d’interprétation. Il n’y a pas de meilleur choix a priori, seule l’expérience et unprotocole de test soigné permettent de se déterminer. C’est la raison pour laquelle deslogiciels généralistes comme SAS (module Enterprise Miner) ou la librairie caret deR ne font pas de choix et offrent ces méthodes en parallèle pour mieux s’adapter auxdonnées, aux habitudes de chaque utilisateur (client potentiel) et à la mode.

4.2 De l’utilité du statisticienLe travail demandé déborde souvent du rôle d’un statisticien car la masse et la com-

plexité des données peuvent nécessiter le développement d’interfaces et d’outils gra-phiques sophistiqués permettant un accès aisés aux données, comme à des résultats,par l’utilisateur finale à l’aide par exemple d’un simple navigateur sur l’intranet del’entreprise. Néanmoins, au delà de ces aspects plus "informatiques", l’objectif prin-cipal reste une “quête de sens” en vue de faciliter les prises de décision tout en enpréservant la fiabilité. Ainsi, la présence ou le contrôle d’une expertise statistique resteincontournable car la méconnaissance des limites et pièges des méthodes employéespeut conduire à des aberrations discréditant la démarche et rendant caducs les investis-

FIGURE 10 – Shadoks : Tant qu’à pomper, autant que cela serve à quelquechose !

sements consentis. En effet, il faut bien admettre, et faire admettre, que, même si unpetit quart d’heure suffit pour se familiariser avec une interface graphique conviviale,la bonne compréhension des méthodes employées nécessite plusieurs heures de coursou réflexion à Bac+5. Il devient tellement simple, avec les outils disponibles, de lancerdes calculs, que certains n’hésitent pas à comparer prospecteur de données et chauffeurde voiture en arguant qu’il n’est pas nécessaire d’être un mécanicien accompli pour sa-voir conduire. Néanmoins, la conduite d’une modélisation, d’une segmentation, d’unediscrimination, imposent à son auteur des choix plus ou moins implicites qui sont loind’être neutres et qui dépassent largement en complexité celui du choix d’un carburantpar le conducteur à la pompe.

4.3 Vers le Big DataLe volume des données générées et stockées pas les entreprises industrielles et celles

du e-commerce font franchir une nouvelle étape. Nous passons du TéraOctet au Péta-Octet. Comme expliqué rapidement en introduction, cette nouvelle étape engendre denouvelles approches tant pour les architectures des bases de données, la parallélisationdes calculs, que pour les algorithmes et méthodes mises en œuvre.

D’un point de vue informatique, une connaissance du nouveau standard Hadoop 2 est

2. Créé en 2009 et développé en Java par Doug Cutting au sein des projets de la fondation deslogiciels libres Apache. Il est inspiré des principes de MapReduce de Google.

141 07/15

Page 142: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 En guise de conclusion

vivement souhaitée. Il permet la création d’applications distribuées et “échelonnables”(scalables) sur des milliers de nœuds pour gérer des pétaoctets de données. Le principeest de découper et paralléliser (distribution) des tâches en lots de données afin de réduirelinéairement le temps (scalable) de calcul en fonction du nombre de nœuds. Hadoopdevient l’outil de référence du web mining et l’e-commerce.

D’un point de vue statistique / mathématique, le nouveau défi est la construction debases de représentation fonctionnelle et de modèles pertinents pour aborder et prendreen compte des structures de données complexes : géolocalisation sur des graphes, si-gnaux en temps réels, images 3D, séquences... Chaque problème, surtout industriel, né-cessite une approche spécifique issue d’une recherche originale dans le cadre souventd’une thèse, par exemple CIFRE, qu’un d’un développement d’ingénierie classique.Dans le cas de flots de données, l’aide à la décision devient adaptative ou séquentielle.

Références[1] Max Kuhn, Building Predictive Models in R Using the caret Package, Journal of

Statistical Software 28 (2008), no 5.

142 07/15

Page 143: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Statistique et déontologie scientifique

Statistique et déontologie scientifique

RésuméL’image sociale souvent peu flatteuse de la Statistique est illustréeà travers quelques problèmes de déontologie statistique et plus gé-néralement scientifique. Des exemples historiques ou plus récentsmettent en évidence falsifications et dissimulations triviales de don-nées. D’autres sont le résultat d’une utilisation abusive ou du dé-tournement de méthodes statistiques, notamment des tests d’aide àla décision. Ce dernier point est illustré par les controverses autourdu maïs OGM. Ces pratiques douteuses et bien trop répandues ontpoussé les associations des statisticiens les plus exposés à rédigerdes codes de déontologie ou de bonne pratique.Retour à l’introduction.

1 Introduction

1.1 Image “historique” de la Statistique

Depuis ses débuts ou tout du moins depuis le début du XIX-ième siècle,la Statistique bénéficie d’une renommée plus ou moins douteuse, certes parméconnaissance d’une discipline aux concepts difficiles mais aussi à cause denombreux abus.

Ainsi, en 1906 Mark Twain attribuait, sans doute à tort, à un premier ministrebritannique la trop célèbre maxime : There are three kinds of lies: lies, damnedlies, and statistics.

Évidemment les statisticiens académiques se sont fortement alarmés desmauvais usages de leur discipline et donc des mauvais procès qui leur étaientintentés. Dès décembre 1938, Jerome B. Cohen publie un article dans leJournal of the American Statistical Association 1 qui décrit : The misuse ofstatistics.

Darrel Huff (1954) [4] est l’auteur d’un bestseller très souvent réédité (figure

1. volume 33 N°204 pp 657-674

FIGURE 1 – Le livre illustré de Darrel Huff (1954) et un exemple de graphique“créatif” : la réalité (la hauteur de la grenouille) est faussée par l’impressionvisuelle (sa surface). Proscrire d’autant plus les graphiques faussement enperspective !

1) dans lequel il identifie et illustre plusieurs types de mensonges : falsifica-tion de données, biais d’échantillonnage, extrapolation, graphiques “créatifs”,hypothèses frauduleuses, incompétence...

Les exemples historiques montrent que le débat sur les mauvais usages in-nocents ou intentionnels de la Statistique est ancien. Il ne faudrait néanmoinspas penser qu’avec le temps et l’accroissement des connaissances, la place etl’image de cette discipline aient favorablement progressé. Strasak et al. (2007)de l’Université médicale d’Innsbruck ont publié Statistical errors in medicalresearch – a review of common pitfalls 2 ; titre auquel nous aimerions ajouter :pitfalls or fakes ?

1.2 Motivations

La rédaction de ce texte est motivée par une concentration d”affaires” qui ontsecoué ou qui régulièrement secouent l’environnement politico-médiatique :affaire du Mediator de Servier, conflits récurrents autour des OGM, crise fi-nancière omniprésente depuis 2008. Contribuant à former des professionnelsde la Statistique actifs dans des domaines très divers (figure 2), il me sembleimportant de les sensibiliser aux difficultés, voire aux pressions, auxquelles ilsvont se trouver professionnellement confrontés :

2. Swiss Med Wkly, 2007, 137, 44-49

143 07/15

Page 144: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Statistique et déontologie scientifique

FIGURE 2 – Les statisticiens travaillent dans des domaines “sensibles” d’unpoint de vue éthique et sociétale : autorisation de médicaments et veille sani-taire, critères d’affectation de crédits, produits et risques financiers...

• pression académique de publication (publish or perish) pour valider desrésultats et conclusions d’expériences,

• pressions commerciales pour justifier des produits plus ou moins “éthi-ques” : crédit renouvelable ou revolving (en cause dans 80% des dossiersde surendettement), instruments financiers douteux...,

• justifier de l’innocuité ou de l’efficacité de produits industriels (médica-ments, agroalimentaire, bio et nanotechnologies...),

• pressions politiques (sondages, statistiques publiques).Un seuil d’indignation étant largement dépassé, notamment avec le scan-

dale du Mediator, il nous a semblé important de mieux formaliser par écrit lecontenu de ces questions déontologiques en plus des remarques et commen-taires oraux intervenant en présence des étudiants. L’objectif est donc de faireréfléchir sur le rôle de la Statistique et les responsabilités de ses principaux ac-teurs quand il s’agit d’aider à l’évaluation des risques ou à la prise de décision.

La déontologie statistique n’est qu’un élément du débat beaucoup plus largesur l’éthique de la recherche scientifique. Le texte de ce document est volon-tairement ciblé sur le bon usage de la Statistique et également daté par cer-tains événements de l’année 2011 mais son contenu restera malheureusementd’actualité compte tenu du sujet. Ainsi, dans le numéro 36 de mars 2012, lemagazine La Recherche évoque le premier séminaire Parlons Éthique orga-nisé par l’Institut Curie/Inserm (Unité 932). Cet article cite Melissa Ander-son, intervenue lors de ce séminaire à propos de sa participation à une en-quête anonyme auprès de 3247 scientifiques. Cette enquête a révélé que 33%

des interrogés avaient manqué à la déontologie. Parmi le “top 10 “ des mau-vaises pratiques se classent en premier : Falsifier ou “arranger” les donnéeset en septième : Omettre de présenter des données parce qu’elles seraient encontradiction avec vos précédentes recherches. Dans le même ordre d’idée, Fa-nelli (2009) [3] propose dans cet article une méta-analyse de 18 enquêtes surles falsifications de la recherche et principalement des données. Pour résumerbrièvement, 2% de scientifiques admettent avoir eux-mêmes falsifié ou modi-fié des données et ce pourcentage monte à 14% à propos du comportementdes autres collègues. Cette étude retrouve le chiffre de 33% de manquementgénéral déontologique, chiffre porté à 72% à propos des autres collègues.

1.3 Contenu

Une première section rappelle quelques fraudes célèbres et évidentes de fal-sifications ou dissimulations de données parmi celles qui ont évidemment étédécelées dans différents domaines de la recherche ; celles-ci sont relativementfaciles à mettre en évidence ou prouver dès que la supercherie est soupçonnée.En revanche, une section suivante aborde un exemple de malversation plus ha-bile concernant une mauvaise utilisation de méthodes statistiques (i.e. les tests)ou leur utilisation hors limite de validité ou encore sans contrôle explicite d’unemarge d’erreur. Alors que les falsifications de données ne laissent plus guèrede doute et se terminent même devant les tribunaux, les mauvais usages de laStatistique peuvent générer des querelles d’experts lourdes et sans conclusiontranchée ne serait-ce que par le coût des expérimentations qu’il faudrait entre-prendre pour arriver à une réponse significative. Une dernière section tâche defaire le tour des démarches d’associations professionnelles soucieuses de cesdifficultés et qui ont proposé des codes de déontologie statistique.

2 Falsifications et dissimulationsInternet et plus précisément Wikipedia regorgent d’informations sur les fal-

sifications et fraudes scientifiques historiques ainsi que sur les mauvais usages(misuse) de la Statistique.

2.1 Statistiques publiques

Nos collègues britanniques rappellent que leurs Politicians use statistics likedrunkards use lampposts : not for illumination, but for support. Nos homo-

144 07/15

Page 145: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Statistique et déontologie scientifique

logues français n’ont rien à leur envier. Les exemples sont malheureusementtrès, trop nombreux. Citons une affaire qui montre nettement les relations dif-ficiles entre monde politique et statistique officielle publique. Le 25 mai 2011,Claude Guéant, Ministre de l’Intérieur, s’exprime sur Europe 1 :

les deux tiers des échecs scolaires, c’est l’échec d’enfants d’immi-grés.

Il a fallu un mois et une menace sérieuse de grève de la part des syndicats del’INSEE pour obliger la direction de cet organisme public à rétablir les chiffresà travers un communiqué officiel le 27/06/2011 :

La proportion d’enfants d’immigrés parmi les élèves sortis sans qua-lification de l’enseignement secondaire peut être estimée à environ16% pour les enfants de familles immigrées. Si on y ajoute les en-fants de familles ’mixtes’, cette proportion passe à environ 22%.

“ Le ministre, accusé par l’opposition de stigmatiser les immigrés pour séduireles électeurs d’extrême droite, avait affirmé s’appuyer sur des études de l’Inseeet a envoyé plusieurs droits de réponse à des médias qui écrivaient que seschiffres étaient faux.” (Le Monde du 28/06/2011).

2.2 Sciences humaines

Dans ce domaine aussi, les exemples seraient nombreux. Citons celui his-torique de l’affaire Burt. Sir Cyril Burt, professeur de Psychologie à Londresen 1931 fut Président de la British Psychology Society puis éditeur en chef duJournal of Statistical Psychology. Il reste célèbre pour des contributions à laStatistique (les tableaux de contingences multiples portent son nom) et aussipour son influence sur l’organisation du système éducatif britannique : Burtayant “prouvé” l’influence prépondérante de l’hérédité sur l’intelligence (me-surée par le QI de Binet), cela justifierait d’orienter par un examen (elevenplus) les élèves dès 11 ans vers une filière primaire, moyenne ou supérieure(grammar-modern-technical) en fonction de leurs notes.

Burt affirme, au cours de 3 études (1955, 1958, 1966), que la corrélation desQIs entre couples de jumeaux homozygotes élevés dans des milieux différentsdès leur enfance est significativement plus élevée que la corrélation entre lesQIs de couples de jumeaux hétérozygotes élevés dans un même milieu social.Il montrerait ainsi l’importance de la notion de quotient intellectuel et leurhéritabilité.

Ce n’est qu’au début des années 70 que de sérieux doutes furent émis ou deviolentes accusations prononcées sur la pertinence de ces travaux : référence àdes publications inexistantes ou introuvables et surtout des corrélations iden-tiques à la 3ème décimales entre des études séparées de plus de 20 ans ! Lescarnets d’expérience de Burt n’ont pas été retrouvés et des doutes plus que sé-rieux ont été soulevés sur la réalité des expériences notamment celles de 1966.

2.3 Sciences du vivant

L’exemple suivant illustre la pression considérable qui pèse sur la recherchescientifique, son financement, la renommée de ses acteurs et leur carrière. Ildéborde largement le cadre d’un mauvais usage de méthodes statistiques.

Hwang Woo-suk est un sud-coréen qui est (fut) très réputé dans la recherchesur le clonage (le chien Snuppy) et les cellules souches. Lui et son équipepublient 2 articles dans Science en 2004 sur le clonage d’un embryon humainpour la production de cellules souches, et en 2005 sur la production de 11lignées de cellules souches à partir de cellules de peau de patients adultes.Les conséquences thérapeutiques de tels résultats seraient considérables. Cesrésultats lui valurent le titre de “Supreme Scientist” assorti de prix financierstrès substantiels et de dons très généreux de fondations pour ses recherches.

A la suite de nombreuses péripéties scientifico-médiatiques, une commis-sion d’enquête de l’Université de Séoul dénonce la falsification (fabrication dedonnées) en décembre 2005 et ce chercheur est inculpé le 12 mai 2006 pour“fraude, détournements de fonds et violation des lois sur la bioéthique”. Lesmontants des détournements, des corruptions, des achats illégaux d’ovocytesse chiffrent en centaines de millions de dollars. Il a été déclaré coupable enoctobre 2009 de détournements de fonds et violation des lois sur la bioéthique,mais pas de fraude, puis condamné à 2 ans de prison avec sursis.

2.4 Sciences de la terre

Claude Allègre fut ministre de l’Éducation national, de la recherche et de latechnologie de 1997 à 2000 (gouvernement Jospin). Il est membre de l’Aca-démie des Sciences et a reçu la médaille d’or du CNRS (1994) pour des tra-vaux en Géochimie. Il est l’auteur de très nombreux livres de vulgarisationscientifique dont un en 2010 [1] d’entretiens avec le journaliste Dominique deMontvalon.

145 07/15

Page 146: Apprentissage Statistique, Modélisation, Prévision, Data Mining

4 Statistique et déontologie scientifique

FIGURE 3 – En noir, courbe de température “dessinée” par C. Allègre à partirdes Travaux de Grudd et rectifiée (en rouge) par Håkan Grudd lui-même. Il aégalement extrapolé très approximativement une concentration de CO2

Dans ce dernier livre, il formule de graves accusations contre le GIEC(Groupe d’experts intergouvernemental sur l’évolution du climat) qu’il qualifiede “système mafieux ayant conspiré pour faire passer aux yeux de l’ensembledu monde un mythe pour un fait scientifique”. Ce livre suscite de nombreusescontroverses et accusations de “mensonges” ou “erreurs factuelles”.

Reprenons une seule de ces accusations qui concerne le graphique de lafigure 3, accusation détaillée sur le blog Sciences2 de Sylvain Huet, journa-liste à Libération.

Håkan Grudd est un paléoclimatologue de l’Université de Stockholm spé-cialiste de l’étude de l’évolution du climat à partir de l’observation des anneauxdes arbres (dendroclimatologie). Il publie en 2008 un article 3 proposant unecourbe des températures estivales au nord de la Suède pour la période 500–2004. Claude Allègre s’approprie cette courbe, la “complète”, et enrôle im-plicitement l’auteur dans des conclusions formellement rejetées par l’universi-taire suédois qui dénonce les supercheries. Celles-ci consistent à faire prendrecette courbe locale en temps (été) et lieu (nord de la Suède) pour une courbe

3. Tornetraask tree-ring width and density AD 500–2004 : a test of climatic sensitivity anda new 1500-year reconstruction of north Fennoscandian summers, Climate Dynamics (2008) 31,pp843-857.

générale, à en modifier le tracé à partir de 1900 puis à l’extrapoler très approxi-mativement jusqu’en 2100 sans aucune justification et avec le seul objectif desoutenir ses arguties plus polémiques que scientifiques.

Bien sûr, à la seule vue de la courbe rouge, un statisticien familier des sé-ries chronologiques identifie une tendance, plutôt à la baisse, et une périodicitéde l’ordre de 250 ans. Tout laisse à penser que Claude Allègre a prolongé àla “louche” cette courbe sans évidemment tenir compte de tous les travaux demodélisation entrepris par la communauté scientifique active en climatologieet les paramètres de forçage (concentration de CO2) ou covariables suscep-tibles d’intervenir. Cette communauté s’est d’ailleurs mobilisée (600 signa-taires) pour réclamer l’organisation d’un vrai débat sur le climat (Le Monde du9 avril 2010).

La démarche des climat-sceptiques est aussi très développée aux États-Unis.Un livre traduit en français fait une analyse détaillée (Oreskes et Conway,2012) [6] des motivations de “scientifiques” qui ont successivement mis encause la nocivité du tabac, l’origine du trou dans la couche d’ozone, les pluiesacides et maintenant la réalité et les causes du changement climatique.

2.5 Industrie pharmaceutique

Avant d’être autorisé à la vente, un médicament suit une procédure très ré-glementée d’essais cliniques.

• Préclinique : recherche et identification de molécules ayant potentielle-ment un effet thérapeutique. Essais sur des animaux (souris) pour évaluerces effets et déterminer la dose active (modèles de pharmacocinétique).Une fois qu’une molécule est identifiée pour une cible thérapeutique don-née, des essais sont engagés sur l’homme.

• Phase I : Groupe de 20 à 80 sujets sains volontaires pour évaluer la tolé-rance et d’éventuels effets secondaires.

• Phase II : Groupe de 200 à 300 sujets malades pour commencer à évaluerl’efficacité, rechercher la dose optimale et toujours des effets secondairespossibles.

• Phase III : Ce sont plusieurs milliers de sujets malades qui participent àdes études comparatives en double aveugle. L’effet du médicament candi-dat est comparé à celui d’un placebo et à celui du traitement de référence.La preuve statistique doit être apportée d’un effet significatif du médica-

146 07/15

Page 147: Apprentissage Statistique, Modélisation, Prévision, Data Mining

5 Statistique et déontologie scientifique

ment par rapport au placebo et celle d’une amélioration par rapport autraitement de référence.

• A l’issue de ces essais, l’Afssaps prononce ou pas l’Autorisation de Misesur le Marché (AMM)

• Phase IV (post-marketing) : Les visiteurs médicaux assurent la promo-tion des nouveaux médicaments et “recrutent” des médecins prescripteurspour la détection d’effets secondaires ou de complications tardives afinque ces éventuels problèmes soient archivés par le laboratoire.

Dans le cas du Mediator, plusieurs dysfonctionnements ont été attestés, dys-fonctionnements donnant suite à des poursuites judiciaires. Le Mediator,comme toute amphétamine, a des propriétés bien connues de “coupe faim”(anorexigène). Or ce médicament a obtenu une autorisation comme antidiabé-tique ; le député Gérard Bapt, qui a présidé la commission parlementaire sur leMediator note : “A aucun moment (...) on n’a pu trouver un compte rendu decommission pour une autorisation de mise sur le marché qui valide cette indi-cation pour le diabète” (Libération du 05/08/2011). Servier est poursuivi pourescroquerie envers l’Assurance Maladie et les Mutuelles qui ont porté plainte.En effet, considéré comme antidiabétique, celui-ci fut remboursé au maximumalors que seules ses capacités de “coupe faim” sont attestées.

Beaucoup plus grave, ce “médicament” a probablement causé 3100 hospita-lisations et une estimation d’au moins 1300 morts entre 1976 et 2009 en France(article paru dans Pharmacoepidemiology & Drug Safety cité dans un articlede Libération du 9-02-2012) ; il a fallu attendre novembre 2009 pour que l’Af-ssaps décide de retirer le Mediator du marché alors que de nombreux acteursavaient attiré l’attention des pouvoirs publiques sur les risques cardiaques etque le même type de médicament, l’Isoméride, a été interdit dès 1997 (LeMonde du 16/11/2010). Deux informations judiciaires ont été ouvertes, l’unepour “tromperie aggravée”, l’autre pour “blessures et homicides involontai-res”.

Indépendamment des problèmes de conflits d’intérêts au sein de l’Afssapset de commissions parlementaires, nous pouvons nous interroger sur la façondont ont été traitées et analysées les données normalement recueillies lors dela phase iv des essais cliniques.

FIGURE 4 – L’environnement politico-scientifico-médiatique autour de l’auto-risation de cultiver le maïs transgénique MON810

3 Abus méthodologiqueLes exemples précédents mettent en évidence des cas de manquements dé-

ontologiques évidents par falsifications et/ou dissimulations de données quiconduisent à des procédures judiciaires. Dans d’autres cas, la “preuve” de lafraude ou du manquement éthique n’est pas aussi simple à apporter et relèved’une évaluation experte afin de mettre en évidence une utilisation abusived’une méthode statistique. L’exemple du maïs OGM MON810 va permettred’illustrer cette situation. Le site de Marc Lavielle, membre du Haut Comitépour les Biotechnologies, fournit des détails précis sur cette affaire politico-scientifico-médiatique (fig. 4).

3.1 Un exemple de maïs OGM

La chenille d’un papillon, la pyrale du maïs, est responsable de dégâts consi-dérables sur les cultures de cette céréale (fig. 5). Une bactérie présente naturel-lement dans le sol sait produire une protéine, insecticide “naturel” et autoriséen agriculture biologique qui permet de lutter contre la pyrale.

147 07/15

Page 148: Apprentissage Statistique, Modélisation, Prévision, Data Mining

6 Statistique et déontologie scientifique

FIGURE 5 – La pyrale du maïs, la chenille, ses dégats et Baccillus thuringien-sis.

Principe d’un OGM : le maïs MON810

Dans le cas du maïs MON810, l’objectif recherché par la production dece maïs obtenu par transgénèse (fig. 6) est assez simple à appréhender. Unefois identifié le ou les gènes susceptibles de produire la protéine “insecticide”,ceux-ci sont extraits de l’ADN de la bactérie et intégrés par des techniques degénie génétique à l’ADN de cellules de maïs. Les cellules obtenues sont culti-vées jusqu’à l’obtention de semences d’une variété de maïs OGM “résistante”à la pyrale.

Les bénéfices attendus sont une meilleure production et une réduction del’utilisation des pesticides de synthèse.

Les risques sont :• des effets potentiels sur d’autres organismes, en particulier les insectes

pollinisateurs (abeilles),• la dissémination, contamination d’autres plantes par ces mêmes gènes,• l’accroissement potentiel de la résistance de la pyrale par mutations,• des éventuels problèmes de santé humaine à long terme.C’est en particulier ce dernier point qui a été étudié par Monsanto et divers

organismes de recherche publics ou non.

3.2 Tests de toxicité sub-chronique

Ciblons l’illustration des études sur l’éventuelle toxicité à moyen terme dece maïs OGM. Le protocole expérimental est relativement simple à mettre enœuvre mais nécessite des moyens conséquents et bien dimensionnés. Celuimené par Monsanto peut se résumer de la façon suivante :

1. Plusieurs groupes de rats sont nourris pendant 13 semaines :• des groupes tests (effectif n) sont nourris avec le maïs MON810,

FIGURE 6 – Processus de transgénèse.

• des groupes témoins (même effectif n) avec un équivalent sans OGM.

2. Différentes mesures (poids des rats, de chacun des organes, paramètresbiochimiques...) sont réalisées au cours de l’expérience et à la fin de celle-ci après avoir sacrifié les rats.

Question biologique

La nourriture des rats (OGM ou pas) a-t-elle un effet sur le développementde ceux-ci ? Ou, pour prendre un exemple, le maïs MON810 affecte-t-il lepoids du foie de ces rats ?

On note µ1 le poids moyen du foie des rats d’un groupe témoin, et µ2 celuides rats d’un groupe test. Sans discuter le bien-fondé de ces hypothèses carcelles-ci ne sont pas “critiques” dans cette étude, les variables de poids des ratssont supposées gaussiennes ou normales et les variances sont supposées égalesà une même valeur σ2.

148 07/15

Page 149: Apprentissage Statistique, Modélisation, Prévision, Data Mining

7 Statistique et déontologie scientifique

3.3 Test statistique

La question biologique revient alors à tester l’égalité de ces moyennes. Sicelles-ci sont jugées significativement différentes, nous conclurons à une in-fluence de l’alimentation sur le développement des rats et à l’absence d’in-fluence si l’égalité des moyennes est acceptée. Dans le cas considéré et avecles hypothèses mentionnées (normalité des variables de poids, égalité des va-riances qu’il est d’usage de vérifier préalablement par un test de Fisher), le testde Student est un usage courant.

Test de Student d’égalité des moyennes

Ce test s’intéresse à l’hypothèse dite H0 : µ1 = µ2 ou δ = µ1−µ2 = 0et à l’hypothèse alternative H1 : µ1 6= µ2.

Attention, la façon de poser l’hypothèse H0 n’est pas “neutre”, elle présumeimplicitement l”innocence” du maïs et c’est aux données, aux expériences,d’apporter la preuve du contraire, le rejet de l’hypothèse H0 au profit de H1.En effet, le risque (noté α) de se tromper ou de rejeter à tort l’hypothèse H0

au profit de l’hypothèse alternative H1 et celui (noté β) d’accepter à tort cettemême hypothèse ne sont pas identiques. Ceci se résume de façon générale dansle tableau ci-dessous :

Accepter H0 Rejeter H0

H0 vraie Probabilité 1− α Probabilité αH1 vraie Probabilité β Probabilité 1− β

• Si H0 est vraie, la probabilité (1− α) est celle d’une décision correcte etα est appelé risque ou erreur de première espèce.

• Si H1 est vraie, la probabilité β est le risque ou erreur de deuxième es-pèce d’accepter à tort H0 tandis que la probabilité (1− β) est celle d’unedécision correcte, elle est appelée puissance du test.

Risque α de première espèce

Le risque ou seuil α est celui qui est plus particulièrement contrôlé par l’ex-périence. Une fois observé un échantillon, les moyennes µ1 et µ2 sont respec-tivement estimées par les moyennes empiriques (calculées sur l’échantillon)µ1 et µ2. La variance σ2 est également estimée par la variance empirique σ2.La question se pose sous la forme suivante :

L’écart aléatoire (car dépendant de l’échantillon) observé entre µ1

et µ2 est-il significativement grand ou peut-il être considéré commedû au seul hasard ?

Sous l’hypothèse que H0 est vérifiée la quantité

t =

√n

2

µ1 − µ2

σ

appelée statistique de test, est la réalisation d’une variable aléatoire qui suitune loi dite de Student à (2n− 2) degrés de liberté dont la fonction de densitéest représentée figure 7. La zone rouge représente α = 5% de la surface ouprobabilité tandis que le reste représente (1 − α) = 95%. Si la statistique detest observée sur l’échantillon est, en valeur absolue, suffisamment grande pour“tomber” dans la zone rouge de cette densité, la différence entre les moyennesest jugée significativement différente de 0 ; l’hypothèse H0 est rejetée. Ou en-core, la probabilité de se tromper en rejetant H0 est inférieure au seuil préala-blement déterminé α, et le test est jugé significatif.

Puissance de test

Une autre question concerne le contrôle de l’erreur β d’accepter à tord l’hy-pothèse H0 (innocuité du maïs MON810) alors que c’est H1 qui est vraie (in-fluence de la consommation de MON810). Cette erreur (figure 8) ou risque de2ème espèce dépend de plusieurs paramètres :

• du choix du seuil α (en général α = 5%),• de l’écart réel µ1 − µ2 (hypothèse H1 vérifiée),• de la dispersion des valeurs ou variance σ2,• et aussi de la taille n des groupes ou échantillons.

Plus précisément, il est possible de montrer que plus n croît, plus β décroît.Ou encore, plus n est grand et plus il est possible de détecter significativementune différence réelle mais faible entre les moyennes µ1 et µ2.

Voila toute la difficulté du débat autour d’un test statistique lié à une ex-périmentation. Si la taille n de l’échantillon est suffisamment grande, il estpossible d’obtenir un test statistiquement significatif alors que la différenceobservée n’a pas de significativité biologique. Réciproquement, si la taille nest trop petite, la puissance de test devient insuffisante et grand est le risque βd’accepter à tort H0.

149 07/15

Page 150: Apprentissage Statistique, Modélisation, Prévision, Data Mining

8 Statistique et déontologie scientifique

FIGURE 7 – SiH0 vraie : Densité d’une loi de Student (18 ddl) et valeurs seuilsou quantiles de cette loi déterminant un risque α = 5% de première espèce enrouge de rejeter à tort H0.

FIGURE 8 – Si H1 vraie : Erreur de 2ème espèce (en rouge) de rejeter à tortH1 pour un test de Student (18 ddl) de seuil α = 5% ; à gauche lorsque lesmoyennes sont peu séparées (1 écart-type) et à droite lorsqu’elle sont bienséparées (3,5 écarts-types).

FIGURE 9 – Devise Shadok : la vérité est qu’il n’y a pas de vérité (y compriscelle-ci).

Dans le cas du MON810, la principale critique énoncée est justement que letest a été posé (H0) en considérant implicitement l’innocuité de ce maïs alorsque la taille des groupes (n = 10 !) était bien trop faible pour assurer unepuissance de test raisonnable. Seules de grosses différences auraient pu êtrestatistiquement détectées.

Tests multiples

Dans l’autre camp, le Criigen (Comité de recherche et d’information indé-pendantes sur le génie génétique) a proposé une autre étude selon un protocolesimilaire mais sur une durée (5 ans et 14 semaines) beaucoup plus longue etavec l’observation de très nombreuses variables (500). L’étude qui a été pu-bliée dans l’Int. Jour. of Biological Sciences souffre également d’une insuffi-sance. En effet, ayant calculé 500 statistiques de test sur le même échantillon,on s’attend à ce qu’en moyenne, 5 × 500/100 conduisent à des tests “statis-tiquement significatifs” alors que ce sont très probablement des faux positifsdus au seul fait du hasard. En effet, lorsqu’un correctif classique de tests mul-tiples (Bonferroni) est appliqué, aucune des différences observées ne restentsignificatives.

150 07/15

Page 151: Apprentissage Statistique, Modélisation, Prévision, Data Mining

9 Statistique et déontologie scientifique

Conclusion sur le MON810

Les exemples présentés illustrent des utilisations injustifiées de pratiquesstatistiques :

• le test est posé de façon favorable (hypothèse H0) au maïs MON810 encontradiction avec le principe de précaution qui voudrait que les donnéesde l’expérience apportent la preuve 4 de l’innocuité,

• risque de 2ème espèce inconnu d’accepter à tortH0 alors que la très faibletaille de l’échantillon rend très élevé ce risque ;

• mise en œuvre incontrôlée de tests multiples.En plus de ces problèmes, Marc Lavielle souligne d’autres manquements dansl’utilisation de données de référence ou historiques, la gestion des donnéesatypiques, l’analyse de données répétées (courbes de poids longitudinales) oudes approximations gaussiennes abusives. Ils justifient l’article du Monde du10/02/2010 qui titre : OGM : opposants et promoteurs renvoyés dos à dos.Les études statistiques publiées sont insuffisantes pour permettent de conclure,avec une confiance raisonnable, dans un sens ou dans l’autre. Le chercheur doitavoir l’humilité de reconnaître qu’il sait juste qu’il ne sait pas (figure 9).

3.4 D’autres abus

L’ingénierie financière

Au moment de la crise financière de 2008 provoquée par l’éclatement dela bulle immobilière aux États-Unis (subprimes), Michel Rocard dit dans uneinterview du Monde (01/11/2008) :

Des professeurs de maths enseignent à leurs étudiants comment fairedes coups boursiers. Ce qu’ils font relève, sans qu’ils le sachent, ducrime contre l’humanité.

La violence de cette accusation est-elle justifiée ? Ce type de débat soulève laquestion classique du discernement entre l’invention ou la création de l’outild’une part et l’usage qui en est fait d’autre part : bombe atomique, internet...Prenons l’exemple du modèle dit de Black & Scholes (1973) reposant sur l’in-tégration d’équations différentielles stochastiques (formule d’Itô, 1940). Cemodèle permet le calcul de la valeur théorique du prix d’un produit financier(une option) à partir du prix de l’action sous-jacente.

4. Mettre en œuvre un test dit de comparaison dans lequel l’hypothèse H0 pose µ1 6= µ2

Ces travaux ont valu en 1997 à Robert Merton et Myron Scholes le prix(“Nobel d’Économie”) de la banque de Suède en honneur à Alfred Nobel. Cemodèle et ses extensions ont permis le développement considérable du mar-ché des options sur les places financières mais ils nécessitent explicitementdes hypothèses très simplificatrices dont certaines relatives à la volatilité (va-riance), la normalité (mouvement brownien), la rationalité des investisseurs...ne sont pas vérifiées. Dans ses livres sur l’approche fractale des marchés, Be-noît Mandelbrot (2009, [5])dénonce ces simplifications abusives qui rendentles modèles, certes calculables, mais déconnectés des réalités financières. Lasuccession des crash boursiers semblerait bien justifier ces critiques sur desmodèles qui sous-estiment gravement les risques.

Dans la séquence d’activités suivantes, à partir de quel moment une respon-sabilité “morale”, si ce n’est pénale, est-elle engagée ?

1. Travailler sur les propriétés des équations différentielles stochastiques,2. construire de nouveaux modèles plus sophistiqués d’ingénierie financière,3. utiliser des modèles connus faux (violation des hypothèses simplifica-

trices de calcul) en relativisant leur pertinence,4. écrire des programmes de trading automatique (algotrading) appliquant

ces modèles sans se soucier de leur pertinence,5. construire de nouveaux instruments financiers en les habillant d’équations

sophistiquées pour vendre leur “scientificité”,6. ...

Les sondages

Depuis de nombreuses années, les statisticiens regroupés au sein de la So-ciété Française de Statistique et dans d’autres associations professionnelles(administrateurs INSEE) tentent de faire évoluer la loi sur la publication dessondages. Ce lobbying a permis, par le passé, d’obliger les instituts à préciserle nombre de personnes enquêtées et le mode d’échantillonnage. Il serait eneffet très fallacieux de chercher à faire croire qu’une enquête auprès de lec-teurs d’un journal, de visiteurs d’un site internet ou au mieux d’abonnés dutéléphone acceptant de répondre... a la même précision qu’un sondage sur unéchantillon aléatoire tiré dans une liste électorale.

Les médias n’ont toujours pas obligation de publier conjointement aux ré-sultats d’un sondage, les modes de redressement et les marges d’incertitude.

151 07/15

Page 152: Apprentissage Statistique, Modélisation, Prévision, Data Mining

10 Statistique et déontologie scientifique

En mars 2011, deux Sénateurs (Hugues Portelli UMP et Jean-Pierre SueurPS) ont déposé une proposition de loi visant à mieux encadrer les sondagespolitiques. Le débat qui s’en est suivi a été pour le moins tendancieux (LeMonde du 17/03/2011). La loi a été votée à l’unanimité par le Sénat mais ja-mais inscrite à l’ordre du jour de l’Assemblée Nationale. Il est certes difficilede préciser une marge d’incertitude lors d’un échantillonnage par la méthodedes quotas mais il serait instructif d’indiquer a minima celle qui serait obtenuepar un sondage aléatoire simple sur le même effectif. Pourquoi ne pas ajouterà la publication d’un sondage une mention rédigée sous la forme "étant obte-nus à partir d’un échantillon de taille 1000, les résultats sont affectés d’unemarge d’incertitude ; dans les conditions optimales d’un sondage aléatoire demême taille, la marge d’incertitude est de 3 points, c’est-à-dire, la proportionexprimée en pourcentage plus ou moins 3%". La plupart des sites détaillant ex-plicitement les sondages annoncent une marge d’incertitude entre 2 et 3%, sansdoute optimiste, mais restent très discrets sur les pratiques de redressement ju-gées relevant du secret de “fabrication”. Certes le discours journalistique quicommente longuement des évolutions d’1 ou 2 points d’intentions de vote enserait fortement relativisé.

4 Codes de déontologie statistiquePour réagir aux dérives constatées dans l’usage de leur discipline, les sta-

tisticiens professionnels se sont mobilisés pour rédiger des codes de bonnepratique. Une des principales motivations de ce travail est aussi la structura-tion d’un collectif afin que chaque statisticien puisse mieux se protéger despressions auxquelles il pourrait être soumis de la part de sa hiérarchie, de soncommanditaire, du pouvoir politique. Dans ce contexte, il faudrait en fait dis-tinguer la Statistique publique 5 dont la crainte principale est d’être inféodéeau pouvoir politique, la Statistique académique en relation avec la recherchescientifique et enfin celle utilisée dans la sphère économique, industrielle oucommerciale.

Voici une sélection de quelques éléments d’informations.

5. Voir à ce propos le compte-rendu du séminaire organisé par la Société Française de Statis-tique sur l’Indépendance de la Statistique publique le 15/12/2008

4.1 En france

En France, l’association des administrateurs de l’INSEE (AIS) et l’asso-ciation des statisticiens économistes anciens élèves de l’ENSAE (ASEC) ontrédigé un code déontologique accessible sur le site du syndicat CGT de l’IN-SEE et introduit par Padieu (1991, [7]). Ce texte a été rédigé pour répondreaux pressions exercées par le pouvoir politique sur la définition des chiffrestrès sensibles du chômage dans les années soixante-dix. C’est pour défendreles positions de ce texte que ce syndicat s’est mobilisé contre les allégations deClaude Guéant (cf. section 1.1) sur la scolarité des enfants d’immigrés.

L’Autorité de la Statistique publique veille au respect des principes d’in-dépendance professionnelle, d’impartialité, d’objectivité, de pertinence et dequalité dans son élaboration et sa diffusion.

De son côté, l’association des épidémiologistes de langue française proposedes Recommandations de Déontologie et bonnes pratiques en Épidémiologie(2007) dans un document de 37 pages.

4.2 Niveau européen

Eurostat est une direction générale de la Commission Européenne chargéede la mise en œuvre de la politique communautaire dans le domaine statistiqueet de fournir une information statistique de qualité.

L’Europe est également dotée d’un• Conseil consultatif européen pour la gouvernance statistique créé par le

Parlement européen et le Conseil en 2008 chargé d’évaluer, en toute indé-pendance, le Système statistique européen ;

• Comité consultatif européen de la Statistique ;• Code de bonnes pratiques de la statistique européenne adopté par le Co-

mité du programme statistique le 24 février 2005 et promulgué dans larecommandation de la Commission du 25 mai 2005 sur l’indépendance,l’intégrité et la responsabilité des services statistiques nationaux et com-munautaires.

L’existence de tous ces comités, conseils et directions montrent les enjeux desstatistiques au sein de la gestion de la Communauté européenne.

152 07/15

Page 153: Apprentissage Statistique, Modélisation, Prévision, Data Mining

11 Statistique et déontologie scientifique

4.3 Niveau international

Pour les acteurs économiques, la Chambre de Commerce Internationale(ICC), organisation mondiale des entreprises, s’est associée avec l’organismeESOMAR qui regroupe les fournisseurs d’études de marchés et enquêtesd’opinion. Ils se rallient au Code International ICC/ESOMAR de pratiquesloyales en matière d’études de marché et d’opinion (1995).

Pour les acteurs académiques et publiques, l’Institut International de Statis-tique a remis à jour sa Déclaration d’Éthique professionnelle (2010).

5 ConclusionBien entendu, les questions de déontologie statistique s’inscrivent dans le

cadre plus large d’une éthique de la recherche scientifique. Cette réflexion dif-ficile devient plus active ces dernières années à la suite de quelques scandalesretentissants comme celui de l’affaire Hwang Woo-suk de Corée du Sud qui àla particularité de violer beaucoup de principes éthiques ; falsification de résul-tats et manquements bioéthiques graves. La recherche sur les cellules souchesimpliquant des embryons humains, le clonage du vivant, soulèvent en effet desquestions politiques et éthiques nettement plus complexes que celles du seulbon usage de la Statistique. Notons simplement que cette dernière probléma-tique a émergé chronologiquement plus tôt par le rôle très spécifique que cettediscipline joue dans les sciences expérimentales comme support de preuve dela significativité d’un test d’hypothèse.

Ces questions éthiques sont évidemment d’autant plus pressantes que lamondialisation fait éclater les frontières de la recherche dans une compétitioninternationale exacerbée et des concentrations de moyens financiers jamais at-teints. Des conférences sont organisées spécifiquement sur la mise en placed’un code d’éthique mondial de la recherche scientifique (Anderson, 2011[2]) :

• A Amsterdam en 2011 : ALLEA. European Code for Conduct on Re-search Integrity. European Federation of National Academies of Sciencesand Humanities

• A Singapour en 2010 : Anon. Second World Conference on Research In-tegrity

Derrière cette réflexion s’en cache une autre sur les modes d’évaluation de la

recherche et donc sur son financement et la promotion des chercheurs. L’éva-luation de la recherche peut-elle reposer sur de seuls indicateurs bibliomé-triques ? Conduisant au seul objectif de publier (publish or perish) parfois encontradiction ou en conflit avec celui de l’avancement des connaissances pourle bien commun.

Références[1] Claude Allègre, L’imposture climatique ou la fausse écologie, Plon, 2010.

[2] Melissa Anderson, Vers un code d’éthique mondial de la recherche scien-tifique, 2011, Accès site.

[3] Daniele Fanelli, How Many Scientists Fabricate and Falsify Re-search ? A Systematic Review and Meta-Analysis of Survey Data, PLoSONE 4 (2009), no 5, e5738, http://dx.doi.org/10.1371%2Fjournal.pone.0005738.

[4] Darrel Huff, How to lie with Statistics, Norton & Company, 1954.

[5] Benoît Mandelbrot, Une approche fractale des marchés : risquer, perdreet gagner, deuxième éd., Odile Jacob, 2009.

[6] N. Oreskes et M. Conway, Les Marchands de doute, ou comment une poi-gnée de scientifiques ont masqué la vérité sur des enjeux de société telsque le tabagisme et le réchauffement climatique, Le Pommier, 2012.

[7] René Padieu, La déontologie des statisticiens, Sociétés Contemporaines 7(1991), 35–61.

153 07/15

Page 154: Apprentissage Statistique, Modélisation, Prévision, Data Mining

1 Introduction au bootstrap

Introduction au bootstrap

Résumé

Présentation succincte du principe du bootstrap.

Retour au plan du cours

1 IntroductionLa motivation du bootstrap 1 (Efron, 1982 ; Efron et Tibshirani, 1993) est

d’approcher par simulation (Monte Carlo) la distribution d’un estimateurlorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent lorsquel’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacerdes hypothèses probabilistes pas toujours vérifiées ou même invérifiables pardes simulations et donc beaucoup de calcul.

Le principe fondamental de cette technique de ré-échantillonnage est de sub-stituer à la distribution de probabilité inconnue F , dont est issu l’échantillond’apprentissage, la distribution empirique F qui donne un poids 1/n à chaqueréalisation. Ainsi on obtient un échantillon de taille n dit échantillon bootstrapselon la distribution empirique F par n tirages aléatoires avec remise parmi lesn observations initiales.

Il est facile de construire un grand nombre d’échantillons bootstrap surlesquels calculer l’estimateur concerné. La loi simulée de cet estimateur estune approximation asymptotiquement convergente sous des hypothèses rai-sonnables 2 de la loi de l’estimateur. Cette approximation fournit ainsi des es-timations du biais, de la variance, donc d’un risque quadratique, et même desintervalles de confiance de l’estimateur sans hypothèse (normalité) sur la vraieloi.

1. Cette appellation est inspirée du baron de Münchhausen (Rudolph Erich Raspe) qui se sortitde sables mouvants par traction sur ses tirants de bottes. En France “bootstrap” est parfois traduitpar à la Cyrano (acte III, scène 13) en référence à ce héros qui prévoyait d’atteindre la lune en seplaçant sur une plaque de fer et en itérant le jet d’un aimant.

2. Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations.

1.1 Principe du plug-in

Soit x = x1, . . . , xn un échantillon de taille n issue d’une loi incon-nue F sur (Ω,A). On appelle loi empirique F la loi discrète des singletons(x1, . . . , xn) affectés des poids 1/n :

F =

n∑i=1

δxi .

Soit A ∈ A, PF (A) est estimée par :

(P )F (A) = PF (A) =n∑

i=1

δxi(A) =

1

nCardxi ∈ A.

De manière plus générale, soit θ un paramètre dont on suppose que c’est unefonction de la loi F . on écrit donc θ = t(F ). Par exemple, µ = E(F ) est unparamètre deF suivant ce modèle. Une statistique est une fonction (mesurable)de l’échantillon. Avec le même exemple :

µ = x =1

n

n∑i=1

xi

et x est la statistique qui estime µ. On dit que c’est un estimateur “plug-in” et,plus généralement,

DÉFINITION 1. — On appelle estimateur plug-in d’un paramètre θ de F , l’es-timateur obtenu en remplaçant la loi F par la loi empirique :

θ = t(F ).

comme dans le cas de l’estimation de µ : µ = E(F ) = x.

1.2 Estimation de l’écart-type de la moyenne

Soit X une variable aléatoire réelle de loi F . On pose :

µF = EF (X), et σ2F = VarF (X) = EF [(X − µF )2];

154 07/15

Page 155: Apprentissage Statistique, Modélisation, Prévision, Data Mining

2 Introduction au bootstrap

Ce qui s’écrit :X ∼ (µF , σ

2F ).

Soit (X1, . . . , Xn) n variables aléatoires i.i.d. suivant aussi la loi F . PosonsX = 1

n

∑ni=1Xi. Cette variable aléatoire a pour espérance µF et pour variance

σ2F /n. On dit aussi que la statistique

X ∼ (µF , σ2F /n).

Remarquons qu’en moyennant plusieurs valeurs ou observations, on réduit lavariance inhérente à une observation. De plus, sous certaines conditions sur laloi F et comme résultat du théorème de la limite centrale, X converge en loivers la loi normale.

L’estimateur plug-in de σF est défini par :

σ2 = σF2

= σ2F

= VarF (X)

= EF [(X − EF (X))2] =1

n

n∑i=1

(Xi −X)2.

L’estimateur plug-in de σF est (légèrement) différent de celui du maximum devraisemblance. L’estimateur plug-in est en général biaisé mais il a l’avantaged’être simple et de pouvoir s’appliquer à tout paramètre θ même lorsque l’onne peut pas calculer la vraisemblance du modèle.

2 Estimation bootstrap d’un écart-type

Soit θ = s(x) un estimateur quelconque (M.V. ou autre) de θ pour un échan-tillon x donné. On cherche à apprécier la précision de θ et donc à estimer sonécart-type.

2.1 Échantillon bootstrap

Avec les mêmes notations, F est la distribution empirique d’un échantillonx = x1, . . . , xn.

DÉFINITION 2. — On appelle échantillon bootstrap de x un échantillon detaille n noté

x∗ = x∗1, . . . , x∗n

suivant la loi F ; x∗ est un ré-échantillon de x avec remise.

2.2 Estimation d’un écart-type

DÉFINITION 3. — On appelle estimation bootstrap de l’écart-type σF (θ) deθ, son estimation plug-in : σF (θ).

Mais, à part dans le cas très élémentaire où, comme dans l’exemple ci-dessus,θ est une moyenne, il n’y a pas de formule explicite de cet estimateur. Une ap-proximation de l’estimateur bootstrap (ou plug-in) de l’écart-type de θ est ob-tenue par une simulation (Monte-Carlo) décrite dans l’algorithme ci-dessous.

Pour un paramètre θ et un échantillon x donnés, on note θ = s(x) l’esti-mation obtenue sur cet échantillon. Une réplication bootstrap de θ est donnéepar : θ∗ = s(x∗).

ALGORITHME 1 : Estimation de l’écart-typeSoit x un échantillon et θ un paramètre.for b = 1 à B do

Sélectionner 1 échantillon bootstrap x∗b = x∗b1 , . . . , x∗bn . par tirageavec remise dans x.Estimer sur cet échantillon : θ∗(b) = s(x∗b).

end forCalculer l’écart-type de l’échantillon ainsi construit :

σ2B =

1

B − 1

B∑b=1

(θ∗(b)− θ∗(.))2

avec θ∗(.) =1

B

B∑b=1

(θ∗(b).

σB est l’approximation bootstrap de l’estimation plug-in recherchée del’écart-type de θ.

2.3 Estimation du biais

Avec les mêmes notations :

θ = t(F ) et θ = s(x),

155 07/15

Page 156: Apprentissage Statistique, Modélisation, Prévision, Data Mining

3 Introduction au bootstrap

le biais d’un estimateur s’exprime comme

BF (θ) = EF [s(x)]− t(F ).

Un estimateur est sans biais si E[θ] = θ. Le biais est aussi une mesure de laprécision d’un estimateur et on a vu que, généralement, les estimateurs plug-inétaient biaisés.

DÉFINITION 4. — On appelle estimateur bootstrap du biais, l’estimateurplug-in :

BF (θ) = BF (θ) = EF [s(x∗)]− t(F ).

Comme pour l’écart-type, il n’existe généralement pas d’expression analytiqueet il faut avoir recours à une approximation par simulation.

ALGORITHME 2 : Estimation bootstrap du biaisSoit x un échantillon et θ un paramètre.for b = 1 à B do

Sélectionner 1 échantillon bootstrap x∗b = x∗b1 , . . . , x∗bn . par tirageavec remise dans x.Estimer sur cet échantillon la réplication bootstrap de θ : θ∗(b) = s(x∗b).

end forApprocher EF [s(x∗)] par θ∗(.) = 1

B

∑Bb=1(θ∗(b)

L’approximation bootstrap du biais est : BB(θ) = θ∗(.)− θ.

3 ComplémentsEn résumé, on peut dire que le bootstrap repose sur une hypothèse très élé-

mentaire : θ∗ se comporte par rapport à θ comme θ par rapport à θ. La connais-sance de θ∗ (distribution, variance, biais. . . ) renseigne alors sur celle de θ.

Beaucoup d’autres compléments sont à rechercher dans la littérature et enparticulier dans Efron et Tibshirani (1993). Il est ainsi possible de définir desintervalles de confiance bootstrap en considérant la distribution et les quan-tiles de θ∗ ou même encore des tests à partir des versions bootstrap de leurstatistique.

Le bootstrap rapidement décrit ici est dit “non-paramétrique” car la loi em-pirique F est une estimation non-paramétrique de F . Dans le cas où F seraitconnue à un paramètre près, il existe également une version dite paramétriquedu bootstrap.

Pour des estimateurs plus compliqués (fonctionnels) comme dans le cas dela régression non-paramétrique par noyau ou spline, il est facile de construiregraphiquement une enveloppe bootstrap de l’estimateur à partir de réplicationsde l’échantillon. Celle-ci fournit généralement une bonne appréciation de laqualité de l’estimateur obtenu. Attention, dans le cas de la régression il esten principe plus justifié de répliquer le tirage sur les résidus plutôt que sur lesobservations. Ce sont les résidus qui sont en effet supposés i.i.d. et qui vérifientdonc les hypothèses nécessaires mais cette approche devient très sensible àl’hypothèse sur la validité du modèle. Il est finalement d’usage de considérerun échantillon bootstrap issu des données initiales (Efron et Tibshirani) :

z∗b = (x∗b1 , y

∗b1 ), . . . , (x∗b

n , y∗bn );

c’est ce qui a été choisi dans ce document.

Enfin, l’estimation bootstrap est justifiée par des propriétés asymptotiques(convergence en loi) lorsque le nombre de réplications (B) croit conjointementavec la taille de l’échantillon (n). Comme la loi empirique F converge (en loi)vers celle théorique, la distribution du paramètre θ = t(F ) converge (en loi)vers celle théorique de θ = t(F ).

156 07/15