Apprentissage automatique, Régression Ridge et LASSO

Post on 31-May-2015

5.611 views 0 download

description

Présentation des notions de base pour la régression pénalisée et comparaison de divers méthodes.

Transcript of Apprentissage automatique, Régression Ridge et LASSO

Quand le cowboy fait le tour de la montagne

Apprentissage automatique, régression Ridge et LASSO

Plan

La prédiction pour mieux comprendre Régression linéaire et sélection de modèle Régression Ridge LASSO Comparaison des méthodes de sélection

par simulation Comparaison des méthodes sur un

exemple pratique

La prédiction pour mieux comprendre

Inférence basée sur la signification statistique des paramètres d’un modèle

Inférence basée sur la précision des prédictions d’un modèle Biais des prédictions Variance des prédictions

La prédiction pour mieux comprendre

Sélection de modèle pour la prédiction Critère d’information d’Akaike (AIC) Données d’entraînement vs Données

de test Validation Croisée (CV)

Régression linéaire et sélection de modèle

Y = βX +ε

Régression linéaire et sélection de modèle

On trouve β qui minimise:

2

1 1∑ ∑= =

⎟⎟⎠

⎞⎜⎜⎝

⎛−

N

i

p

jjiji xy β

Régression linéaire et sélection de modèle

Estimation par moindres carrés Sélection de modèle

Procédure « stepwise » Conserver seulement les variables

significatives à chaque étape Conserver seulement la variable qui réduit

au maximum l’AIC

Régression Ridge

On trouve β qui minimise:

∑ ∑∑= ==

+⎟⎟⎠

⎞⎜⎜⎝

⎛−

N

i

p

jj

p

jjiji xy

1 1

2

2

1

βλβ

Régression Ridge

Estimation des β par moindres carrés

Estimation du λ par CV Ce choix fait effectivement la sélection

du modèle.

Régression Ridge

La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β

β j2 ≤ s

j=1

p

Régression Ridge

Permet d’estimer un modèle en présence de covariables fortement corrélées.

Estimation dépendante de l’échelle des variables Centrer et réduire toutes les variables

continues

LASSO

On trouve β qui minimise:

∑∑ ∑== =

+⎟⎟⎠

⎞⎜⎜⎝

⎛−

p

jj

N

i

p

jjiji xy

1

2

1 1

βλβ

LASSO

À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés Algorithme quadratique employé pour

l’estimation Estimation du λ par CV

Ce choix fait effectivement la sélection du modèle

LASSO

Comme pour la régression Ridge, centrer et réduire les variables continues

Comparaison des méthodes

Avantage de la régression Ridge Les effets de variables explicatrices

très corrélées se combinent pour se renforcer mutuellement

Avantage du LASSO Les effets peu important sont estimés à

0, donc le modèle sélectionné aura un nombre de variables d < p.

Comparaison des méthodes

Désavantage de la régression Ridge Toutes les variables incluses

initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.

Désavantage du LASSO En présence de variables explicatrices

corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.

Comparaison des méthodes

La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes

On cherche β qui minimise:

( )∑ ∑∑= ==

⎥⎦

⎤⎢⎣

⎡ +−+⎟⎟⎠

⎞⎜⎜⎝

⎛−

N

i

p

jjj

p

jjiji xy

1 1

2

2

1

12

1βαβαλβ

Comparaison des méthodes par simulation

Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates

Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement

Données simulées

Variable Modèle Régression Stepwise Ridge LASSO Elastic Net

Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38

X2 -0.71 -0.42

X3 0.68 0.06

X4 -0.35 -0.60

X5 -5 -17.13 -17 -15.18 -15.63 -15.58

X6 1.66 1.83 0.63 0.35 0.33

X7 5 14.42 14.43 12.26 12.81 12.75

X8 0.17 -0.54

X9 -1.26 -1.21 -1.14 -0.24 -0.24

X10 1.43 1.48 0.89

X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62

X12 1.30 1.30 1.18

X13 -0.06 0.08

X14 3 46.71 46.47 42.86 44.52 44.42

X15 -0.45 -0.68

X16 0.02 0.84

X17 3.48 3.04 2.96 0.71 0.71

X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16

X19 -1.68 -0.81

X20 -1.24 0.14

X21 0.15 0.15

Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14

Écart-type 18.59 18.29 18.87 17.23 17.24

Comparaison de méthodesTrajectoire Ridge

Comparaison des méthodesTrajectoire LASSO

Comparaison des méthodesTrajectoire Elastic Net

Exemple pratique:Polychlorobiphényles et pesticides organochlorés

Données du CSHA: 1848 sujets 28 Covariables, dont 5 variables

dichotomiques et 1 variables catégoriques

Variable réponse: maladie d’Alzheimer

Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement

Données pratiques

Variable Régression Stepwise Ridge LASSO Elastic Net

Intercepte -1.64 0.23 -1.29 -1.45 -1.45

BPC105 -0.38 0.001

BPC118 0.35 0.003

BPC138 -0.25 0.003

BPC153 -0.56 -0.10 0.004

BPC156 0.17 0.004

BPC163 0.74 0.11 0.005

BPC170 -0.14 0.001

BPC180 0.02 0.0001

BPC183 0.77 0.10 0.004

BPC187 -0.61 -0.08 0.0009

BPC99 0.08 0.003

cisNonachlor -0.63 -0.04 -0.005

Hexachlorobenzene 0.01 0.0004

Oxychlordane -0.43 -0.001

ppDDE 0.13 0.004

ppDDT -0.07 -0.002

BetaHCH -0.09 -0.003

transNonachlor 0.68 -0.003

Éducation -0.26 -0.04 -0.006 -0.03 -0.04

Âge 0.52 0.08 0.02 0.39 0.4

Lipides totaux -0.02 -0.007

IMC -0.16 -0.03 -0.01 -0.09 -0.1

Sexe 0.38 0.04 0.02 0.08 0.09

Région 2 -0.88 -0.14 -0.03 -0.2 -0.23

Région3 0.18 0.03 0.16 0.17

Région4 -0.05 -0.05 0.005

Région5 -1.20 -0.18 -0.04 -0.51 -0.54

APOE4 0.88 0.14 0.04 0.55 0.57

Area -0.01 0.004

Cigarette 0.22 -0.01

Alcohol -0.25 -0.03 -0.02 -0.006 -0.02

Erreur Entraînement 20% 20% 21% 21% 21%

Erreur Test 26% 25% 25% 26% 25%

Exemple pratiqueTrajectoire Ridge

Exemple pratiqueTrajectoire LASSO

Exemple pratiqueTrajectoire Elastic Net

Exemple pratiqueComparaison des courbes ROC: Entraînement

Exemple pratiqueComparaison des courbes ROC: Test

Logiciels

R glmnet (Friedman, Hastie, Tibshirani)

SAS Proc GLMSELECT (LASSO et Stepwise) Proc REG, MIXED, LOGISTIC, PHREG,

etc… (Ridge)

Référence

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008