Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 ·...

35
DM/ML Régression linéaire Jamal Atif [email protected] Université Paris-Dauphine, M2ID 2015-2016 1 / 41 Jamal Atif DM/ML

Transcript of Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 ·...

Page 1: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

DM/MLRégression linéaire

Jamal [email protected]

Université Paris-Dauphine, M2ID

2015-2016

1 / 41 Jamal Atif DM/ML

Page 2: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Copyright

Ce cours est adapté librement des ressources suivantes :

▶ Livre : Régression avec , Pierre-André Cornillon et EricMatzner- Lober, Springer 2010.

2 / 41 Jamal Atif DM/ML

Page 3: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Exemple introductif

Un analyste en webmarketing s’intéresse à la relation de causalité entre lesfrais de publicité et les ventes d’un produit donné. En particulier il cherche àsavoir s’il est possible d’expliquer le nombre de ventes par les frais depublicité. Il collecte l’échantillon des données suivant :

Pub. (e) Ventes (unité)1 12 13 24 25 4

Il s’agit alors :▶ de trouver un modèle permettant d’expliquer Ventes en fonction de Pub,▶ de prédire les valeurs de Ventes par de nouvelles valeurs de Pub.

⇒ Régression

3 / 41 Jamal Atif DM/ML

Page 4: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Nuage de points

▶ Pub (x) est une variable indépendante, dite variableexplicative ou encore de régression

▶ Ventes (y) est dépendante dite réponse.

4 / 41 Jamal Atif DM/ML

Page 5: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Première démarcheExaminer le nuage de points

Trouver une relation entre la variable x et la variable y, telleque :

yi ≈ f (xi), i = 1, · · · ,n5 / 41 Jamal Atif DM/ML

Page 6: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle

yi ≈ f (xi)

; Se fixer une famille de fonction F (ex : fonctions linéaires) etune fonction de codt L telle que :

n∑i=1

L(y − f (x)) est minimale pour une fonction f ∈ F donnée,

où n représente le nombre de données disponibles (taille del’échantillon) et L une fonction de codt ou de perte (Loss).

f = argminf∈F

n∑i=1

L(y − f (x)), i = 1, · · · ,n

Exemples de L :▶ L(x) =| x |,▶ L(x) = x2,▶ etc.

6 / 41 Jamal Atif DM/ML

Page 7: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle de régression linéaire simple

▶ F est une famille de fonctions linéaires (affines) de R dansR.

▶ On suppose disposer d’un échantillon de n points (xi, yi).

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

▶ εi modélisent le bruit et sont supposés aléatoires (les pointsn’étant jamais parfaitement alignées sur une droite).

▶ β1 et β2 sont les paramètres inconnues du modèles.

7 / 41 Jamal Atif DM/ML

Page 8: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle de régression linéaire simpleHypothèses :

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

1. le bruit est une variable aléatoire d’espérance nulle et devariance inconnue fixe (homoscédacité) : E(εi) = 0 etVar(εi) = σ2,

2. εi et εj sont décorrélés pour tout i = j : cov(εi, εj) = 0

3. εi une v.a distribuée selon une loi normale de moyennenulle et de variance σ2 : εi ∼ N (0, σ2).

8 / 41 Jamal Atif DM/ML

Page 9: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle de régression linéaire simpleHypothèses :

Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Nuage de points (xi, yi).

9 / 41 Jamal Atif DM/ML

Page 10: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle de régression linéaire simpleHypothèses :

Homoscédacité vs Hétéroscédacité

Nuage de points (xi, εi). εi ∼ N (0, xi)

10 / 41 Jamal Atif DM/ML

Page 11: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle de régression linéaire simpleHypothèses :

Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Distribution des erreurs.

11 / 41 Jamal Atif DM/ML

Page 12: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modèle de régression linéaire simpleHypothèses :

Dépendance vs indépendance du bruit Ex : yi = 2xi + 1 + εi

A gauche (xi, yi), au milieu (xi, εi) et à droite la distribution de ε.εi+1 ∼ N (εi, 100)

12 / 41 Jamal Atif DM/ML

Page 13: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateur des Moindres carrés Ordinaires

f = argminf∈F

n∑i=1

L(yi − f (xi)), i = 1, · · · ,n

On fixe L(x) = x2 et f (x) = β1 + β2x

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2

13 / 41 Jamal Atif DM/ML

Page 14: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateur des Moindres carrés OrdinairesCela revient à minimiser le carré du bruit εi pour chaque i :

εi = yi − β1 + β2xi = yi − yi

yi : le point observé, et yi le point de la droite théorique.

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2,

= argminβ1,β2

n∑i=1

(yi − yi)2,

= argminβ1,β2

n∑i=1

ε2i ,

= argminβ1,β2

||ε||2

14 / 41 Jamal Atif DM/ML

Page 15: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Illustration

Au tableau !

15 / 41 Jamal Atif DM/ML

Page 16: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Calcul des estimateurs de β1 et β2

▶ On notera S(β1, β2) =∑n

i=1(yi − β1 − β2xi)2

▶ S(β1, β2) est quadratique donc convexe et différentiable ⇒admet un minimum unique en (β1, β2).

▶ On calcule les points pour lesquelles les dérivées partiellesde S en β1 et β2 s’annulent. On obtient les équationsnormales suivantes :

∂S∂β1

= −2

n∑i=1

(yi − β1 − β2xi) = 0

∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

16 / 41 Jamal Atif DM/ML

Page 17: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Calcul des estimateurs de β1 et β2

∂S∂β1

= −2n∑

i=1

(yi − β1 − β2xi) = 0

⇒β1n + β2

n∑i=1

xi =

n∑i=1

yi

⇒β1 = y − β2x.

17 / 41 Jamal Atif DM/ML

Page 18: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Calcul des estimateurs de β1 et β2

∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

⇒β1

n∑i=1

xi + β2

n∑i=1

x2i =

n∑i=1

xiyi

⇒β2 =

∑xiyi −

∑xiy∑

x2i −∑

xix=

∑xi(yi − y)∑xi(xi − x) =

∑(xi − x)(yi − y)∑(xi − x)(xi − x)

18 / 41 Jamal Atif DM/ML

Page 19: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Quelques remarques

▶ La relation β1 = y − β2x montre que la droite des moindrescarrés passe par le centre de gravité des nuages (x, y).

▶ Les expressions obtenues pour β1 et β2 montrent que cesdeux estimateurs sont linéaires par rapport au vecteur y.

▶ L’estimateur β2 peut s’écrire (exercice de TD) :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

→ La variation de β1 et β2 vient seulement de ε

19 / 41 Jamal Atif DM/ML

Page 20: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Quelques propriétés de β1 et β2

Sous les hypothèses 1 et 2 (centrage, décorrélation ethomoscédacité) β1 et β2 sont des estimateurs sans biais de β1 etβ2.

Nous savons que :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

Dans cette expression, seuls les bruits εi sont aléatoires d’espérance nulle.Nous avons donc :

E(β2) = β2

Pour β1, on part de l’expression :

β1 = y − β2x,

d’où l’on tire :

E(β1) = E(y)− xE(β2) = β1 + xβ2 − xβ2 = β1

20 / 41 Jamal Atif DM/ML

Page 21: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Interprétation géométriqueLe problème de régression peut prendre la forme matricielle :y = Ab + ε, avec

A =

1 x1...

...1 xn

,b =

[β1β2

], ε =

ε1...εn

21 / 41 Jamal Atif DM/ML

Page 22: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Cas d’erreurs gaussiennes

Hypothèses supplémentaires sur le modèle :1. εi ∼ N (0, σ2)

2. εi sont mutuellement indépendants

Il s’en suit :

∀i ∈ {1, · · · ,n} yi ∼ N (β1 + β2xi, σ2)

22 / 41 Jamal Atif DM/ML

Page 23: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateurs du maximum de vraisemblanceLa vraisemblance vaut

L(y;β1, β2, σ2) =

n∏i=1

N (β1 + β2xi, σ2)

=

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − β1 − β2xi)2

]

=

(1√2πσ2

)n

exp[− 1

2σ2S(β1, β2)

]

⇒ Trouver (β1, β2, σ2) qui maximisent la vraisemblance.⇒ Pour simplifier le calcul on prend la log-vraisemblance :log(L).

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)

23 / 41 Jamal Atif DM/ML

Page 24: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateurs du maximum de vraisemblanceβ1mv, β2mv

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)

▶ Maximiser par rapport à (β1, β2) revient à minimiser−S(β1, β2).

⇒ Les estimateurs du maximum de vraisemblance de β1 et β2sont égaux aux estimateurs des moindres carrés.

β1mv = β1, β2mv = β2

24 / 41 Jamal Atif DM/ML

Page 25: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateurs du maximum de vraisemblanceσ2

mv

Il reste à maximiser logL(y; β1, β2, σ2) par rapport à σ2.

∂L(y; β1, β2, σ2)

∂σ2= − n

2σ2+

1

2σ4S(β1, β2)

= − n2σ2

+1

2σ4

n∑i=1

(yi − β1 − β2xi)2

∂L(y; β1, β2, σ2)

∂σ2mv

= 0 ⇒ σ2mv =

1

n

n∑i=1

εi2

▶ L’estimateur du maximum de vraisemblance de σ2 est différent del’estimateur MCO σ2.

▶ L’estimateur du maximum de vraisemblance de σ2 est donc biaisé. Eneffet E(σ2

mv) =1n

∑E(ε2i ) = n−2

n σ2

⇒ Ce biais est d’autant plus négligeable que le nombre d’observations estgrand.

25 / 41 Jamal Atif DM/ML

Page 26: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Régression linéaire multipleExemple

T12 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7V 9.25 -6.15 -4.92 11.57 -6.23 2.76 10.15 13.5 21.27 13.79

N12 5 7 6 5 2 7 4 6 1 4O3 115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.8

TABLE : 10 données journalières de température, vent, nébulosité etozone.

Modèle :O3i ≈ f (Ti,Vi,Ni)

f =argminf∈F

n∑i

L(yi − f (xi))

F ={f : Rd → R, f (x) = f (x1, x2, · · · , xd) =d∑

j=1

βjxj}

26 / 41 Jamal Atif DM/ML

Page 27: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Modélisation, suite

yi = βix1i + β2x2

i + · · ·+ βdxdi + ϵi, i = 1, · · · ,n

= βTxi + ϵi

Ecriture matricielle :

y = Xβ + ϵy1y2......

yn

=

1 x1

1 · · · xd1

1 x12 · · · xd

2... · · · · · · · · ·... · · · · · · · · ·1 x1

n · · · xdn

β1β2...βd

+

ϵ1ϵ2......ϵn

27 / 41 Jamal Atif DM/ML

Page 28: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Solution MCO

β =argminβ∈Rd

n∑i=1

(yi − βTxi)2

=argminβ∈Rd

||y − Xβ||22

β = (XTX)−1XTy

Matrice de Projection :

PX = (XTX)−1XT

28 / 41 Jamal Atif DM/ML

Page 29: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateurs du Maximum de vraisemblance

Modèleyi = βTxi + ϵi ∼ N (βTxi, σ

2)

Vraisemblance :

L(y, β, σ2) =n∏

i=1

fY(yi) =

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − βTxi)2

]

=

(1√2πσ2

)n

exp[− 1

2σ2||y − Xβ||22

]Log-vraisemblance

LL(y, β, σ2) = −n2

log 2π − n2

logσ2 −− 1

2σ2||y − Xβ||22

⇒ βmv = β = (XTX)−1XTy

29 / 41 Jamal Atif DM/ML

Page 30: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Régression non-linéaire

Modèle :

fβ(x) =M−1∑i=0

βjϕj(x)

= (β0, · · · , βM−1)

ϕ0(x)...

ϕM−1(x)

= βTϕ(x)

oI les ϕj(x) sont dites fonctions de base

30 / 41 Jamal Atif DM/ML

Page 31: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Exemples de fonctions de baseCas linéaire

ϕj(x) = xj,M = d + 1

Régression polynomialeCas unidimensionnel

ϕj(x) = xj

Régression noyauFonctions de base gaussiennes

ϕj(x) = exp(− (x−µj)

2

2σ2

)

31 / 41 Jamal Atif DM/ML

Page 32: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateurs du maximum de vraisemblanceModèle

yi = βTϕ(xi) + ϵi ∼ N (βTϕ(xi), σ2)

Vraisemblance (iid) :

L(y, β, σ2) =

n∏i=1

fY(yi) =

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − βTϕ(xi))2

]

Log-vraisemblance

LL(y, β, σ2) = −n2

log 2π − n2

logσ2 − 1

2σ2

n∑i=1

(yi − βTϕ(xi))2

Posons

S(β) =1

2

n∑i=1

(yi − βTϕ(xi))2

32 / 41 Jamal Atif DM/ML

Page 33: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Estimateurs du maximum de vraisemblance

∇S(β) = −n∑

i=1

(yi − βTϕ(xi))ϕ(xi)T

D’oIn∑

i=1

yiϕ(xi)T − βT

(n∑

i=1

ϕ(xi)ϕ(xi)T

)= 0

=⇒ βmv = (ΦTΦ)−1ΦTy

Avec Φ la matrice dite du plan dexpérience ou design matrix

Φ =

ϕ0(x1) ϕ1(x1) · · · ϕM−1(x1)ϕ0(x2) ϕ1(x2) · · · ϕM−1(x2)

......

......

ϕ0(xn) ϕ1(xn) · · · ϕM−1(xn)

33 / 41 Jamal Atif DM/ML

Page 34: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Régression de Ridge

Régularisation L2

1

2

n∑i=1

(yi − βTϕ(xi))2 +

λ

2||β||22

Solutionβ =

(λI +ΦTΦ

)−1ΦTy

34 / 41 Jamal Atif DM/ML

Page 35: Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 · DM/ML Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université Paris-Dauphine,

Régression Lasso

Régularisation L1

1

2

n∑i=1

(yi − βTϕ(xi))2 +

λ

2||β||1

35 / 41 Jamal Atif DM/ML