Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 ·...

DM/MLRégression linéaire

Jamal [email protected]

Université Paris-Dauphine, M2ID

2015-2016

1 / 41 Jamal Atif DM/ML

Copyright

Ce cours est adapté librement des ressources suivantes :

▶ Livre : Régression avec , Pierre-André Cornillon et EricMatzner- Lober, Springer 2010.


Exemple introductif

Un analyste en webmarketing s’intéresse à la relation de causalité entre lesfrais de publicité et les ventes d’un produit donné. En particulier il cherche àsavoir s’il est possible d’expliquer le nombre de ventes par les frais depublicité. Il collecte l’échantillon des données suivant :

Pub. (e) Ventes (unité)1 12 13 24 25 4

Il s’agit alors :▶ de trouver un modèle permettant d’expliquer Ventes en fonction de Pub,▶ de prédire les valeurs de Ventes par de nouvelles valeurs de Pub.

⇒ Régression


Nuage de points

▶ Pub (x) est une variable indépendante, dite variableexplicative ou encore de régression

▶ Ventes (y) est dépendante dite réponse.


Première démarcheExaminer le nuage de points

Trouver une relation entre la variable x et la variable y, telleque :

yi ≈ f (xi), i = 1, · · · ,n5 / 41 Jamal Atif DM/ML

Modèle

yi ≈ f (xi)

; Se fixer une famille de fonction F (ex : fonctions linéaires) etune fonction de codt L telle que :

n∑i=1

L(y − f (x)) est minimale pour une fonction f ∈ F donnée,

où n représente le nombre de données disponibles (taille del’échantillon) et L une fonction de codt ou de perte (Loss).

⇕

f = argminf∈F

n∑i=1

L(y − f (x)), i = 1, · · · ,n

Exemples de L :▶ L(x) =| x |,▶ L(x) = x2,▶ etc.


Modèle de régression linéaire simple

▶ F est une famille de fonctions linéaires (affines) de R dansR.

▶ On suppose disposer d’un échantillon de n points (xi, yi).

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

▶ εi modélisent le bruit et sont supposés aléatoires (les pointsn’étant jamais parfaitement alignées sur une droite).

▶ β1 et β2 sont les paramètres inconnues du modèles.


Modèle de régression linéaire simpleHypothèses :

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

1. le bruit est une variable aléatoire d’espérance nulle et devariance inconnue fixe (homoscédacité) : E(εi) = 0 etVar(εi) = σ2,

2. εi et εj sont décorrélés pour tout i = j : cov(εi, εj) = 0

3. εi une v.a distribuée selon une loi normale de moyennenulle et de variance σ2 : εi ∼ N (0, σ2).



Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Nuage de points (xi, yi).



Homoscédacité vs Hétéroscédacité

Nuage de points (xi, εi). εi ∼ N (0, xi)



Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Distribution des erreurs.



Dépendance vs indépendance du bruit Ex : yi = 2xi + 1 + εi

A gauche (xi, yi), au milieu (xi, εi) et à droite la distribution de ε.εi+1 ∼ N (εi, 100)


Estimateur des Moindres carrés Ordinaires

f = argminf∈F

n∑i=1

L(yi − f (xi)), i = 1, · · · ,n

On fixe L(x) = x2 et f (x) = β1 + β2x

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2


Estimateur des Moindres carrés OrdinairesCela revient à minimiser le carré du bruit εi pour chaque i :

εi = yi − β1 + β2xi = yi − yi

yi : le point observé, et yi le point de la droite théorique.

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2,

= argminβ1,β2

n∑i=1

(yi − yi)2,

= argminβ1,β2

n∑i=1

ε2i ,

= argminβ1,β2

||ε||2


Illustration

Au tableau !


Calcul des estimateurs de β1 et β2

▶ On notera S(β1, β2) =∑n

i=1(yi − β1 − β2xi)2

▶ S(β1, β2) est quadratique donc convexe et différentiable ⇒admet un minimum unique en (β1, β2).

▶ On calcule les points pour lesquelles les dérivées partiellesde S en β1 et β2 s’annulent. On obtient les équationsnormales suivantes :

∂S∂β1

= −2

n∑i=1

(yi − β1 − β2xi) = 0

∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0



∂S∂β1

= −2n∑

i=1

(yi − β1 − β2xi) = 0

⇒β1n + β2

n∑i=1

xi =

n∑i=1

yi

⇒β1 = y − β2x.



∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

⇒β1

n∑i=1

xi + β2

n∑i=1

x2i =

n∑i=1

xiyi

⇒β2 =

∑xiyi −

∑xiy∑

x2i −∑

xix=

∑xi(yi − y)∑xi(xi − x) =

∑(xi − x)(yi − y)∑(xi − x)(xi − x)


Quelques remarques

▶ La relation β1 = y − β2x montre que la droite des moindrescarrés passe par le centre de gravité des nuages (x, y).

▶ Les expressions obtenues pour β1 et β2 montrent que cesdeux estimateurs sont linéaires par rapport au vecteur y.

▶ L’estimateur β2 peut s’écrire (exercice de TD) :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

→ La variation de β1 et β2 vient seulement de ε


Quelques propriétés de β1 et β2

Sous les hypothèses 1 et 2 (centrage, décorrélation ethomoscédacité) β1 et β2 sont des estimateurs sans biais de β1 etβ2.

Nous savons que :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

Dans cette expression, seuls les bruits εi sont aléatoires d’espérance nulle.Nous avons donc :

E(β2) = β2

Pour β1, on part de l’expression :

β1 = y − β2x,

d’où l’on tire :

E(β1) = E(y)− xE(β2) = β1 + xβ2 − xβ2 = β1


Interprétation géométriqueLe problème de régression peut prendre la forme matricielle :y = Ab + ε, avec

A =

1 x1...

...1 xn

,b =

[β1β2

], ε =

ε1...εn


Cas d’erreurs gaussiennes

Hypothèses supplémentaires sur le modèle :1. εi ∼ N (0, σ2)

2. εi sont mutuellement indépendants

Il s’en suit :

∀i ∈ {1, · · · ,n} yi ∼ N (β1 + β2xi, σ2)


Estimateurs du maximum de vraisemblanceLa vraisemblance vaut

L(y;β1, β2, σ2) =

n∏i=1

N (β1 + β2xi, σ2)

=

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − β1 − β2xi)2

]

=

(1√2πσ2

)n

exp[− 1

2σ2S(β1, β2)

]

⇒ Trouver (β1, β2, σ2) qui maximisent la vraisemblance.⇒ Pour simplifier le calcul on prend la log-vraisemblance :log(L).

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)


Estimateurs du maximum de vraisemblanceβ1mv, β2mv

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)

▶ Maximiser par rapport à (β1, β2) revient à minimiser−S(β1, β2).

⇒ Les estimateurs du maximum de vraisemblance de β1 et β2sont égaux aux estimateurs des moindres carrés.

β1mv = β1, β2mv = β2


Estimateurs du maximum de vraisemblanceσ2

mv

Il reste à maximiser logL(y; β1, β2, σ2) par rapport à σ2.

∂L(y; β1, β2, σ2)

∂σ2= − n

2σ2+

1

2σ4S(β1, β2)

= − n2σ2

+1

2σ4

n∑i=1

(yi − β1 − β2xi)2

∂L(y; β1, β2, σ2)

∂σ2mv

= 0 ⇒ σ2mv =

1

n

n∑i=1

εi2

▶ L’estimateur du maximum de vraisemblance de σ2 est différent del’estimateur MCO σ2.

▶ L’estimateur du maximum de vraisemblance de σ2 est donc biaisé. Eneffet E(σ2

mv) =1n

∑E(ε2i ) = n−2

n σ2

⇒ Ce biais est d’autant plus négligeable que le nombre d’observations estgrand.


Régression linéaire multipleExemple

T12 23.8 16.3 27.2 7.1 25.1 27.5 19.4 19.8 32.2 20.7V 9.25 -6.15 -4.92 11.57 -6.23 2.76 10.15 13.5 21.27 13.79

N12 5 7 6 5 2 7 4 6 1 4O3 115.4 76.8 113.8 81.6 115.4 125 83.6 75.2 136.8 102.8

TABLE : 10 données journalières de température, vent, nébulosité etozone.

Modèle :O3i ≈ f (Ti,Vi,Ni)

f =argminf∈F

n∑i

L(yi − f (xi))

F ={f : Rd → R, f (x) = f (x1, x2, · · · , xd) =d∑

j=1

βjxj}


Modélisation, suite

yi = βix1i + β2x2

i + · · ·+ βdxdi + ϵi, i = 1, · · · ,n

= βTxi + ϵi

Ecriture matricielle :

y = Xβ + ϵy1y2......

yn

=

1 x1

1 · · · xd1

1 x12 · · · xd

2... · · · · · · · · ·... · · · · · · · · ·1 x1

n · · · xdn

β1β2...βd

+

ϵ1ϵ2......ϵn


Solution MCO

β =argminβ∈Rd

n∑i=1

(yi − βTxi)2

=argminβ∈Rd

||y − Xβ||22

β = (XTX)−1XTy

Matrice de Projection :

PX = (XTX)−1XT


Estimateurs du Maximum de vraisemblance

Modèleyi = βTxi + ϵi ∼ N (βTxi, σ

2)

Vraisemblance :

L(y, β, σ2) =n∏

i=1

fY(yi) =

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − βTxi)2

]

=

(1√2πσ2

)n

exp[− 1

2σ2||y − Xβ||22

]Log-vraisemblance

LL(y, β, σ2) = −n2

log 2π − n2

logσ2 −− 1

2σ2||y − Xβ||22

⇒ βmv = β = (XTX)−1XTy


Régression non-linéaire

Modèle :

fβ(x) =M−1∑i=0

βjϕj(x)

= (β0, · · · , βM−1)

ϕ0(x)...

ϕM−1(x)

= βTϕ(x)

oI les ϕj(x) sont dites fonctions de base


Exemples de fonctions de baseCas linéaire

ϕj(x) = xj,M = d + 1

Régression polynomialeCas unidimensionnel

ϕj(x) = xj

Régression noyauFonctions de base gaussiennes

ϕj(x) = exp(− (x−µj)

2

2σ2

)


Estimateurs du maximum de vraisemblanceModèle

yi = βTϕ(xi) + ϵi ∼ N (βTϕ(xi), σ2)

Vraisemblance (iid) :

L(y, β, σ2) =

n∏i=1

fY(yi) =

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − βTϕ(xi))2

]

Log-vraisemblance

LL(y, β, σ2) = −n2

log 2π − n2

logσ2 − 1

2σ2

n∑i=1

(yi − βTϕ(xi))2

Posons

S(β) =1

2

n∑i=1

(yi − βTϕ(xi))2


Estimateurs du maximum de vraisemblance

∇S(β) = −n∑

i=1

(yi − βTϕ(xi))ϕ(xi)T

D’oIn∑

i=1

yiϕ(xi)T − βT

(n∑

i=1

ϕ(xi)ϕ(xi)T

)= 0

=⇒ βmv = (ΦTΦ)−1ΦTy

Avec Φ la matrice dite du plan dexpérience ou design matrix

Φ =

ϕ0(x1) ϕ1(x1) · · · ϕM−1(x1)ϕ0(x2) ϕ1(x2) · · · ϕM−1(x2)

......

......

ϕ0(xn) ϕ1(xn) · · · ϕM−1(xn)


Régression de Ridge

Régularisation L2

1

2

n∑i=1

(yi − βTϕ(xi))2 +

λ

2||β||22

Solutionβ =

(λI +ΦTΦ

)−1ΦTy


Régression Lasso

Régularisation L1

1

2

n∑i=1

(yi − βTϕ(xi))2 +

λ

2||β||1


Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 ·...

Documents

Transcript of Régression linéaire Jamal Atif jamal.atif@dauphineatif/lib/exe/fetch.php?... · 2016-02-29 ·...