Cours de statistiques – ISBS - 2006 - Régression linéaire -

Cours de statistiques – ISBS - 2006

- Régression linéaire -

Définition et généralités

• Liaison entre 2 variables quantitatives

• Décrire au mieux la façon dont Y varie en fonction de X <=> connaître la distribution de Y pour chaque valeur de X.

Définition :

La régression de Y en X est la fonction qui lie X et µY/x :

E(Y/x) = µY/x = f(x)

Régression des valeurs moyennes des poids de naissance à terme fixé

En général, on ne cherche pas la forme exacte de la fonction f(x)

On se limite à quelques fonctions « simples »

=> Modélisation de la réalité

0

1000

2000

3000

4000

27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Terme de naissance

Mo

yen

ne

du

po

ids

de

nai

ssan

ce

Exemples de fonctions de f possibles

Le choix de f est un compromis entre :

• une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µY/x.

• la possibilité d’interpréter les coefficients de la fonction f pour répondre à la question initiale :

Y a-t-il un lien entre X et Y ?

Exponentielle

y = 215,16e0,0692x

0

1000

2000

3000

4000

5000

27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Terme de naissance

Moye

nne

du p

oid

s de

nai

ssan

ce

Puissance

y = 0,4608x2,4165

0

1000

2000

3000

4000

5000

27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Terme de naissance

Moye

nne

du p

oid

s de

nai

ssan

ce

Polynomiale

y = 0,0246x5 - 4,4841x4 + 324,18x3 - 11612x2 + 206273x - 1E+06

0

1000

2000

3000

4000

27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Terme de naissance

Moye

nne

du p

oid

s de

nai

ssan

ce

Le plus souvent, on choisit pour f une fonction linéaire.f(x)= α+βx

=> On représente la liaison entre Y et X sous la forme d’une droite.

On va voir les problèmes suivants :• Estimation : Comment estimer α et β à partir de données issues d’un échantillon ?

• Test : La pente β de la droite de régression est–elle différente de 0 ?

Linéaire

y = 162,3x - 3116

0

1000

2000

3000

4000

5000

27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

Terme de naissance

Moyen

ne d

u p

oid

s d

e n

ais

sance

Estimations de α et de β : méthode des moindres carrés

Observations : n paires (x1,y1), ….., (xn,yn)Exemple : X = Poids maternel Y = Poids de naissances

N° Y X N° Y X N° Y X1 3850 83 22 3200 45 43 1250 402 4400 50 23 3400 50 44 3800 663 2950 70 24 3550 62 45 4450 684 3350 64 25 4200 92 46 3750 595 3550 50 26 3450 55 47 3150 656 3700 54 27 4200 70 48 3050 587 3550 47 28 4100 73 49 3450 558 3400 48 29 4300 55 50 3300 539 4350 67 30 2850 40 51 3150 5110 3500 55 31 3300 60 52 4650 6811 3100 63 32 3500 50 53 3650 4812 3550 64 33 3400 55 54 3500 6213 3500 71 34 2700 58 55 3150 7014 3300 70 35 2750 46 56 3100 6315 4350 66 36 3250 50 57 3300 6016 1750 62 37 3300 60 58 2900 6517 2400 40 38 3100 55 59 3050 5418 2750 46 39 3650 62 60 3300 6219 3600 47 40 4400 50 61 3400 7020 2700 46 41 3300 55 62 3200 5021 2700 47 42 3250 40 63 3100 64

Représentation graphique des observations

Nuage de points

1000

2000

3000

4000

5000

30 40 50 60 70 80 90 100

Poids maternel (kg)

Poid

s d

e n

ais

sance

(g)

(x29,y29)

Représentation graphique des observations

Droites

1000

2000

3000

4000

5000

30 40 50 60 70 80 90 100

Poids maternel (kg)

Poid

s d

e n

ais

san

ce (

g)

Droite 1

Droite 3

Droite 2

Droites des moindres carrés (1)

Définition : la droite des moindres carrés est la droite qui permet de mieux prédire la valeur de Y quand on connaît X.

Valeur observée de Y : yi

Valeur prédite par la droite de régression ŷ = a + bxi

Ecart : yi - ŷ

1000

2000

3000

4000

5000

30 40 50 60 70 80 90 100

Poids maternel (kg)

Poid

s d

e n

ais

san

ce (

g)

Droite : Y = a + bX

(xi,yi)

(xi,ŷi) (yi - ŷi)

1000

2000

3000

4000

5000

30 40 50 60 70 80 90 100

Poids maternel (kg)

Poid

s d

e n

ais

san

ce (

g)

Droite : Y = a + bX

(xi,yi)

(xi,ŷi) (yi - ŷi)

Droites des moindres carrés (2)

SCE = somme des carrés des écarts

= Σ(yi – ŷi)2 = Σ(yi - a – bxi)2

La droite des moindres carrés est celle pour laquelle SCE est minimun.

1

1nΣxiyi - Σ(xi)Σ(yi)

n

Calcul de a et b

a et b doivent être telles que SCE = Σ(yi – ŷi)2 = Σ(yi - a – bxi)2 soit minimum.

Données : (xi,yi) Inconnues : a et b

On montre que les valeurs de a et b qui correspondent à SCE minimum sont :

b = Σxi

2 - Σ(xi)2

a = - b = my – b mx Σyi

nΣxi

n

On trouve : a = 2006 et b = 23,8 (SCE = 18500067)

a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression.

Expressions équivalentes de b

1

1nΣxiyi - Σ(xi)Σ(yi)

n

b = Σxi

2 - Σ(xi)2

Σ(xi –mx)(yi – mY)b = Σ(xi - mX)2

Σxiyi - n mXmYb = (n-1)sx

2

ou

Test de la pente de la droite de régression (1)

La droite de régression vraie correspond à : ŷ = α + βx

Les hypothèses testées sont : Ho : β = 0 H1 : β ≠ 0

(Ho correspond à l’absence d’association entre X et Y).

Les observations faites sur un échantillon sont les couples de valeurs (xi, yi) d’où on en déduit les coefficients estimés a et b.

Pour réaliser le test, il faut déterminer quelle est la valeur attendue de b si Ho est vraie.Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y


Hypothèses nécessaires :

• la régression doit être linéaire,

• à X fixé, les valeurs de Y doivent être de distribution normale et de variance constante,

c’est-à-dire que :Pour X = x1, Y a une distribution normale de moyenne ŷ1 et de variance σ2

Y/x1

Pour X = x2, Y a une distribution normale de moyenne ŷ2 et de variance σ2

Y/x2

...…..On suppose donc que : σ2

Y/x1 = σ2

Y/x2 = ……


Calcul de ce que devrait être b si Ho vraie

si les hypothèses précédentes sont satisfaites (régression linéaire et distributions de Y à X fixé normales et de variance constante)

b (pente observée) a une distribution normale de moyenne 0 et dont la variance est :

s2b = =

s2Y/X

s2X (n-1)

sY

sX

2

- b2

(n-2)

Donc : T = = suit une loi de Student à (n – 2) ddlb - 0

s2b

b

s2b


Test :

A partir des valeurs xi et yi, on calcule to = b

s2b

On compare la valeur obtenue à la valeur seuil d’une loi de Student à n-2 ddl : tn-2;α/2

Exemple

1000

2000

3000

4000

5000

30 40 50 60 70 80 90 100

Poids maternel (kg)

Poid

s d

e n

ais

san

ce (

g)

s2X = 108,52 s2

Y = 359851,51 ŷ = 2006 + 23,80x

s2b = =

sY

sX

2

- b2

(n-2)

359851,51

108,52- 23,802

61= 45,07

45,07

Exemple

1000

2000

3000

4000

5000

30 40 50 60 70 80 90 100

Poids maternel (kg)

Poid

s d

e n

ais

san

ce (

g)

s2X = 108,52 s2

Y = 359851,51 ŷ = 2006 + 23,80x

to = = 3,55 à 61 ddl (significatif)23,80

Interprétation du test de la pente Ho : β = 0

Si Ho n’est pas rejetée, cela signifie que la pente de la droite de régression ne s’écarte pas significativement de l’horizontale

Deux possibilités :

• pas de lien entre X et Y (figure 1)

• lien entre X et Y, mais la régression de X et Y n’est pas linéaire et la droite des moindres carrés est horizontale (figure 2)

Figure 1 Figure 2

Interprétation du test de la pente Ho : β = 0

Si Ho est rejetée, cela signifie que la pente de la droite de régression n’est pas horizontale

Deux possibilités :

• la liaison entre X et Y est linéaire avec une pente non nulle (figure 3)

• la liaison entre X et Y n’est pas linéaire, mais sa composante linéaire » n’est pas horizontale (figure 4)

Quand le test est significatif, il y a toujours un lien entre X et Y(au risque d’erreur α près)

Figure 3 Figure 4

Cours de statistiques – ISBS - 2006

- Corrélation linéaire -

var(X) var(Y)

cov (X, Y)ρ =

Le coefficient de corrélation : ρ

Définition : cov(X, Y) = covariance entre X et Y

=Σ (xi - µX) (yi - µY)

N

Comme var (X) =

var (Y) =

Σ (xi - µX)2

N

Σ (yi - µY)2

N

Σ (xi - µX) (yi - µY)

Σ (xi - µX)2 Σ (yi - µY)2ρ =

ρ est symétrique entre X et Y

Σ (xi - µX) 2/N

Relation entre ρ et β (pente de la droite de régression)


Σ (xi - µX)2 Σ (yi - µY)2ρ =


Σ (xi - µX)2 Σ (yi - µY) 2=

Σ (xi - µX) 2


Σ (xi - µX)2 Σ (yi - µY) 2 /N=

= βσx

2

σY2

Propriétés du coefficient de corrélation (1)

ρ = βσx

σY• ρ est lié à β par :

• ρ a le même signe que β

p > 0 => Y augmente en moyenne lorsque X augmente

• ρ est inchangé si on change d’unité et/ ou d’origine pour X et Y

X => X’ = aX + b (a > 0)

et/ou ρ’ = ρ

Y => Y’ = cY + d (c > 0)

Le coefficient de corrélation mesure l’association entre X et Y indépendamment des unités choisies pour ces variables.

Propriétés du coefficient de corrélation (2)

• ρ est toujours compris entre -1 et +1Ces bornes ne peuvent être atteintes que si Y = aX+b

• X et Y : variables indépendantes => ρ = 0

Attention, l’inverse n’est pas vrai.

• Les trois premières propriétés du coefficient de corrélation sont valables aussi bien pour la valeur vraie ρ que pour l’estimation r :

- r a le même signe que b- r est inchangé si on change d’unité et/ou d’origine pour X et Y- r est toujours compris entre -1 et +1

ρ mesure le force de l’association entre X et Y : plus ρ est proche de +1 ou de -1, plus l’association est forte.

Estimation du coefficient de corrélation

var(X) var(Y)

cov (X, Y)ρ =

Estimation de Cov(X, Y) =

Σ (xi - mX) (yi - mY)n-1

Estimation de var (X) =

Estimation de var (Y) =

Σ (xi - mX)2

n-1

Σ (yi - mY)2

n-1

Σ (xi - mX) (yi - mY)

Σ (xi - mX)2Σ (yi - mY)2Estimation de ρ : r =

Σ (xi - mX) (yi - mY)

Σ (xi - mX)2Σ (yi - mY)2Estimation de ρ : r =

r = Σ xi yi - n mX mY

sX2 sY

2n-1r = b

sX

sY

Autre façon d’écrire r :

Exemple

Poids de naissance de 63 nouveau-nés, poids maternel et paternel

N° PN PM=X PP+Y N° PN PM=X PP+Y

1 3850 83 100 33 3400 55 75

2 4400 50 100 34 2700 58 75

3 2950 70 120 35 2750 46 75

4 3350 64 85 36 3250 50 83

5 3550 50 72 37 3300 60 70

6 3700 54 64 38 3100 55 75

7 3550 47 80 39 3650 62 86

8 3400 48 78 40 4400 50 75

9 4350 67 83 41 3300 55 78

10 3500 55 85 42 3250 40 75

11 3100 63 68 43 1250 40 51

12 3550 64 64 44 3800 66 61

13 3500 71 72 45 4450 68 67

14 3300 70 95 46 3750 59 76

15 4350 66 80 47 3150 65 68

16 1750 62 70 48 3050 58 90

17 2400 40 76 49 3450 55 70

18 2750 46 72 50 3300 53 62

19 3600 47 80 51 3150 51 66

20 2700 46 65 52 4650 68 67

21 2700 47 78 53 3650 48 62

22 3200 45 69 54 3500 62 72

23 3400 50 67 55 3150 70 104

24 3550 62 82 56 3100 63 90

25 4200 92 76 57 3300 60 75

26 3450 55 67 58 2900 65 82

27 4200 70 64 59 3050 54 69

28 4100 73 65 60 3300 62 69

29 4300 55 73 61 3400 70 60

30 2850 40 63 62 3200 50 69

31 3300 60 77 63 3100 64 62

32 3500 50 80

Σxi = 3644 Σyi = 4729

Σxi2 = 217502 Σyi2 = 363527 Σxiyi = 275480

r = = 0,26

275480 - 163

4729 x 3644

(217502 - 163

36442) (363527 - 163

47292)

Test de ρ

Hypothèse nulle Ho : ρ = 0Hypothèse alternative H1 : ρ≠0

Si Ho est vraie, on montre que :

to = suit une loi de Student à (n-2) ddl

Le test consiste à calculer t0 et à le comparer à la valeur seuil de Student à (n-2) ddl

Rejet de Ho si It0I≥ tn-2;α/2

Conditions d’application :- régression entre X et Y linéaire - une des deux distributions conditionnelles est normale et

de variance constante( c’est-à-dire distribution de Y à X fixé, ou de X à Y fixé).

r n-2

1-r2

Exemple

Corrélation entre le poids maternel et le poids paternel : r = 0,26 ; n = 63

Ho : ρ = 0H1 : ρ 0

to = = 2,10 0,26 61

1-0,262t61;0,025 2,00

Rejet de Ho

Le coefficient de corrélation entre le poids maternel et le poids paternel est différent de 0

Conditions d’application :-La régression du poids maternel sur le poids paternel est linéaire- la distribution du poids paternel à poids maternel constant est normale et de variance constante (ou l’inverse)

• Régression :Adaptée au cas où les variables X et Y jouent des rôles dissymétriques : on veut prédire Y en fonction de X

exemple : Poids de naissance / poids maternel

• Corrélation :Adaptée au cas où les variables X et Y jouent des rôles symétriques : on cherche une relation d’interdépendance entre elles

exemple : Poids paternel / poids maternel

• Cependant : - Il y a une forte parenté entre ρ et β :

- les tests d’hypothèses β = 0 et ρ = 0 sont identiques

Régression et corrélation

ρ = βσx

σY

Régression et corrélation

En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes.

La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé.

Si la régression est linéaire, on montre que :

r2 =

D’où

Lorsque n est assez grand, on a (n-1) (n-2), d’où :

Coefficient de corrélation et force de l’association entre X et Y

s2Y -

s2Y

s2Y/X

(n-2)(n-1)

s2Y/X = s2

Y (1-r2) (n-1)(n-2)

s2Y/X = s2

Y (1-r2)


s2Y/X = s2

Y (1-r2)

Plus IrI (ou r2) est grand (proche de 1), plus la variance de Y à X fixé (s2

Y/X) est petite.

IrI = 1 s2Y/X = 0

Y est connu exactement quand on connaît la valeur de X

La relation entre X et Y est parfaite

Le coefficient de corrélation (plus exactement son carré) peut être interprété comme une mesure de la force de l’association entre X et Y


Exemple

Le coefficient de corrélation entre le poids de naissance et le poids maternel : r1 = 0,41

la part du poids de naissance expliquée par le poids maternel = 0,412 = 0,17 (17%)

Le coefficient de corrélation entre le poids de naissance et le poids paternel : r2 = 0,11

la part du poids de naissance expliquée par le poids maternel = 0,112 = 1%

On peut donc dire que : l’association entre le poids de naissance et le poids maternel et plus forte qu’entre le poids de naissance et le poids paternel.

Cours de statistiques – ISBS - 2006 - Régression linéaire -

Documents

Transcript of Cours de statistiques – ISBS - 2006 - Régression linéaire -