Cours de statistiques – ISBS - 2006 - Régression linéaire -
-
Upload
rosine-villeneuve -
Category
Documents
-
view
121 -
download
2
Transcript of Cours de statistiques – ISBS - 2006 - Régression linéaire -
Cours de statistiques – ISBS - 2006
- Régression linéaire -
Définition et généralités
• Liaison entre 2 variables quantitatives
• Décrire au mieux la façon dont Y varie en fonction de X <=> connaître la distribution de Y pour chaque valeur de X.
Définition :
La régression de Y en X est la fonction qui lie X et µY/x :
E(Y/x) = µY/x = f(x)
Régression des valeurs moyennes des poids de naissance à terme fixé
En général, on ne cherche pas la forme exacte de la fonction f(x)
On se limite à quelques fonctions « simples »
=> Modélisation de la réalité
0
1000
2000
3000
4000
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
Terme de naissance
Mo
yen
ne
du
po
ids
de
nai
ssan
ce
Exemples de fonctions de f possibles
Le choix de f est un compromis entre :
• une représentation adéquate des observations pour pouvoir prédire correctement Y en fonction de X : la courbe doit passer le plus près possible des moyennes µY/x.
• la possibilité d’interpréter les coefficients de la fonction f pour répondre à la question initiale :
Y a-t-il un lien entre X et Y ?
Exponentielle
y = 215,16e0,0692x
0
1000
2000
3000
4000
5000
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
Terme de naissance
Moye
nne
du p
oid
s de
nai
ssan
ce
Puissance
y = 0,4608x2,4165
0
1000
2000
3000
4000
5000
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
Terme de naissance
Moye
nne
du p
oid
s de
nai
ssan
ce
Polynomiale
y = 0,0246x5 - 4,4841x4 + 324,18x3 - 11612x2 + 206273x - 1E+06
0
1000
2000
3000
4000
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
Terme de naissance
Moye
nne
du p
oid
s de
nai
ssan
ce
Le plus souvent, on choisit pour f une fonction linéaire.f(x)= α+βx
=> On représente la liaison entre Y et X sous la forme d’une droite.
On va voir les problèmes suivants :• Estimation : Comment estimer α et β à partir de données issues d’un échantillon ?
• Test : La pente β de la droite de régression est–elle différente de 0 ?
Linéaire
y = 162,3x - 3116
0
1000
2000
3000
4000
5000
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
Terme de naissance
Moyen
ne d
u p
oid
s d
e n
ais
sance
Estimations de α et de β : méthode des moindres carrés
Observations : n paires (x1,y1), ….., (xn,yn)Exemple : X = Poids maternel Y = Poids de naissances
N° Y X N° Y X N° Y X1 3850 83 22 3200 45 43 1250 402 4400 50 23 3400 50 44 3800 663 2950 70 24 3550 62 45 4450 684 3350 64 25 4200 92 46 3750 595 3550 50 26 3450 55 47 3150 656 3700 54 27 4200 70 48 3050 587 3550 47 28 4100 73 49 3450 558 3400 48 29 4300 55 50 3300 539 4350 67 30 2850 40 51 3150 5110 3500 55 31 3300 60 52 4650 6811 3100 63 32 3500 50 53 3650 4812 3550 64 33 3400 55 54 3500 6213 3500 71 34 2700 58 55 3150 7014 3300 70 35 2750 46 56 3100 6315 4350 66 36 3250 50 57 3300 6016 1750 62 37 3300 60 58 2900 6517 2400 40 38 3100 55 59 3050 5418 2750 46 39 3650 62 60 3300 6219 3600 47 40 4400 50 61 3400 7020 2700 46 41 3300 55 62 3200 5021 2700 47 42 3250 40 63 3100 64
Représentation graphique des observations
Nuage de points
1000
2000
3000
4000
5000
30 40 50 60 70 80 90 100
Poids maternel (kg)
Poid
s d
e n
ais
sance
(g)
(x29,y29)
Représentation graphique des observations
Droites
1000
2000
3000
4000
5000
30 40 50 60 70 80 90 100
Poids maternel (kg)
Poid
s d
e n
ais
san
ce (
g)
Droite 1
Droite 3
Droite 2
Droites des moindres carrés (1)
Définition : la droite des moindres carrés est la droite qui permet de mieux prédire la valeur de Y quand on connaît X.
Valeur observée de Y : yi
Valeur prédite par la droite de régression ŷ = a + bxi
Ecart : yi - ŷ
1000
2000
3000
4000
5000
30 40 50 60 70 80 90 100
Poids maternel (kg)
Poid
s d
e n
ais
san
ce (
g)
Droite : Y = a + bX
(xi,yi)
(xi,ŷi) (yi - ŷi)
1000
2000
3000
4000
5000
30 40 50 60 70 80 90 100
Poids maternel (kg)
Poid
s d
e n
ais
san
ce (
g)
Droite : Y = a + bX
(xi,yi)
(xi,ŷi) (yi - ŷi)
Droites des moindres carrés (2)
SCE = somme des carrés des écarts
= Σ(yi – ŷi)2 = Σ(yi - a – bxi)2
La droite des moindres carrés est celle pour laquelle SCE est minimun.
1
1nΣxiyi - Σ(xi)Σ(yi)
n
Calcul de a et b
a et b doivent être telles que SCE = Σ(yi – ŷi)2 = Σ(yi - a – bxi)2 soit minimum.
Données : (xi,yi) Inconnues : a et b
On montre que les valeurs de a et b qui correspondent à SCE minimum sont :
b = Σxi
2 - Σ(xi)2
a = - b = my – b mx Σyi
nΣxi
n
On trouve : a = 2006 et b = 23,8 (SCE = 18500067)
a et b sont appelés les estimations des moindres carrés des paramètres α et β de la droite de régression.
Expressions équivalentes de b
1
1nΣxiyi - Σ(xi)Σ(yi)
n
b = Σxi
2 - Σ(xi)2
Σ(xi –mx)(yi – mY)b = Σ(xi - mX)2
Σxiyi - n mXmYb = (n-1)sx
2
ou
Test de la pente de la droite de régression (1)
La droite de régression vraie correspond à : ŷ = α + βx
Les hypothèses testées sont : Ho : β = 0 H1 : β ≠ 0
(Ho correspond à l’absence d’association entre X et Y).
Les observations faites sur un échantillon sont les couples de valeurs (xi, yi) d’où on en déduit les coefficients estimés a et b.
Pour réaliser le test, il faut déterminer quelle est la valeur attendue de b si Ho est vraie.Pour cela, il faut que soient vérifiées certaines hypothèses sur les distributions de X et Y
Test de la pente de la droite de régression (2)
Hypothèses nécessaires :
• la régression doit être linéaire,
• à X fixé, les valeurs de Y doivent être de distribution normale et de variance constante,
c’est-à-dire que :Pour X = x1, Y a une distribution normale de moyenne ŷ1 et de variance σ2
Y/x1
Pour X = x2, Y a une distribution normale de moyenne ŷ2 et de variance σ2
Y/x2
...…..On suppose donc que : σ2
Y/x1 = σ2
Y/x2 = ……
Test de la pente de la droite de régression (3)
Calcul de ce que devrait être b si Ho vraie
si les hypothèses précédentes sont satisfaites (régression linéaire et distributions de Y à X fixé normales et de variance constante)
b (pente observée) a une distribution normale de moyenne 0 et dont la variance est :
s2b = =
s2Y/X
s2X (n-1)
sY
sX
2
- b2
(n-2)
Donc : T = = suit une loi de Student à (n – 2) ddlb - 0
s2b
b
s2b
Test de la pente de la droite de régression (4)
Test :
A partir des valeurs xi et yi, on calcule to = b
s2b
On compare la valeur obtenue à la valeur seuil d’une loi de Student à n-2 ddl : tn-2;α/2
Exemple
1000
2000
3000
4000
5000
30 40 50 60 70 80 90 100
Poids maternel (kg)
Poid
s d
e n
ais
san
ce (
g)
s2X = 108,52 s2
Y = 359851,51 ŷ = 2006 + 23,80x
s2b = =
sY
sX
2
- b2
(n-2)
359851,51
108,52- 23,802
61= 45,07
45,07
Exemple
1000
2000
3000
4000
5000
30 40 50 60 70 80 90 100
Poids maternel (kg)
Poid
s d
e n
ais
san
ce (
g)
s2X = 108,52 s2
Y = 359851,51 ŷ = 2006 + 23,80x
to = = 3,55 à 61 ddl (significatif)23,80
Interprétation du test de la pente Ho : β = 0
Si Ho n’est pas rejetée, cela signifie que la pente de la droite de régression ne s’écarte pas significativement de l’horizontale
Deux possibilités :
• pas de lien entre X et Y (figure 1)
• lien entre X et Y, mais la régression de X et Y n’est pas linéaire et la droite des moindres carrés est horizontale (figure 2)
Figure 1 Figure 2
Interprétation du test de la pente Ho : β = 0
Si Ho est rejetée, cela signifie que la pente de la droite de régression n’est pas horizontale
Deux possibilités :
• la liaison entre X et Y est linéaire avec une pente non nulle (figure 3)
• la liaison entre X et Y n’est pas linéaire, mais sa composante linéaire » n’est pas horizontale (figure 4)
Quand le test est significatif, il y a toujours un lien entre X et Y(au risque d’erreur α près)
Figure 3 Figure 4
Cours de statistiques – ISBS - 2006
- Corrélation linéaire -
var(X) var(Y)
cov (X, Y)ρ =
Le coefficient de corrélation : ρ
Définition : cov(X, Y) = covariance entre X et Y
=Σ (xi - µX) (yi - µY)
N
Comme var (X) =
var (Y) =
Σ (xi - µX)2
N
Σ (yi - µY)2
N
Σ (xi - µX) (yi - µY)
Σ (xi - µX)2 Σ (yi - µY)2ρ =
ρ est symétrique entre X et Y
Σ (xi - µX) 2/N
Relation entre ρ et β (pente de la droite de régression)
Σ (xi - µX) (yi - µY)
Σ (xi - µX)2 Σ (yi - µY)2ρ =
Σ (xi - µX) (yi - µY)
Σ (xi - µX)2 Σ (yi - µY) 2=
Σ (xi - µX) 2
Σ (xi - µX) (yi - µY)
Σ (xi - µX)2 Σ (yi - µY) 2 /N=
= βσx
2
σY2
Propriétés du coefficient de corrélation (1)
ρ = βσx
σY• ρ est lié à β par :
• ρ a le même signe que β
p > 0 => Y augmente en moyenne lorsque X augmente
• ρ est inchangé si on change d’unité et/ ou d’origine pour X et Y
X => X’ = aX + b (a > 0)
et/ou ρ’ = ρ
Y => Y’ = cY + d (c > 0)
Le coefficient de corrélation mesure l’association entre X et Y indépendamment des unités choisies pour ces variables.
Propriétés du coefficient de corrélation (2)
• ρ est toujours compris entre -1 et +1Ces bornes ne peuvent être atteintes que si Y = aX+b
• X et Y : variables indépendantes => ρ = 0
Attention, l’inverse n’est pas vrai.
• Les trois premières propriétés du coefficient de corrélation sont valables aussi bien pour la valeur vraie ρ que pour l’estimation r :
- r a le même signe que b- r est inchangé si on change d’unité et/ou d’origine pour X et Y- r est toujours compris entre -1 et +1
ρ mesure le force de l’association entre X et Y : plus ρ est proche de +1 ou de -1, plus l’association est forte.
Estimation du coefficient de corrélation
var(X) var(Y)
cov (X, Y)ρ =
Estimation de Cov(X, Y) =
Σ (xi - mX) (yi - mY)n-1
Estimation de var (X) =
Estimation de var (Y) =
Σ (xi - mX)2
n-1
Σ (yi - mY)2
n-1
Σ (xi - mX) (yi - mY)
Σ (xi - mX)2Σ (yi - mY)2Estimation de ρ : r =
Σ (xi - mX) (yi - mY)
Σ (xi - mX)2Σ (yi - mY)2Estimation de ρ : r =
r = Σ xi yi - n mX mY
sX2 sY
2n-1r = b
sX
sY
Autre façon d’écrire r :
Exemple
Poids de naissance de 63 nouveau-nés, poids maternel et paternel
N° PN PM=X PP+Y N° PN PM=X PP+Y
1 3850 83 100 33 3400 55 75
2 4400 50 100 34 2700 58 75
3 2950 70 120 35 2750 46 75
4 3350 64 85 36 3250 50 83
5 3550 50 72 37 3300 60 70
6 3700 54 64 38 3100 55 75
7 3550 47 80 39 3650 62 86
8 3400 48 78 40 4400 50 75
9 4350 67 83 41 3300 55 78
10 3500 55 85 42 3250 40 75
11 3100 63 68 43 1250 40 51
12 3550 64 64 44 3800 66 61
13 3500 71 72 45 4450 68 67
14 3300 70 95 46 3750 59 76
15 4350 66 80 47 3150 65 68
16 1750 62 70 48 3050 58 90
17 2400 40 76 49 3450 55 70
18 2750 46 72 50 3300 53 62
19 3600 47 80 51 3150 51 66
20 2700 46 65 52 4650 68 67
21 2700 47 78 53 3650 48 62
22 3200 45 69 54 3500 62 72
23 3400 50 67 55 3150 70 104
24 3550 62 82 56 3100 63 90
25 4200 92 76 57 3300 60 75
26 3450 55 67 58 2900 65 82
27 4200 70 64 59 3050 54 69
28 4100 73 65 60 3300 62 69
29 4300 55 73 61 3400 70 60
30 2850 40 63 62 3200 50 69
31 3300 60 77 63 3100 64 62
32 3500 50 80
Σxi = 3644 Σyi = 4729
Σxi2 = 217502 Σyi2 = 363527 Σxiyi = 275480
r = = 0,26
275480 - 163
4729 x 3644
(217502 - 163
36442) (363527 - 163
47292)
Test de ρ
Hypothèse nulle Ho : ρ = 0Hypothèse alternative H1 : ρ≠0
Si Ho est vraie, on montre que :
to = suit une loi de Student à (n-2) ddl
Le test consiste à calculer t0 et à le comparer à la valeur seuil de Student à (n-2) ddl
Rejet de Ho si It0I≥ tn-2;α/2
Conditions d’application :- régression entre X et Y linéaire - une des deux distributions conditionnelles est normale et
de variance constante( c’est-à-dire distribution de Y à X fixé, ou de X à Y fixé).
r n-2
1-r2
Exemple
Corrélation entre le poids maternel et le poids paternel : r = 0,26 ; n = 63
Ho : ρ = 0H1 : ρ 0
to = = 2,10 0,26 61
1-0,262t61;0,025 2,00
Rejet de Ho
Le coefficient de corrélation entre le poids maternel et le poids paternel est différent de 0
Conditions d’application :-La régression du poids maternel sur le poids paternel est linéaire- la distribution du poids paternel à poids maternel constant est normale et de variance constante (ou l’inverse)
• Régression :Adaptée au cas où les variables X et Y jouent des rôles dissymétriques : on veut prédire Y en fonction de X
exemple : Poids de naissance / poids maternel
• Corrélation :Adaptée au cas où les variables X et Y jouent des rôles symétriques : on cherche une relation d’interdépendance entre elles
exemple : Poids paternel / poids maternel
• Cependant : - Il y a une forte parenté entre ρ et β :
- les tests d’hypothèses β = 0 et ρ = 0 sont identiques
Régression et corrélation
ρ = βσx
σY
Régression et corrélation
En pratique, les problèmes de régression et de corrélation peuvent être traités par les mêmes méthodes.
La distinction entre régression et corrélation ne concerne que le contexte dans lequel le problème est posé.
Si la régression est linéaire, on montre que :
r2 =
D’où
Lorsque n est assez grand, on a (n-1) (n-2), d’où :
Coefficient de corrélation et force de l’association entre X et Y
s2Y -
s2Y
s2Y/X
(n-2)(n-1)
s2Y/X = s2
Y (1-r2) (n-1)(n-2)
s2Y/X = s2
Y (1-r2)
Coefficient de corrélation et force de l’association entre X et Y
s2Y/X = s2
Y (1-r2)
Plus IrI (ou r2) est grand (proche de 1), plus la variance de Y à X fixé (s2
Y/X) est petite.
IrI = 1 s2Y/X = 0
Y est connu exactement quand on connaît la valeur de X
La relation entre X et Y est parfaite
Le coefficient de corrélation (plus exactement son carré) peut être interprété comme une mesure de la force de l’association entre X et Y
Coefficient de corrélation et force de l’association entre X et Y
Exemple
Le coefficient de corrélation entre le poids de naissance et le poids maternel : r1 = 0,41
la part du poids de naissance expliquée par le poids maternel = 0,412 = 0,17 (17%)
Le coefficient de corrélation entre le poids de naissance et le poids paternel : r2 = 0,11
la part du poids de naissance expliquée par le poids maternel = 0,112 = 1%
On peut donc dire que : l’association entre le poids de naissance et le poids maternel et plus forte qu’entre le poids de naissance et le poids paternel.