La corrélation et la régressionLa corrélation et la régression
Mesure de la relation entre deux Mesure de la relation entre deux variablesvariables
2 variables sont prises en considération simultanément2 variables sont prises en considération simultanément Ex. Résultats en français et en mathématiqueEx. Résultats en français et en mathématique Couleur d’une auto et le nombre d’accidentsCouleur d’une auto et le nombre d’accidents
Attention, ce n’est jamais un indice de cause à effetAttention, ce n’est jamais un indice de cause à effet -> manipulations expérimentales-> manipulations expérimentales
La relation est décrite par le coefficient de corrélation (La relation est décrite par le coefficient de corrélation ( rr)) Il varie entre -1 et 1: Il varie entre -1 et 1:
1 (ou -1) = relation parfaite1 (ou -1) = relation parfaite0 = absence de relation0 = absence de relation
Il existe donc trois cas possibles: Il existe donc trois cas possibles: Relation positive : x augmente; y augmenteRelation positive : x augmente; y augmente Relation négative : x diminue; y augmenteRelation négative : x diminue; y augmente Absence de relation: x augmente (ou diminue); y ne change pasAbsence de relation: x augmente (ou diminue); y ne change pas
Exemples de relationExemples de relation
Exemples de relationExemples de relation
ExempleExemple
575 3
122.5 0.64x y
x y
s s
1
2
3
4
5
450 2
500 3
525 3
650 3.25
750 3.75
Sujet x y
s
s
s
s
s
ExempleExemple
1
2
3
4
5
( )( )
450 2 125 1 125
500 3 75 0 0
525 3 50 0 0
650 3.25 75 0.25 18.75
750 3.75 175 0.75 131.25
2875 15 0 0 275
Sujet x y x x y y x x y y
s
s
s
s
s
1
( )( )275
68.751 4
n
i ii
xy
x x y yCov
n
Mesure la direction et la grandeur de la relation
NoteNote
1
2
1
2
( )( )
1
( )
1
n
i ii
xx
n
ii
xx
xx x
x x x xCov
n
x xCov
n
Cov s
ExempleExemple
2 2
1
2
3
4
5
( )( ) ( ) ( )
450 2 125 1 125 15625 1
500 3 75 0 0 5625 0
525 3 50 0 0 2500 0
650 3.25 75 0.25 18.75 5625 0.0625
750 3.75 175 0.75 131.25 30625 0.5625
2875 15 0 0 275 60000 1.625
Sujet x y x x y y x x y y x x y y
s
s
s
s
s
Comme on ne peut pas comparer des mesures de covariances entrent-elles, il faut la standardiser.
1
2 2
1 1
68.25 2750.88 0.88
122.5 0.64 6000 1.625
n
i ixy i
xy n nx y
i ii i
x x y yCov
rs s
x x y y
Coefficient de détermination Coefficient de détermination
x y
x y
x y
Variance commune = 0 %
Variance commune = 25 %
Variance commune = 80 %
22
2 2
xyxy
x y
Covr
s s
ExempleExemple
77% de la variance en y peut être expliquée par la variance en x2 2
0.88
(0.88) 0.7744
xy
xy
r
r
Exemple 2 (SAT)Exemple 2 (SAT)36% de la variance de la réussite universitaire peut être expliquée par la variance du score au SAT
2 2
0.6
(0.6) 0.36
xy
xy
r
r
Coefficient de corrélation erronésCoefficient de corrélation erronésRestriction de l’étendue: diminue la corrélation
Coefficient de corrélation erronésCoefficient de corrélation erronésUtilisation de groupes extrêmes: augmente la corrélation
L L
LLL
L
LL
L L
HH
HHH
H
HH H
r = 0.75
Coefficient de corrélation erronésCoefficient de corrélation erronésUtilisation de groupes extrêmes: augmente la corrélation
L L
LLL
L
LL
L L
HH
HHH
H
HH H
xxx
xx
x
xx
xx
x
xx
x
xx
x
xx x
xx
x
x
x
xx x x x x
x
xx
xx
xx
x
r = 0.50
Coefficient de corrélation erronésCoefficient de corrélation erronésCombiner des groupes: augmente ou diminue la corrélation
r1 = 0
r2 = 0 r 1 > 0
r 2 > 0
r 1 > 0
r2 > 0
Coefficient de corrélation erronésCoefficient de corrélation erronésScore extrême: augmente ou diminue la corrélation
xxx
xxx
xxxx
xxxx
xxxx
x
Coefficient de corrélation erronésCoefficient de corrélation erronésRelation non linéaire: diminue la corrélation
NoteNote Même si le coefficient de corrélation est celui rapporté, il n’est pas
un estimateur non biaisé de la corrélation dans la population. Plus, l’échantillon est petit, plus le biais sera grand. Pour corriger la situation, le coefficient de corrélation ajusté est calculé.
2(1 )( 1)1
2
(1 0.7744)(5 1)1
5 20.836182
xyajusté
ajusté
ajusté
r nr
n
r
r
InférenceInférence
InférenceInférence L’hypothèse émise est que la corrélation entre x et y est nulle dans la
population. Autrement dit, on cherche à savoir si x et y sont linéairement indépendants. Si on rejette cette hypothèse, alors cela indique que les populations ne sont pas indépendantes et qu’il existe une relation linéaire entre les deux.
2
2 2(1 ) (1 )
2
xyxy
xy xy
r dlt dl r
r r
dl n
0
1
: 0
: 0
xy
xy
H
H
ExempleExemple
0.7744(5 2) 3.20903
(1 0.7744)t
0
1
2
: 0
: 0
5
0.7744
2 5 2 3
xy
xy
xy
H
H
n
r
dl n
(0.05,3) 3.182t
Comme le tobs >tcrit (3.209>3.182) on rejette
H0 et on accepte H1. Les 2 populations sont
donc dépendantes.
Régression linéaireRégression linéaire
Régression linéaireRégression linéaire On veut une relation fonctionnelle entre 2 variables et non On veut une relation fonctionnelle entre 2 variables et non
seulement un indice d’associationseulement un indice d’association Autrement dit, on veut être en mesure de faire de la prédictionAutrement dit, on veut être en mesure de faire de la prédiction
x1
y1Rappel des caractérisiques (pente, constante) de l’équation d’une droite
Les paramètres de la droite de Les paramètres de la droite de régressionrégression
1 2
0 1
xy
x
Covb
s
b y b x
0 1y b b x
0 1
1 1
1
ˆ
ˆ
ˆ ( )
y b b x
y y b x b x
y y x x b
Si on remplace b0
NoteNote
xyxy
x y
xy xy x y
Covr
s s
Cov r s s
On sait que
Si on remplace la covariance par sa valeur
1 2
1 2
1
xy
x
xy x y
x
xy y yxy
x x
Covb
s
r s sb
s
r s sb r
s s
Exemple 2Exemple 2
2 2
1
2
3
4
5
6
7
( ) ( ) ( )( )
8 10 3 4 9 16 12
6 8 1 2 1 4 2
3 2 2 4 4 16 8
5 6 0 0 0 0 0
7 9 2 3 4 9 6
2 2 3 4 9 16 12
4 5 1 1 1 1 1
35 42 0 0 28 62 41
Sujet x y x x y y x x y y x x y y
s
s
s
s
s
s
s
5 6
2.16 3.21x y
x y
s s
2
cov 6.83
0.98
0.96
xy
xy
xy
r
r
Exemple 2Exemple 2
1
0 1
0 1
3.210.98 1.46
2.16
6 1.46 5 1.3
ˆ
ˆ 1.3 1.46
yxy
x
sb r
s
b y b x
y b b x
y x
PrédictionPrédiction À partir de l’équation de régression, il est possible de faire des
prédiction
Ex. 1 Si x = 7.5, que vaut ?y
ˆ 1.3 1.46
ˆ 1.3 1.46 7.5 9.65
y x
y
PrédictionPrédiction De façon similaire on peut prédire x à partie de y
Ex. 2 Si y = 9.65, que vaut ?
ˆ1.3 1.46
1.3ˆ
1.46
y x
yx
1.3 9.65 1.3ˆ 7.5
1.46 1.46
yx
x
PrédictionPrédiction Enfin!
Ex. 3 Si x = 3, que vaut ?y
ˆ 1.3 1.46 1.3 1.46 3 3.08y x
Or, (x,y) => (3,2). Donc, la prédiction commet une certaine erreur
Erreur type de la régressionErreur type de la régression La différence entre la droite de régression constitue l’erreur de prédiction à partir de x.
2
1
2
3
4
5
6
7
ˆ ˆ ˆ( )
8 10 10.38 0.38 0.1444
6 8 7.46 0.54 0.2916
3 2 3.08 1.08 1.1664
5 6 6 0 0
7 9 8.92 0.08 0.0064
2 2 1.62 0.38 0.1444
4 5 4.54 0.46 0.2116
35 42 42 0 1.9648
Sujet x y y y y y y
s
s
s
s
s
s
s
ˆ 1.3 1.46y x
2
1
ˆ( )
2
1.96480.63
7 2
n
ii
yx
yx
y ys
n
s
NoteNotePour des grands échantillons
2(1 )yx y xys s r
Intervalles de confianceIntervalles de confiance
L’erreur type est un estimé de l’erreur totale. Cependant il n’est pas un bon estimé pour la prédiction d’un x donné. En effet, l’estimation de l’erreur sera petite lorsque x est près de la moyenne et plus grande lorsqu’il est loin de la moyenne.
2
'2
11
( 1)new
yx yxx
x xs s
n n s
'
1 , ˆi crit yxIC y t s
Prédiction à partir d’un nouveau score
Intervalles de confianceIntervalles de confiance
Exemple xnew= 7.5 pour un IC de 95%
Prédiction à partir d’un nouveau score
( 0.05, , 5) 2.571critt t bic dl 1
2
3
4
5
6
7
8 10
6 8
3 2
5 6
7 9
2 2
4 5
Sujet x y
s
s
s
s
s
s
s
5
2.16
0.63x
yx
x
s
s
'1 0.05
0.95
ˆ 9.65 2.571 0.759
[8.44; 12.34]
crit yxIC y t s
IC
2 2
'2 2
7.5 51 11 0.63 1 0.759
( 1) 7 (7 1)2.16new
yx yxx
x xs s
n n s
Relation entre le test Relation entre le test tt et la corrélation et la corrélation
Groupes Groupes indépendantsindépendants
1
2
1 2
x
x
x x
b s
c s
a s
b
ca
Variabilité dans l’estimation des paramètres (erreur type)
1 2
1 2x x
x xt
a
Par Pythagore
2 2 2
2 2
a b c
a b c
Si on remplace « a » par sa valeur
1 2 1 2
2 2
2 2x x x x
a b c
s s s
1 2
1 2
1 2
2 2x x
x x
x xt
s s
Groupes Groupes dépendantsdépendants
1
2
1 2
x
x
x x
b s
c s
a s
b
ca
Variabilité dans l’estimation des paramètres (erreur type)
1 2
1 2x x
x xt
a
Par la loi du Cosinus
2 2 2
2 2
2 cos
2 cos
a b c bc
a b c bc
Si on remplace « a » par sa valeur
1 2 1 2 1 2 1 2
2 2
2 2
2 cos
2x x x x x x x x
a b c bc
s s s s s r
Groupes Groupes dépendantsdépendants
1 2
1 2 1 2 1 2
1 2
2 2 2x x
Dx x x x x x
x x Dt
ss s s s rn
Top Related