Regress lineaire simple imp

58
Chapitre 8 Corrélation et régression linéaire simple José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. UE4 : Biostatistiques

Transcript of Regress lineaire simple imp

Page 1: Regress lineaire simple imp

Chapitre 8 Corrélation et régression

linéaire simpleJosé LABARERE

Année universitaire 2010/2011Université Joseph Fourier de Grenoble - Tous droits réservés.

UE4 : Biostatistiques

Page 2: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 3: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire1. Nature des variables

2. Corrélation versus régression : exemples

3. Conditions d’application

II. Coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 4: Regress lineaire simple imp

I.1. Nature des variables

Le terme de corrélation est utilisé dans le langage courant pour désigner la liaison (relation / association) entre 2 variables quelconques.

En statistique, le terme de corrélation est réservé pour désigner la liaison entre 2 variables QUANTITATIVES (le plus souvent continues).

Corrélation / régression : liaison entre 2 variables quantitatives

Page 5: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire1. Nature des variables

2. Corrélation versus régression : exemples

3. Conditions d’application

II. Coefficient de corrélation

III.Régression linéaire simple

Annexes

Page 6: Regress lineaire simple imp

I.2. Corrélation versus régression

• Corrélation :• Liaison entre 2 variables quantitatives X et Y• Rôle symétrique (on peut permuter X et Y)• Rôle asymétrique

• Régression :• Liaison entre 2 variables quantitatives X et Y• Rôle asymétrique uniquement :

– X = variable explicative / Y = variable expliquée– X = variable indépendante / Y = variable dépendante

• (on ne peut pas permuter X et Y)

Page 7: Regress lineaire simple imp

I.2. Corrélation versus régression

1. Exemple : corrélation (positive)• X = ventes de paires de lunettes de soleil en été• Y = ventes de crèmes glacées en été• Il existe une liaison entre X et Y :

– Quand X augmente, Y augmente (météo estivale)– Quand X diminue, Y diminue (météo pluvieuse)

• La liaison est symétrique : – X est liée à Y, et Y est liée à X– mais X ne dépend pas de Y et Y ne dépend pas de X– on peut permuter X et Y en abscisses et en ordonnées

• Y ne peut pas être prédite par X

ventes glaces

vent

es lu

nette

s

vent

es g

lace

sventes lunettes

Page 8: Regress lineaire simple imp

I.2. Corrélation versus régression

2. Exemple : corrélation (négative)• X = ventes de paires de lunettes de soleil en été• Y = ventes de parapluies en été• Il existe une liaison entre X et Y :

– Quand X augmente, Y diminue (météo estivale)– Quand X diminue, Y augmente (météo pluvieuse)

• La liaison est symétrique : – X est liée à Y, et Y est liée à X– mais X ne dépend pas de Y et Y ne dépend pas de X– on peut permuter X et Y en abscisses et en ordonnées

• Y ne peut pas être prédite par X

vent

es p

arap

luie

s

ventes lunettes ventes parapluiesvent

es lu

nette

s

Page 9: Regress lineaire simple imp

I.2. Corrélation versus régression

3. Exemple : régression• X = âge (de 0 à 15 ans)• Y = taille (cm)• Il existe une liaison entre X et Y :

– Quand l’âge augmente, la taille augmente– Quand l’âge diminue, la taille diminue

• La liaison est asymétrique : – la taille dépend de l’âge mais l’âge ne dépend pas de la taille– on ne peut pas permuter X et Y en abscisses et en ordonnées

• On peut prédire la taille par l’âge à l’aide d’une équation de droite ou de courbe de régression (cf carnet de santé)

Page 10: Regress lineaire simple imp

Corrélation Régression

Variables X = quantitativeY = quantitative

X = quantitativeY = quantitative

Symétrie de la liaison

Oui / NonY liée à XX liée à Y

NonY dépend de X

-Exemples Y = conso. cannabis

X = température moyenne annuelle

Y= tailleX = âge

Prédiction Non Oui (équation)

I.2. Corrélation versus régression

Page 11: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire1. Nature des variables

2. Corrélation versus régression : exemples

3. Conditions d’application

II. Coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 12: Regress lineaire simple imp

I.3. Conditions d’application de la corrélation et de la régression linéaire simple

• Indépendance des observations

• Liaison linéaire entre X et Y

• Distribution conditionnelle normale et de variance constante

Page 13: Regress lineaire simple imp

I.3. Conditions d’application de la corrélation et de la régression linéaire simple

1. Indépendance des observations• Ne pas confondre :

- Indépendance des observations (condition d’application du test statistique)

- Indépendance des variables (hypothèse à tester)

Page 14: Regress lineaire simple imp

Observations indépendantes (et variables corrélées)

3 mois60cm

3 mois58cm

9 mois70cm

8 mois70cm

24 mois85cm

6 mois65cm

Enfant 1 Enfant 2 Enfant 3 Enfant 4 Enfant 5 Enfant n

Observations corrélées (et variables corrélées)

1010hpa30.5°C

1er juin 2 juin 3 juin 4 juin 5 juin 1er octobre

1013hpa29.5°C

1014hpa30.5°C

1010hpa31°C

1009hpa29°C

1002hpa18°C

Page 15: Regress lineaire simple imp

I.3. Conditions d’application de la corrélation et de la régression linéaire simple

2. Liaison linéaire entre X et YAvant d’appliquer le test du coefficient de corrélationou d’estimer la droite de régression, il faut vérifier -empiriquement (graphiquement) - que la liaison entre les 2variables est de nature linéaire.A défaut, l’interprétation du test du coefficient decorrélation ou du test de la pente de la droite derégression peut être erronée.

Page 16: Regress lineaire simple imp

Coefficient de corrélation nulPente de la droite de régression nulle

Cas 1

La nature de la liaison est linéaire (le nuage de points est résumé au mieux par une droite horizontale d’équation y = a)

La condition d’application est vérifiée

Il est possible d’utiliser le coefficient de corrélation et la régression linéaire simple pour quantifier la liaison entre les 2 variables (conclusion : X et Y sont indépendants [Y constant quelle que soit la valeur de X])

Page 17: Regress lineaire simple imp

Coefficient de corrélation nulPente de la droite de régression nulle

Cas 2

Il existe une liaison entre X et Y mais cette liaison n’est pas linéaire : Y varie avec les valeurs de X.

Le nuage de points n’est pas résumé au mieux par une droite mais plutôt par une fonction quadratique.

La condition d’application n’est pas vérifiée

→ Il ne faut pas utiliser le coefficient de corrélation ni la régression linéaire simple pour quantifier la liaison entre les 2 variables

Page 18: Regress lineaire simple imp

Coefficient de corrélation non nulPente de la droite de régression non nulle

Cas 3

La nature de la liaison est linéaire (le nuage de points est résumé au mieux par une droite d’équation y = a+bx)

La condition d’application est vérifiée

Il est possible d’utiliser le coefficient de corrélation et la régression linéaire simple pour quantifier la liaison entre les 2 variables (conclusion : il existe une liaison linéaire entre X et Y)

Page 19: Regress lineaire simple imp

Coefficient de corrélation non nulPente de la droite de régression non nulle

Cas 4

La nature de la liaison n’est pas linéaire (le nuage de points n’est pas résumé au mieux par une droite mais plutôt par une fonction exponentielle)

La condition d’application n’est pas vérifiée

→ Il ne faut pas utiliser le coefficient de corrélation ni la régression linéaire simple pour quantifier la liaison entre les 2 variables

Page 20: Regress lineaire simple imp

I.3. Conditions d’application de la corrélation et de la régression linéaire simple

3. Distribution conditionnelle normale et de variance constante

• Distribution de Y normale et de variance constante pour chaque valeur de X

• (difficilement vérifiable en pratique)

Page 21: Regress lineaire simple imp

La distribution de Y n’est pas normale pour X = x4La variance de Y n’est pas

constante pour les différentes valeurs de X

La condition d’application n’est pas vérifiée

Page 22: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation1. Covariance

2. Coefficient de corrélation et interprétation

3. Estimation du coefficient de corrélation

4. Test du coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 23: Regress lineaire simple imp

II.1. Covariance

N

µYµXYX,cov

N

1iYiXi

• Variance conjointe de 2 variables X et Y

XvarN

µX

N

µXµXXX,cov

N

1i

2Xi

N

1iXiXi

• Cas particulier : X = Y → cov(X,Y) = cov(X,X) = var(X)

Page 24: Regress lineaire simple imp

II.1. Covariance

• X et Y indépendantes

cas particulier Y constant quelle que soit la valeur de X

0N

µYµXYX,cov

N

1iYiXi

0 car Yi = constante =µY

Page 25: Regress lineaire simple imp

II.1. Covariance

n

n

yxyx

YX,cov

n

1i

n

1ii

n

1ii

ii

• Equivalent de la formule de Huyghens pour la covariance

n

n

xx

Xvar

n

1i

2n

1ii

2i

Rappel :

Page 26: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation1. Covariance

2. Coefficient de corrélation et interprétation

3. Estimation du coefficient de corrélation

4. Test du coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 27: Regress lineaire simple imp

II.2. Coefficient de corrélation

YvarXvar

YX,covρ

Le coefficient de corrélation entre 2 variables quantitatives X et Y est égal au rapport de la covariance de X et Y divisé par le produit des écart-types de X et Y.

Le coefficient de corrélation est noté ρ dans la population.

- 1 ρ + 1

Page 28: Regress lineaire simple imp

II.2. Interprétation du coefficient de corrélation

ρ = 0

0YvarXvar

YX,covρ

• Y = fluctue autour d’une constante quelle que soit la valeur de X

• Nuage de points horizontal

• cov(X, Y) = 0

1. X et Y indépendantes : ρ = 0

Page 29: Regress lineaire simple imp

II.2. Interprétation du coefficient de corrélation

0YvarXvar

YX,covρ

• Liaison linéaire croissante entre X et Y

• cov(X, Y) > 0

2. X et Y corrélées : ρ > 0

ρ > 0

NB : si Y = X → cov(X,Y) = var(X) et var(Y) = var(X) → ρ =1

Page 30: Regress lineaire simple imp

II.2. Interprétation du coefficient de corrélation

0YvarXvar

YX,covρ

• Liaison linéaire décroissante entre X et Y

• cov(X, Y) <0

2. X et Y corrélées : ρ < 0

NB : si Y = - X → cov(X,Y) = - var(X) et var(Y) = var(X) → ρ =-1

ρ < 0

Page 31: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation1. Covariance

2. Coefficient de corrélation et interprétation

3. Estimation du coefficient de corrélation

4. Test du coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 32: Regress lineaire simple imp

II.3. Estimation du coefficient de corrélation

échantillon r

population ρ

1-n

mymxYX,cov

n

1iyixi

1-n

mxs

n

1i

2xi

2x

1-n

mys

n

1i

2yi

2y

Le coefficient de corrélation estimé sur un échantillon issu d’une population est noté r.Il s’interprète comme le coefficient de corrélation ρ mesuré sur la population.Il est calculé à partir des estimations de la covariance et des variances de X et de Y sur l’échantillon.

Page 33: Regress lineaire simple imp

n

1i

n

1i

2yi

2xi

n

1iyixi

mymx

mymxr

II.3. Estimation du coefficient de corrélation

Par simplification des (n-1) au dénominateur de la covariance et de la variance de X et de la variance de Y, on obtient l’expression de l’estimateur du coefficient de corrélation r à partir d’un échantillon.

Page 34: Regress lineaire simple imp

n

1i

2n

1ii

2i

n

1i

2n

1ii

2i

n

1i

n

1ii

n

1ii

ii

n

yy

n

xx

n

yxyx

r

II.3. Estimation du coefficient de corrélation

Par simplification des (n-1) au dénominateur de la formule de Huyghens de la covariance et de la variance de X et de Y, on obtient une autre expression de l’estimateur du coefficient de corrélation r à partir d’un échantillon.

Page 35: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation1. Covariance

2. Coefficient de corrélation et interprétation

3. Estimation du coefficient de corrélation

4. Test du coefficient de corrélation

III. Régression linéaire simple

Annexes

Page 36: Regress lineaire simple imp

II.4. Test du coefficient de corrélation

échantillon r

population ρ

H0 : ρ = 0 (absence de liaison [linéaire] entre X et Y)

H1 bilatérale : ρ 0 (existence d’une liaison entre X et Y)

r ρ

Après le calcul du coefficient de corrélation r estimé sur un échantillon, il faut déterminer si le coefficient de corrélation ρ est significativement différent de 0.

Page 37: Regress lineaire simple imp

II.4. Test du coefficient de corrélation

Sous l’hypothèse nulle (H0) :Le rapport de l’estimateur du coefficient de corrélation r sur son écart-type suit une loi de Student à (n-2) degrés de liberté.n est l’effectif de l’échantillon.

rsr

→ t (n-2)ddl

2nr²1sr

L’estimateur de l’écart-type du coefficient de

corrélation est égal à :

Page 38: Regress lineaire simple imp

r²12nrto

Conditions d’application• indépendance des observations

• liaison linéaire entre X et Y

• distribution conditionnelle normale et de variance constante

II.4. Test du coefficient de corrélation

Le test du coefficient de corrélation consiste à calculer la grandeur to et à la comparer à la valeur seuil tα sur la table de la loi de Student à (n-2) degrés de libertés.

Page 39: Regress lineaire simple imp

-t α

α/2

(rejet de H0 = acceptation de H1)

α/2

(rejet de H0 = acceptation de H1)

1 – α

(non-rejet de H0)

0t α

|to| tα |to| > tα|to| > tα

Abscisses : valeurs possibles de t sous H0 (ρ = 0)

to : valeur observée/calculée de t sur l’échantillon

r²12nrt

Page 40: Regress lineaire simple imp

Détermination du degré de signification associé à to (P-value)

Exemple : • to = 2.12• n = 20

X(n-2) = 18 ddl

0.02 < P <0.05

Rappel : P-value = probabilité d’observer une valeur plus grande que to sous l’hypothèse nulle H0

P < α → rejet de H0

Page 41: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation

III. Régression linéaire simple1. Régression linéaire simple

2. Estimation par la méthode des moindres carrés

3. Test de la pente de la droite de régression

Annexes

Page 42: Regress lineaire simple imp

III.1. Régression linéaire simple

X

YY = α + βXY : variable dépendante (expliquée)

X : variable indépendante (explicative)

α : ordonnée à l’origine (valeur de Y pour x = 0)

β : pente (variation moyenne de la valeur de Y pour une augmentation d’une unité de X)

La régression s’adresse à un type de problème où les 2 variables quantitatives continues X et Y ont un rôle asymétrique : la variable Y dépend de la variable X.

La liaison entre la variable Y dépendante et la variable X indépendante peut être modélisée par une fonction de type Y = α + βX, représentée graphiquement par une droite.

Page 43: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation

III. Régression linéaire simple1. Régression linéaire simple

2. Estimation par la méthode des moindres carrés

3. Test de la pente de la droite de régression

Annexes

Page 44: Regress lineaire simple imp

III.2. Estimation par la méthode des moindres carrés

X

Y

(xi, yi)

Chaque individu i est caractérisé par un couple de coordonnées (xi, yi) et est représenté par un point sur le graphique.L’ensemble des individus forme un nuage de points.

Page 45: Regress lineaire simple imp

III.2. Estimation par la méthode des moindres carrés

X

Y

Y = α + βX

(xi, yi)

(xi, yi)^

yi = α + βxi^

La droite de régression Y = α + βX est la droite qui résume le mieux le nuage de points. Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus proches (c’est-à-dire la droite qui passe à la plus faible distance de chaque point du nuage, en moyenne).

Page 46: Regress lineaire simple imp

III.2. Estimation par la méthode des moindres carrés

X

Y

Y = α + βX

(xi, yi)

(xi, yi)^

yi - yi

yi = α + βxi^

La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé (xi, yi) et l’ordonnée du point correspondant sur la droite (xi, ^yi) .Cette distance d’un point à la droite (yi - ^yi) peut être positive ou négative et la somme des distances à la droite s’annule.

Page 47: Regress lineaire simple imp

III.2. Estimation par la méthode des moindres carrés

X

Y

Y = α + βX

(xi, yi)

(xi, yi)^

yi - yi

yi = α + βxi^

SCE = i (yi – yi)²^

Pour s’affranchir du signe, on calcule la somme des carrés des distances de chaque point à la droite. La droite de régression est la droite qui minimise la somme des carrés des écarts. Elle est aussi appelée droite des moindres carrés.

Page 48: Regress lineaire simple imp

X

Y Y = α + βX

mx

my

III.2. Estimation par la méthode des moindres carrés

Une particularité de la droite de régression est de passer par le point moyen théorique de coordonnée (mx, my).

Page 49: Regress lineaire simple imp

Xvar

YX,covb

X

Y Y = α + βX

mx

my

n

1i

2xi

n

1iyixi

mx

mymxb

III.2. Estimation par la méthode des moindres carrés

a et b sont les estimations de l’ordonnée à l’origine α et de la pente β de la droite de régression.

L’estimation de la pente de la droite de régression b est égale au rapport de la covariance de X et Y sur la variance de X.

Page 50: Regress lineaire simple imp

X

Y Y = α + βX

mx

my

III.2. Estimation par la méthode des moindres carrés

L’estimateur de l’ordonnée à l’origine a est déduit de la pente b et des coordonnées du point moyen (mx, my) :

a = my – b mx

Page 51: Regress lineaire simple imp

Plan

I. Corrélation et régression linéaire

II. Coefficient de corrélation

III. Régression linéaire simple1. Régression linéaire simple

2. Estimation par la méthode des moindres carrés

3. Test de la pente de la droite de régression

Annexes

Page 52: Regress lineaire simple imp

III.3. Test de la pente de la droite de régression

H0 : β = 0 (droite de régression horizontale : Y = α)

H1: β 0

La droite de régression d’équation Y = α + βX comporte 2 paramètres (α et β).L’hypothèse nulle est que la pente β de la droite de régression de Y en X est égale à 0 (soit Y est égal à α, c’est-à-dire que la droite de régression est horizontale et qu’il n’y a pas de liaison entre X et Y).

échantillon b

population βb ≈ β

Page 53: Regress lineaire simple imp

III.3. Test de la pente de la droite de régression

Sous l’hypothèse nulle (H0) : Le rapport de l’estimateur de la pente b sur son écart-type suit une loi de Student à (n-2) degrés de liberté.n est l’effectif de l’échantillon.

bsb

→ t (n-2)ddl

2n

bss

s

22x

2y

b

L’estimateur de l’écart-type de la pente est égal à :

Page 54: Regress lineaire simple imp

Conditions d’application• indépendance des observations

• liaison linéaire entre X et Y

• distribution conditionnelle normale et de variance constante

2n

bss

b t2

2x

2y

o

III.3. Test de la pente de la droite de régression

Le test de la pente consiste à calculer la grandeur to et à la comparer à la valeur seuil tα sur la table de la loi de Student à (n-2) degrés de libertés

Page 55: Regress lineaire simple imp

Corrélation et régression

Corrélation Régression

Variables Quantitatives symétriques/asymétriques

Quantitatives asymétriques

Test Coefficient de corrélation-1 r 1

Pente de la droite de régression

Prédiction non oui

Conditions Indépendance des observationsLiaison linéaireDistribution conditionnelle normale et de variance constante

Page 56: Regress lineaire simple imp

Annexe : variance et covariance

• Variance

• var(X) = E(X²) – [E(X)]²

2

2 xn1x

n1xvar

n

n

xx

xvar

n

1i

2n

1ii

2i

Page 57: Regress lineaire simple imp

Annexe : variance et covariance

• Covariance

• cov(X,Y) = E(XY) – [E(X) x E(Y)]

y

n1x

n1xy

n1yx,cov

n

n

yxyx

YX,cov

n

1i

n

1ii

n

1ii

ii

Page 58: Regress lineaire simple imp

Mentions légales

Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine de Grenoble (Université Joseph Fourier – Grenoble 1)en collaboration avec l’Equipe Audiovisuel et Production Multimédia (EAEPM) de l’Université Stendhal de Grenoble.

L'ensemble de ce document relève des législations française et internationale sur le droit d'auteuret la propriété intellectuelle. Tous les droits de reproduction de tout ou partie sont réservés pour lestextes ainsi que pour l'ensemble des documents iconographiques, photographiques, vidéos etsonores.

Ce document est interdit à la vente ou à la location. Sa diffusion, duplication, mise à disposition dupublic (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sontstrictement réservées à l’université Joseph Fourier de Grenoble.

L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits en 1ère

année de Médecine ou de Pharmacie de l’Université Joseph Fourier de Grenoble, et non destinéeà une utilisation collective, gratuite ou payante.