6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50...

6. RÉGRESSION AVEC

PLUS DE 2 VARIABLES

Plusieurs variables indépendantes :

régression multiple

• But : expliquer une variable dépendante par plusieurs variables indépendantes

• Permet la prise en compte de l’effet de variables confondantes

Y = f(X1, X2, ..., Xn)

• Y = b + a1X1 + a2X2 + ... + akXk

• 2 variables indépendantes : plan ; au-delà : hyperplan

• ai (coefficient de régression partielle) : contribution de

la variable Xi à l'explication de la variable Y, quand les

variables explicatives sont tenues constantes

Régression linéaire multiple

• 2 variables indépendantes (explicatives) : plan

• R2 global = coefficient de détermination multiple : donne la proportion de variance expliquée par toutes les variables

• r2 partiels = coefficients de détermination partiels : donnent la proportion de variance expliquée par chacune des variables en contrôlant l’effet des autres

• Les deux peuvent être testés (mêmes conditions que pour la régression simple)

Test du coefficient de détermination multiple R2

FRM = R2(n - p)/((1 - R2)(p - 1))

• où p est le nombre total de variables (incluant Y), et n celui des observations

• FRM suit une loi de F à (p - 1) et (n - p) ddl

R2 ajusté

• Problèmes du R2 : augmente avec le nombre de variables, même aléatoires

• Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes

• Le R2 ajusté tient compte du nombre de variables et diminue d’autant la valeur du R2

R2 ajusté = 1 - ((n - 1)/(n - p))(1 - R2)

• On peut également calculer et tester les r2, des variables individuelles (avec donc chacune une p-value)

• Significativité de chaque variable sur les variations de Y, en tenant compte des autres variables X

i

• Les p-value et ri

2 tiennent compte des liens entre

les variables Xi et changent en fonction de la

présence ou l’absence des Xi (sauf si elles sont

totalement indépendantes)

• Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives

• Elimination descendante (backward elimination)

• Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés

• Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés

• Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives

Sélection des variables X

• Sélection ascendante (forward selection)

• Même chose mais en ajoutant les variables une à une d’après leur corrélations partielles avec Y, en commençant par la plus significative individuellement

• Procédure pas à pas (stepwise procedure)

• Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d’une élimination descendante pour voir si une des variables incluse jusque là n’est plus significative

• On peut y ajouter un critère qui évalue l’ajustement des données au modèle, éventuellement en prenant en compte le nombre de paramètres : AIC (Akaike Information Criterion), BIC (Bayesien), etc.

• Effet de deux variables X1 et X2 sur une variable Y

• Exemple : effet de la température (X1) et de l’humidité

(X2) sur la croissance (Y) d’un organisme

• La température et l’humidité ont chacune une influence sur la croissance

• La température et l’humidité sont ici corrélées : redondance dans l’explication de la variation

Partitionnement de la variation

100 % de la variation de Y

Variation expliquée par X1 = R21

Variation expliquée par X2 = R22

Variation inexpliquée

da b c

Avec a+b+c+d = 100 %

a, b, c, et d sont déduits par soustraction

= a+b

= b+c

= a+b+c

= d

Variation expliquée à la fois par X1 et X2 = R21,2

• Etude de l’effet d’une variable X1 sur une autre, X2,

tout en contrôlant l’effet d’une troisième, X3 (la

covariable)

• Consiste à régresser X2 sur X3 puis à étudier ensuite

le lien entre les résidus de cette régression (la variation de X2 qui n’est pas expliqué par X3) et X1

• Cela revient à tenir X3 constante

• Exemples : contrôle de l’effet de l’échantillonnage, de la taille des hôtes, du temps, ...

Régression partielle

Exemple• Relation entre l’abondance d’une espèce de

nématode et la longévité de l’hôte, tout en contrôlant la taille de l’hôte

02,5

57,510

12,515

17,520

22,5

Abon

danc

e

0 20 40 60 80 100 120 140Longévité

Y = 6,191 + ,106 * X; R^2 = ,392

Graphe de régression

1 177,695 177,695 7,094 ,022111 275,536 25,04912 453,231

DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total

Tableau d’ANOVAAbondance vs Longévité

02,5

57,510

12,515

17,520

22,5

Abon

danc

e

-30 -25 -20 -15 -10 - 5 0 5 10 15 20Résidus Longévité

Y = 12,538 - ,05 * X; R^2 = ,009


0

20

40

60

80

100

120

140

Long

évité

25 50 75 100 125 150 175 200 225 250Taille

Y = -16,966 + ,563 * X; R^2 = ,892


1 4,246 4,246 ,104 ,753111 448,984 40,81712 453,231

DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total

Tableau d’ANOVAAbondance vs Résidus Longévité

Régression polynomiale

• Permet d’ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X

• 1 variable X : courbe

• 2 variables X : surface (plan) plus ou moins “bosselée”

• > 2 variables X : hyperplan “bosselé”

• Variante de la régression multiple : ajout de variables supplémentaires par l’intermédiaire des variables originales élevées à différents ordres (carré, cube, ...)

• Exemple avec une variable X : ajout de X2, X3, ...

Y = b + a1X + a

2X2 + a

3X3 +...

• Les variables à différents ordres sont sélectionnées par les procédures habituelles

• Chaque ordre ajoute un “pli” à la courbe

Ordre 1 (X) Ordre 2 (X2)

Ordre 3 (X3) Ordre 4 (X4)

• Plus l’ordre est élevé, plus on perd de degrés de liberté, plus l’explication biologique est difficile

• Il faut trouver un bon compromis

• Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile

• Les organismes ont souvent des préférences situées autour d’un optimum : distribution unimodale

• On peut ajuster une courbe

• r2 = 0,875

• Calcul de l’optimum u et de la tolérance t (= 1 unité d'écart-type)

a1 a2

u

t

Relation régression et analyse de variance : utilisation de

variables muettes

• En ANOVA, les variables indépendantes sont qualitatives (facteurs)

• Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables)

• Le tableau d'ANOVA de la régression donne ainsi le même résultat qu'une ANOVA

• Le recodage se fait avec des 0 et 1

• Exemple : Mâle = 0 ; Femelle = 1

• On pourrait estimer : Taille = f(Poids, Âge, Sexe)

• Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe

• Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme

Taille Poids Âge Sexe162 54 25 1185 83 32 0178 65 22 0157 62 43 1175 63 39 1189 91 31 0168 72 27 1

• On procède de même avec des facteurs à plus de 2 niveaux

• Exemple : couleur des cheveux

• On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000)

• On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA

Brun 1 0 0 0

Blond 0 1 0 0

Châtain 0 0 1 0

Roux 0 0 0 1

Variables indépendantes quantitative et qualitative :

Analyse de covariance

• ANCOVA : mélange d’ANOVA à un facteur et de régression linéaire simple

• 1 variable dépendante quantitative Y

• 2 variables indépendantes

• 1 quantitative X

• 1 qualitative Z

• Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative)

• Exemple : relation entre dose d’engrais et croissance dans plusieurs types de sols

Hypothèses testées

• 3 questions se posent

1. Influence de X sur Y

2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction

3. Influence de Z sur Y

Tests• Tests des 3 hypothèses

1. k régressions linéaires simples

2. Tests des différences entre les pentes des k régressions

3. Si les droites sont parallèles, test des différences entre les ordonnées à l’origine (a-t-on affaire à plusieurs droites ?)

• Régressions linéaires de Y sur X

• On répond à la question 1 : Y a-t-il une relation (linéaire) significative entre ces deux variables ?

Procédure détaillée

• Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET

• On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d’origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP

• On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET

• On teste si l’erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles ?

• Rapport de variances : on utilise une statistique F

Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k))

avec k-1 et n-2k ddl

• Si rejet de H0 (= pas de différence) : relations

différentes d’un groupe à l’autre (présence d’une interaction) et fin du test

• Si les droites sont parallèles, on teste si les ordonnées à l’origine sont différentes. C’est la question 3.

• On combine toutes les données et on mesure l’erreur résiduelle globale de la droite de régression commune = SCEEC

• On soustrait à cette quantité l’erreur résiduelle des droites parallèles séparées : erreur due aux écarts d’ordonnées à l’origine : SCEEVOO = SCEEC - SCEEDP

• On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F

Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1))

avec k-1 et n-k-1 ddl

• Si l’hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y

• On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l’interaction.

6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50...

Documents

Transcript of 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50...