6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50...
Transcript of 6. RÉGRESSION AVEC PLUS DE 2 VARIABLES · Graphe de régression 0 20 40 60 80 100 120 140 é 25 50...
6. RÉGRESSION AVEC
PLUS DE 2 VARIABLES
Plusieurs variables indépendantes :
régression multiple
• But : expliquer une variable dépendante par plusieurs variables indépendantes
• Permet la prise en compte de l’effet de variables confondantes
Y = f(X1, X2, ..., Xn)
• Y = b + a1X1 + a2X2 + ... + akXk
• 2 variables indépendantes : plan ; au-delà : hyperplan
• ai (coefficient de régression partielle) : contribution de
la variable Xi à l'explication de la variable Y, quand les
variables explicatives sont tenues constantes
Régression linéaire multiple
• 2 variables indépendantes (explicatives) : plan
• R2 global = coefficient de détermination multiple : donne la proportion de variance expliquée par toutes les variables
• r2 partiels = coefficients de détermination partiels : donnent la proportion de variance expliquée par chacune des variables en contrôlant l’effet des autres
• Les deux peuvent être testés (mêmes conditions que pour la régression simple)
Test du coefficient de détermination multiple R2
FRM = R2(n - p)/((1 - R2)(p - 1))
• où p est le nombre total de variables (incluant Y), et n celui des observations
• FRM suit une loi de F à (p - 1) et (n - p) ddl
R2 ajusté
• Problèmes du R2 : augmente avec le nombre de variables, même aléatoires
• Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes
• Le R2 ajusté tient compte du nombre de variables et diminue d’autant la valeur du R2
R2 ajusté = 1 - ((n - 1)/(n - p))(1 - R2)
• On peut également calculer et tester les r2, des variables individuelles (avec donc chacune une p-value)
• Significativité de chaque variable sur les variations de Y, en tenant compte des autres variables X
i
• Les p-value et ri
2 tiennent compte des liens entre
les variables Xi et changent en fonction de la
présence ou l’absence des Xi (sauf si elles sont
totalement indépendantes)
• Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives
• Elimination descendante (backward elimination)
• Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés
• Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés
• Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives
Sélection des variables X
• Sélection ascendante (forward selection)
• Même chose mais en ajoutant les variables une à une d’après leur corrélations partielles avec Y, en commençant par la plus significative individuellement
• Procédure pas à pas (stepwise procedure)
• Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d’une élimination descendante pour voir si une des variables incluse jusque là n’est plus significative
• On peut y ajouter un critère qui évalue l’ajustement des données au modèle, éventuellement en prenant en compte le nombre de paramètres : AIC (Akaike Information Criterion), BIC (Bayesien), etc.
• Effet de deux variables X1 et X2 sur une variable Y
• Exemple : effet de la température (X1) et de l’humidité
(X2) sur la croissance (Y) d’un organisme
• La température et l’humidité ont chacune une influence sur la croissance
• La température et l’humidité sont ici corrélées : redondance dans l’explication de la variation
Partitionnement de la variation
100 % de la variation de Y
Variation expliquée par X1 = R21
Variation expliquée par X2 = R22
Variation inexpliquée
da b c
Avec a+b+c+d = 100 %
a, b, c, et d sont déduits par soustraction
= a+b
= b+c
= a+b+c
= d
Variation expliquée à la fois par X1 et X2 = R21,2
• Etude de l’effet d’une variable X1 sur une autre, X2,
tout en contrôlant l’effet d’une troisième, X3 (la
covariable)
• Consiste à régresser X2 sur X3 puis à étudier ensuite
le lien entre les résidus de cette régression (la variation de X2 qui n’est pas expliqué par X3) et X1
• Cela revient à tenir X3 constante
• Exemples : contrôle de l’effet de l’échantillonnage, de la taille des hôtes, du temps, ...
Régression partielle
Exemple• Relation entre l’abondance d’une espèce de
nématode et la longévité de l’hôte, tout en contrôlant la taille de l’hôte
02,5
57,510
12,515
17,520
22,5
Abon
danc
e
0 20 40 60 80 100 120 140Longévité
Y = 6,191 + ,106 * X; R^2 = ,392
Graphe de régression
1 177,695 177,695 7,094 ,022111 275,536 25,04912 453,231
DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total
Tableau d’ANOVAAbondance vs Longévité
02,5
57,510
12,515
17,520
22,5
Abon
danc
e
-30 -25 -20 -15 -10 - 5 0 5 10 15 20Résidus Longévité
Y = 12,538 - ,05 * X; R^2 = ,009
Graphe de régression
0
20
40
60
80
100
120
140
Long
évité
25 50 75 100 125 150 175 200 225 250Taille
Y = -16,966 + ,563 * X; R^2 = ,892
Graphe de régression
1 4,246 4,246 ,104 ,753111 448,984 40,81712 453,231
DDL Somme des carrés Carré moyen Valeur de F Valeur de pRégression Résidu Total
Tableau d’ANOVAAbondance vs Résidus Longévité
Régression polynomiale
• Permet d’ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X
• 1 variable X : courbe
• 2 variables X : surface (plan) plus ou moins “bosselée”
• > 2 variables X : hyperplan “bosselé”
• Variante de la régression multiple : ajout de variables supplémentaires par l’intermédiaire des variables originales élevées à différents ordres (carré, cube, ...)
• Exemple avec une variable X : ajout de X2, X3, ...
Y = b + a1X + a
2X2 + a
3X3 +...
• Les variables à différents ordres sont sélectionnées par les procédures habituelles
• Chaque ordre ajoute un “pli” à la courbe
Ordre 1 (X) Ordre 2 (X2)
Ordre 3 (X3) Ordre 4 (X4)
• Plus l’ordre est élevé, plus on perd de degrés de liberté, plus l’explication biologique est difficile
• Il faut trouver un bon compromis
• Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile
• Les organismes ont souvent des préférences situées autour d’un optimum : distribution unimodale
• On peut ajuster une courbe
• r2 = 0,875
• Calcul de l’optimum u et de la tolérance t (= 1 unité d'écart-type)
a1 a2
u
t
Relation régression et analyse de variance : utilisation de
variables muettes
• En ANOVA, les variables indépendantes sont qualitatives (facteurs)
• Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables)
• Le tableau d'ANOVA de la régression donne ainsi le même résultat qu'une ANOVA
• Le recodage se fait avec des 0 et 1
• Exemple : Mâle = 0 ; Femelle = 1
• On pourrait estimer : Taille = f(Poids, Âge, Sexe)
• Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe
• Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme
Taille Poids Âge Sexe162 54 25 1185 83 32 0178 65 22 0157 62 43 1175 63 39 1189 91 31 0168 72 27 1
• On procède de même avec des facteurs à plus de 2 niveaux
• Exemple : couleur des cheveux
• On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000)
• On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA
Brun 1 0 0 0
Blond 0 1 0 0
Châtain 0 0 1 0
Roux 0 0 0 1
Variables indépendantes quantitative et qualitative :
Analyse de covariance
• ANCOVA : mélange d’ANOVA à un facteur et de régression linéaire simple
• 1 variable dépendante quantitative Y
• 2 variables indépendantes
• 1 quantitative X
• 1 qualitative Z
• Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative)
• Exemple : relation entre dose d’engrais et croissance dans plusieurs types de sols
Hypothèses testées
• 3 questions se posent
1. Influence de X sur Y
2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction
3. Influence de Z sur Y
Tests• Tests des 3 hypothèses
1. k régressions linéaires simples
2. Tests des différences entre les pentes des k régressions
3. Si les droites sont parallèles, test des différences entre les ordonnées à l’origine (a-t-on affaire à plusieurs droites ?)
• Régressions linéaires de Y sur X
• On répond à la question 1 : Y a-t-il une relation (linéaire) significative entre ces deux variables ?
Procédure détaillée
• Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET
• On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d’origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP
• On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET
• On teste si l’erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles ?
• Rapport de variances : on utilise une statistique F
Fvp = (SCEEVP/(k-1))/(SCEET/(n-2k))
avec k-1 et n-2k ddl
• Si rejet de H0 (= pas de différence) : relations
différentes d’un groupe à l’autre (présence d’une interaction) et fin du test
• Si les droites sont parallèles, on teste si les ordonnées à l’origine sont différentes. C’est la question 3.
• On combine toutes les données et on mesure l’erreur résiduelle globale de la droite de régression commune = SCEEC
• On soustrait à cette quantité l’erreur résiduelle des droites parallèles séparées : erreur due aux écarts d’ordonnées à l’origine : SCEEVOO = SCEEC - SCEEDP
• On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F
Fvoo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1))
avec k-1 et n-k-1 ddl
• Si l’hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y
• On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l’interaction.