STAT-G204 Chapitre I: ANOVA - Vrije Universiteit...

64
STAT-G204 Chapitre I: ANOVA Caroline Verhoeven

Transcript of STAT-G204 Chapitre I: ANOVA - Vrije Universiteit...

STAT-G204Chapitre I: ANOVA

Caroline Verhoeven

Table des matieres

1 Introduction

2 ANOVA a 1 facteur

3 ANOVA a mesures repetees

4 Randomized block design ANOVA

5 ANOVA a plusieurs facteurs

Caroline Verhoeven STAT-G204 2 / 64

1. Introduction

Augmentation du risque d’erreur du type I : Exemple I

Exemple 1

En 1995, Inaudi et al. ont publie un articlesatirique dans le journal “Annals of Impro-bable Research”.Sujet de l’article : l’effet papillon : le bat-tement d’ailes d’un papillon peut avoir desgrands effets, tels que le creation d’un ou-ragan sur un autre continent.

Caroline Verhoeven STAT-G204 3 / 64

1. Introduction

Augmentation du risque d’erreur du type I : Exemple II

Exemple 1

Les chercheurs on attrape des douzaines de papillons et ont enregistrequotidiennement si ils battaient des ailes ou non en Suisse et onttelephone tous les jours a leur copine a Paris, pour demander si il pleut.

A la fin de l’etude, ils ont teste, pour chaque papillon, si il y avait un lienentre leur battement d’ailes et la pluie a Paris.

Ils ont trouve un papillon dont les jours des battement d’ailes etaitfortement correles avec les jours de pluie a Paris. Ils ont donc montre lelien entre les 2.

Leur erreur statistique : Si on fait suffisamment de tests, il y en aura bienun statistiquement significatif

Si on effectue N test independant avec un niveau significatif α, laprobabilite de ne pas faire d’erreur du type I est (1 − α)N . La probabilitede faire au moins 1 erreur du type I est 1 − (1 − α)N .

Caroline Verhoeven STAT-G204 4 / 64

2. ANOVA a 1 facteur

Exemple : Description I

Exemple 2

Quand change de zone horaire, onsouffre du decalage horaire. Ensuite,on s’adapte au cycle lumineux percupar l’oeil et on resynchronise notrerythme circadien. Le changement dansce rythme se nomme un “shift”.

En 1998, Campbell et Murphy ontdeclare que ce shift pouvait egalementse faire en illuminant l’arriere du genoux.Le resultat fut tres controverse

Caroline Verhoeven STAT-G204 5 / 64

2. ANOVA a 1 facteur

Exemple : Description II

Exemple 2

En 2002, Wright et Czeisler ont reetudiece phenomene. Ils ont mesure le cyclede production de melatonine chez N =22 sujets aleatoirement soumis a un des3 traitement suivants.

Ils ont ete reveille durant leur sommeilet soumis a une forte lumiere dans lesyeux, a l’arriere du genoux ou a aucunelumiere, durant une periode de 3 heures.Apres 2 jours, on a mesure leur cycle demelatonine.

Le “shift” (en heures) est donnes pourchaque groupe sur le slide suivant. Unshift negatif montre un retard.

Caroline Verhoeven STAT-G204 6 / 64

2. ANOVA a 1 facteur

Exemple : donnees

Exemple 2

controle genoux yeux0,53 0,73 -0,780,36 0,31 -0,860,20 0,03 -1,35-0,37 -0,29 -1,48-0,60 -0,56 -1,52-0,64 -0,96 -2,04-0,68 -1,61 -2,83-1,27

groupe 1 : controle, N1 = 8

groupe 2 : genoux, N2 = 7

groupe 3 : yeux, N3 = 7

Caroline Verhoeven STAT-G204 7 / 64

2. ANOVA a 1 facteur

Qu’est-ce que l’ANOVA ?

Ne pas faire plusieurs test 2 groupes par 2 groupes !

ANOVA : generalisation du test t pour 2 echantillons independants,vers k > 2 echantillons independantsFormulation des hypotheses

H0 : µ1 = µ2 = · · · = µk

Ha : Au moins une des moyennes est differentes des autres

ANOVA : ANalysis Of VAriance

Caroline Verhoeven STAT-G204 8 / 64

2. ANOVA a 1 facteur

Notations

k : Nombre d’echantillons

xij : mesure pour le sujet i du groupe j

x j : moyenne des mesures du groupe j

x : Moyenne globale de toutes les mesures

Nj : Nombre de sujets du groupe j

N : Nombre total de sujets

Caroline Verhoeven STAT-G204 9 / 64

2. ANOVA a 1 facteur

Principe de resolution

Comparer la variabilite entre les groupes avec celle a l’interieur desgroupes

xij − x =(xij − x j)variation

intra-groupes+

(x j − x)variation

inter-groupes

Exemple 2

2,5

-1,5

-0,5

0,5

contr. gen. yeux2,5

-1,5

-0,5

0,5

contr. gen. yeux2,5

-1,5

-0,5

0,5

contr. gen. yeux

x

x1, x2, x3

Caroline Verhoeven STAT-G204 10 / 64

2. ANOVA a 1 facteur

Calcul de la variance inter-groupes

La variance inter-groupes :

MSB =

∑kj=1 Nj(x j − x)2

k − 1

Exemple 2

x1 = −0,31, x2 = −0,34 x3 = −1,55 x = −0,71

MSB =12

(

8(−0,31 + 0,71)2 + 7(−0,34 + 0,71)2 + 7(−1,55 + 0,71)2)

= 3,61

Caroline Verhoeven STAT-G204 11 / 64

2. ANOVA a 1 facteur

Calcul de la variance intra-groupes I

La variance intra-groupes :

MSW =

∑N1i=1(xi1 − x1)

2 +∑N2

i=1(xi2 − x2)2 + · · ·+

∑Nki=1(xik − xk )

2

N − k

Exemple 2

xi1 xi2 xi3 (xi1 − x1)2 (xi2 − x2)

2 (xi3 − x3)2

0,53 0,73 -0,78 0,70 1,14 0,600,36 0,31 -0,86 0,45 0,42 0,480,20 0,03 -1,35 0,26 0,13 0,04-0,37 -0,29 -1,48 0,00 0,00 0,01-0,60 -0,56 -1,52 0,08 0,05 0,00-0,64 -0,96 -2,04 0,11 0,39 0,24-0,68 -1,61 -2,83 0,14 1,62 1,63-1,27 0,92

2,67 3,75 2,99

Caroline Verhoeven STAT-G204 12 / 64

2. ANOVA a 1 facteur

Calcul de la variance intra-groupes II

Exemple 2

Valeur de la variance intra-groupes :

MSW =2,67 + 3,75 + 2,99

22 − 3= 0,50

Caroline Verhoeven STAT-G204 13 / 64

2. ANOVA a 1 facteur

Calcul de la statistique F

On veut comparer MSB a MSW

On calcule le rapport entre les 2

f =MSB

MSW, F ∼ F (k − 1,N − k)

Si H0 est vraie, on s’attend a ce que f = 1

SI Ha est vraie, on s’attend a ce que f > 1

Caroline Verhoeven STAT-G204 14 / 64

2. ANOVA a 1 facteur

Exemple : Calcul de f et conclusion

Exemple 2

On veut savoir si au moins un des groupes a en moyenne un shiftdifferent dans son rythme circadien, avec un niveau significatif α = 0,05.

On a

f =MSB

MSW=

3,610,50

= 7,289, F ∼ F (2,19)

Calcul de la valeur p

p = P(F > 7,29) = 0,004 < α = 0,05

⇒ On rejette H0

3,52 f

0,2

0,4

0,6

0,8

1,0

Caroline Verhoeven STAT-G204 15 / 64

2. ANOVA a 1 facteur

Conditions

Les echantillons doivent etre aleatoires simples

Les echantillons doivent etre independants

Il faut que σ1 = σ2 = · · · = σk Pour verifier cela, on a le test deLevene

Il faut que la variable soit distribuee normalement pour les kpopulations

Caroline Verhoeven STAT-G204 16 / 64

2. ANOVA a 1 facteur

Donnees en SPSS

En SPSS : toutes les donnees d’un sujet sur une ligne

Caroline Verhoeven STAT-G204 17 / 64

2. ANOVA a 1 facteur

Menus SPSS

Caroline Verhoeven STAT-G204 18 / 64

2. ANOVA a 1 facteur

Definir les facteurs en SPSS I

Caroline Verhoeven STAT-G204 19 / 64

2. ANOVA a 1 facteur

Definir les facteurs en SPSS II

On met la variable numerique dans Dependent ListOn met la variable qui definit les groupes dans Factor

Caroline Verhoeven STAT-G204 20 / 64

2. ANOVA a 1 facteur

Le teste de Levene en SPSS

On choisit le test de Levene dans les options

Caroline Verhoeven STAT-G204 21 / 64

2. ANOVA a 1 facteur

Sortie en SPSS

Caroline Verhoeven STAT-G204 22 / 64

2. ANOVA a 1 facteur

Resultat du test de Levene

df1= k − 1, df2= N − k

Sig.= p

Ici : p = 0,856⇒ NRH0

Caroline Verhoeven STAT-G204 23 / 64

2. ANOVA a 1 facteur

Resultat du test ANOVA

df1= k − 1, df2= N − k

Sig.= p

Ici : p = 0,004⇒ RH0

Caroline Verhoeven STAT-G204 24 / 64

2. ANOVA a 1 facteur

Apres l’ANOVA

L’ANOVA ne permet de detecter que si toutes les moyennes sont lesmemes ou si au moins une est differente.Comment savoir lesquelles sont differentes ?

Si on ne rejette pas H0 : on peut s’arreterSi on rejette H0 : Il y a differentes possibilites (tests de comparaisonmultiples) :

BonferroniTukeyDunnettSidakScheffee...

Caroline Verhoeven STAT-G204 25 / 64

3. ANOVA a mesures repetees

Exemple : Description

Exemple 3

Dans l’emission de realite “I’m acelebrity, get me out of here”, descelebrites doivent survivre dans lajungle et doivent subir des epreuvesdesagreables et humiliantes

Une de ces epreuves est de manger des choses peu appetissantes.

8 celebrites mangent chacune 4 de ces choses. On mesure le temps quileur faut avant d’avoir la nausee en secondes. Y a-t-il une difference detemps entre ces choses ?

Les donnees se trouvent sur le slide suivant

Caroline Verhoeven STAT-G204 26 / 64

3. ANOVA a mesures repetees

Exemple : Donnees

Exemple 3

celeb phasmes testicules yeux poisson larves1 8 7 1 62 9 5 2 53 6 2 3 84 5 3 1 95 8 4 5 86 7 5 6 77 10 2 7 28 12 6 8 1

Caroline Verhoeven STAT-G204 27 / 64

3. ANOVA a mesures repetees

Principe

On mesures k fois les memes sujets sous des conditions differentes

Generalisation du test t pour 2 echantillons apparies

Caroline Verhoeven STAT-G204 28 / 64

3. ANOVA a mesures repetees

Test preliminaire

Les variances des differences entre 2 groupes sont-elles toutes lesmemes ?Pour y repondre : test de Mauchly

H0 : les variances des differences entre 2 groupes sont les memesHa : Il y a au moins 1 variance des differences qui est differentes

p > 0,05 : NRH0

p < 0,05 : RH0

Si RH0 :correction de Greenhouse-Geissercorrection Huynh-Feldt

Caroline Verhoeven STAT-G204 29 / 64

3. ANOVA a mesures repetees

Donnees en SPSS

Caroline Verhoeven STAT-G204 30 / 64

3. ANOVA a mesures repetees

Menus en SPSS

Analyze → General Linear Model → Repeated Measures

Caroline Verhoeven STAT-G204 31 / 64

3. ANOVA a mesures repetees

Definir les facteurs en SPSS I

Caroline Verhoeven STAT-G204 32 / 64

3. ANOVA a mesures repetees

Definir les facteurs en SPSS II

Caroline Verhoeven STAT-G204 33 / 64

3. ANOVA a mesures repetees

Definir les facteurs en SPSS III

Caroline Verhoeven STAT-G204 34 / 64

3. ANOVA a mesures repetees

Definir les facteurs en SPSS IV

Caroline Verhoeven STAT-G204 35 / 64

3. ANOVA a mesures repetees

Definir les facteurs en SPSS V

Caroline Verhoeven STAT-G204 36 / 64

3. ANOVA a mesures repetees

Les resultats en SPSS

Caroline Verhoeven STAT-G204 37 / 64

3. ANOVA a mesures repetees

Resultats du test de Mauchly

Ici : test de Mauchly significatif (p = 0,047 < 0,05)ε (Epsilon)

Si ε = 1 : sphericite parfaiteAu plus ε petit, au plus eloigne de la sphericite

Choix de correction :Si pour Greenhouse-Geisser ε > 0,75 : Huynh-FeldtSi pour Greenhouse-Geisser ε < 0,75 : Greenhouse-Geisser

Caroline Verhoeven STAT-G204 38 / 64

3. ANOVA a mesures repetees

Resultats de l’ANOVA

Prendre la bonne correction : ici Greenhouse-Geisser

Pour Greenhouse-Geisser : p = 0,06 ⇒ NRH0

⇒ la difference n’est pas significative

Caroline Verhoeven STAT-G204 39 / 64

4. Randomized block design ANOVA

Exemple : Description

Exemple 4

En 2007, Svanback et Bolnick ontteste l’impact de la quantite de pois-son sur la diversite du zooplanctondans un petit lac de l’ıle de Vancouver.Ils pensent que cette diversite varie enfonction de l’endroit dans le lac.Ils comparent 3 “traitements” dans des “cages” de 3m×3m

Ils ne rajoutent pas de poissons (controle)

Ils rajoutent 30 petits poissons (peu)

Ils rajoutent 90 poissons (beaucoup)

Block design5 endroits dans le lac et 3 “cages” a chacun de ces endroits :1 cage controle, 1 cage peu, 1 cage beaucoup

Caroline Verhoeven STAT-G204 40 / 64

4. Randomized block design ANOVA

Exemple : Donnees

Exemple 4

L’abondance du zooplancton est donne par l’index D de Levin

controle peu beaucoup

lieux (bloques)

4,1 2,2 1,33,2 2,4 2,03,0 1,5 1,02,3 1,3 1,02,5 2,6 1,6

Caroline Verhoeven STAT-G204 41 / 64

4. Randomized block design ANOVA

Principe du randomized block design ANOVA

Formulation des hypotheses :H0 : Tous les traitements ont en moyenne le meme effetHa : Au moins un traitement est different des autres

Les “randomized blocking design” sert a controler une variable noninteressante mais induisant une variabilite.

Classiquement : 1 mesure pour chaque “traitement” par bloque.

Le modele :

REPONSE = CONSTANTE + TRAITEMENT + BLOQUE

Dans l’exemple 4 :

DIVERSITE = CONSTANTE + POISSONS + LIEUX

On ne sait plus utiliser une ANOVA a 1 facteur

Caroline Verhoeven STAT-G204 42 / 64

4. Randomized block design ANOVA

Les donnees en SPSS

Les donnees de tous les sujets sont sur une ligne

Caroline Verhoeven STAT-G204 43 / 64

4. Randomized block design ANOVA

Les menus en SPSS I

Analyze → General Linear Model → Univariate

Caroline Verhoeven STAT-G204 44 / 64

4. Randomized block design ANOVA

Les facteurs en SPSS

Variable dependante :diversite Facteurs fixes : bloque et traitement

Caroline Verhoeven STAT-G204 45 / 64

4. Randomized block design ANOVA

Les modeles en SPSS I

Choisir “Model” dans le menu

Caroline Verhoeven STAT-G204 46 / 64

4. Randomized block design ANOVA

Les modeles en SPSS II

Caroline Verhoeven STAT-G204 47 / 64

4. Randomized block design ANOVA

La sortie SPSS

Caroline Verhoeven STAT-G204 48 / 64

4. Randomized block design ANOVA

Les resultats

Nous somme interesses par les lignes “bloque” et “groupe”

groupe : Introduire cette variable ameliore significativement lemodele (F = 16,37, p = 0,001)

bloque : meme si l’amelioration n’est pas significative, il faut laisserla variable bloque

Caroline Verhoeven STAT-G204 49 / 64

5. ANOVA a plusieurs facteurs

Exemple : Description

Exemple 5

En 2005, Walker et al ont etudie lestress chez les manchots de Magel-lan. Certains se reproduisent dansune region retiree avec peu d’ac-tivites humaine. D’autres se repro-duisent dans des regions touris-tiques.On veut savoir si les manchots stress plus en grandissant et si le fait degrandir dans une zone touristique ou non influence le stress.

Pour cela, on les capture et on mesure leur concentration decorticosterone 30 minutes apres. On fait cela pour 3 categories demanchots : recemment eclos, de 40 a 50 jours et juste adultes.

Les donnees sont sur le slide suivant

Caroline Verhoeven STAT-G204 50 / 64

5. ANOVA a plusieurs facteurs

Exemple : Donnees

Exemple 5

bebes enfants adultes

retire

5,9 23,1 22,86,2 18,9 25,7

10,3 19,1 26,54,6 21,5 22,6

11,7 18,1 31,410,8 18,7 27,65,1 29,0 25,0

23,2 30,9

bebes enfants adultes

tourisme

24,4 12,5 29,320,6 17,3 24,316,5 12,9 33,929,5 12,0 29,623,4 16,4 34,426,8 21,4 33,126,5 18,0 25,6

20,2 23,128,1

On regarde stress en fonction de 2 facteurs :

l’age

l’environnement

Caroline Verhoeven STAT-G204 51 / 64

5. ANOVA a plusieurs facteurs

Questions pour l’exemple

Exemple 5

Questions que l’on se pose :

L’age a-t-il une influence-t-il le stress chez les jeunes manchots ?

Le fait de grandir dans une zone retiree ou touristique influence-t-ille le stress chez les jeunes manchots ?

L’effet de l’age depend-il de la zone dans laquelle les jeunesmanchots grandissent ?

Debut de reponse a la derniere question :

Caroline Verhoeven STAT-G204 52 / 64

5. ANOVA a plusieurs facteurs

ANOVA a 2 facteurs : Formulation des hypotheses

Exemple 5

1 un effet principal :H0 : Le taux de corticosterone ne differe pas que le manchot soitbebe, enfant ou juste adulteHa : Le taux de corticosterone est different pour au moins un desstades de croissance

2 un effet principal :H0 : Le taux de corticosterone ne differe pas en fonction del’environnement dans lequel le manchot granditHa : Le taux de corticosterone est different en fonction del’environnement dans lequel le manchot grandit

3 un effet d’interaction :H0 : L’effet de l’age ne depend pas de l’environnementHa : L’effet de l’age depend de l’environnement

Caroline Verhoeven STAT-G204 53 / 64

5. ANOVA a plusieurs facteurs

ANOVA a 2 facteurs : Principe

Modele :

REPONSE = FACTEUR1 + FACTEUR2 + FACTEUR1 ∗ FACTEUR2

Dans l’exemple 5 :

STRESS = AGE + REGION + AGE ∗ REGION

Caroline Verhoeven STAT-G204 54 / 64

5. ANOVA a plusieurs facteurs

Donnees en SPSS

Caroline Verhoeven STAT-G204 55 / 64

5. ANOVA a plusieurs facteurs

Menus en SPSS I

Analyze → General Linear Model → Univariate

Caroline Verhoeven STAT-G204 56 / 64

5. ANOVA a plusieurs facteurs

Menus en SPSS II

Caroline Verhoeven STAT-G204 57 / 64

5. ANOVA a plusieurs facteurs

Menus en SPSS II

Dans “Options”, on coche “Homogeinity tests” (test de Levene)

Caroline Verhoeven STAT-G204 58 / 64

5. ANOVA a plusieurs facteurs

Graphique de l’interaction

Choisir “Plots”

Caroline Verhoeven STAT-G204 59 / 64

5. ANOVA a plusieurs facteurs

Sortie en SPSS

Caroline Verhoeven STAT-G204 60 / 64

5. ANOVA a plusieurs facteurs

Resultats test de Levene

Test de Levene : p = 0,956 ⇒ NRH0

⇒ Pas de probleme pour l’ANOVA

Caroline Verhoeven STAT-G204 61 / 64

5. ANOVA a plusieurs facteurs

Resultats de l’ANOVA a 2 facteurs

Effet de l’interaction age*region : p < 0,001 ⇒ RH0

Effet de l’age : p < 0,001 ⇒ RH0

Effet de la region : p < 0,001 ⇒ RH0

Caroline Verhoeven STAT-G204 62 / 64

5. ANOVA a plusieurs facteurs

Graphe des effets

Effet de l’age : RH0

Effet de la region : RH0

Effet de l’interaction age*region : RH0

Caroline Verhoeven STAT-G204 63 / 64

5. ANOVA a plusieurs facteurs

ANOVA a 3 facteurs

Modele

REPONSE =FACTEUR1 + FACTEUR2 + FACTEUR3

+ FACTEUR1 ∗ FACTEUR2

+ FACTEUR1 ∗ FACTEUR3

+ FACTEUR2 ∗ FACTEUR3

+ FACTEUR1 ∗ FACTEUR2 ∗ FACTEUR3

Caroline Verhoeven STAT-G204 64 / 64