Analyse de la variance : ANOVA à un facteur Sir Ronald Fischer 1890-1962.

Post on 04-Apr-2015

121 views 3 download

Transcript of Analyse de la variance : ANOVA à un facteur Sir Ronald Fischer 1890-1962.

Analyse de la variance : ANOVA à un facteur

Sir Ronald Fischer 1890-1962

Thèmes

Le modèle linéaire général Les postulats de base La logique de l’analyse de la variance Exemples Les tests post-hocs La taille d’effet

Le modèle général linéaire

Xij = µ + j + eij

Xij - la valeur observée pour le sujet i du groupe j

µ - la grande moyenne j - l’influence du traitement

sur le groupe j (j = µj - µ)

eij - l’erreur ou les résidus - selon les postulats - sont distribués de manière normale avec une moyenne de µ = 0 et un écart-type de .

Exemple: la taille moyenne des hommes est 68” et la taille moyenne des femmes est 65”

La taille d’un homme sera donc: 66.5 + 1.5 + e

et la taille d’une femme: 66.5 - 1.5 + e

Répartition des variances

xij = µ + j + eij avec

µ :

j :

eij :

Donc:

X

X j X xij X j

xij X X j X xij X j

Les sommes des carrés

xij X 2 X j X 2 xij X j 2

x ij X 2 X j X 2 x ij X j 2

x ij X 2 n j X j X 2 x ij X j 2

SCtotal SCeffect SCerreur

Les postulats de base

1. Le modèle général s’applique aux données

2. Les valeurs sont distribuées normalement dans la population

3. Les échantillons ont des variances homogènes

4. Les échantillons sont indépendants

La logique de l’ANOVA

Échantillon Population Moyenne Variance

a A µA I2

b B µB I2

c C µC I2

d D µD I2

La logique de l’ANOVA (suite) Les variances des différents échantillons sont

donc égales et elles sont égales à la variance de la population p.

1 = 2 = ... = ij = p avec

1 = s1 = Nous pouvons donc estimer la variance de la

population à partir de la moyenne des variances des échantillons ou bien:

x ij X 2N J

xi1 X 1 2n1 1

Selon le théorème des limites centrales: la distribution d’échantillonnage a une moyenne de µ et une variance de 2 /n

si l’hypothèse nulle est vraie il suit donc que:

pour l’estimé de p 2 il faut multiplier par n

E sx2 E

X j X 2

J 1

x

2 p

2

n

n j X j X 2J 1

Exemple

Afin de tester l’hypothèse que la consommation de caféine facilite l’apprentissage trois groupes d’étudiants se préparent à un examen: le groupe 1 boit une tasse, le groupe 2 boit 2 tasses et le groupe 3 boit 3 tasses de café. Voici leurs scores à l’examen:

Groupe 1 Groupe 2 Groupe 3

50 48 57

42 47 59

53 65 48

45 59 46

55 51 45

m = 49 m = 56 m = 51

Exemple suite

30

40

50

60

70

0 1 2 3 4

Groupe

Sommes des carrés moyens

x ij X j 2

N J 50 49 2 42 49 2 ... 46 51 2 45 51 2

15 3

x ij X j 2

N J1 49 ... 25 36

12468

1239

Intra-groupe:

Inter-groupe:

n X j X J 1

5 49 52 2 5 56 52 2 5 51 52 2

3 1

5 9 16 1 2

65

Calcul de F F SCMint er

SCMint ra

65

391.667

Valeur critique pour 2,12 df et = .05 -> 3.89

Exemple 2

Groupe 1 Groupe 2 Groupe 3

47 55 54

53 54 50

49 58 51

50 61 51

46 52 49

m = 49 m = 56 m = 51

Suite

30

35

40

45

50

55

60

65

0 1 2 3 4

Groupe

Sommes des carrés moyens

Intra-groupe:

Inter-groupe:

n X j X J 1

5 49 52 2 5 56 52 2 5 51 52 2

3 1

5 9 16 1 2

65

x ij X j 2

N J 47 49 2 53 49 2 ... 51 51 2 49 51 2

15 3

x ij X j 2

N J4 16 ... 0 4

1294

127.83

Calcul de F F SCMint er

SCMint ra

65

7.838.3

Valeur critique pour 2,12 df et = .05 -> 3.89

Tableau ANOVA

Source SC df SCM F p

Intergroup 130 2 65 8.3 .005

Intragroup 94 12 7.84

Total 224 14

Résumé

La variance intra-groupe (la somme moyenne des écarts carrés entre chaque observation et la moyenne du groupe) est un estimé de la variance de la population.

Quand l’hypothèse nulle est vraie - et seulement dans ce cas - la variance inter-groupe (la somme moyenne des écarts carrés entre chaque moyenne de groupe et la grande moyenne) est, selon le théorème des limites centrales, aussi un estimé de la variance de la population

Quand il y a un effet de traitement, donc quand l’hypothèse nulle est fausse, la variance inter-groupe est plus large que la variance intra-groupe

L’analyse de la variance consiste à calculer le rapport entre la variance inter-groupe et la variance intra-groupe et de comparer le résultat avec une distribution d’échantillonnage connue: la distribution F.

Les tests post-hocs

Erreurs

Erreur (ou ) par comparaison - le niveau choisi pour une seule comparaison de moyennes

Erreur par famille - le nombre moyen des erreurs faites par famille de comparaisons ’ 1- (1-)c C’

Exemple: ’ = .01 et C = 5

= .049 ou approx. .05

Contraste

Définition: Une comparaison de J moyennes telle que la différence entre deux des J moyennes ou la différence entre une moyenne et la moyenne de deux autres moyennes c11c22cjjcjj

Excursion - Orthogonalité

Une comparaison est orthogonale si:

(c1jc2j)/nj= 0

Exemple:

jth moyenne

1 2 3 4 C 1: 1 -1 0 0 C2: 1 0 -1 0 C3: 0 0 1 -1 1 vs 2: c1jc2j =(1)(1) + (-1)(0) + (0)(-1) + (0)(0) = 1

1 vs 3: c1jc2j =(1)(0) + (-1)(0) + (0)(1) + (0)(-1) = 0

Tukey’s-HSD(John Tukey, 1915-2000)

HSD q k ,df , SCMintra

n

HSD 3.777.83

54.72

La taille d’effet

Taille de l’effet

La corrélation entre la VI et la VD (r) Le pourcentage de la variance de la VD

expliqué par la VI (r2) La différence entre deux moyennes en

unités d’écart-type (d)

Taille d’effet: eta2 et omega2

Treatment Outcome

Alive Dead

Treatment

66 34 100

Control 34 66 100

100 100

2 F dfeffet

F dfeffet dferreur

SCeffet

SCtotal

f 2

1 2

2 SStreat k 1 MSerreur

SStotal MSerreur

Les tailles

Puissance La probabilité de trouver un effet de taille x dans

un échantillon de taille N en utilisant un test statistique avec un donné.

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0 2 4 6 8 10 12 14 16 18

Value of F

Fcrit = 2.58

Les erreurs

Taille d’effet et beta

Variance et beta

Calcul de puissance

Calcul de puissance

http://members.aol.com/johnp71/javastat.html#Power