Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

62
Statistique, licence Sixième séance

Transcript of Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Page 1: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Statistique, licence

Sixième séance

Page 2: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Analyse de variance

Pour plans à mesures répétées

Page 3: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Plan

1. Position du problème2. Utilité des plans à mesures répétées3. Les conditions d’application4. La beauté est-elle une notion

universelle?5. La régression vers la moyenne6. Évolution7. Qu’est ce qu’une bonne blague?

Page 4: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

1. Problématique

situation propice à l’anova répétée.

Page 5: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Mesures répétées Lorsqu’on mesure plusieurs fois de suite la « même »

grandeur sur des sujets, on est confronté à une incohérence.

Si par exemple on mesure le QI dans trois situations, et que les sujets passent les trois situations…

On pourra dire qu’il y a 3 QI (variables), perdant ainsi l’équivalence des QI.

On pourra dire qu’il y a une variable QI et une var situation, mais alors quels sont les individus?

On utilisera une description incorrecte mathématiquement, mais facile à comprendre en parlant de variable intra-sujets et inter-sujets.

Page 6: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Utilisation courante

Cette situation est ce qu’on appelle un plan à mesures répétées pour des raisons évidentes…

On utilise souvent l’anova pour plans à mesures répétées quand on mesure plusieurs fois une même grandeur pour en percevoir l’évolution au cours du temps — ou dans diverses situations —, pour chaque sujet.

Là où une une anova simple échouerait du fait de la variabilité inter-sujet, celle-ci pourra réussir, car on peut dans ce cas supprimer les facteurs personnels.

Page 7: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Décomposition

Total

Inter-sujet(facteur sujet)

Intra-sujet

Erreur Facteur

on peut se débarrasser

des variations

sujet.

Page 8: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

2. Utilité

Des plans à mesures répétées

Page 9: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Exemple-fiction Supposons que l’on

veuille étudier l’évolution des opinions vis-à-vis du maoïsme d’un groupe de jeunes a priori favorables, au cours d’une semaine de présentation.

On mesure l’opinion par une valeur numérique X.

Si l’on veut utiliser une anova simple, on peut interroger un échantillon le premier jour, un autre le second jour, et un troisième le dernier jour par exemple.

Si l’on trouve des différences, elles seront peut-être peu significatives…

Page 10: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Anova simple

101010N =

GROUPE

jour 7jour 2jour 1

95

% I

C X

10

9

8

7

6

5

4

les moyennes diminuent au cours du

temps, mais cela pourrait être le fruit du

hasard.

les barres d’erreurs montrent en effet une grande variation pour chaque groupe (jour).

Page 11: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Anova simple

ANOVA

X

10,400 2 5,200 1,147 ,333

122,400 27 4,533

132,800 29

Inter-groupes

Intra-groupes

Total

Sommedes carrés ddl

Moyennedes carrés F Signification

Test d'homogénéité des variances

X

,722 2 27 ,495

Statistiquede Levene ddl1= ddl2 Signification

l’hypothèse d’homogénéité

des variances se tient.

la différence entre les groupes n’est pas significative. On ne peut pas conclure.

Page 12: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Anova répétée En fait, on peut

imaginer deux cas limites. L’un des cas est le suivant: les variations prises sujet par sujet sont hiératiques et peu prévisibles. Dans ce cas, les mesures répétées donneront le même résultat.

L’autre cas limite est celui où, bien qu’il y ait de grandes différences entre les sujets, l’effet du facteur temps est presque le même sur les différents sujets. Dans ce cas, les résultats pourraient être très différents!

Page 13: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Anova répétée

Tests des effets inter-sujets

Mesure: MEASURE_1

Variable tranformée: Moyenne

1387,200 1 1387,200 107,504 ,000

116,133 9 12,904

SourceIntercept

Erreur

Sommedes carrésde type III ddl

Moyennedes carrés F Signification

il y a des différences significatives entre les sujets. Comparez le Scsujet au Sctotal!

Page 14: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Anova répétée

Tests des effets intra-sujets

Mesure: MEASURE_1

10,400 2 5,200 14,936 ,000

6,267 18 ,348

SourceTEMPS

Erreur(TEMPS)

Sommedes carrésde type III ddl

Moyennedes carrés F Signification

quand on a annulé le facteur sujet — très important mais pour nous inintéressant — on arrive à

conclure à un effet très significatif du temps.

Page 15: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Pour conclure Les plans à mesures

répétées permettent de s’affranchir des turbulences de la VD engendrées par le fait que les humains diffèrent.

Ils sont précieux pour détecter un effet un peu fin masqué par les différences individuels.

D’un autre côté, il va de soi que toutes les études ne se prêtent pas à ce genre de plan d’expérience.

En particulier, il est parfois gênant de faire passer plusieurs fois le même test.

Dans le cas de situations différentes, on pensera à contrebalancer pour l’ordre.

Page 16: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

3. Conditions

d’application

Page 17: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

CA On dispose de:

Une VD numérique X Un facteur intra-sujet F Un facteur « sujet ».

On s’interroge sur les effet des facteurs F et Sujet sur la VD X.

On peut également avoir, en plus des facteurs déjà mentionnés, des facteurs inter-sujets.

Page 18: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Conditions d’applications Les sujets doivent être

indépendants (pas les observations !)

Les écart-types des différents relevés (i.e. de la VD pour chaque modalité du facteur F) doivent être homogènes

Les covariances doivent également être homogènes

Les distributions doivent être normales

Indépendance des sujets

Homogénéité des variances

Homogénéité des

covariancesnormalité

Page 19: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

4. La beauté

Universelle, culturelle ou personnelle?

Page 20: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Présentation Chaque sujet a attribué une note de

beauté à chacun des six visages présentés. Il y a 111 sujets.

La note est une valeur comprise entre 0 et 10.

Parmi les questions que l’on peut se poser à partir de cette expérience, étudions celle-ci : dans quelle mesure la notion de beauté est-elle personnelle ?

Page 21: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Portrait A

Portrait B

Portrait C

Page 22: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Portrait D

Portrait E

Portrait F

Page 23: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Présentation

Dans la pratique, on procède ainsi pour simplifier la présentation :

On dit que les individus sont les sujets.

Que la VD est « la note » X. Il y a deux facteurs catégoriels :

Le visage V, variable intra-sujet Le facteur « sujet » S

Page 24: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Formalisation de la question Notre question était : la note est-elle le

résultat d’un processus personnel ou plutôt universel/culturel ?

Pour y répondre, nous réécrirons la question de cette manière :

« La note dépend-t-elle principalement du facteur sujet ou du facteur visage ? »

Page 25: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Formalisation de la question Si la beauté est essentiellement personnelle,

la note doit dépendre presque uniquement du facteur « sujet », et les variations de X peuvent alors s’expliquer presque entièrement par la variation due à S.

Dans le cas contraire, elle doit dépendre du « vrai » facteur : V.

Pour le savoir, nous utilisons une anova particulière, dont le principe est le même que pour l’anova simple : l’anova pour plans à mesures répétées.

Page 26: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Tableau des données brutesA B C D E F

S1 10 2 0 9 6 0

S2 10 5 4 10 8 2

S3 9 8 3 9 7 1

S4 10 5 1 9 5 2

S5 8 6 1 8 4 5

S6 8 5 0 10 8 1

S7 9 5 0 10 3 0

S8 10 3 2 8 5 0

S9 7 1 1 7 9 1

Page 27: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Tableau

Source SC dl CM F

S 14124 110 128 128

Intra 4816 555

Erreur 554 550 1

V 4262 5 852 852

Total 18940 665

Page 28: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Interprétation Les F se comparent à ceux de la table. Pour le F (S), il faut lire 110 et 550 dl (soit

1.57) Pour le F (V), il s’agira de 5 et 550 dl (soit

3.05) Dans les deux cas, les F observés sont

significatifs à 1% (et même, en fait, à 0.01%)

Page 29: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Interprétation

On en déduit tout naturellement que :1. La note dépend « certainement » (et

non pas « fortement ») du visage présenté

2. Elle dépend également du sujet (juge)Il faudra affiner pour pouvoir répondre à la

question de départ

Page 30: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Remarques

On ne teste habituellement pas TOUT. En général, il faut bien réfléchir avant

l’expérience à ce qui sera nécessaire et ce qui ne le sera pas. Plus on calcule de statistiques F, moins le résultat final est fiable, pour un risque par test fixé.

Dans notre cas, il faut calculer les deux F possibles, mais on ne calcule habituellement que le F (facteur), car la variation inter-sujet ne nous intéresse pas.

Page 31: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Grandeur des effets Comme dans le cas général, on peut

affiner la compréhension des effets en calculant les grandeurs des effets.

Par exemple SC(S)/SC(total)=75%, ce qui indique que 75% de la variation totale (sur l’échantillon) pour les notes est attribuable au facteur sujet

D’autre part, SC(V)/SC(total)=23%, si bien que 23% de la variation totale est attribuable au facteur visage.

Page 32: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Grandeur des effets Cela laisse penser que la notion de beauté est

avant tout personnelle, car les facteurs individuels expliquent une plus grande partie de la variation.

Mais il faudrait en réalité étudier les rangs plus que les notes.

Les différences inter-sujet observées sont en effet en partie dues à l’interprétation des codes de jugement. (notes attribuées).

L’étude avec les rangs constituent le test de Friedman, et il montre que la beauté est plutôt culturelle ou universelle.

Page 33: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

5. Régression

Vers la moyenne

Page 34: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Eau et fièvre Sélectionnons un échantillons de patients

ayant de la fièvre (au moins 38°). Donnons-leur de l’eau de source. Nous les

informons qu’ils boivent de l’eau de source (il n’est pas ici question d’effet placebo).

Reprenons, deux jours plus tard, leur température.

Dans la plupart des cas, la température a baissé! Halte aux coûteuses aspirines! Sus au paracétamol!

Page 35: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Eau et fièvre

Comment expliquer ce résultat surprenant, déjà constaté pour les tailles par Galton?

Il s’agit de la régression vers la moyenne, un phénomène purement mécanico-statistique.

Page 36: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Eau et fièvreExplication intuitive

La température dépend de plusieurs facteurs (virus, etc.) dont la plupart sont aléatoires et varient au cours du temps.

En sélectionnant des personnes ayant de la fièvre, on choisit un moment où ces facteurs vont tous dans le sens d’une augmentation de température. Il est probable que quelques heures plus tard, certains auront changé.

Explication mathématiqueOn note T la température en

début d’expérience, et T’ en fin d’expérience.

L’évolution de température est évidemment liée négativement à T, surtout si T et T’ sont indépendants…

'T T T

Page 37: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

6. A la main

Évolution de la dépression en cure

Page 38: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Présentation

Des patients dépressifs suivent une thérapie. On relève chaque mois un score X de gravité de la dépression

Le but est de savoir si l’évolution est plutôt positive au cours du temps

On a une VD numérique : X Un facteur S (sujet) et T (temps) catégoriel (on

mesure X quatre fois, T a donc quatre modalités)

Chaque patient passe plusieurs fois le test donnant X.

Page 39: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Question Nous sommes dans le cadre d’une anova

pour plans à mesure répétées. La question est de savoir si T a un effet

sur X. L’hypothèse nulle serait « X ne présente

en moyenne aucune modification au cours du temps »

L’hypothèse alternative « X varie au cours du temps »

Page 40: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Données brutes

sujet mois 1 mois 2 mois 3 mois 4 total1 120 125 110 115 4702 80 72 73 59 2843 70 69 58 55 2524 69 69 69 70 2775 67 63 62 50 2426 61 65 64 58 2487 58 59 60 52 2298 46 47 43 42 1789 37 36 35 28 136

10 30 29 27 26 112total 638 634 601 555 2428

Page 41: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Mieux vaut répéter

Si on étudiait seulement les moyennes de la VD chaque mois, sans tenir compte du facteur sujet, on aurait à comparer les moyennes de distributions très étalées

En effet, les valeurs diffèrent beaucoup d’un sujet à l’autre

Grâce à l’anova pour plans à mesures répétées, on peut annuler la variation sujet

Intuitivement, on peut comprendre les choses de la manière suivante :

Page 42: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Méthode simple

0

20

40

60

80

100

120

140

mois 1 mois 2 mois 3 mois 4

Page 43: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Méthode répétée

50

55

60

65

70

75

1 2 3 4

Chaque courbe représente un sujet. On suit

l’évolution pour chaque sujet

Page 44: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Conditions On supposera

L’indépendance des sujets La normalité L’homogénéité des covariances et des

variances

Page 45: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Plan Le but est de calculer F pour le

facteur temps (T) Notre question est en effet de savoir

si T a un effet sur la VD X. Pour cela, on doit faire presque tous

les calculs, en commençant par les SC

Page 46: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

FC

Commençons par calculer le facteur de correction FC.

2428²147380

40FC

sujet mois 1 mois 2 mois 3 mois 4 total1 120 125 110 115 4702 80 72 73 59 2843 70 69 58 55 2524 69 69 69 70 2775 67 63 62 50 2426 61 65 64 58 2487 58 59 60 52 2298 46 47 43 42 1789 37 36 35 28 136

10 30 29 27 26 112total 638 634 601 555 2428

Page 47: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

SC total

On peut ensuite calculer SC total

²

170092 147380

22712

totalSC X FC

sujet mois 1 mois 2 mois 3 mois 4 total1 120 125 110 115 4702 80 72 73 59 2843 70 69 58 55 2524 69 69 69 70 2775 67 63 62 50 2426 61 65 64 58 2487 58 59 60 52 2298 46 47 43 42 1789 37 36 35 28 136

10 30 29 27 26 112total 638 634 601 555 2428

Page 48: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

SC inter-sujet

Le SC inter-sujet se calcule facilement

470² 112²...

4 421875

SSC FC

sujet mois 1 mois 2 mois 3 mois 4 total1 120 125 110 115 4702 80 72 73 59 2843 70 69 58 55 2524 69 69 69 70 2775 67 63 62 50 2426 61 65 64 58 2487 58 59 60 52 2298 46 47 43 42 1789 37 36 35 28 136

10 30 29 27 26 112total 638 634 601 555 2428

Page 49: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

SC(T)

Un autre SC est facile : le SC entre les mois SC(T)

638² 555²...

10 10443

TSC FC

sujet mois 1 mois 2 mois 3 mois 4 total1 120 125 110 115 4702 80 72 73 59 2843 70 69 58 55 2524 69 69 69 70 2775 67 63 62 50 2426 61 65 64 58 2487 58 59 60 52 2298 46 47 43 42 1789 37 36 35 28 136

10 30 29 27 26 112total 638 634 601 555 2428

Page 50: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Autres SC

Les autres SC se déduisent par différences.

Page 51: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Degré de libertés

Il est clair que dl(tot) = 39 dl(S) = 9 dl(T) = 3

Les autres s’en déduisent par différence

Page 52: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Tableau

Source SC dl CM FInter 21875 9Intra 837 30erreur 394 27 14,59 10,12facteur 443 3 147,67total 22712 39

Page 53: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Le F est calculé avec 3 et 27 dl. La table donne 4.64 On peut donc conclure et rejeter H0 pour

H1 au risque de 1%. Ainsi, les patients présentent une

évolution. Sur l’échantillon, l’évolution semblant

positive (baisse du score de gravité), on pense que la thérapie est efficace.

Source SC dl CM FInter 21875 9Intra 837 30erreur 394 27 14,59 10,12facteur 443 3 147,67total 22712 39

Page 54: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Remarques En réalité, il faudrait comparer à un

groupe témoin, à cause de l’effet de régression vers la moyenne.

On peut préciser la grandeur de l’effet du facteur en calculant

SC(T)/SC(tot) = 2%… La thérapie explique seulement 2% des

variations observées.

Page 55: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Remarques On peut vouloir supprimer l’effet sujet,

dû au fait que certains patients sont plus gravement dépressifs que d’autres.

Pour cela, on peut calculer SC(T)/(SC(tot)-SC(S)) = 53% et dire que « la thérapie explique 53% des variations de score indépendamment du sujet »…

Page 56: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

7. Un bonne blague

C’est quoi?

Page 57: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Présentation On demande à des

chercheurs en mathématiques, lettres, ou musicologie, de noter sur 10 la qualités de 3 blagues.

On a ainsi une variable « note », un facteur intra-sujet blague (1,2, ou 3)

Mais également un facteur inter-sujet groupe (maths, lettres, musicologie)

On peut traiter ces données d’un coup par ordinateur, ici SPSS.

Page 58: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Test de sphéricité de Mauchly

Mesure: MEASURE_1

,899 2,766 2 ,251Effet intra-sujetsBLAGUE

W de MauchlyKhi-deuxapproché ddl Signification

Teste l'hypothèse nulle selon laquelle la matrice de covariance des erreursdes variables dépendantes orthonormées est proportionnelle à la matriceidentité.

Si on suppose la normalité, le reste des conditions

d’application est justifié par le test de Mauchly.

Page 59: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

BLAGUE

321

Mo

yen

ne

s m

arg

ina

les

est

imé

es

8

7

6

5

4

3

2

GROUPE

Mathématiques

Musique

Lettres

Il semblerait y avoir des blagues de

matheux (1), de musiciens

(2) et de lettreux (3). Cela devrait se traduire

par une interaction

entre le groupe et la

blague.

Page 60: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Tests des effets intra-sujets

Mesure: MEASURE_1

9,756 2 4,878 2,251 ,115

210,578 4 52,644 24,297 ,000

117,000 54 2,167

SourceBLAGUE

BLAGUE * GROUPE

Erreur(BLAGUE)

Sommedes carrésde type III ddl

Moyennedes carrés F Signification

on ne s’intéresse pas aux variations dues aux

facteur sujet.

il n’y a pas de différence significative entre les blague.L’interaction a en revanche un effet significatif sur la note, ce

qui confirme notre diagnostique.

Page 61: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Tests des effets inter-sujets

Mesure: MEASURE_1

Variable tranformée: Moyenne

9,156 2 4,578 3,768 ,036

32,800 27 1,215

SourceGROUPE

Erreur

Sommedes carrésde type III ddl

Moyennedes carrés F Signification

l’effet principal du groupe est

peu significatif — compte tenu

du nombre de F calculés…

ici, on fait une anova

simple sur les moyennes

Page 62: Statistique, licence Sixième séance. Analyse de variance Pour plans à mesures répétées.

Conclusion

Il y a des blagues pour matheux, d’autres pour lettreux, d’autres pour musiciens.

Les différentes blagues ne sont ni plus drôles ni moins drôles dans l’absolu, mais elles correspondent plus ou moins bien à l’auditeur.

Enfin, les trois groupes semblent juger globalement les blagues de la même manière : les matheux, les lettreux, les musiciens ne sont ni meilleur ni moins bon public les uns que les autres.