Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit...

41
Test de Student et Analyse de la Variance A. Latouche 1 / 41

Transcript of Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit...

Page 1: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Test de Student et Analyse de la Variance

A Latouche

1 41

Plan

Il srsquoagit drsquoune generalisation du t-test de Student

I Mettre en œuvre des analyses de la variance (ANOVA)

I Analyse de la variance a un facteur

I ANOVA a deux facteurs croises sans et avec interaction

2 41

ANoVA

I Lrsquoanalyse de la Variance est une methode drsquoanalyse issue desmodeles lineaires

I Plus precisement elle permet de traiter le cas de variables aexpliquer quantitative et des variables explicativesqualitatives

I On cherche a savoir quel(s) facteur(s) determineinfluence lephenomene a expliquer

3 41

Definitions

I Variable a expliquer correspond a la realisation duphenomene aleatoire dont on cherche a comprendre lefonctionnement

I Soit X cette variable

I Exemple Si lrsquoon srsquointeresse a la vitesse de la croissancedrsquoun chene la variable a expliquer peut etre definie comme lataille (en cm) drsquoune jeune pousse de ce type drsquoarbre un moisapres la germination

I Cette variable est quantitative

4 41

Variables explicatives

I Les variables explicatives representent les facteurs dont onveut determiner srsquoils ont une influence sur le phenomeneetudie

I Effet que peut avoir lrsquoimplantation geographique sur lacroissance des chenes la variable explicative pourra etre laregion dans laquelle lrsquoarbre est plante

I Les variables explicatives sont qualitatives

Lrsquoobjectif de lrsquoANOVA est de determiner si la variableexplicative influence la valeur de la variable a expliquer

5 41

Notations

Afin de resoudre ce probleme on doit disposer

I de plusieurs observations de la variable a expliquer

I selon les differentes modalites de la (des) variable(-s)explicative(-s)

Soit Xij la j-eme realisation de la variable aleatoire X pour la i ememodalite de la variable explicative

6 41

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 2: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Plan

Il srsquoagit drsquoune generalisation du t-test de Student

I Mettre en œuvre des analyses de la variance (ANOVA)

I Analyse de la variance a un facteur

I ANOVA a deux facteurs croises sans et avec interaction

2 41

ANoVA

I Lrsquoanalyse de la Variance est une methode drsquoanalyse issue desmodeles lineaires

I Plus precisement elle permet de traiter le cas de variables aexpliquer quantitative et des variables explicativesqualitatives

I On cherche a savoir quel(s) facteur(s) determineinfluence lephenomene a expliquer

3 41

Definitions

I Variable a expliquer correspond a la realisation duphenomene aleatoire dont on cherche a comprendre lefonctionnement

I Soit X cette variable

I Exemple Si lrsquoon srsquointeresse a la vitesse de la croissancedrsquoun chene la variable a expliquer peut etre definie comme lataille (en cm) drsquoune jeune pousse de ce type drsquoarbre un moisapres la germination

I Cette variable est quantitative

4 41

Variables explicatives

I Les variables explicatives representent les facteurs dont onveut determiner srsquoils ont une influence sur le phenomeneetudie

I Effet que peut avoir lrsquoimplantation geographique sur lacroissance des chenes la variable explicative pourra etre laregion dans laquelle lrsquoarbre est plante

I Les variables explicatives sont qualitatives

Lrsquoobjectif de lrsquoANOVA est de determiner si la variableexplicative influence la valeur de la variable a expliquer

5 41

Notations

Afin de resoudre ce probleme on doit disposer

I de plusieurs observations de la variable a expliquer

I selon les differentes modalites de la (des) variable(-s)explicative(-s)

Soit Xij la j-eme realisation de la variable aleatoire X pour la i ememodalite de la variable explicative

6 41

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 3: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

ANoVA

I Lrsquoanalyse de la Variance est une methode drsquoanalyse issue desmodeles lineaires

I Plus precisement elle permet de traiter le cas de variables aexpliquer quantitative et des variables explicativesqualitatives

I On cherche a savoir quel(s) facteur(s) determineinfluence lephenomene a expliquer

3 41

Definitions

I Variable a expliquer correspond a la realisation duphenomene aleatoire dont on cherche a comprendre lefonctionnement

I Soit X cette variable

I Exemple Si lrsquoon srsquointeresse a la vitesse de la croissancedrsquoun chene la variable a expliquer peut etre definie comme lataille (en cm) drsquoune jeune pousse de ce type drsquoarbre un moisapres la germination

I Cette variable est quantitative

4 41

Variables explicatives

I Les variables explicatives representent les facteurs dont onveut determiner srsquoils ont une influence sur le phenomeneetudie

I Effet que peut avoir lrsquoimplantation geographique sur lacroissance des chenes la variable explicative pourra etre laregion dans laquelle lrsquoarbre est plante

I Les variables explicatives sont qualitatives

Lrsquoobjectif de lrsquoANOVA est de determiner si la variableexplicative influence la valeur de la variable a expliquer

5 41

Notations

Afin de resoudre ce probleme on doit disposer

I de plusieurs observations de la variable a expliquer

I selon les differentes modalites de la (des) variable(-s)explicative(-s)

Soit Xij la j-eme realisation de la variable aleatoire X pour la i ememodalite de la variable explicative

6 41

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 4: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Definitions

I Variable a expliquer correspond a la realisation duphenomene aleatoire dont on cherche a comprendre lefonctionnement

I Soit X cette variable

I Exemple Si lrsquoon srsquointeresse a la vitesse de la croissancedrsquoun chene la variable a expliquer peut etre definie comme lataille (en cm) drsquoune jeune pousse de ce type drsquoarbre un moisapres la germination

I Cette variable est quantitative

4 41

Variables explicatives

I Les variables explicatives representent les facteurs dont onveut determiner srsquoils ont une influence sur le phenomeneetudie

I Effet que peut avoir lrsquoimplantation geographique sur lacroissance des chenes la variable explicative pourra etre laregion dans laquelle lrsquoarbre est plante

I Les variables explicatives sont qualitatives

Lrsquoobjectif de lrsquoANOVA est de determiner si la variableexplicative influence la valeur de la variable a expliquer

5 41

Notations

Afin de resoudre ce probleme on doit disposer

I de plusieurs observations de la variable a expliquer

I selon les differentes modalites de la (des) variable(-s)explicative(-s)

Soit Xij la j-eme realisation de la variable aleatoire X pour la i ememodalite de la variable explicative

6 41

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 5: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Variables explicatives

I Les variables explicatives representent les facteurs dont onveut determiner srsquoils ont une influence sur le phenomeneetudie

I Effet que peut avoir lrsquoimplantation geographique sur lacroissance des chenes la variable explicative pourra etre laregion dans laquelle lrsquoarbre est plante

I Les variables explicatives sont qualitatives

Lrsquoobjectif de lrsquoANOVA est de determiner si la variableexplicative influence la valeur de la variable a expliquer

5 41

Notations

Afin de resoudre ce probleme on doit disposer

I de plusieurs observations de la variable a expliquer

I selon les differentes modalites de la (des) variable(-s)explicative(-s)

Soit Xij la j-eme realisation de la variable aleatoire X pour la i ememodalite de la variable explicative

6 41

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 6: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Notations

Afin de resoudre ce probleme on doit disposer

I de plusieurs observations de la variable a expliquer

I selon les differentes modalites de la (des) variable(-s)explicative(-s)

Soit Xij la j-eme realisation de la variable aleatoire X pour la i ememodalite de la variable explicative

6 41

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 7: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

ANOVA a un facteur

Exemple croissance des chenes

Question la region dans laquelle est plantee un chene influence telle sa croissance

I La variable a expliquer X marqueur du phenomene a etudier(la croissance des chenes) est la taille des pousses un moisapres germination

I La variable explicative est la region Cette variable est a troismodalites representant les regions A B et C

I Pour chaque region on dispose de 5 observations

Drsquoapres les definitions precedentes on a

Xij qui represente la taille de la j-eme pousse observee dans laregion

7 41

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 8: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Croissance des chenes

On dispose donc des donnees suivantes pour effectuer cetteanalyse

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

8 41

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 9: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Variabilite Intra

I En observant ces donnees par colonne on remarque que dansune region donnee les observations sont variables

I On parle de variabilite intra-niveau

I Cette variabilite peut etre attribuee a la nature aleatoire desobservations

9 41

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 10: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Variabilite Inter

I En comparant les observations region par region on observeegalement des fluctuations

I On parle de variabilite inter-niveau

I On peut egalement attribuer cette variabilite au caracterealeatoire des donnees

I On peut egalement srsquointerroger sur le role de lrsquoeffet de laregion sur la croissance dans cette variabilite

I En effet si la region nrsquoa aucun effet sur la croissance deschenes on devrait srsquoattendre a nrsquoobserver aucune variabiliteinter-niveau

I Plus exactement la variabilite inter-niveau devrait etre dumeme ordre que la variabilite intra-niveau

10 41

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 11: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Etapes de lrsquoANOVA

rArr La problematique de lrsquoANOVA revient a comparer la variabilitedes observations intra-niveau et inter-niveau

1 Quantification des variabilites

2 Test de comparaison des variances

11 41

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 12: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Quantification des variances

I Une premiere variabilite inter-niveau αi

I quantifie la dispersion des Xij pour i fixe par rapport a lavaleur moyenne des observations X

I

αi = Xi minus X

I ou Xi =sum5

j=1Xij

ni

I ou ni represente le nombre drsquoobservations pour la modalite iet Xi la moyenne pour la colonne i

I X =sum3

i=1

sum5j=1

Xij

Nobs

avec Nobs =sum3

i=1 ni le nombre total drsquoobservations

12 41

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 13: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Variabilite Intra

I Une variabilite intra-niveau εij

I quantifie la dispersion des Xij au sein des observations pour ifixe par rapport a Xi

εij = Xij minus Xi

13 41

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 14: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Decomposition principe

Ainsi on considere que lrsquoobservation est issue

I drsquoun effet moyen relatif au phenomene observe

I drsquoune variabilite liee a la modalite i du facteur etudie(variabilite inter-niveau)

I drsquoun effet aleatoire non liee au facteur etudie (variabiliteintra-niveau )

14 41

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 15: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Decomposition suite

On considere le modele suivant

Xij = X + αi + εij

OuXij minus X = αi + εij

Finalements

3sumi=1

nisumj=1

(Xij minus X )2 =3sum

i=1

nisumj=1

α2i +

3sumi=1

nisumj=1

ε2ij

15 41

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 16: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Somme des Carres des Ecarts

La somme precedente srsquoecrite

SCEtotal = SCEinter + SCEintra

ou

I SCEtotal

I SCEinter

I SCEintra

16 41

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 17: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Croissance des chenes

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Calculer Xi et X

17 41

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 18: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Illustration

RegionA B C

3 10 135 8 116 5 73 7 113 5 8

Xi 4 7 10

X = 7

18 41

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 19: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Calcul des SCE

Pour calculer SCEinter = SCEA on doit calculer les moyennes desobservations pour chaque colonnes Xi et la moyenne generale X

I SCEinter = SCEA = 5times ((4minus 7)2 + (7minus 7)2 + (10minus 7)2) = 90

I SCEintra ou SCE residuelle est plus complexe a calculer autableau et se deduit de la SCEtotal

I Ici 140=90+50

En pratique votre logiciel

19 41

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 20: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Ddl et table de lrsquoANOVA

I N nombre drsquoobservation

I C nombre de modalite du facteur (region)

Source de variation SCE ddl

Inter-niveau (facteur) SCEinter=90 C-1=3-1=2Intra-niveau (residuelle) SCEintra=50 N-C=15-3=12Total SCEtotal=140 N-1=35-1=14

20 41

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 21: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Test de comparaison de variance

Lrsquoanalyse de la variance revient donc a comparer les differenteslignes de la table drsquoANOVA

I La question posee est

La variabilite inter-niveau est-elle du meme ordre que lavariabilite intra-niveau

I On considere le rapport

SCEinter(C minus 1)

SCEintra(N minus C )=

CMinter

CMintra

21 41

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 22: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Test de comparaison de variance

I Si ce rapport est significativement plus grand que 1

I la variabilite inter-classe est plus grande que la variabiliteintra-classe

I les observations a partir desquelles la variabilite inter-classeest calculee varient trop pour pouvoir considerer que lavariabilite inter-classe et la variabilite intra-classe soientconsiderees comme comparables

I Dans ce cas

I On peut conclure que le facteur region a un effet significatifsur la croissance des chenes

22 41

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 23: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Test de comparaison de variance

Sous H0 la statistique de test suit une loi de F(c minus 1n minus c) ddl(cf table de lrsquoANOVA)

Fobs = 45417 = 108

I Valeur seuil pour α=001 (005)

I Loi de Fisher(212)= 693 (389)

I Fobs gtgt 693( 389)

I on rejette lrsquohypothese nulle

I Lrsquoeffet de la region sur la croissance des chenes semble assezfort

httpwwwagro-montpellierfrcnam-lrstatnet

tableshtmfisher005

23 41

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 24: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Resume

1 Definition des variables aleatoires etudiees Definir la variable a expliquer et la variable explicative

2 Definition du modele associe a lrsquoANOVAOn definit les differentes variabilites a considerer dansnotre etude ainsi que ce a quoi elle correspondent

3 Calcul des differentes variabilites Ces calculs reviennent a construire le tableau associe alrsquoANOVA

24 41

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 25: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Resume Test

I Definition de H0

I Definition de la statistique de test F et de sa loi

I Calcul de Fobs

I Determination de la valeur seuil

I Conclusion sur le test

25 41

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 26: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

ANOVA a deux facteurs Principe

I on cherche a evaluer lrsquoinfluence de deux variables explicativessur la variable a expliquer

I Deux cas sont a distinguer les modeles sans et avecinteraction

I Si les variables explicatives (ou facteurs) sont independantes ANOVA sans interaction

I Techniquement les ANOVA a deux facteurs correspondent aune generalisation de lrsquoetude precedente

I Reprenons ainsi le plan drsquoetude presente dan la premierepartie

26 41

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 27: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Modele sans interaction

En reprenant les donnees portant sur la croissance des chenes

I On precise ici que pour chaque region la mesure des poussesde chenes a ete effectuee dans des zones de densite depopulation humaine comparables

I Cette variable est codee selon cinq modalites (de 1 a 5 parordre croissant de densite)

I Definition des variables aleatoires etudiees La variable a expliquer est toujours la taille des jeunes pousseset on considere cette fois deux variables explicatives

I la region (trois modalites)I la densite de population (cinq modalites)

On cherche a savoir si la region et la densite de population ont uneffet sur la croissance des chenes

27 41

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 28: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Donnees

Ici le tableau croise les deux facteurs et pour chaque couple demodalite on dispose drsquoune observation Xij la taille de la pousseobservee dans la region i pour une zone de densite de population j

RegionDensite A B C

1 3 10 132 5 8 113 6 5 74 3 7 115 3 5 8

28 41

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 29: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Definition du modele associe a lrsquoANOVA

I Pour prendre en compte lrsquoeffet du second facteur il suffitdrsquoajouter au modele un terme βj representant lrsquoeffet de lajeme modalite du facteur densite de population

Xij = X + αi + βj + εij

I

SCEtotal = SCEA + SCEB + SCEintra

Avec SCEA qui quantifie la variabilite selon les differentes modalitede la variable A (idem SCEB)

SCEA =3sum

j=1

nj(Xbullj minus X )2

et

SCEB =5sum

i=1

ni (Xibull minus X )2

29 41

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 30: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Calcul des variabilites

Region XibullDensite A B C

1 3 10 13 8672 5 8 11 83 6 5 7 64 3 7 11 75 3 5 8 533Xbullj 4 7 10 X = 7

30 41

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 31: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Table drsquoANOVA

Source de variation SCE ddl CM

Inter-niveau (facteur) SCEA=90 C-1=3-1=2 45Inter-niveau (facteur) SCEB=2267 L-1=5-1=4 567Intra-niveau (residuelle) SCEintra=2733 N-(C+L-1)=15-7=8 342Total SCEtotal=140 N-1=35-1=14

31 41

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 32: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Tests facteur region

I Pour le test de lrsquoeffet de la regionH0 Il nrsquoexiste pas drsquoeffet de la region sur la croissance deschenesLa statistique de test est definie par

CMA

CMRes

Et suit sous H0 une loi de Fisher a(3minus 1) (3minus 1)times (5minus 1) = 2 8 ddl

I On en deduit que FAobs = 45

342 = 1321

I Or pour α = 5 F seuil28 = 446

I On rejette donc H0 ce qui permet de conclure a la presencedrsquoun effet de la region sur la croissance des chenes

32 41

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 33: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Tests facteur densite

I Pour le test de lrsquoeffet de la densite de populationH0 Il nrsquoexiste pas drsquoeffet de la densite de population sur lacroissance des chenesLa statistique de test est definie par

CMB

CMRes

Et suit sous H0 une loi de Fisher a(5minus 1) (3minus 1)times (5minus 1) = 4 8 ddl

I On en deduit que FBobs = 166

I Or pour α = 5 F seuil48 = 384

I On ne rejette donc pas H0

I Aucun effet de la densite de population nrsquoa donc pu etre misen avant

33 41

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 34: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Resume ANOVA 2 facteurs

I Cette etude a permis de prendre en compte deux facteurs

I On a montrer que la region avait une influence sur lacroissance des chenes mais pas la densite de population

I Ainsi la region influence la croissance des chenes par desparametres differents des parametres demographiques (descaracteristiques climatiques par exemple)

Cette etude nrsquoest possible que si lrsquoon considere que les deuxfacteurs etudies sont independants Dans le cas contraire il fautprendre en compte leur interaction

34 41

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 35: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Modele avec interaction

I Lrsquointroduction drsquoune interaction dans le modele de lrsquoANOVArevient a considerer que lrsquointensite de lrsquoeffet drsquoun facteur nesera pas le meme selon la modalite consideree pour le secondfacteur

I On prend en compte cette interaction en introduisant lrsquoeffetαiβj dans le modele de lrsquoANOVA Drsquoou

Xij = X + αi + βj + αi times βj + εij

I

SCEtotal = SCEA + SCEB + SCEAB + SCEintra

I ou SCEAB quantifie la variabilite des observations liee alrsquointeraction entre les 2 facteurs

35 41

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 36: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Etude de lrsquoeffet de lrsquointeraction

I H0 absence drsquoeffet de lrsquointeraction

I La statistique de test est definie par

CMAB

CMRes

I Loi de Fisher((C minus 1)times (Lminus 1) dllRes)

36 41

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 37: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

ANOVA avec interaction Exemple

I Cette etude srsquointeresse a lrsquoimpact des pluies acides sur la floredrsquoune region donnee

I Objectif etudier lrsquoinfluence de deux acides nitrique etsulfurique (HNO3 et H2SO4) sur la production dechlorophylle drsquoun type de plante donne

I La variable a expliquer est la production de chlorophylle

I les variables explicatives sont la pollution par HNO3 drsquounepart et par H2SO4 drsquoautre part

Ces deux variables drsquoexpositions ont chacune deux modalites (oui -non)

37 41

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 38: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

I On peut supposer lrsquoexistence drsquointeractions biochimiques dansce systeme par exemple si des catalyses ont lieu

I Ainsi il convient de poser le modele avec interaction suivant SCEtotal = SCEA + SCEB + SCEAB + SCEintra

38 41

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 39: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Donnees

Pour chaque couple de modalites on dispose de 5 observation

39 41

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 40: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Table drsquoANOVA

40 41

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41

Page 41: Test de Student et Analyse de la Variancecedric.cnam.fr/~latoucha/STA109/C11.pdf · Il s’agit d’une g en eralisation du t-test de Student I Mettre en ˙uvre des analyses de la

Test effet des facteurs

I Acide sulfurique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Acide Nitrique On a Fobs gt F (1 16) on rejette H0 il existeun effet sur la production de chlorophylle

I Interaction Rejet de H0 lrsquoeffet drsquoun de ces 2 acides nrsquoest pasle meme selon que lrsquoautre est present dans le milieu

Cette analyse montre que les 2 acides ont un effet significatifs ur laproduction de chlorophylle et que ces deux acides interagissent

41 41