Les tests statistiques élémentaires avec R - Edu...

61
Les tests statistiques ´ el´ ementaires avec R Lo¨ ıc PONGER MNHN CNRS UMR 7196 INSERM U565 6 mars 2012

Transcript of Les tests statistiques élémentaires avec R - Edu...

Page 1: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Les tests statistiques elementaires avec R

Loıc PONGER

MNHN

CNRS UMR 7196 INSERM U565

6 mars 2012

Page 2: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 3: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Liste des fonctions

Comparaison de moyennes ou demedianes

I Test de Student (test t) : t.test()

I Test de Wilcoxon (Mann-Whitney) :wilcox.test()

I ANOVA et test de Tukey : aov(),TukeyHSD()

I Test de Kruskal-Wallis : kruskal.test()

CorrelationI Test du χ2 : chisq.test()

I Test de Pearson : cor.test()

I Test de Spearman : cor.test()

Comparaison de variance

I Test de Fisher-Snedecor : var.test()

I Test de Bartlett : bartlett.test()

NormaliteI Test de Shapiro-Wilk : shapiro.test()

DiversI Test de Kolmogorov-Smirnov : ks.test()

Page 4: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 5: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son testMoyennes et medianesCorrelation

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 6: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Comparaison de moyennes (ou de medianes)

I Un ou deux echantillonsI Donnees quantitatives continues sans valeur extreme :

voir cette page

I Donnees quantitatives continues avec valeur(s) extreme(s) :test de Wilcoxon

I Donnees de type rangs : test de Wilcoxon

I Trois (ou plus) echantillonsI Donnees quantitatives continues sans valeur extreme :

voir cette page

I Donnees quantitatives continues avec valeur(s) extreme(s) :test de Kruskal-Wallis

I Donnees de type rangs : test de Kruskal-Wallis

Page 7: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Comparaison de moyennes (ou de medianes)

Rappel : Un ou deux echantillons, donnees quantitatives continues sansvaleur extreme

I Grands echantillons (n > 30) : test de Student ou test de Welch

I Petits echantillons (n < 15) : test de Wilcoxon

I Autres cas ( 30 > n > 15)

I Normalite des donnees : test de Student ou test de WelchI Non-normalite des donnees : test de Wilcoxon

Page 8: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Comparaison de moyennes (ou de medianes)

Rappel : Trois (ou plus) echantillons, donnees quantitatives continuessans valeur extreme

I Grands echantillons

I Egalite des variances ET normalite des residus : ANOVAI Inegalite des variances OU non-normalite des residus : test de

Kruskal-Wallis

I Petits echantillons : test de Kruskal-Wallis

Page 9: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son testMoyennes et medianesCorrelation

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 10: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Correlation

I Donnees qualitatives : test du χ2

I Donnees quantitatives continuesI Normalite des donnees : test de PearsonI Non-normalite des donnees : test de Spearman

I Donnees de type rangs : test de Spearman

Page 11: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 12: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers

Syntaxe des fonctions

Exercices

Remarques

Page 13: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Student pour un echantillon

1. Comparaison d’une moyenne observee a une valeur theorique

2. Conditions d’application : X doit etre distribuee selon une loinormale (theoreme central limite).

3. En pratique : .I n est grand (n > 30) ou ...I ... la normalite des donnees est verifiee

4. Hypotheses :I HO : µ == µ0

I H1 : µ 6= µ0 (”two.sided”), µ < µ0 (”less”) ou µ > µ0 (”greater”)

5. Statistique : sous HO , ...

... t = x−µ0√s

n−1

suit une loi de Student a n − 1 ddl

Page 14: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Student pour deux echantillons apparies

1. Comparaison des moyennes de deux echantillons apparies.

2. Preambule : calcul des differences de toutes les paires(Y = X1 − X2), calcul de la moyenne des differences (Y ),calcul de la variance des differences(s2

Y )

3. Condition d’application : Y doit etre distribuee selon une loinormale (theoreme central limite).

I n est grand (n > 30) ou ...I ... la normalite des donnees (Y ) est verifiee

4. Hypotheses :I HO : µ1 == µ2

I H1 : µ1 6= µ2 (”two.sided”), µ1 < µ2 (”less”) ou µ1 > µ2

(”greater”)

5. Statistique : sous HO , ...

... t = y−0√sy

n−1

suit une loi de Student a n − 1 ddl

Page 15: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Student pour deux echantillons independants

1. Conditions d’utilisation : X1 et X2 doivent etre distribuees selon uneloi normale (theoreme central limite).

I n1 et n2 sont grands (n > 30) ou ...I ... la normalite des donnees (X1 et X2) est verifiee

2. Hypotheses :

I HO : µ1 == µ2

I H1 : µ1 6= µ2 (”two.sided”), µ1 < µ2 (”less”) ou µ1 > µ2

(”greater”)

3. Statistique : Sous H0, ...

I Si les variances sont egales (test de Student sensus stricto) ,

t = x1−x2

s√

( 1n1

+ 1n2

)avec s =

√(n1−1)s2

1 +(n2−1)s22

(n1+n2−2) suit une loi de

Student a n1 + n2 − 2ddlI Si les variances sont differentes (test de Welch), t = x1−x2

s

avec s =√

s21

n1+

s22

(n2suit une loi de Student a

(s21/n1+s2

2/n2)2

(s21/n1)2/(n1−1)+(s2

2/n2)2/(n2−1)ddl

Page 16: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Wilcoxon pour un echantillon

1. Comparaison d’une mediane observee et d’une valeur theorique

2. Hypotheses :I HO : med == med0

I H1 : med 6= med0 (”two.sided”), med < med0 (”less”) oumed > med0 (”greater”)

3. Statistique :I A chaque Xi , on associe sa valeur absolue Zi = |Xi −med0|I On classe les Zi et a chaque Zi , on associe son rang Ri

I On calcule V =∑

Ri pour tous les i tel que Xi > med0

I Sous H0 et n petit, V suit une loi de distribution connue(dependant de n)

I Sous H0 et n grand, Z = V−E(V )sqrt(V (V )) suit une loi normale centree

reduiteavec n = n1 + n2, E(V ) =

n(n+1)4

(somme des rangs :n(n+1)

2) et V (V ) =

n(n+1)(2n+1)24

Page 17: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Wilcoxon pour deux echantillons apparies

1. Comparaison des medianes de deux echantillons apparies

2. Hypotheses :I HO : med1 == med2

I H1 : med1 6= med2 (”two.sided”), med1 < med2 (”less”) oumed1 > med2 (”greater”)

3. Statistique :I On calcule la difference entre les elements de chaque paire

Xi = Ai − Bi puis on compare les differences a 0 (test deWilcoxon pour un echantillon).

I On calcule V =∑

Ri pour tous les i tel que Xi > 0I Sous H0 et n petit, V suit une loi de distribution connue

(dependant de n)I Sous H0 et n grand, Z = V−E(V )

sqrt(V (V )) , avec E (V ) = n(n+1)4

(somme des rangs : n(n+1)2 ) et V (V ) = n(n+1)(2n+1)

24 , suit uneloi normale centree reduite

Page 18: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Wilcoxon pour deux echantillons independants

1. Comparaison des medianes de deux echantillons independants

2. Hypotheses :I HO : med1 == med2

I H1 : med1 6= med2 (”two.sided”), med1 < med2 (”less”) oumed1 > med2 (”greater”)

3. Statistique :I On reunit et on ordonne les valeurs de X1 et de X2. A chaque

valeur, on associe son rang.I On calcule W la somme des rangs des valeurs de X1

I Sous H0 et n petit, W suit une loi de distribution connue(dependant de n)

I Sous H0 et n grand, Z = W−E(W )sqrt(V (X )) suit une loi normale centree

reduite avec n = n1 + n2, E(W ) =n(n+1)

4(somme des rangs :

n(n+1)2

) et

V (W ) =n(n+1)(2n+1)

24

Page 19: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

L’analyse de variance

1. Comparaison de k moyennes issues de k echantillonsindependants

2. Hypotheses :I HO : toutes les moyennes sont egalesI H1 : au moins deux moyennes sont differentes

3. Statistique :I Calcul des variances intergroupe et intragroupe (ou residuelle)I Calcul du rapport F = inter/intraI Sous H0, F suit une loi de Fischer a k − 1 et n − k ddl

4. Validation du modele :I normalite des residusI homoscedasticite des residus

Page 20: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Tukey HSD

1. Comparaison multiple de moyennes, correction pour lescomparaisons multiples (α)

2. Conditions d’application : normalite et homoscedasticite desvariables

3. Hypothese : H0 : les moyennes sont egales

4. Statistique : sous H0, Qa,b = max(Xa,Xb)−min(Xa,Xb)SE suit une loi

des etendues studentisees avec SE, l’ecart type des variables etudiees (ecart typeresiduel)

Page 21: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Kruskal-Wallis

1. Comparaison de k medianes

2. Hypothese :I HO : toutes les medianes sont egalesI H1 : aux moins deux medianes sont differentes

3. Statistique : sous H0, H = 12N∗(N+1) ∗

∑ R2i

ni− 3 ∗ (n + 1) suit

approximativement une loi de χ2 a k-1 ddl

Page 22: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers

Syntaxe des fonctions

Exercices

Remarques

Page 23: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test du χ2 d’independance

1. Tester la correlation ou l’independance de deux variablesquantitatives ayant n et p modalites

2. Conditions d’application : les Efftheo doivent etre superieurs a5, sinon faire des simulations (ou voir le test exact de Fischer)

3. Hypotheses :I HO : les deux variables sont independantesI H1 : les deux variables ne sont pas independantes

4. Statistique : χ2 =∑ (Effobs−Efftheo )2

Efftheosuit une loi de χ2 a

(n − 1) ∗ (p − 1) ddl

Page 24: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test du χ2 d’ajustement

1. Tester l’ajustement a une loi theorique donnee 1

2. Conditions d’application : les Efftheo doivent etre superieurs a5, sinon faire des simulations (ou voir le test exact de Fischer)

3. Hypotheses :I HO : les observations suivent la loi theoriqueI H1 : les observations ne suivent pas la loi theorique

4. Statistique : χ2 =∑ (Effobs−Efftheo )2

Efftheosuit une loi de χ2 a

(n − 1) ddl

1. Attention les parametres de la loi ne doivent pas etre estimes a partir desdonnees, sinon il faut corriger le nombre de ddl.

Page 25: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Pearson

1. Tester la presence d’une correlation lineaire entre deuxvariables

2. Conditions d’application : normalite des variables, lien lineaireentre les variables

3. Hypotheses :I HO : r == 0I H1 : r 6= 0

4. Statistique : sous H0, t = r√1−r2

n−2

suit une loi de Student a n-2

ddl

Page 26: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Spearman

1. Tester la presence d’une correlation entre deux variables

2. Hypotheses :I HO : r == 0I H1 : r 6= 0, r < 0 ou r > 0

3. Statistique : sous H0, ...

I ..., si n est petit, r = 1− 6 ∗∑

d2i

n(n2−1) suit un loi determinee.

I ..., si n est grand, Z = r−E(r)√V (r)

suit une loi normale

centree-reduite.avec di etant la difference de rang entre les xi et les yi , E(r) = 0 et V (r) = 1/(n − 1)

Page 27: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers

Syntaxe des fonctions

Exercices

Remarques

Page 28: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Shapiro-Wilk

1. Tester la normalite d’une distribution

2. Hypotheses :I HO : La distribution des X suit une loi normaleI H1 : La distribution des X ne suit pas une loi normale

3. Statistique :I les valeurs sont ordonnees (xi , valeur de rang i),I pour chaque xi , une valeur ai correspondant a la valeur

attendue sous l’hyp. H0 est calculee.

La statistique du test est : W =(∑n

i=1 ai xi )2∑n

i=1(xi−x)2

(le rapport des etendues partielles et des carres des ecarts a lamoyenne)Cette statistique est liee au graphique quantile-quantile. PlusW est petit, plus la distribution de la variable X s’eloigned’une distribution normale.

Page 29: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers

Syntaxe des fonctions

Exercices

Remarques

Page 30: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Fischer-Snedecor

1. Comparer les variances de deux echantillons

2. Hypotheses :I HO : σ1 == σ2

I H1 : σ1 6= σ2

3. Statistique : Sous H0, ...... F = σ1/σ2 suit une loi de Fischer a n1 − 1 et n2 − 1 ddl

Page 31: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Bartlett

1. Comparer les variances de k echantillons

2. Condition d’application : les variables doivent etre distribueesselon la loi normale

3. Hypothese :I HO : les k σi sont egauxI H1 : au moins deux σi sont differents

4. Statistique : Sous H0, ...

... χ2 = ... suit une loi du chi2 a k − 1 ddl

Note : il existe d’autres tests (Levene, Log-anova,Cochran, ...)

Page 32: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers

Syntaxe des fonctions

Exercices

Remarques

Page 33: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test de Kolmogorov-Smirnov

Principes

1. Ce test consiste a calculer la difference maximale existantentre les distributions de frequences relatives cumulees (dfrc)de deux echantillons

2. Hypotheses :I HO : les dfrc de X1 et de X2 sont identiquesI H1 : les dfrc de X1 et de X2 sont differentes, la dfrc de X − 1

est ”plus faible” que celle de X2, la dfrc de X − 1 est ”pluselevee” que celle de X2

3. Statistique : sous H0, la statistique est : D = max(FX 1 − FX 2)est suit une loi particuliere

Page 34: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 35: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctionst.test()

wilcox.test()

aov.test() et TukeyHSD()

kruskal.test()

chisq.test()

cor.test()

Exercices

Remarques

Page 36: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

t.test()

x valeurs du premier echantillon

y valeurs du second echantillon (si necessaire)

mu moyenne de reference (un seul echantillon)

paired pour echantillons apparies

var.equal test de Student ou test de Welch

alternative test unilateral ou bilateral

mesvaleurs1=c(1,4,5,3,6,3,6)

mesvaleurs2=c(3,5,8,5,6,7)

mesvaleurs3=c(2,4,7,3,7,6)

t.test(x=mesvaleurs1,y=mesvaleurs2, paired=F,

alternative="two.sided")

t.test(x=mesvaleurs2,mu=5,alternative="greater")

t.test(x=mesvaleurs2,y=mesvaleurs3, paired=T)

Page 37: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctionst.test()

wilcox.test()

aov.test() et TukeyHSD()

kruskal.test()

chisq.test()

cor.test()

Exercices

Remarques

Page 38: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

wilcox.test()

x valeurs du premier echantillon

y valeurs du second echantillon (si necessaire)

mu mediane de reference (un seul echantillon)

paired pour echantillons apparies

alternative test unilateral ou bilateral

exact pour n petit, calcule la p-value selon la table, sinonapprox. normale

mesvaleurs1=c(1,4,5,3,6,3,6)

mesvaleurs2=c(3,5,8,5,6,7)

mesvaleurs3=c(2,4,7,3,7,6)

wilcox.test(x=mesvaleurs1,y=mesvaleurs2, paired=F,

alternative="two.sided")

wilcox.test(x=mesvaleurs2,mu=5,alternative="greater")

wilcox.test(x=mesvaleurs2,y=mesvaleurs3, paired=T)

Page 39: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctionst.test()

wilcox.test()

aov.test() et TukeyHSD()

kruskal.test()

chisq.test()

cor.test()

Exercices

Remarques

Page 40: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

aov() et TukeyHSD()

I aov()

x valeurs numeriquesy groupes

I TukeyHSD()

x un objet de type aov

mesvaleurs=c(1,4,5,3,6,3,6)

mesgroupes=factor(c("A","A","B","B","C","C","C"))

myanova=aov(mesvaleurs~mesgroupes)

#test de normalite des residus

shapiro.test(myanova$residuals)

#test d'homoscedasticite des residus

bartlett.test(myanova$residuals,mesgroupes)

#test des contrastes

TukeyHSD(myanova)

Page 41: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctionst.test()

wilcox.test()

aov.test() et TukeyHSD()

kruskal.test()

chisq.test()

cor.test()

Exercices

Remarques

Page 42: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

kruskal.test()

valeurs et groupes

x un vecteur avec toutes les valeurs numeriques

g les groupes (meme longueur que x)

mesvaleurs=c(1,4,5,3,6,3,6)

mesgroupes=factor(c("A","A","B","B","C","C","C"))

kruskal.test(x=mesvaleurs,g=mesgroupes)

liste de vecteurs de valeurs

x une liste de vecteurs contenant les valeurs desdifferentes groupes

A=c(1,4)

B=c(5,3)

C=c(6,3,6)

kruskal.test(x=list(A,B,C))

Page 43: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctionst.test()

wilcox.test()

aov.test() et TukeyHSD()

kruskal.test()

chisq.test()

cor.test()

Exercices

Remarques

Page 44: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

chisq.test()

Test d’independance

x le tableau des observations

simulate.p.value pour faire des simulation si petits effectifs

data=matrix(c(10,20,30,40), by.row=T)

chisq.test(x=data,simulate.p.value=TRUE)

Test d’ajustement

x le vecteur des observations

p le vecteur des frequences theoriques

data=c(23,34,56,65)

freq=c(0.1,0.2,0.4,0.3)

chisq.test(x=data,p=freq)

Page 45: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctionst.test()

wilcox.test()

aov.test() et TukeyHSD()

kruskal.test()

chisq.test()

cor.test()

Exercices

Remarques

Page 46: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

cor.test()

formula une formule decrivant la relation entre les Y et les X

method ”pearson” ou ”spearman”

mesX=c(1,4,5,3,6,3,6)

mesY=c(2,4,6,2,7,5,7)

cor.test(mesY~mesX,method="pearson")

Page 47: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

ks.test()

x un vecteur avec les valeurs numeriques de la premieredistribution

y un vecteur avec les valeurs numeriques de la secondedistribution

alternative test unilateral ou bilateral

mesvaleurs1=c(1,4,5,3,6,3,6)

mesvaleurs2=c(1,1,4,2,4,3,5,3,6)

ks.test(x=mesvaleurs1,y=mesvaleurs2)

Page 48: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 49: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Glycemie

ProblemeOn a mesure la glycemie (en g/L) chez 21 patients (fichiergly.dat). Est-ce que le taux de glucose de ces patients differe dela valeur de reference, 1 g/L ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 50: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Anorexie

ProblemeDans le cadre d’une etude dont le but est de trouver un remede al’anorexie, on a mesure le poid de 46 jeunes filles anorexiques avantet apres un traitement (fichier anorexic.dat, donnees issues deLarry Winner’s web site). La moyenne passe de 82,89 lb a 87,47 lb(1 lb = 0,45 kg). Est-ce que le traitement a un effet significatif surle poids des jeunes filles ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 51: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Pois

ProblemeChez les pois, le caractere couleur est code par un gene presentantdeux formes alleles C et c, correspondant aux couleurs jaune etvert. Le jaune est dominant, le vert recessif. La forme, rond ouride, est portee par un autre gene a deux alleles R (dominant) et r(recessif). Mendel a croise des pois jaunes et ronds (caracteresdominants) et obtient dans la descendance les graines suivantes :jaunes+rondes, 315 ; jaunes+ridees, 101 ; vertes+rondes, 108 ;vertes+ridees, 32. Mendel a propose que la distribution descaracteres dans la descendance devrait etre 9/16, 3/16, 3/16 et1/16 respectivement. Peut-on valider sa theorie ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 52: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Canides

ProblemeDes chercheurs etudient la phylogenie des canides en comparantdes donnees morphometriques (largeur de la mandibule, en cm) dechiens modernes de Thaılande a celles des loups indiens (fichierloup.dat). Ces donnees suggerent-elles une difference de lalargeur de la mandibule entre les chiens thaıs et les loups indiens ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 53: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Oeufs de coucous

ProblemeOn a mesure la longueur des oeufs de coucous presents dans les nids de 6especes d’oiseaux. Y a t-il une difference de variance entre les groupes(fichier cuckoo.dat) ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 54: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Aspirine

ProblemeOn a etudie 2 l’effet de l’aspirine sur la probabilite d’avoir un infarctus dumyocarde. Ainsi, au sein de 11037 personnes qui ont eu de l’aspirine, 104ont subit un infarctus. Parallelement, parmi les 11034 personnes ayant euun placebo, 189 ont subit un infarctus.

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

2. issu de Physicians Health Study (1988 NEJM 318 : 262-264)

Page 55: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Mathematiques et geographie

ProblemeOn a releve les notes de 50 etudiants dans deux matieres differentes : lesmathematiques et la geographie. Y a t’il un lien entre les notes observeesdans ces deux matieres (fichier math_geo.dat) ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 56: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Oeufs de drosophiles

ProblemeOn a dispose des oeufs de drosophiles elevees dans 4 temperaturesdifferentes (fichier oeuf_droso.dat). Y a t’il un effet de la temperaturesur la longueur des oeufs ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 57: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Nombres (pseudo-)aleatoires

ProblemeOn a utilise 5 methodes differentes pour generer 1000 nombrespseudo-aleatoires (fichier random.dat). Est-ce qu’il y a des differencesentre ces methodes ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 58: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Nascar

ProblemeOn dispose des statistiques des courses de Nascard de 1975 a 2003(fichier nascard.dat). On souhaite connaıtre les noms des differentsconstructeurs ayant gagne une course et si le nombre de victoire pourchaque constructeur differe de l’aleatoire.

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 59: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Cerveaux et QI

ProblemeOn dispose des mensurations de 40 cerveaux et du QI correspondant pourdes hommes et des femmes (fichier brain_size_IQ.dat). Est-ce qu’il ya un effet du genre sur le poids du cerveau (Weight) ? Est-ce qu’il y a unlien entre le poids du cerveau et le QI (FSIQ) ?

1. Importer les donnees dans R

2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)

3. Faire un graphique permettant de representer vos donnees

4. Effectuer le test permettant de repondre a la question

Page 60: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Plan

Liste des fonctions

Choisir son test

Rappels theoriques sur les tests

Syntaxe des fonctions

Exercices

Remarques

Page 61: Les tests statistiques élémentaires avec R - Edu …edu.mnhn.fr/.../mod_resource/content/0/J3_Tests_LPonger.pdfTest de Student pour deux echantillons appari es 1.Comparaison des

Test uni ou bilateral ?

La reponse a cette question depend du but initial des travaux. Laquestion se pose avant de faire les mesures sur l’echantillon.Prenons un exemple : une rumeur annonce que les prix ont augmenteavec le changement de monnaie. Le gouvernement decide de verifier cetterumeur et de comparer les prix de 40 produits ”avant” et ”apres” lechangement de monnaie. Il peut faire pour cela un test unilateral :

cas 1 La moyenne ”avant” est de 34 equivalent euros et la moyenne ”apres”est de 45 euros. On fera donc un test unilateral pour tester le bienfonde de cette rumeur

cas 2 La moyenne ”avant” est de 54 equivalent euros et la moyenne ”apres”est de 45 euros. On ne fera pas de test. En decidant de faire un testunilateral, le gouvernement s’interdit de tester une baisse potentielledes prix.

Attention : ceci est un point important car pour les memes donnees, untest unilateral divise par deux la valeur de la probabilite