Les tests statistiques élémentaires avec R - Edu...
Transcript of Les tests statistiques élémentaires avec R - Edu...
Les tests statistiques elementaires avec R
Loıc PONGER
MNHN
CNRS UMR 7196 INSERM U565
6 mars 2012
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Liste des fonctions
Comparaison de moyennes ou demedianes
I Test de Student (test t) : t.test()
I Test de Wilcoxon (Mann-Whitney) :wilcox.test()
I ANOVA et test de Tukey : aov(),TukeyHSD()
I Test de Kruskal-Wallis : kruskal.test()
CorrelationI Test du χ2 : chisq.test()
I Test de Pearson : cor.test()
I Test de Spearman : cor.test()
Comparaison de variance
I Test de Fisher-Snedecor : var.test()
I Test de Bartlett : bartlett.test()
NormaliteI Test de Shapiro-Wilk : shapiro.test()
DiversI Test de Kolmogorov-Smirnov : ks.test()
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Plan
Liste des fonctions
Choisir son testMoyennes et medianesCorrelation
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Comparaison de moyennes (ou de medianes)
I Un ou deux echantillonsI Donnees quantitatives continues sans valeur extreme :
voir cette page
I Donnees quantitatives continues avec valeur(s) extreme(s) :test de Wilcoxon
I Donnees de type rangs : test de Wilcoxon
I Trois (ou plus) echantillonsI Donnees quantitatives continues sans valeur extreme :
voir cette page
I Donnees quantitatives continues avec valeur(s) extreme(s) :test de Kruskal-Wallis
I Donnees de type rangs : test de Kruskal-Wallis
Comparaison de moyennes (ou de medianes)
Rappel : Un ou deux echantillons, donnees quantitatives continues sansvaleur extreme
I Grands echantillons (n > 30) : test de Student ou test de Welch
I Petits echantillons (n < 15) : test de Wilcoxon
I Autres cas ( 30 > n > 15)
I Normalite des donnees : test de Student ou test de WelchI Non-normalite des donnees : test de Wilcoxon
Comparaison de moyennes (ou de medianes)
Rappel : Trois (ou plus) echantillons, donnees quantitatives continuessans valeur extreme
I Grands echantillons
I Egalite des variances ET normalite des residus : ANOVAI Inegalite des variances OU non-normalite des residus : test de
Kruskal-Wallis
I Petits echantillons : test de Kruskal-Wallis
Plan
Liste des fonctions
Choisir son testMoyennes et medianesCorrelation
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Correlation
I Donnees qualitatives : test du χ2
I Donnees quantitatives continuesI Normalite des donnees : test de PearsonI Non-normalite des donnees : test de Spearman
I Donnees de type rangs : test de Spearman
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers
Syntaxe des fonctions
Exercices
Remarques
Test de Student pour un echantillon
1. Comparaison d’une moyenne observee a une valeur theorique
2. Conditions d’application : X doit etre distribuee selon une loinormale (theoreme central limite).
3. En pratique : .I n est grand (n > 30) ou ...I ... la normalite des donnees est verifiee
4. Hypotheses :I HO : µ == µ0
I H1 : µ 6= µ0 (”two.sided”), µ < µ0 (”less”) ou µ > µ0 (”greater”)
5. Statistique : sous HO , ...
... t = x−µ0√s
n−1
suit une loi de Student a n − 1 ddl
Test de Student pour deux echantillons apparies
1. Comparaison des moyennes de deux echantillons apparies.
2. Preambule : calcul des differences de toutes les paires(Y = X1 − X2), calcul de la moyenne des differences (Y ),calcul de la variance des differences(s2
Y )
3. Condition d’application : Y doit etre distribuee selon une loinormale (theoreme central limite).
I n est grand (n > 30) ou ...I ... la normalite des donnees (Y ) est verifiee
4. Hypotheses :I HO : µ1 == µ2
I H1 : µ1 6= µ2 (”two.sided”), µ1 < µ2 (”less”) ou µ1 > µ2
(”greater”)
5. Statistique : sous HO , ...
... t = y−0√sy
n−1
suit une loi de Student a n − 1 ddl
Test de Student pour deux echantillons independants
1. Conditions d’utilisation : X1 et X2 doivent etre distribuees selon uneloi normale (theoreme central limite).
I n1 et n2 sont grands (n > 30) ou ...I ... la normalite des donnees (X1 et X2) est verifiee
2. Hypotheses :
I HO : µ1 == µ2
I H1 : µ1 6= µ2 (”two.sided”), µ1 < µ2 (”less”) ou µ1 > µ2
(”greater”)
3. Statistique : Sous H0, ...
I Si les variances sont egales (test de Student sensus stricto) ,
t = x1−x2
s√
( 1n1
+ 1n2
)avec s =
√(n1−1)s2
1 +(n2−1)s22
(n1+n2−2) suit une loi de
Student a n1 + n2 − 2ddlI Si les variances sont differentes (test de Welch), t = x1−x2
s
avec s =√
s21
n1+
s22
(n2suit une loi de Student a
(s21/n1+s2
2/n2)2
(s21/n1)2/(n1−1)+(s2
2/n2)2/(n2−1)ddl
Test de Wilcoxon pour un echantillon
1. Comparaison d’une mediane observee et d’une valeur theorique
2. Hypotheses :I HO : med == med0
I H1 : med 6= med0 (”two.sided”), med < med0 (”less”) oumed > med0 (”greater”)
3. Statistique :I A chaque Xi , on associe sa valeur absolue Zi = |Xi −med0|I On classe les Zi et a chaque Zi , on associe son rang Ri
I On calcule V =∑
Ri pour tous les i tel que Xi > med0
I Sous H0 et n petit, V suit une loi de distribution connue(dependant de n)
I Sous H0 et n grand, Z = V−E(V )sqrt(V (V )) suit une loi normale centree
reduiteavec n = n1 + n2, E(V ) =
n(n+1)4
(somme des rangs :n(n+1)
2) et V (V ) =
n(n+1)(2n+1)24
Test de Wilcoxon pour deux echantillons apparies
1. Comparaison des medianes de deux echantillons apparies
2. Hypotheses :I HO : med1 == med2
I H1 : med1 6= med2 (”two.sided”), med1 < med2 (”less”) oumed1 > med2 (”greater”)
3. Statistique :I On calcule la difference entre les elements de chaque paire
Xi = Ai − Bi puis on compare les differences a 0 (test deWilcoxon pour un echantillon).
I On calcule V =∑
Ri pour tous les i tel que Xi > 0I Sous H0 et n petit, V suit une loi de distribution connue
(dependant de n)I Sous H0 et n grand, Z = V−E(V )
sqrt(V (V )) , avec E (V ) = n(n+1)4
(somme des rangs : n(n+1)2 ) et V (V ) = n(n+1)(2n+1)
24 , suit uneloi normale centree reduite
Test de Wilcoxon pour deux echantillons independants
1. Comparaison des medianes de deux echantillons independants
2. Hypotheses :I HO : med1 == med2
I H1 : med1 6= med2 (”two.sided”), med1 < med2 (”less”) oumed1 > med2 (”greater”)
3. Statistique :I On reunit et on ordonne les valeurs de X1 et de X2. A chaque
valeur, on associe son rang.I On calcule W la somme des rangs des valeurs de X1
I Sous H0 et n petit, W suit une loi de distribution connue(dependant de n)
I Sous H0 et n grand, Z = W−E(W )sqrt(V (X )) suit une loi normale centree
reduite avec n = n1 + n2, E(W ) =n(n+1)
4(somme des rangs :
n(n+1)2
) et
V (W ) =n(n+1)(2n+1)
24
L’analyse de variance
1. Comparaison de k moyennes issues de k echantillonsindependants
2. Hypotheses :I HO : toutes les moyennes sont egalesI H1 : au moins deux moyennes sont differentes
3. Statistique :I Calcul des variances intergroupe et intragroupe (ou residuelle)I Calcul du rapport F = inter/intraI Sous H0, F suit une loi de Fischer a k − 1 et n − k ddl
4. Validation du modele :I normalite des residusI homoscedasticite des residus
Test de Tukey HSD
1. Comparaison multiple de moyennes, correction pour lescomparaisons multiples (α)
2. Conditions d’application : normalite et homoscedasticite desvariables
3. Hypothese : H0 : les moyennes sont egales
4. Statistique : sous H0, Qa,b = max(Xa,Xb)−min(Xa,Xb)SE suit une loi
des etendues studentisees avec SE, l’ecart type des variables etudiees (ecart typeresiduel)
Test de Kruskal-Wallis
1. Comparaison de k medianes
2. Hypothese :I HO : toutes les medianes sont egalesI H1 : aux moins deux medianes sont differentes
3. Statistique : sous H0, H = 12N∗(N+1) ∗
∑ R2i
ni− 3 ∗ (n + 1) suit
approximativement une loi de χ2 a k-1 ddl
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers
Syntaxe des fonctions
Exercices
Remarques
Test du χ2 d’independance
1. Tester la correlation ou l’independance de deux variablesquantitatives ayant n et p modalites
2. Conditions d’application : les Efftheo doivent etre superieurs a5, sinon faire des simulations (ou voir le test exact de Fischer)
3. Hypotheses :I HO : les deux variables sont independantesI H1 : les deux variables ne sont pas independantes
4. Statistique : χ2 =∑ (Effobs−Efftheo )2
Efftheosuit une loi de χ2 a
(n − 1) ∗ (p − 1) ddl
Test du χ2 d’ajustement
1. Tester l’ajustement a une loi theorique donnee 1
2. Conditions d’application : les Efftheo doivent etre superieurs a5, sinon faire des simulations (ou voir le test exact de Fischer)
3. Hypotheses :I HO : les observations suivent la loi theoriqueI H1 : les observations ne suivent pas la loi theorique
4. Statistique : χ2 =∑ (Effobs−Efftheo )2
Efftheosuit une loi de χ2 a
(n − 1) ddl
1. Attention les parametres de la loi ne doivent pas etre estimes a partir desdonnees, sinon il faut corriger le nombre de ddl.
Test de Pearson
1. Tester la presence d’une correlation lineaire entre deuxvariables
2. Conditions d’application : normalite des variables, lien lineaireentre les variables
3. Hypotheses :I HO : r == 0I H1 : r 6= 0
4. Statistique : sous H0, t = r√1−r2
n−2
suit une loi de Student a n-2
ddl
Test de Spearman
1. Tester la presence d’une correlation entre deux variables
2. Hypotheses :I HO : r == 0I H1 : r 6= 0, r < 0 ou r > 0
3. Statistique : sous H0, ...
I ..., si n est petit, r = 1− 6 ∗∑
d2i
n(n2−1) suit un loi determinee.
I ..., si n est grand, Z = r−E(r)√V (r)
suit une loi normale
centree-reduite.avec di etant la difference de rang entre les xi et les yi , E(r) = 0 et V (r) = 1/(n − 1)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers
Syntaxe des fonctions
Exercices
Remarques
Test de Shapiro-Wilk
1. Tester la normalite d’une distribution
2. Hypotheses :I HO : La distribution des X suit une loi normaleI H1 : La distribution des X ne suit pas une loi normale
3. Statistique :I les valeurs sont ordonnees (xi , valeur de rang i),I pour chaque xi , une valeur ai correspondant a la valeur
attendue sous l’hyp. H0 est calculee.
La statistique du test est : W =(∑n
i=1 ai xi )2∑n
i=1(xi−x)2
(le rapport des etendues partielles et des carres des ecarts a lamoyenne)Cette statistique est liee au graphique quantile-quantile. PlusW est petit, plus la distribution de la variable X s’eloigned’une distribution normale.
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers
Syntaxe des fonctions
Exercices
Remarques
Test de Fischer-Snedecor
1. Comparer les variances de deux echantillons
2. Hypotheses :I HO : σ1 == σ2
I H1 : σ1 6= σ2
3. Statistique : Sous H0, ...... F = σ1/σ2 suit une loi de Fischer a n1 − 1 et n2 − 1 ddl
Test de Bartlett
1. Comparer les variances de k echantillons
2. Condition d’application : les variables doivent etre distribueesselon la loi normale
3. Hypothese :I HO : les k σi sont egauxI H1 : au moins deux σi sont differents
4. Statistique : Sous H0, ...
... χ2 = ... suit une loi du chi2 a k − 1 ddl
Note : il existe d’autres tests (Levene, Log-anova,Cochran, ...)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les testsMoyennes et medianesCorrelationNormaliteVariancesDivers
Syntaxe des fonctions
Exercices
Remarques
Test de Kolmogorov-Smirnov
Principes
1. Ce test consiste a calculer la difference maximale existantentre les distributions de frequences relatives cumulees (dfrc)de deux echantillons
2. Hypotheses :I HO : les dfrc de X1 et de X2 sont identiquesI H1 : les dfrc de X1 et de X2 sont differentes, la dfrc de X − 1
est ”plus faible” que celle de X2, la dfrc de X − 1 est ”pluselevee” que celle de X2
3. Statistique : sous H0, la statistique est : D = max(FX 1 − FX 2)est suit une loi particuliere
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctionst.test()
wilcox.test()
aov.test() et TukeyHSD()
kruskal.test()
chisq.test()
cor.test()
Exercices
Remarques
t.test()
x valeurs du premier echantillon
y valeurs du second echantillon (si necessaire)
mu moyenne de reference (un seul echantillon)
paired pour echantillons apparies
var.equal test de Student ou test de Welch
alternative test unilateral ou bilateral
mesvaleurs1=c(1,4,5,3,6,3,6)
mesvaleurs2=c(3,5,8,5,6,7)
mesvaleurs3=c(2,4,7,3,7,6)
t.test(x=mesvaleurs1,y=mesvaleurs2, paired=F,
alternative="two.sided")
t.test(x=mesvaleurs2,mu=5,alternative="greater")
t.test(x=mesvaleurs2,y=mesvaleurs3, paired=T)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctionst.test()
wilcox.test()
aov.test() et TukeyHSD()
kruskal.test()
chisq.test()
cor.test()
Exercices
Remarques
wilcox.test()
x valeurs du premier echantillon
y valeurs du second echantillon (si necessaire)
mu mediane de reference (un seul echantillon)
paired pour echantillons apparies
alternative test unilateral ou bilateral
exact pour n petit, calcule la p-value selon la table, sinonapprox. normale
mesvaleurs1=c(1,4,5,3,6,3,6)
mesvaleurs2=c(3,5,8,5,6,7)
mesvaleurs3=c(2,4,7,3,7,6)
wilcox.test(x=mesvaleurs1,y=mesvaleurs2, paired=F,
alternative="two.sided")
wilcox.test(x=mesvaleurs2,mu=5,alternative="greater")
wilcox.test(x=mesvaleurs2,y=mesvaleurs3, paired=T)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctionst.test()
wilcox.test()
aov.test() et TukeyHSD()
kruskal.test()
chisq.test()
cor.test()
Exercices
Remarques
aov() et TukeyHSD()
I aov()
x valeurs numeriquesy groupes
I TukeyHSD()
x un objet de type aov
mesvaleurs=c(1,4,5,3,6,3,6)
mesgroupes=factor(c("A","A","B","B","C","C","C"))
myanova=aov(mesvaleurs~mesgroupes)
#test de normalite des residus
shapiro.test(myanova$residuals)
#test d'homoscedasticite des residus
bartlett.test(myanova$residuals,mesgroupes)
#test des contrastes
TukeyHSD(myanova)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctionst.test()
wilcox.test()
aov.test() et TukeyHSD()
kruskal.test()
chisq.test()
cor.test()
Exercices
Remarques
kruskal.test()
valeurs et groupes
x un vecteur avec toutes les valeurs numeriques
g les groupes (meme longueur que x)
mesvaleurs=c(1,4,5,3,6,3,6)
mesgroupes=factor(c("A","A","B","B","C","C","C"))
kruskal.test(x=mesvaleurs,g=mesgroupes)
liste de vecteurs de valeurs
x une liste de vecteurs contenant les valeurs desdifferentes groupes
A=c(1,4)
B=c(5,3)
C=c(6,3,6)
kruskal.test(x=list(A,B,C))
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctionst.test()
wilcox.test()
aov.test() et TukeyHSD()
kruskal.test()
chisq.test()
cor.test()
Exercices
Remarques
chisq.test()
Test d’independance
x le tableau des observations
simulate.p.value pour faire des simulation si petits effectifs
data=matrix(c(10,20,30,40), by.row=T)
chisq.test(x=data,simulate.p.value=TRUE)
Test d’ajustement
x le vecteur des observations
p le vecteur des frequences theoriques
data=c(23,34,56,65)
freq=c(0.1,0.2,0.4,0.3)
chisq.test(x=data,p=freq)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctionst.test()
wilcox.test()
aov.test() et TukeyHSD()
kruskal.test()
chisq.test()
cor.test()
Exercices
Remarques
cor.test()
formula une formule decrivant la relation entre les Y et les X
method ”pearson” ou ”spearman”
mesX=c(1,4,5,3,6,3,6)
mesY=c(2,4,6,2,7,5,7)
cor.test(mesY~mesX,method="pearson")
ks.test()
x un vecteur avec les valeurs numeriques de la premieredistribution
y un vecteur avec les valeurs numeriques de la secondedistribution
alternative test unilateral ou bilateral
mesvaleurs1=c(1,4,5,3,6,3,6)
mesvaleurs2=c(1,1,4,2,4,3,5,3,6)
ks.test(x=mesvaleurs1,y=mesvaleurs2)
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Glycemie
ProblemeOn a mesure la glycemie (en g/L) chez 21 patients (fichiergly.dat). Est-ce que le taux de glucose de ces patients differe dela valeur de reference, 1 g/L ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Anorexie
ProblemeDans le cadre d’une etude dont le but est de trouver un remede al’anorexie, on a mesure le poid de 46 jeunes filles anorexiques avantet apres un traitement (fichier anorexic.dat, donnees issues deLarry Winner’s web site). La moyenne passe de 82,89 lb a 87,47 lb(1 lb = 0,45 kg). Est-ce que le traitement a un effet significatif surle poids des jeunes filles ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Pois
ProblemeChez les pois, le caractere couleur est code par un gene presentantdeux formes alleles C et c, correspondant aux couleurs jaune etvert. Le jaune est dominant, le vert recessif. La forme, rond ouride, est portee par un autre gene a deux alleles R (dominant) et r(recessif). Mendel a croise des pois jaunes et ronds (caracteresdominants) et obtient dans la descendance les graines suivantes :jaunes+rondes, 315 ; jaunes+ridees, 101 ; vertes+rondes, 108 ;vertes+ridees, 32. Mendel a propose que la distribution descaracteres dans la descendance devrait etre 9/16, 3/16, 3/16 et1/16 respectivement. Peut-on valider sa theorie ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Canides
ProblemeDes chercheurs etudient la phylogenie des canides en comparantdes donnees morphometriques (largeur de la mandibule, en cm) dechiens modernes de Thaılande a celles des loups indiens (fichierloup.dat). Ces donnees suggerent-elles une difference de lalargeur de la mandibule entre les chiens thaıs et les loups indiens ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes,frequences, variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Oeufs de coucous
ProblemeOn a mesure la longueur des oeufs de coucous presents dans les nids de 6especes d’oiseaux. Y a t-il une difference de variance entre les groupes(fichier cuckoo.dat) ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Aspirine
ProblemeOn a etudie 2 l’effet de l’aspirine sur la probabilite d’avoir un infarctus dumyocarde. Ainsi, au sein de 11037 personnes qui ont eu de l’aspirine, 104ont subit un infarctus. Parallelement, parmi les 11034 personnes ayant euun placebo, 189 ont subit un infarctus.
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
2. issu de Physicians Health Study (1988 NEJM 318 : 262-264)
Mathematiques et geographie
ProblemeOn a releve les notes de 50 etudiants dans deux matieres differentes : lesmathematiques et la geographie. Y a t’il un lien entre les notes observeesdans ces deux matieres (fichier math_geo.dat) ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Oeufs de drosophiles
ProblemeOn a dispose des oeufs de drosophiles elevees dans 4 temperaturesdifferentes (fichier oeuf_droso.dat). Y a t’il un effet de la temperaturesur la longueur des oeufs ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Nombres (pseudo-)aleatoires
ProblemeOn a utilise 5 methodes differentes pour generer 1000 nombrespseudo-aleatoires (fichier random.dat). Est-ce qu’il y a des differencesentre ces methodes ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Nascar
ProblemeOn dispose des statistiques des courses de Nascard de 1975 a 2003(fichier nascard.dat). On souhaite connaıtre les noms des differentsconstructeurs ayant gagne une course et si le nombre de victoire pourchaque constructeur differe de l’aleatoire.
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Cerveaux et QI
ProblemeOn dispose des mensurations de 40 cerveaux et du QI correspondant pourdes hommes et des femmes (fichier brain_size_IQ.dat). Est-ce qu’il ya un effet du genre sur le poids du cerveau (Weight) ? Est-ce qu’il y a unlien entre le poids du cerveau et le QI (FSIQ) ?
1. Importer les donnees dans R
2. Calculer les parametres descriptifs pertinents (moyennes, frequences,variances, ...)
3. Faire un graphique permettant de representer vos donnees
4. Effectuer le test permettant de repondre a la question
Plan
Liste des fonctions
Choisir son test
Rappels theoriques sur les tests
Syntaxe des fonctions
Exercices
Remarques
Test uni ou bilateral ?
La reponse a cette question depend du but initial des travaux. Laquestion se pose avant de faire les mesures sur l’echantillon.Prenons un exemple : une rumeur annonce que les prix ont augmenteavec le changement de monnaie. Le gouvernement decide de verifier cetterumeur et de comparer les prix de 40 produits ”avant” et ”apres” lechangement de monnaie. Il peut faire pour cela un test unilateral :
cas 1 La moyenne ”avant” est de 34 equivalent euros et la moyenne ”apres”est de 45 euros. On fera donc un test unilateral pour tester le bienfonde de cette rumeur
cas 2 La moyenne ”avant” est de 54 equivalent euros et la moyenne ”apres”est de 45 euros. On ne fera pas de test. En decidant de faire un testunilateral, le gouvernement s’interdit de tester une baisse potentielledes prix.
Attention : ceci est un point important car pour les memes donnees, untest unilateral divise par deux la valeur de la probabilite