Théorie de la décisionusers.skynet.be/carlier.francois/stat/stat_i_tim_p4.pdf · Logique du test...
Transcript of Théorie de la décisionusers.skynet.be/carlier.francois/stat/stat_i_tim_p4.pdf · Logique du test...
2
● Les tests non paramétriquesLes tests non paramétriques
Pourquoi ?Pourquoi ? Les conditions d’application des Les conditions d’application des
tests paramétriques ne sont pas tests paramétriques ne sont pas remplies ou sont invérifiablesremplies ou sont invérifiables Effectifs trop petits (moins de Effectifs trop petits (moins de
10 observations)10 observations) Les moyennes ne sont pas Les moyennes ne sont pas
représentatives des groupes représentatives des groupes (valeurs extrêmes)(valeurs extrêmes)
3
● Situation :Situation :
Afin déterminer l'efficacité d'un Afin déterminer l'efficacité d'un médicament contre les migraines on a médicament contre les migraines on a
conduit une étude de trois mois sur conduit une étude de trois mois sur 19 sujets19 sujets
Durant cette période, Durant cette période, Neuf des sujets ont reçu un Neuf des sujets ont reçu un
placebo (groupe Témoin)placebo (groupe Témoin) Dix autres ont utilisé le Dix autres ont utilisé le
médicament médicament
4
La paramètre étudié est la fréquence La paramètre étudié est la fréquence des migraines (sur trois mois)des migraines (sur trois mois)
Il est mesuré avant le début du Il est mesuré avant le début du traitement – traitement – Pré-Test Pré-Test – et après les 3 – et après les 3 mois – mois – Post-TestPost-Test
Quelle est votre analyse des résultats Quelle est votre analyse des résultats obtenus ?obtenus ?
Pré
-Test
Traitement 16 24 1 6 2 15 28 11 17 27
Placebo 13 24 15 8 22 25 21 9 5
Traitement 5 7 2 0 4 3 13 1 7 28
Placebo 14 12 9 12 12 13 11 8 0
Post-
Test
5
● Analyse statistiqueAnalyse statistique
Plusieurs problèmes sont posés :Plusieurs problèmes sont posés : 1. Les groupes sont-ils équivalents 1. Les groupes sont-ils équivalents
en début d'étude ?en début d'étude ? 2. Observe-t-on une véritable 2. Observe-t-on une véritable
diminution de la fréquence des diminution de la fréquence des migraines pendant le traitement ?migraines pendant le traitement ?
3. Le traitement donne-t-il des 3. Le traitement donne-t-il des meilleurs résultats que l'effet meilleurs résultats que l'effet placebo ?placebo ?
6
L'analyse globale se ramène à deux L'analyse globale se ramène à deux types de problèmes :types de problèmes :
Comparer deux échantillons Comparer deux échantillons indépendantsindépendants Test de Mann-WhitneyTest de Mann-Whitney Test C1 de FisherTest C1 de Fisher
Vérifier une évolution ou comparer Vérifier une évolution ou comparer des échantillons des échantillons apparièsappariès Test des rangs de WilcoxonTest des rangs de Wilcoxon
7
● Le test U de Mann-WhitneyLe test U de Mann-Whitney
Objectif :Objectif : Comparaison de deux échantillonsComparaison de deux échantillons
Validité :Validité : Données numériques ou ordinalesDonnées numériques ou ordinales Échantillons Échantillons indépendantsindépendants Conforme avec des échantillons de Conforme avec des échantillons de
taille réduitetaille réduite Convient aux distributions non Convient aux distributions non
gaussiennesgaussiennes
8
● Logique du test de Mann-WhitneyLogique du test de Mann-Whitney L'analyse porte sur classement des L'analyse porte sur classement des
observations d'un groupe par observations d'un groupe par rapport à celles de l'autre et non rapport à celles de l'autre et non directement sur leur valeurdirectement sur leur valeur
⇒⇒ Analyse du rang des observationsAnalyse du rang des observations RangRang : Position d’une observation : Position d’une observation
dans une série statistique triée par dans une série statistique triée par ordre croissantordre croissant
9
● ProcédureProcédure Regrouper les données des deux Regrouper les données des deux
groupes en une seule et même série groupes en une seule et même série statistique triée par ordre croissantstatistique triée par ordre croissant
Marquer le groupe d'origine de Marquer le groupe d'origine de chacune valeurchacune valeur
Compter pour chaque observation Compter pour chaque observation d'un groupe celles de l'autre qui lui d'un groupe celles de l'autre qui lui sont plus petitessont plus petites
10
Des échantillons Des échantillons AA et et BB semblables semblables conduisent à un mélange homogène conduisent à un mélange homogène des données :des données :
22 – – 33 – – 55 – – 66 – – 77 – – 77 – – 88 – – 1010 - - 1111 Comptage :Comptage :
Les données d'un groupe ne sont Les données d'un groupe ne sont pas systématiquement plus petitespas systématiquement plus petites
Les totaux sont Les totaux sont prochesproches
22 33 55 66 77 77 88 1010 1111 TotalTotalAA 00 // 11 11 // // 33 // 44 99BB // 11 // // 33 33 // 44 // 1111
Il y a 3 données Il y a 3 données de de BB ( (33 – – 77 – – 77) ) qui sont plus qui sont plus petites que petites que 88
11
Une réelle différence entre les groupes Une réelle différence entre les groupes se manifeste par un classement fort se manifeste par un classement fort contrasté :contrasté :
22 – – 33 – – 55 – – 66 – – 77 – – 88 – – 88 – – 1010 – – 1111 Comptage :Comptage :
Les données du groupe A sont Les données du groupe A sont systématiquement placées avantsystématiquement placées avant
Les sommes sont très Les sommes sont très différentesdifférentes : : l'une grande et l'autre petitel'une grande et l'autre petite
22 33 55 66 77 88 88 1010 1111 TotalTotalAA 00 00 00 00 00 // // // // 00BB // // // // // 55 55 55 55 2020
12
● Conclusion :Conclusion : La valeur du test de Mann-Whitney est La valeur du test de Mann-Whitney est
le plus petit des deux totauxle plus petit des deux totaux
UUCalcCalc
= Min (U = Min (U11 ; U ; U
22))
Plus les échantillons sont différents Plus les échantillons sont différents plus cette valeur est faibleplus cette valeur est faible
Comparaison avec les valeurs de Comparaison avec les valeurs de référence (table de M-W) :référence (table de M-W) :
UUCalcCalc
≤≤ U Uthth(5%) (5%) ⇒⇒ ≠≠ significative significative
UUCalcCalc
≤≤ U Uthth(1%) (1%) ⇒⇒ ≠≠ très significative très significative
13
● Exemple : Exemple : Pré-testPré-test Regrouper toutes les données en Regrouper toutes les données en
une série triée par ordre croissant une série triée par ordre croissant Indiquer le groupe d'origine de Indiquer le groupe d'origine de
chaque valeurchaque valeur
Pré
-Test
Pré
-Test Trait.Trait. 1616 2424 11 66 22 1515 2828 1111 1717 2727
PlaceboPlacebo 1313 2424 1515 88 2222 2525 2121 99 55
11 22 55 66 88 99 1111 1313 1515 1515
1616 1717 2121 2222 2424 2424 2525 2727 2828
14
Comptage et calcul des totaux :Comptage et calcul des totaux :
UU11 = 2 + 3 + ... + 7,5 + 8 = 46 = 2 + 3 + ... + 7,5 + 8 = 46
UU22 = 0 + 0 + ... + 9 + 9 = 44 = 0 + 0 + ... + 9 + 9 = 44
⇒⇒ UUcalccalc
= 44 = 44
11 22 55 66 88 99 1111 1313 1515 1515
-- -- 22 -- 33 33 -- 44 4,54,5 --
00 00 -- 11 -- -- 33 -- -- 4,54,5
1616 1717 2121 2222 2424 2424 2525 2727 2828
-- -- 77 77 -- 7,57,5 88 -- -- 46,046,0
55 55 -- -- 7,57,5 -- -- 99 99 44,044,0
UU11
UU22
15
77 88 99 1010 1111
00 88 1313 1717 2323 3030
11 1010 1515 2020 2626 3333
22 1212 1717 2323 2929 3737
33 1414 1919 2626 3333 4040
44 1616 2222 2828 3636 4444
= 5%Min(NMin(N
11;N;N
22))
NN1 -
N2
Valeurs de référence : UValeurs de référence : Uthth
UUthth
(5%) = 20 (5%) = 20
UUthth
(1%) = 13(1%) = 13
Le plus petit Le plus petit des deux des deux effectifseffectifs
Différence Différence entre les entre les effectifseffectifs
16
Conclusion :Conclusion : UU
CalcCalc = 44 = 44 U U
thth(5%) = 20(5%) = 20
⇒⇒ La différence n'est pas significativeLa différence n'est pas significative(La répartition des sujets - (La répartition des sujets - avec / sans avec / sans
traitement –traitement – fournit deux groupes fournit deux groupes équivalents au pré-test)équivalents au pré-test)
● ApplicationApplication : : Post-testPost-test
55 77 22 00 44 33 1313 11 77 2828
PlaceboPlacebo 1414 1212 99 1212 1212 1313 1111 88 00
Po
st-
Te
st
Po
st-
Te
st Brule-Brule-
graissegraisse
17
● RemarquesRemarques Le test de Mann-Whitney se Le test de Mann-Whitney se
substitue au test de Student si :substitue au test de Student si : Les effectifs sont réduitsLes effectifs sont réduits Les échantillons renferment Les échantillons renferment
des valeurs exceptionnellesdes valeurs exceptionnelles Les données ne sont pas Les données ne sont pas
gaussiennes gaussiennes ✘ Effets de saturationEffets de saturation✘ Trop peu de valeurs possiblesTrop peu de valeurs possibles
18
Si les deux échantillons vérifient Si les deux échantillons vérifient
NN11 > 10 > 10 etet N N
22 > 10 > 10
On peut recourir à la formule :On peut recourir à la formule :
L'écart réduit zL'écart réduit zCalcCalc
est comparé avec est comparé avec
les valeurs de référence d'une N(0 ; 1)les valeurs de référence d'une N(0 ; 1) zz
5%5% = 1,96 et z = 1,96 et z
1%1%= 2,575= 2,575
Zcalc=UCalc−
N1×N2
2
N1×N2×N1N21
12
19
● Le test C1 de Fisher-Yates-TerryLe test C1 de Fisher-Yates-Terry
Objectif Objectif Comparaison de deux échantillonsComparaison de deux échantillons
Validité :Validité : Données numériques ou ordinalesDonnées numériques ou ordinales Échantillons Échantillons indépendantsindépendants Conforme avec des échantillons de Conforme avec des échantillons de
taille réduitetaille réduite Convient aux distributions non Convient aux distributions non
gaussiennesgaussiennes
20
● Logique du test de Fisher-Yates-TerryLogique du test de Fisher-Yates-Terry De nombreux échantillons De nombreux échantillons
différents peuvent être extraits différents peuvent être extraits d’une même populationd’une même population
Mais, il est rare qu’un échantillon Mais, il est rare qu’un échantillon contienne des mesures contienne des mesures exceptionnelles (la plus grande, la exceptionnelles (la plus grande, la plus petite)plus petite)
⇒⇒ La moyenne des probabilités sur les La moyenne des probabilités sur les rangs suit une loi N(0 ; 1)rangs suit une loi N(0 ; 1)
21
● ProcédureProcédure Regrouper les observations des Regrouper les observations des
deux échantillons en une série deux échantillons en une série statistique triée par ordre croissantstatistique triée par ordre croissant
Évaluer le rang de chaque donnéeÉvaluer le rang de chaque donnée Calculer la moyenne et l'écart-type Calculer la moyenne et l'écart-type
sur les sur les rangsrangs obtenus : obtenus : Moyenne : µMoyenne : µ
RR
Écart-type : sÉcart-type : sRR
22
Normaliser le rang de chaque Normaliser le rang de chaque observation : observation : zz
i i =(r=(r
ii - µ - µ
RR)/s)/s
RR
Sommer les valeurs obtenues pour Sommer les valeurs obtenues pour les observations d'un quelconque de les observations d'un quelconque de ces échantillonsces échantillons
C1(A) = zC1(A) = z11(A) + z(A) + z
22(A) + …(A) + …
Le choix de l'échantillon est Le choix de l'échantillon est arbitraire et n'influence pas le arbitraire et n'influence pas le résultat finalrésultat final
23
Des échantillons Des échantillons AA et et BB semblables semblables conduisent à un mélange homogène :conduisent à un mélange homogène :
Moyenne :Moyenne :
Écart-type : Écart-type :
22 33 55 66 77 77 88 1010 1111
RangRang 11 22 33 44 5,55,5 5,55,5 77 88 99
R=N1
2=5
sR= 284,5−9×52
8=2,73
24
Normalisation :Normalisation :
CC11(A)=-1,47-0,73-0,37+0,73+1,47=-0,37(A)=-1,47-0,73-0,37+0,73+1,47=-0,37
CC11(B)=-1,1+0,18+0,18+1,1=0,36(B)=-1,1+0,18+0,18+1,1=0,36
Les valeurs normalisées d'un Les valeurs normalisées d'un échantillon s'annulent échantillon s'annulent mutuellementmutuellement
La somme est proche de zéroLa somme est proche de zéro
22 33 55 66 77 77 88 1010 1111
RangRang 11 22 33 44 5,55,5 5,55,5 77 88 99
-1,47-1,47 -1,1-1,1 -0,73-0,73 -0,37-0,37 0,180,18 0,180,18 0,730,73 1,11,1 1,471,47zzkk
25
Un classement contrasté traduit des Un classement contrasté traduit des échantillons échantillons AA et et BB forts différents : forts différents :
CC11(A)= -1,47-1,1-0,73-0,37+0,18 = -3,49(A)= -1,47-1,1-0,73-0,37+0,18 = -3,49
CC11(B)= 0,18+0,73+1,1+1,47 = 3,48(B)= 0,18+0,73+1,1+1,47 = 3,48
Les valeurs normalisées d'un Les valeurs normalisées d'un échantillon sont majoritairement échantillon sont majoritairement positives ou négativespositives ou négatives
La somme est grande La somme est grande
22 33 55 66 77 77 88 1010 1111
RangRang 11 22 33 44 5,55,5 5,55,5 77 88 99
-1,47-1,47 -1,1-1,1 -0,73-0,73 -0,37-0,37 0,180,18 0,180,18 0,730,73 1,11,1 1,471,47zzkk
26
● Conclusion :Conclusion : La valeur du test est la valeur positive La valeur du test est la valeur positive
de ces sommesde ces sommes
C1C1calccalc
= |C1(A)| = |C1(B)|= |C1(A)| = |C1(B)|
Une grande valeur traduit des Une grande valeur traduit des échantillons dissemblableséchantillons dissemblables
Conclure par comparaison avec les Conclure par comparaison avec les valeurs de références (table C1-F) :valeurs de références (table C1-F) :
C1C1CalcCalc
>C1>C1thth(5%) (5%) ⇒⇒ ≠≠ significative significative
C1C1CalcCalc
>C1>C1thth(1%) (1%) ⇒⇒ ≠≠ très significative très significative
27
● Exemple : Exemple : Pré-testPré-test Regrouper et classer toutes les Regrouper et classer toutes les
observationsobservations
Rechercher les rangsRechercher les rangs
Statistiques des rangs :Statistiques des rangs : µµ
RR = 20/2 = 10 = 20/2 = 10
ssRR = 5,62 = 5,62
Pré
-Test
Pré
-Test Trait.Trait. 1616 2424 11 66 22 1515 2828 1111 1717 2727
PlaceboPlacebo 1313 2424 1515 88 2222 2525 2121 99 55
11 22 55 66 88 99 1111 1313 1515 1515
1616 1717 2121 2222 2424 2424 2525 2727 2828
11 22 33 44 55 66 77 88 9,59,5 9,59,5
1111 1212 1313 1414 15,515,5 15,515,5 1717 1818 1919
28
Normaliser les rangs :Normaliser les rangs :
Sommer les valeurs normalisées des Sommer les valeurs normalisées des rangs pour un des échantillons :rangs pour un des échantillons : C1(A) = -1.60 -1.42 - ...+1,60 =-0,18C1(A) = -1.60 -1.42 - ...+1,60 =-0,18 C1(B) = -1,25 -0,89 - ...+1,25 =0,18C1(B) = -1,25 -0,89 - ...+1,25 =0,18
RangRang 11 22 33 44 55 66 77 88 9,59,5 9,59,5
-1,60-1,60 -1,42-1,42 -1,25-1,25 -1,07-1,07 -0,89-0,89 -0,71-0,71 -0,53-0,53 -0,36-0,36 -0,09-0,09 -0,09-0,09
RangRang 1111 1212 1313 1414 15,515,5 15,515,5 1717 1818 1919
0,180,18 0,360,36 0,530,53 0,710,71 0,980,98 0,980,98 1,251,25 1,421,42 1,601,60
zzkk
zzkk
(1-10) (1-10) ________________ = -1,60 = -1,605,62 5,62
29
Valeurs de référence : C1Valeurs de référence : C1thth
C1C1thth
(5%) = 4,06(5%) = 4,06
C1C1thth
(1%)= 5,16(1%)= 5,16
Conclusions :Conclusions : C1C1
calccalc = 0,18 = 0,18 ≤≤ C1C1
thth(5%)(5%) = = 4,064,06
⇒⇒ La différence est non significativeLa différence est non significative(On ne remarque pas de différence entre les (On ne remarque pas de différence entre les
deux groupes au pré-test)deux groupes au pré-test)
17 18 1919 20
7 3,77 3,85 3,93 3,99
8 3,82 3,93 4,03 4,10
99 3,96 4,064,06 4,17
10 4,19
= 5%N1 + N2
Min
(N1
; N
2)
30
● Le test T de WilcoxonLe test T de Wilcoxon
ObjectifObjectif Comparaison de deux échantillonsComparaison de deux échantillons
Validité :Validité : Données numériquesDonnées numériques Échantillons Échantillons appariés appariés (avant/après)(avant/après) Conforme avec des échantillons de Conforme avec des échantillons de
taille réduitetaille réduite Convient aux distributions non Convient aux distributions non
gaussiennesgaussiennes
31
● Logique du test de WilcoxonLogique du test de Wilcoxon Analyse l'évolution globale des Analyse l'évolution globale des
résultats entre les deux situations résultats entre les deux situations Pour un sujet, la progression se Pour un sujet, la progression se
traduit par la différence entre ses traduit par la différence entre ses scoresscores
Une évolution globale se traduit par :Une évolution globale se traduit par : Des différences majoritairement Des différences majoritairement
du même signedu même signe
AvantAvant 1111 1212 1414 1010 1313 1212
AprèsAprès 1414 1717 1313 1212 1616 1616
SigneSigne ++ ++ -- ++ ++ ++
32
Des évolutions à contre sens de Des évolutions à contre sens de moindre ampleurmoindre ampleur
Globalement, l’écart entre les deux Globalement, l’écart entre les deux échantillons se mesure par la échantillons se mesure par la dissymétriedissymétrie dans dans les signes et les signes et les grandeurs relativesles grandeurs relatives des des différencesdifférences
AvantAvant 1111 1212 1414 1010 1313 1212
AprèsAprès 1414 1717 1313 1212 1616 1616
≠≠ 33 55 -1-1 22 33 44
33
● ProcédureProcédure Calculer la différence des résultatsCalculer la différence des résultats Éliminer les sujets dont la Éliminer les sujets dont la
différence des observations est nulledifférence des observations est nulle Classer les différences par valeurs Classer les différences par valeurs
absolues croissantesabsolues croissantes Mentionner le signe pour chaque Mentionner le signe pour chaque
différencedifférence Déterminer le nombre - Déterminer le nombre - NN - de - de
paires non nullespaires non nulles
34
Calculer la somme – Calculer la somme – PP – des rangs des – des rangs des différences différences positivespositives
Calculer la somme – Calculer la somme – MM – des rangs des – des rangs des différences différences négativesnégatives
Prendre Prendre TT comme la plus petite de ces comme la plus petite de ces deux sommesdeux sommes
Une différence réelle se traduit Une différence réelle se traduit par une faible valeur de par une faible valeur de TTAvantAvant 1414 1010 1111 1313 1212 1212
AprèsAprès 1313 1212 1414 1616 1616 1717
|≠||≠| 11 22 33 33 44 55
RangRang 11 22 3,53,5 3,53,5 55 66
35
● ExempleExemple : : Groupe de contrôleGroupe de contrôle Calcul des différencesCalcul des différences
Classement et calcul des rangsClassement et calcul des rangs
M = 1,5 + … + 8,5 = 40,5M = 1,5 + … + 8,5 = 40,5 P = 1,5 + 3 = 4,5 P = 1,5 + 3 = 4,5
⇒⇒ T=4,5T=4,5
Pré-TestPré-Test 1313 2424 1515 88 2222 2525 2121 99 55
1414 1212 99 1212 1212 1313 1111 88 00
|≠||≠| 11 1212 66 44 1010 1212 1010 11 55
SigneSigne ++ -- -- ++ -- -- -- -- --
Post-TestPost-Test
|≠||≠| 11 11 44 55 66 1010 1010 1212 1212RangRang 1,51,5 1,51,5 33 44 55 6,56,5 6,56,5 8,58,5 8,58,5
36
Valeurs de référence : TValeurs de référence : Tthth
N = 8N = 8
TTthth(5%) = 6(5%) = 6
TTthth(1%) = 2(1%) = 2
⇒⇒ La différence est significativeLa différence est significative(Les résultats montrent une réelle diminution (Les résultats montrent une réelle diminution
de la fréquence des migraines chez les de la fréquence des migraines chez les sujets qui ont reçu le placebo)sujets qui ont reçu le placebo)
N
6 0 -7 2 -8 4 09 6 210 8 3
= 5% = 1%
37
Si les échantillons vérifient : N > 20Si les échantillons vérifient : N > 20 On peut avoir recours à la formule :On peut avoir recours à la formule :
La valeur centré réduite est comparée La valeur centré réduite est comparée aux valeurs de référence aux valeurs de référence
zz5%5%
= 1.96 et z = 1.96 et z1%1%
= 2.575 = 2.575
zcalc=T−
N×N1
4
N×N1×2N1
24
38
● Le test des signesLe test des signes
ObjectifObjectif Comparaison de deux échantillonsComparaison de deux échantillons
Validité :Validité : Données numériques ou ordinalesDonnées numériques ou ordinales Échantillons Échantillons appariés appariés (avant/après)(avant/après) Conforme avec des échantillons de Conforme avec des échantillons de
taille réduitetaille réduite Convient aux distributions non Convient aux distributions non
gaussiennesgaussiennes
39
● Logique du test des signesLogique du test des signes
Identique au test de Wilcoxon, mais …Identique au test de Wilcoxon, mais … Le sens (signe) de l’évolution est le Le sens (signe) de l’évolution est le
seul paramètre pris en compteseul paramètre pris en compte● ApplicationsApplications
Données pour lesquelles seule Données pour lesquelles seule l’évolution importel’évolution importe Appréciations non numériquesAppréciations non numériques
Test de première analyse (rapide)Test de première analyse (rapide) Manque de puissanceManque de puissance
40
● ProcédureProcédure Pour chaque paire d’observations on Pour chaque paire d’observations on
attribue un signe selon le sens de attribue un signe selon le sens de l'évolution :l'évolution : ««++» » ⇔⇔ amélioration amélioration ««--» » ⇔⇔ régression régression
Les cas où aucune évolution n’est Les cas où aucune évolution n’est constatée ne sont pas pris en constatée ne sont pas pris en comptecompte
41
Compter le nombre d'occurrences du Compter le nombre d'occurrences du signe moins fréquent : signe moins fréquent : AA
Une évolution réelle va se traduire par Une évolution réelle va se traduire par une petite valeur de une petite valeur de AA
N ≤ 30N ≤ 30 : Comparer avec les valeurs de : Comparer avec les valeurs de référence (table des signes)référence (table des signes)
N > 30N > 30 : Calculer la formule : Calculer la formule
Les valeurs de référence sont Les valeurs de référence sont celles d'une (N(0 ; 1)celles d'une (N(0 ; 1)
Zcalc=2 A1−N
N