Théorie de la décisionusers.skynet.be/carlier.francois/stat/stat_i_tim_p4.pdf · Logique du test...

41
1 Théorie Théorie de la de la décision décision (Tests non paramétriques) (Tests non paramétriques)

Transcript of Théorie de la décisionusers.skynet.be/carlier.francois/stat/stat_i_tim_p4.pdf · Logique du test...

1

Théorie Théorie de la de la

décisiondécision(Tests non paramétriques)(Tests non paramétriques)

2

● Les tests non paramétriquesLes tests non paramétriques

Pourquoi ?Pourquoi ? Les conditions d’application des Les conditions d’application des

tests paramétriques ne sont pas tests paramétriques ne sont pas remplies ou sont invérifiablesremplies ou sont invérifiables Effectifs trop petits (moins de Effectifs trop petits (moins de

10 observations)10 observations) Les moyennes ne sont pas Les moyennes ne sont pas

représentatives des groupes représentatives des groupes (valeurs extrêmes)(valeurs extrêmes)

3

● Situation :Situation :

Afin déterminer l'efficacité d'un Afin déterminer l'efficacité d'un médicament contre les migraines on a médicament contre les migraines on a

conduit une étude de trois mois sur conduit une étude de trois mois sur 19 sujets19 sujets

Durant cette période, Durant cette période, Neuf des sujets ont reçu un Neuf des sujets ont reçu un

placebo (groupe Témoin)placebo (groupe Témoin) Dix autres ont utilisé le Dix autres ont utilisé le

médicament médicament

4

La paramètre étudié est la fréquence La paramètre étudié est la fréquence des migraines (sur trois mois)des migraines (sur trois mois)

Il est mesuré avant le début du Il est mesuré avant le début du traitement – traitement – Pré-Test Pré-Test – et après les 3 – et après les 3 mois – mois – Post-TestPost-Test

Quelle est votre analyse des résultats Quelle est votre analyse des résultats obtenus ?obtenus ?

Pré

-Test

Traitement 16 24 1 6 2 15 28 11 17 27

Placebo 13 24 15 8 22 25 21 9 5

Traitement 5 7 2 0 4 3 13 1 7 28

Placebo 14 12 9 12 12 13 11 8 0

Post-

Test

5

● Analyse statistiqueAnalyse statistique

Plusieurs problèmes sont posés :Plusieurs problèmes sont posés : 1. Les groupes sont-ils équivalents 1. Les groupes sont-ils équivalents

en début d'étude ?en début d'étude ? 2. Observe-t-on une véritable 2. Observe-t-on une véritable

diminution de la fréquence des diminution de la fréquence des migraines pendant le traitement ?migraines pendant le traitement ?

3. Le traitement donne-t-il des 3. Le traitement donne-t-il des meilleurs résultats que l'effet meilleurs résultats que l'effet placebo ?placebo ?

6

L'analyse globale se ramène à deux L'analyse globale se ramène à deux types de problèmes :types de problèmes :

Comparer deux échantillons Comparer deux échantillons indépendantsindépendants Test de Mann-WhitneyTest de Mann-Whitney Test C1 de FisherTest C1 de Fisher

Vérifier une évolution ou comparer Vérifier une évolution ou comparer des échantillons des échantillons apparièsappariès Test des rangs de WilcoxonTest des rangs de Wilcoxon

7

● Le test U de Mann-WhitneyLe test U de Mann-Whitney

Objectif :Objectif : Comparaison de deux échantillonsComparaison de deux échantillons

Validité :Validité : Données numériques ou ordinalesDonnées numériques ou ordinales Échantillons Échantillons indépendantsindépendants Conforme avec des échantillons de Conforme avec des échantillons de

taille réduitetaille réduite Convient aux distributions non Convient aux distributions non

gaussiennesgaussiennes

8

● Logique du test de Mann-WhitneyLogique du test de Mann-Whitney L'analyse porte sur classement des L'analyse porte sur classement des

observations d'un groupe par observations d'un groupe par rapport à celles de l'autre et non rapport à celles de l'autre et non directement sur leur valeurdirectement sur leur valeur

⇒⇒ Analyse du rang des observationsAnalyse du rang des observations RangRang : Position d’une observation : Position d’une observation

dans une série statistique triée par dans une série statistique triée par ordre croissantordre croissant

9

● ProcédureProcédure Regrouper les données des deux Regrouper les données des deux

groupes en une seule et même série groupes en une seule et même série statistique triée par ordre croissantstatistique triée par ordre croissant

Marquer le groupe d'origine de Marquer le groupe d'origine de chacune valeurchacune valeur

Compter pour chaque observation Compter pour chaque observation d'un groupe celles de l'autre qui lui d'un groupe celles de l'autre qui lui sont plus petitessont plus petites

10

Des échantillons Des échantillons AA et et BB semblables semblables conduisent à un mélange homogène conduisent à un mélange homogène des données :des données :

22 – – 33 – – 55 – – 66 – – 77 – – 77 – – 88 – – 1010 - - 1111 Comptage :Comptage :

Les données d'un groupe ne sont Les données d'un groupe ne sont pas systématiquement plus petitespas systématiquement plus petites

Les totaux sont Les totaux sont prochesproches

22 33 55 66 77 77 88 1010 1111 TotalTotalAA 00 // 11 11 // // 33 // 44 99BB // 11 // // 33 33 // 44 // 1111

Il y a 3 données Il y a 3 données de de BB ( (33 – – 77 – – 77) ) qui sont plus qui sont plus petites que petites que 88

11

Une réelle différence entre les groupes Une réelle différence entre les groupes se manifeste par un classement fort se manifeste par un classement fort contrasté :contrasté :

22 – – 33 – – 55 – – 66 – – 77 – – 88 – – 88 – – 1010 – – 1111 Comptage :Comptage :

Les données du groupe A sont Les données du groupe A sont systématiquement placées avantsystématiquement placées avant

Les sommes sont très Les sommes sont très différentesdifférentes : : l'une grande et l'autre petitel'une grande et l'autre petite

22 33 55 66 77 88 88 1010 1111 TotalTotalAA 00 00 00 00 00 // // // // 00BB // // // // // 55 55 55 55 2020

12

● Conclusion :Conclusion : La valeur du test de Mann-Whitney est La valeur du test de Mann-Whitney est

le plus petit des deux totauxle plus petit des deux totaux

UUCalcCalc

= Min (U = Min (U11 ; U ; U

22))

Plus les échantillons sont différents Plus les échantillons sont différents plus cette valeur est faibleplus cette valeur est faible

Comparaison avec les valeurs de Comparaison avec les valeurs de référence (table de M-W) :référence (table de M-W) :

UUCalcCalc

≤≤ U Uthth(5%) (5%) ⇒⇒ ≠≠ significative significative

UUCalcCalc

≤≤ U Uthth(1%) (1%) ⇒⇒ ≠≠ très significative très significative

13

● Exemple : Exemple : Pré-testPré-test Regrouper toutes les données en Regrouper toutes les données en

une série triée par ordre croissant une série triée par ordre croissant Indiquer le groupe d'origine de Indiquer le groupe d'origine de

chaque valeurchaque valeur

Pré

-Test

Pré

-Test Trait.Trait. 1616 2424 11 66 22 1515 2828 1111 1717 2727

PlaceboPlacebo 1313 2424 1515 88 2222 2525 2121 99 55

11 22 55 66 88 99 1111 1313 1515 1515

1616 1717 2121 2222 2424 2424 2525 2727 2828

14

Comptage et calcul des totaux :Comptage et calcul des totaux :

UU11 = 2 + 3 + ... + 7,5 + 8 = 46 = 2 + 3 + ... + 7,5 + 8 = 46

UU22 = 0 + 0 + ... + 9 + 9 = 44 = 0 + 0 + ... + 9 + 9 = 44

⇒⇒ UUcalccalc

= 44 = 44

11 22 55 66 88 99 1111 1313 1515 1515

-- -- 22 -- 33 33 -- 44 4,54,5 --

00 00 -- 11 -- -- 33 -- -- 4,54,5

1616 1717 2121 2222 2424 2424 2525 2727 2828

-- -- 77 77 -- 7,57,5 88 -- -- 46,046,0

55 55 -- -- 7,57,5 -- -- 99 99 44,044,0

UU11

UU22

15

77 88 99 1010 1111

00 88 1313 1717 2323 3030

11 1010 1515 2020 2626 3333

22 1212 1717 2323 2929 3737

33 1414 1919 2626 3333 4040

44 1616 2222 2828 3636 4444

= 5%Min(NMin(N

11;N;N

22))

NN1 -

N2

Valeurs de référence : UValeurs de référence : Uthth

UUthth

(5%) = 20 (5%) = 20

UUthth

(1%) = 13(1%) = 13

Le plus petit Le plus petit des deux des deux effectifseffectifs

Différence Différence entre les entre les effectifseffectifs

16

Conclusion :Conclusion : UU

CalcCalc = 44 = 44 U U

thth(5%) = 20(5%) = 20

⇒⇒ La différence n'est pas significativeLa différence n'est pas significative(La répartition des sujets - (La répartition des sujets - avec / sans avec / sans

traitement –traitement – fournit deux groupes fournit deux groupes équivalents au pré-test)équivalents au pré-test)

● ApplicationApplication : : Post-testPost-test

55 77 22 00 44 33 1313 11 77 2828

PlaceboPlacebo 1414 1212 99 1212 1212 1313 1111 88 00

Po

st-

Te

st

Po

st-

Te

st Brule-Brule-

graissegraisse

17

● RemarquesRemarques Le test de Mann-Whitney se Le test de Mann-Whitney se

substitue au test de Student si :substitue au test de Student si : Les effectifs sont réduitsLes effectifs sont réduits Les échantillons renferment Les échantillons renferment

des valeurs exceptionnellesdes valeurs exceptionnelles Les données ne sont pas Les données ne sont pas

gaussiennes gaussiennes ✘ Effets de saturationEffets de saturation✘ Trop peu de valeurs possiblesTrop peu de valeurs possibles

18

Si les deux échantillons vérifient Si les deux échantillons vérifient

NN11 > 10 > 10 etet N N

22 > 10 > 10

On peut recourir à la formule :On peut recourir à la formule :

L'écart réduit zL'écart réduit zCalcCalc

est comparé avec est comparé avec

les valeurs de référence d'une N(0 ; 1)les valeurs de référence d'une N(0 ; 1) zz

5%5% = 1,96 et z = 1,96 et z

1%1%= 2,575= 2,575

Zcalc=UCalc−

N1×N2

2

N1×N2×N1N21

12

19

● Le test C1 de Fisher-Yates-TerryLe test C1 de Fisher-Yates-Terry

Objectif Objectif Comparaison de deux échantillonsComparaison de deux échantillons

Validité :Validité : Données numériques ou ordinalesDonnées numériques ou ordinales Échantillons Échantillons indépendantsindépendants Conforme avec des échantillons de Conforme avec des échantillons de

taille réduitetaille réduite Convient aux distributions non Convient aux distributions non

gaussiennesgaussiennes

20

● Logique du test de Fisher-Yates-TerryLogique du test de Fisher-Yates-Terry De nombreux échantillons De nombreux échantillons

différents peuvent être extraits différents peuvent être extraits d’une même populationd’une même population

Mais, il est rare qu’un échantillon Mais, il est rare qu’un échantillon contienne des mesures contienne des mesures exceptionnelles (la plus grande, la exceptionnelles (la plus grande, la plus petite)plus petite)

⇒⇒ La moyenne des probabilités sur les La moyenne des probabilités sur les rangs suit une loi N(0 ; 1)rangs suit une loi N(0 ; 1)

21

● ProcédureProcédure Regrouper les observations des Regrouper les observations des

deux échantillons en une série deux échantillons en une série statistique triée par ordre croissantstatistique triée par ordre croissant

Évaluer le rang de chaque donnéeÉvaluer le rang de chaque donnée Calculer la moyenne et l'écart-type Calculer la moyenne et l'écart-type

sur les sur les rangsrangs obtenus : obtenus : Moyenne : µMoyenne : µ

RR

Écart-type : sÉcart-type : sRR

22

Normaliser le rang de chaque Normaliser le rang de chaque observation : observation : zz

i i =(r=(r

ii - µ - µ

RR)/s)/s

RR

Sommer les valeurs obtenues pour Sommer les valeurs obtenues pour les observations d'un quelconque de les observations d'un quelconque de ces échantillonsces échantillons

C1(A) = zC1(A) = z11(A) + z(A) + z

22(A) + …(A) + …

Le choix de l'échantillon est Le choix de l'échantillon est arbitraire et n'influence pas le arbitraire et n'influence pas le résultat finalrésultat final

23

Des échantillons Des échantillons AA et et BB semblables semblables conduisent à un mélange homogène :conduisent à un mélange homogène :

Moyenne :Moyenne :

Écart-type : Écart-type :

22 33 55 66 77 77 88 1010 1111

RangRang 11 22 33 44 5,55,5 5,55,5 77 88 99

R=N1

2=5

sR= 284,5−9×52

8=2,73

24

Normalisation :Normalisation :

CC11(A)=-1,47-0,73-0,37+0,73+1,47=-0,37(A)=-1,47-0,73-0,37+0,73+1,47=-0,37

CC11(B)=-1,1+0,18+0,18+1,1=0,36(B)=-1,1+0,18+0,18+1,1=0,36

Les valeurs normalisées d'un Les valeurs normalisées d'un échantillon s'annulent échantillon s'annulent mutuellementmutuellement

La somme est proche de zéroLa somme est proche de zéro

22 33 55 66 77 77 88 1010 1111

RangRang 11 22 33 44 5,55,5 5,55,5 77 88 99

-1,47-1,47 -1,1-1,1 -0,73-0,73 -0,37-0,37 0,180,18 0,180,18 0,730,73 1,11,1 1,471,47zzkk

25

Un classement contrasté traduit des Un classement contrasté traduit des échantillons échantillons AA et et BB forts différents : forts différents :

CC11(A)= -1,47-1,1-0,73-0,37+0,18 = -3,49(A)= -1,47-1,1-0,73-0,37+0,18 = -3,49

CC11(B)= 0,18+0,73+1,1+1,47 = 3,48(B)= 0,18+0,73+1,1+1,47 = 3,48

Les valeurs normalisées d'un Les valeurs normalisées d'un échantillon sont majoritairement échantillon sont majoritairement positives ou négativespositives ou négatives

La somme est grande La somme est grande

22 33 55 66 77 77 88 1010 1111

RangRang 11 22 33 44 5,55,5 5,55,5 77 88 99

-1,47-1,47 -1,1-1,1 -0,73-0,73 -0,37-0,37 0,180,18 0,180,18 0,730,73 1,11,1 1,471,47zzkk

26

● Conclusion :Conclusion : La valeur du test est la valeur positive La valeur du test est la valeur positive

de ces sommesde ces sommes

C1C1calccalc

= |C1(A)| = |C1(B)|= |C1(A)| = |C1(B)|

Une grande valeur traduit des Une grande valeur traduit des échantillons dissemblableséchantillons dissemblables

Conclure par comparaison avec les Conclure par comparaison avec les valeurs de références (table C1-F) :valeurs de références (table C1-F) :

C1C1CalcCalc

>C1>C1thth(5%) (5%) ⇒⇒ ≠≠ significative significative

C1C1CalcCalc

>C1>C1thth(1%) (1%) ⇒⇒ ≠≠ très significative très significative

27

● Exemple : Exemple : Pré-testPré-test Regrouper et classer toutes les Regrouper et classer toutes les

observationsobservations

Rechercher les rangsRechercher les rangs

Statistiques des rangs :Statistiques des rangs : µµ

RR = 20/2 = 10 = 20/2 = 10

ssRR = 5,62 = 5,62

Pré

-Test

Pré

-Test Trait.Trait. 1616 2424 11 66 22 1515 2828 1111 1717 2727

PlaceboPlacebo 1313 2424 1515 88 2222 2525 2121 99 55

11 22 55 66 88 99 1111 1313 1515 1515

1616 1717 2121 2222 2424 2424 2525 2727 2828

11 22 33 44 55 66 77 88 9,59,5 9,59,5

1111 1212 1313 1414 15,515,5 15,515,5 1717 1818 1919

28

Normaliser les rangs :Normaliser les rangs :

Sommer les valeurs normalisées des Sommer les valeurs normalisées des rangs pour un des échantillons :rangs pour un des échantillons : C1(A) = -1.60 -1.42 - ...+1,60 =-0,18C1(A) = -1.60 -1.42 - ...+1,60 =-0,18 C1(B) = -1,25 -0,89 - ...+1,25 =0,18C1(B) = -1,25 -0,89 - ...+1,25 =0,18

RangRang 11 22 33 44 55 66 77 88 9,59,5 9,59,5

-1,60-1,60 -1,42-1,42 -1,25-1,25 -1,07-1,07 -0,89-0,89 -0,71-0,71 -0,53-0,53 -0,36-0,36 -0,09-0,09 -0,09-0,09

RangRang 1111 1212 1313 1414 15,515,5 15,515,5 1717 1818 1919

0,180,18 0,360,36 0,530,53 0,710,71 0,980,98 0,980,98 1,251,25 1,421,42 1,601,60

zzkk

zzkk

(1-10) (1-10) ________________ = -1,60 = -1,605,62 5,62

29

Valeurs de référence : C1Valeurs de référence : C1thth

C1C1thth

(5%) = 4,06(5%) = 4,06

C1C1thth

(1%)= 5,16(1%)= 5,16

Conclusions :Conclusions : C1C1

calccalc = 0,18 = 0,18 ≤≤ C1C1

thth(5%)(5%) = = 4,064,06

⇒⇒ La différence est non significativeLa différence est non significative(On ne remarque pas de différence entre les (On ne remarque pas de différence entre les

deux groupes au pré-test)deux groupes au pré-test)

17 18 1919 20

7 3,77 3,85 3,93 3,99

8 3,82 3,93 4,03 4,10

99 3,96 4,064,06 4,17

10 4,19

= 5%N1 + N2

Min

(N1

; N

2)

30

● Le test T de WilcoxonLe test T de Wilcoxon

ObjectifObjectif Comparaison de deux échantillonsComparaison de deux échantillons

Validité :Validité : Données numériquesDonnées numériques Échantillons Échantillons appariés appariés (avant/après)(avant/après) Conforme avec des échantillons de Conforme avec des échantillons de

taille réduitetaille réduite Convient aux distributions non Convient aux distributions non

gaussiennesgaussiennes

31

● Logique du test de WilcoxonLogique du test de Wilcoxon Analyse l'évolution globale des Analyse l'évolution globale des

résultats entre les deux situations résultats entre les deux situations Pour un sujet, la progression se Pour un sujet, la progression se

traduit par la différence entre ses traduit par la différence entre ses scoresscores

Une évolution globale se traduit par :Une évolution globale se traduit par : Des différences majoritairement Des différences majoritairement

du même signedu même signe

AvantAvant 1111 1212 1414 1010 1313 1212

AprèsAprès 1414 1717 1313 1212 1616 1616

SigneSigne ++ ++ -- ++ ++ ++

32

Des évolutions à contre sens de Des évolutions à contre sens de moindre ampleurmoindre ampleur

Globalement, l’écart entre les deux Globalement, l’écart entre les deux échantillons se mesure par la échantillons se mesure par la dissymétriedissymétrie dans dans les signes et les signes et les grandeurs relativesles grandeurs relatives des des différencesdifférences

AvantAvant 1111 1212 1414 1010 1313 1212

AprèsAprès 1414 1717 1313 1212 1616 1616

≠≠ 33 55 -1-1 22 33 44

33

● ProcédureProcédure Calculer la différence des résultatsCalculer la différence des résultats Éliminer les sujets dont la Éliminer les sujets dont la

différence des observations est nulledifférence des observations est nulle Classer les différences par valeurs Classer les différences par valeurs

absolues croissantesabsolues croissantes Mentionner le signe pour chaque Mentionner le signe pour chaque

différencedifférence Déterminer le nombre - Déterminer le nombre - NN - de - de

paires non nullespaires non nulles

34

Calculer la somme – Calculer la somme – PP – des rangs des – des rangs des différences différences positivespositives

Calculer la somme – Calculer la somme – MM – des rangs des – des rangs des différences différences négativesnégatives

Prendre Prendre TT comme la plus petite de ces comme la plus petite de ces deux sommesdeux sommes

Une différence réelle se traduit Une différence réelle se traduit par une faible valeur de par une faible valeur de TTAvantAvant 1414 1010 1111 1313 1212 1212

AprèsAprès 1313 1212 1414 1616 1616 1717

|≠||≠| 11 22 33 33 44 55

RangRang 11 22 3,53,5 3,53,5 55 66

35

● ExempleExemple : : Groupe de contrôleGroupe de contrôle Calcul des différencesCalcul des différences

Classement et calcul des rangsClassement et calcul des rangs

M = 1,5 + … + 8,5 = 40,5M = 1,5 + … + 8,5 = 40,5 P = 1,5 + 3 = 4,5 P = 1,5 + 3 = 4,5

⇒⇒ T=4,5T=4,5

Pré-TestPré-Test 1313 2424 1515 88 2222 2525 2121 99 55

1414 1212 99 1212 1212 1313 1111 88 00

|≠||≠| 11 1212 66 44 1010 1212 1010 11 55

SigneSigne ++ -- -- ++ -- -- -- -- --

Post-TestPost-Test

|≠||≠| 11 11 44 55 66 1010 1010 1212 1212RangRang 1,51,5 1,51,5 33 44 55 6,56,5 6,56,5 8,58,5 8,58,5

36

Valeurs de référence : TValeurs de référence : Tthth

N = 8N = 8

TTthth(5%) = 6(5%) = 6

TTthth(1%) = 2(1%) = 2

⇒⇒ La différence est significativeLa différence est significative(Les résultats montrent une réelle diminution (Les résultats montrent une réelle diminution

de la fréquence des migraines chez les de la fréquence des migraines chez les sujets qui ont reçu le placebo)sujets qui ont reçu le placebo)

N

6 0 -7 2 -8 4 09 6 210 8 3

= 5% = 1%

37

Si les échantillons vérifient : N > 20Si les échantillons vérifient : N > 20 On peut avoir recours à la formule :On peut avoir recours à la formule :

La valeur centré réduite est comparée La valeur centré réduite est comparée aux valeurs de référence aux valeurs de référence

zz5%5%

= 1.96 et z = 1.96 et z1%1%

= 2.575 = 2.575

zcalc=T−

N×N1

4

N×N1×2N1

24

38

● Le test des signesLe test des signes

ObjectifObjectif Comparaison de deux échantillonsComparaison de deux échantillons

Validité :Validité : Données numériques ou ordinalesDonnées numériques ou ordinales Échantillons Échantillons appariés appariés (avant/après)(avant/après) Conforme avec des échantillons de Conforme avec des échantillons de

taille réduitetaille réduite Convient aux distributions non Convient aux distributions non

gaussiennesgaussiennes

39

● Logique du test des signesLogique du test des signes

Identique au test de Wilcoxon, mais …Identique au test de Wilcoxon, mais … Le sens (signe) de l’évolution est le Le sens (signe) de l’évolution est le

seul paramètre pris en compteseul paramètre pris en compte● ApplicationsApplications

Données pour lesquelles seule Données pour lesquelles seule l’évolution importel’évolution importe Appréciations non numériquesAppréciations non numériques

Test de première analyse (rapide)Test de première analyse (rapide) Manque de puissanceManque de puissance

40

● ProcédureProcédure Pour chaque paire d’observations on Pour chaque paire d’observations on

attribue un signe selon le sens de attribue un signe selon le sens de l'évolution :l'évolution : ««++» » ⇔⇔ amélioration amélioration ««--» » ⇔⇔ régression régression

Les cas où aucune évolution n’est Les cas où aucune évolution n’est constatée ne sont pas pris en constatée ne sont pas pris en comptecompte

41

Compter le nombre d'occurrences du Compter le nombre d'occurrences du signe moins fréquent : signe moins fréquent : AA

Une évolution réelle va se traduire par Une évolution réelle va se traduire par une petite valeur de une petite valeur de AA

N ≤ 30N ≤ 30 : Comparer avec les valeurs de : Comparer avec les valeurs de référence (table des signes)référence (table des signes)

N > 30N > 30 : Calculer la formule : Calculer la formule

Les valeurs de référence sont Les valeurs de référence sont celles d'une (N(0 ; 1)celles d'une (N(0 ; 1)

Zcalc=2 A1−N

N