Principe des tests statistiques et degré de signification

3
La Revue Sage-Femme (2010) 9, 160—162 ÉPIDÉMIOLOGIE Principe des tests statistiques et degré de signification Statistical test principle and degree of significance Julie Tort Maternité Port-Royal, hôpital Cochin—St-Vincent-de-Paul, 123, boulevard de Port-Royal, 75014 Paris, France Disponible sur Internet le 20 mai 2010 Les tests statistiques sont très largement utilisés en épidémiologie. Ils permettent, entre autres, de comparer la valeur d’une variable dans deux populations. Ces tests, parmi lesquels le Khi 2 , le test de Student, le test de Fisher... permettent, chacun, d’analyser différents types de variables : moyenne, pourcentage, variance... Méthodologie des tests Exemple : Prenons deux vases, A et B, remplis de petites billes rouges et jaunes (en épidémiologie, on sera dans un contexte de population). Dans chacun des vases, on prend une poignée de billes (en épidémiologie on sera dans un contexte d’échantillons) au hasard, que l’on compte ensuite : 20 billes proviennent du vase A et 14 billes du vase B. Notre variable étudiée est le nombre de billes jaunes par poignée. Dans l’échantillon du vase A, on a huit billes jaunes, soit un pourcentage observé appelé : P A = 40 %, et dans l’échantillon du vase B, on a cinq billes jaunes, soit P B = 35,7 %. On souhaite savoir, à partir de l’observation de ces échantillons, si la distribution de billes dans les deux vases est différente, autrement dit, si la proportion de billes jaunes et rouges est très différente d’un vase à l’autre. Analyse À première vue, l’écart entre ces deux pourcentages observés est peu important. 38, rue Henri-Barbusse, 75005 Paris, France. Adresse e-mail : [email protected]. 1637-4088/$ — see front matter © 2010 Elsevier Masson SAS. Tous droits réservés. doi:10.1016/j.sagf.2010.04.006

Transcript of Principe des tests statistiques et degré de signification

L

É

Ps

S

1d

a Revue Sage-Femme (2010) 9, 160—162

PIDÉMIOLOGIE

rincipe des tests statistiques et degré deignification

tatistical test principle and degree of significance

Julie Tort ∗

Maternité Port-Royal, hôpital Cochin—St-Vincent-de-Paul, 123, boulevard de Port-Royal,75014 Paris, France

Disponible sur Internet le 20 mai 2010

Les tests statistiques sont très largement utilisés en épidémiologie. Ils permettent, entreautres, de comparer la valeur d’une variable dans deux populations. Ces tests, parmilesquels le Khi2, le test de Student, le test de Fisher. . . permettent, chacun, d’analyserdifférents types de variables : moyenne, pourcentage, variance. . .

Méthodologie des tests

Exemple :Prenons deux vases, A et B, remplis de petites billes rouges et jaunes (en épidémiologie,

on sera dans un contexte de population).Dans chacun des vases, on prend une poignée de billes (en épidémiologie on sera dans

un contexte d’échantillons) au hasard, que l’on compte ensuite : 20 billes proviennent duvase A et 14 billes du vase B.

Notre variable étudiée est le nombre de billes jaunes par poignée.Dans l’échantillon du vase A, on a huit billes jaunes, soit un pourcentage observé

appelé : PA = 40 %, et dans l’échantillon du vase B, on a cinq billes jaunes, soit PB = 35,7 %.On souhaite savoir, à partir de l’observation de ces échantillons, si la distribution de

billes dans les deux vases est différente, autrement dit, si la proportion de billes jauneset rouges est très différente d’un vase à l’autre.

Analyse

À première vue, l’écart entre ces deux pourcentages observés est peu important.

∗ 38, rue Henri-Barbusse, 75005 Paris, France.Adresse e-mail : [email protected].

637-4088/$ — see front matter © 2010 Elsevier Masson SAS. Tous droits réservés.oi:10.1016/j.sagf.2010.04.006

afép

e

msvv

odcder

ooldcvC

oql

meCsedmtéd

ac••••

P

C

Principe des tests statistiques et degré de signification

De ce fait, il semblerait raisonnable d’admettre qu’il n’ya pas de différence significative.

La petite différence observée peut être expliquée par lehasard. Si l’on constitue plusieurs échantillons à partir d’unemême population, on a toutes les chances de remarquer unedifférence de composition entre les différents échantillonsc’est-à-dire que la variable risque de prendre différentesvaleurs. Celles-ci peuvent être très différentes les unes desautres.

Par exemple, prenons le vase A. On observe une poi-gnée où 40 % des billes sont jaunes. Maintenant, si l’onobserve une nouvelle poignée, le nombre de billes jaunesa toutes les chances d’être différent. Logiquement, lavariable peut prendre toutes les valeurs de 0 à 100 %. C’est-à-dire que l’on peut observer plusieurs poignées avec,dans l’une 30 % de billes jaunes, dans une autre 10 % ouencore 75 %. Ces différentes valeurs n’ont pas la mêmeprobabilité d’être observées et il est possible de calcu-ler un intervalle dans lequel se trouvent la plupart decelles-ci.

C’est ce que l’on appelle les fluctuationsd’échantillonnage. La variable, prend différentes valeursselon les échantillons mais ceux-ci sont tous issus de lamême population.

Ainsi, ce que l’on veut savoir, c’est si la différence obser-vée entre PA et PB est due aux fluctuations d’échantillonnageou si elle correspond à une différence significative entre lespourcentages vrais PA et PB de billes jaunes dans les deuxvases.

Le test statistique permet d’apporter une réponse à cettequestion. N’étant pas dans le cadre d’une science exacte,la conclusion du test comporte une part d’erreur qui estcontrôlable.

Comme tout raisonnement scientifique, le test statis-tique contient trois étapes qui sont :1. poser une hypothèse ;2. définir les observations que l’on doit faire si cette hypo-

thèse est juste ;3. confronter les observations réellement faites aux obser-

vations de l’étape précédente et en tirer des conclusions.

Dans le cadre d’un test statistique, l’étape 1 consiste enla formulation de deux hypothèses :• une hypothèse nulle, appelée H0. Celle-ci suppose une

égalité entre les pourcentages vrais (des populations) PA

et PB ;• une hypothèse alternative, appelée H1 qui suppose, à

l’inverse, une différence entre les deux valeurs des pour-centages vrais. Trois possibilités peuvent être retenues enfonction du problème posé : PA /= PB ; PA > PB ; PA < PB.

Les hypothèses sont effectuées à partir des valeurs despopulations, alors que les tests sont calculés à partir desvaleurs des échantillons.

Ensuite, un risque d’erreur acceptable associé à chacunedes deux conclusions possibles du test est défini :• un risque d’erreur � qui est le risque que l’on accepte

de prendre si on rejette H0 alors que cette hypothèse

est vraie. Généralement, � = 5 %. Cela veut dire quelorsque l’on rejette H0, on a 5 % de chance de setromper ;

• un risque d’erreur �, qui est le risque que l’on accepte deprendre en ne rejetant pas H0 alors que H1 est vraie. Ce

C

e

161

risque sert plutôt à calculer la puissance du test, c’est-à-dire, sa capacité à reconnaître que H0 est fausse.

Il faut maintenant calculer les nouveaux effectifs enccord avec l’hypothèse nulle (étape 2). C’est-à-dire qu’ilaut définir les effectifs que l’on pourrait observer dans noschantillons si la variable avait la même valeur dans les deuxopulations.

Le but du test est de calculer l’écart entre ces nouveauxffectifs calculés et les effectifs observés.

Les tests statistiques se rattachent à des lois mathé-atiques à partir desquelles sont établies des tables

tatistiques. Ces tables présentent, pour les différentesaleurs possibles du risque �, un écart acceptable que l’ona comparer à l’écart calculé (étape 3).

Si l’écart calculé est supérieur à l’écart acceptable alorsn rejette H0 car l’écart calculé est trop important, c’est-à-ire que les effectifs observés sont trop différents et dans ceas, il y a peu de chance que cette si grande différence soitue au hasard. On dit qu’il existe une différence significativentre les deux populations. Cette conclusion engendre unisque � de se tromper.

Si l’écart calculé est inférieur à l’écart acceptable alorsn ne peut pas rejeter H0 car la différence entre les effectifsbervés peut être expliquée par le hasard (c’est-à-dire pares fluctuations d’échantillonnage). On dit qu’il n’y a pas deifférence significative entre les deux populations. Dans ceas, on ne peut pas affirmer que H0 est vraie car les obser-ations peuvent être compatibles avec d’autres hypothèses.ette conclusion engendre un risque � de se tromper.

D’une manière générale, en sciences expérimentales,n peut démontrer qu’une hypothèse est fausse mais pasu’elle est vraie : juste qu’elle n’est pas contredite par’expérience effectuée.

Le degré de signification, le fameux petit « p » per-et de quantifier la force de la conclusion du test. Il

st surtout intéressant dans le cadre d’un rejet de H0.’est la probabilité d’observer sur d’autres échantillons,i H0 est vraie, un écart calculé au moins aussi grand. Parxemple, p < 0,01 veut dire que l’on a moins de 1 % de chance’observer sur d’autres échantillons un écart calculé auoins aussi grand. « p » est recherché dans la table statis-

ique utilisée pour le test. Il est lié à un test portant sur deuxchantillons particuliers. Pour deux autres échantillons, leegré de signification peut tout à fait être différent.

Concrètement, retournons à notre exemple. Nous avonsffaire, ici, à des pourcentages. Le test qui permet deomparer des pourcentages est le Khi2.

posons l’hypothèse H0 : PA = PB ;de cette hypothèse découle H1 : PA /= PB ;on prend ˛ = 5 % ;on calcule les nouveaux effectifs correspondant à H0.

Effectifs observés = O, effectifs calculés = C (Tableau 1).

rincipe de calcul des nouveaux effectifs

1 = (13 × 20)/34 = 7, 6; C2 = (13 × 14)/34 = 5, 4;

3 = (21 × 20)/34 = 12, 4; C4 = (21 × 14)/34 = 8, 6.

On remarquera la différence peu importante entre lesffectifs observés et calculés.

162 J. Tort

Tableau 1 Principe de calcul des nouveaux effectifs. .Principle for the calculation of new numbers: the difference between the number observed and the number calculated is not very high.Number observed = O, number calculated = C.

Vase A Vase B

Billes jaunes O1 = 8 ; C1 = 7,6 O2 = 5 ; C2 = 5,4 13Billes rouges O3 = 12 ; C3 = 12,4 O4 = 9 ; C4 = 8,6 21

20 14 Effectif total = 34

DlCfa

c

K

t

Omodlj

c

t

2Lt

tt

ucsrdqr

lrm

fietà

R

Effectifs observés (O), effectifs calculés (C)

Les tests ont généralement des conditions d’applications.ans le cadre d’un Khi2 de comparaison de deux populations,

es effectifs calculés doivent tous être au moins égaux à 5.e qui est le cas ici. Si les effectifs sont inférieurs à 5, ilaut appliquer d’autres tests qui ne font pas l’objet de cetrticle (Khi2 corrigé de Yates, test de Fisher).

Le Khi2 permet de calculer l’écart entre les effectifs cal-ulés et les effectifs observés selon la formule :

hi2 =∑ (oi − ci)

2

ci

On trouve ici Khi2

= (8 − 7, 6)2/7, 6 + (5 − 5, 4)2/5, 4 + (12 − 12, 4)2/12, 4

+ (9 − 8, 6)2/8, 6 = 0, 08

L’écart acceptable correspondant à � = 5 % donné par lesables statistiques est de 3,84.

L’écart calculé est très inférieur à l’écart acceptable.n peut le remarquer aisément en regardant le tableau quiontre très peu de différence entre les effectifs calculés et

bservés. On ne peut donc pas rejeter H0. Il n’y a pas deifférence significative entre la « population » du vase A eta « population » du vase B quant à la proportion de billes

aunes.

Le calcul du degré de signification n’est pas nécessairear nous n’avons pas pu rejeter H0.

Maintenant, prenons le même exemple avec des effec-ifs observés différents. On tire du vase A un échantillon de

[

[

6 billes, dans lequel on observe 13 billes jaunes, soit 50 %.’échantillon représentatif du vase B possède 30 billes dontrois sont jaunes, soit 10 %.

En appliquant le même principe que précédemment, onrouve un Khi2 = 11,04 qui est très supérieur à l’écart accep-able de tout à l’heure, 3,84.

Nous pouvons donc rejeter H0, les deux vases ont doncne distribution de billes significativement différente, etalculer le degré de signification à partir de la tabletatistique correspondante, p < 0,001, ce qui veut direappelons-le, que nous avons moins de 0,1 % de chance’observer un écart calculé au moins aussi grand. On a, enuelque sorte, moins de 0,1 % de chance de se tromper enejetant H0.

Ainsi, les tests statistiques sont omniprésents dans’analyse des résultats des études épidémiologiques et deecherche clinique. Comprendre leur mécanisme permet deieux appréhender la lecture d’un article [1,2].

NB : Cet article a pour but d’expliquer de manière simpli-ée des éléments statistiques importants faisant partie desssais cliniques et des articles médicaux. Il n’a pas la pré-ention de remplacer un cours de statistiques qui fait appeldes notions mathématiques plus complexes.

éférences

1] Bouyer J. Méthodes statistiques, médecine biologie. ÉditionEstem.

2] Bouyer J. et al. Épidémiologie, principes et méthodes quantita-tives. Éditions Inserm.