LA COMPARAISON DE DEUX...

10
University of Oran 1 ____________________________________________ Faculty of Medicine LA COMPARAISON DE DEUX POURCENTAGES N. BOUZIANI 1 , A. TADJEDDINE 1 Cours de Biostatistique de 1 ème année de graduation, en vue de la préparation d'un diplôme de Docteur en médecine générale ou en chirurgie dentaire. Objectifs du cours : Connaitre les principes et les outils d'analyse statistique de comparaison de 02 pourcentages. Savoir choisir et interpréter les tests statistiques adéquats. Plan du cours : Introduction Démarche et hypothèses de réalisation d'un test statistique Comparer deux pourcentages de séries indépendantes par le test de l'écart réduit. L'importance du calcul du Nombre de Sujets Nécessaires (NSN). Comparer deux pourcentages de séries dépendantes et appariées (Ecart réduit). Comparer un pourcentage observé à un pourcentage de référence (Ecart réduit). Conclusion Pour aller plus loin, il est conseillé de lire et de consulter des livres et autres documents sur la question (Exemple : voir les références bibliographiques de base de ce cours à la dernière page). Cours conçu pour être utilisé en version numérique ou imprimé sur papier recto verso. 1. Service d'Epidémiologie et de Médecine Préventive, Hôpital Enfants de Canastel, Oran.

Transcript of LA COMPARAISON DE DEUX...

Page 1: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

University of Oran 1

____________________________________________

Faculty of Medicine

LA COMPARAISON DE DEUX POURCENTAGES

N. BOUZIANI 1, A. TADJEDDINE

1

Cours de Biostatistique de 1ème

année de graduation, en vue de la préparation d'un diplôme de

Docteur en médecine générale ou en chirurgie dentaire.

Objectifs du cours :

Connaitre les principes et les outils d'analyse statistique de comparaison de 02 pourcentages.

Savoir choisir et interpréter les tests statistiques adéquats.

Plan du cours :

Introduction

Démarche et hypothèses de réalisation d'un test statistique

Comparer deux pourcentages de séries indépendantes par le test de l'écart réduit.

L'importance du calcul du Nombre de Sujets Nécessaires (NSN).

Comparer deux pourcentages de séries dépendantes et appariées (Ecart réduit).

Comparer un pourcentage observé à un pourcentage de référence (Ecart réduit).

Conclusion

Pour aller plus loin, il est conseillé de lire et de consulter des livres et autres documents sur la

question (Exemple : voir les références bibliographiques de base de ce cours à la dernière page).

Cours conçu pour être utilisé en version numérique ou imprimé sur papier recto verso.

1. Service d'Epidémiologie et de Médecine Préventive, Hôpital Enfants de Canastel, Oran.

Page 2: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de
Page 3: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

55 % 45 %

Masculin

Féminin

University of Oran 1

________________ ______________

Faculty of Medicine

LA COMPARAISON DE DEUX POURCENTAGES

N. BOUZIANI, A. TADJEDDINE

1. Introduction

Après le recueil de données et leur correction, l'analyse des résultats commence. On peut

voir enfin, les résultats. C’est une étape complexe, mais passionnante.

Dans ce cours, il s’agit de comparer deux pourcentages de variables qualitatives qui

ressortent lors de la 1ère étape de l’analyse descriptive.

Ainsi on peut avoir des pourcentages ou proportions de : poids, HTA, tabagisme, malade, …

Deux groupes se distinguent selon plusieurs facteurs : sexe, commune, groupe d'âge,

présence ou absence d’un facteur de risque, présence ou absence d’une maladie, …

La 1ère étape d’analyse de variables qualitatives et de proportions donne des tableaux et

des graphes : (Output Epi Info 6 et Excel)

Et c’est à partir de ce moment qu’on se demande, quelle est la meilleure stratégie d’analyse.

Selon les différents cas de figures, (comparaison de pourcentages observés dans deux

échantillons différents, deux séries appariées, comparaison d’un pourcentage observé à un

pourcentage théorique de référence) il existe différentes solutions :

[email protected], Cours de Graduation, 2019 ©, Université d'Oran 1

Page 4: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

2

2. Démarche de réalisation d'un test statistique

Lorsqu'on effectue une comparaison entre deux séries de données, on observe toujours une

différence ∆ entre les paramètres préalablement calculés (pourcentages).

Le but d’un test statistique est de savoir si cette différence ∆ est " petite " due aux au

hasard, ou bien " grande " et bien réelle.

Les tests statistiques réalisent ainsi une économie de moyens en évaluant cette différence

sur un échantillon. En contrepartie, il faut admettre un certain risque d'erreurs, car les

tests statistiques obéissent à des lois de distributions théoriques, les lois de probabilités.

Avant d’effectuer les démarches pour réaliser un test statistique, il faut toujours réfléchir.

En effet, de nos jours, il est plus facile de réaliser un test statistique sur un PC que de

comprendre et d’interpréter l’Output et ses résultats de sortie.

C’est pourquoi, un test statistique doit toujours être réalisé dans une certaine démarche

scientifique et non pas juste " pour voir " !

Cette démarche consiste à bâtir une hypothèse justifiée à partir des faits antérieurs

observés, ou de connaissances acquises à partir d'autres études scientifiques.

Ces hypothèses sont ensuite testées pour répondre à une question. Les résultats d'un test

statistique n'ont de valeur que s'ils s'inscrivent dans cette démarche logique.

Pour comparer deux pourcentages issus d'échantillons indépendants, nous avons le choix

entre plusieurs méthodes, nous en décrivons dans ce cours, un d'entre eux. Mais le principe

est le même pour les autres tests statistiques :

On se demande si les distributions des populations, dont sont issus les deux échantillons

sont identiques ou non.

Page 5: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

3

3. Comparaison de pourcentages dans deux séries indépendantes

3.1 Le test de l'écart réduit :

Le test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de deux pourcentages. Il

utilise les propriétés de la loi normale centrée réduite, pour comparer :

• Deux pourcentages observés dans 02 échantillons indépendants : p1 , p2

• Deux pourcentages observés dans 02 échantillons appariés.

• Un pourcentage observé dans un échantillon p à un pourcentage théorique P

Principe :

Pour savoir si les distributions des populations, dont sont issus les deux échantillons sont

identiques ou non, on compare la différence des pourcentages (p1 - p2) de ces échantillons.

Cette différence ∆ ou écart est une variable aléatoire qui tend vers 0, si H0 est vraie.

Sous certaines conditions, le rapport de cet écart ∆ sur son écart type S∆, suit une loi

normale centrée sur sa moyenne 0, et dont l'écart est réduit à 1, car il est divisé sur son

écart type S, c'est la loi Normale centrée réduite, définie par ses paramètres N (0, 1).1

Le test z calcule ce rapport et le compare à la table de loi normale centrée réduite.

z = ∆ / Sd S'il dépasse un certain seuil (zα = 1,96) pour un risque d'erreur consenti (α = 5 %); alors, la

table de la loi normale centrée réduite, nous donne en fonction de la valeur du z calculé, la

probabilité p de se tromper, en affirmant que cette différence (p1 - p2) est bien réelle et non

pas due au hasard.

Exemple :

On étudie le surpoids dans un échantillon, le calcul des proportions par genre donne :

Hommes : (n1 = 50) p1 = 20 %

Femmes : (n2 = 50) p2 = 30 %

A première vue, la prévalence de l'obésité semble être plus élevée chez les femmes

1 (Voir le cours sur la loi normale centrée réduite).

Page 6: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

4

Mais, … les apparences sont souvent trompeuses, cette différence peut être due aux biais,

aux fluctuations d’échantillonnage ou simplement à un réel facteur.

Donc des questions se posent :

Existe-t-il une réelle différence entre ces deux groupes ?

L’écart observé est-il réel ou est-il dû aux fluctuations d’échantillonnage ?

Ces deux groupes proviennent-ils de la même population ?

On doit réaliser un test statistique pour répondre de manière objective à ces questions.

Rappelons les étapes fondamentales de réalisation d'un test statistique :

1. Choix du seuil de signification α

2. Formulation des hypothèses H0 et H1.

3. Choix du test statistique à utiliser

4. Vérification des conditions d’application

5. Exécution du test et interprétation des résultats

1. Choix du seuil de signification α :

Tout test permet de quantifier le rôle du hasard dans ses résultats. Le hasard a toujours un

rôle à jouer, car n’oublions pas qu’un test statistique suit une loi de probabilités. Dans la

majorité des cas, le seuil de signification retenu est de 5 %.

2. Formulation des hypothèses H0 et H1 :

. H0 : p1 ≈ p2

. Il n’existe pas de différence entre les 2 groupes, ils proviennent de la même population.

. Le poids du groupe 1 n’est pas différent de celui du groupe 2.

. Le poids et le sexe sont des variables indépendantes.

. H1 : p1 ≠ p2

. Il existe une différence entre les deux groupes, ils proviennent de populations différentes

. Le poids du groupe 1 est différent de celui du groupe 2.

. Le poids et le sexe sont des variables dépendantes.

3. Choix du test statistique à utiliser :

Il s’agit de comparer des pourcentages observés dans deux échantillons indépendants : on

choisit le Test z de l’écart réduit.

4. Vérification des conditions d’application :

Conditions d’application nécessaires pour pouvoir utiliser les théorèmes de la loi normale.

Grand échantillon : n1 et n2 ≥ 30

n P et n Q 5

Page 7: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

5

Z = ∆

𝑆∆ =

I 𝒑𝟏 − 𝒑𝟐 I

𝑷𝑸

𝒏𝟏 +

𝑷𝑸

𝒏𝟐

= I 0,3 − 0,2 I

0,25 𝑥 0,75

50 +

0,25 𝑥 0,75

50

= 1,15

z = I 0,3 − 0,2 I

0,25 𝑥 0,75

500 +

0,25 𝑥 0,75

500

= 3,65

5. Exécution du test et interprétation des résultats

Un test statistique calcule la probabilité que le hasard puisse expliquer les résultats. Si cette

probabilité est inférieure à un certain seuil α, on rejette H0 et on conclut que la différence

est significative. Ce seuil de signification est habituellement fixé à 5 %.

Si H0 est vraie, la différence ∆ (p1 - p2) suit une loi normale de moyenne 0 et le rapport de

cette différence sur son écart type suit une loi de z.

Si │z│ z : la différence ∆ est alors grande. On dit qu’elle est statistiquement significative.

H1 est alors retenue, avec un risque de se tromper, en affirmant cela, lu dans la table de z.

1,15 < 1,96 : la valeur calculée de z est inférieure à z

Conclusion et interprétation : H0 retenue. Le proportion de surpoids est la même entre les

deux groupes. Il n'existe pas de différence statistiquement significative entre les

pourcentages des 2 groupes et la différence apparente observée est probablement due au

hasard !

Et si l'échantillon était plus grand !

Examinons la relation entre signification du test statistique et la taille d'un échantillon.

n1 = n2 = 500

3,65 > 1,96 : la valeur calculée de z est supérieure à z

Interprétation : H0 rejetée. La proportion de sujets obèses est significativement plus élevée

dans le groupe 2. Il existe une différence statistiquement significative entre les

pourcentages des 2 groupes. p < 0,001 (voir table de z à la dernière page).

Importance du calcul du NSN :

Il arrive qu'après avoir réalisé toute une étude et avoir analysé ses données, on constate

qu'on n'obtient aucune différence significative et que si on avait augmenté la taille de

l’échantillon un tant soit peu, on aurait eu des résultats plus significatifs et intéressants.

C’est pourquoi, l'attitude intelligente consiste à définir dès le début de l’étude, la différence

minimale ∆ qu'on souhaite observer, et de calculer ensuite le Nombre de Sujets Nécessaire

(NSN) ou tailles minimales d’échantillons qu’on souhaite avoir pour détecter cette

différence souhaitée. Il existe des formules de calcul de NSN pour les tests z qui s’adaptent

aux différentes situations rencontrées en pratique.

Page 8: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

6

4. Comparaison de pourcentages dans deux séries appariées

On appelle séries appariées, deux séries de la même taille, pour lesquels chaque valeur

d’une série a un lien avec une valeur correspondante de l’autre série. On obtient à la fin, un

échantillon de n paires de mesures (x, y). Parfois, il s’agit de mesures qui sont faites chez le

même individu à des périodes différentes.

4.1 Le test de l'écart réduit :

L’intérêt d’un test apparié est d’éliminer la variabilité entre individus de la même série, on

ne prend en compte que la variabilité des différences entre paires. Un test apparié est donc

plus puissant qu’un simple test de comparaison de pourcentages de séries indépendantes.

Principe :

On teste l’hypothèse H0 que les différences individuelles entre sujets appariés sont nulles.

Sous certaines conditions, la moyenne des différences ∆ suit une loi normale de moyenne 0

et le rapport de cette différence sur son écart type suit une loi normale centrée réduite.

H0 : a - b ≈ 0 H1 bilatérale : a - b ≠ 0

Si H0 est vraie, z suit une loi normale centrée réduite : z =

On compare le z calculé à celui de la table de la loi correspondante.

Exemple :

On pense que l'absence de différence de poids retrouvée dans les exemples précédents, est

due à un facteur de confusion. On décide donc d’apparier les deux genres sur l’âge, en

créant un échantillon de paires : (Hommes, Femmes) : (avec un âge équivalent) n = 50

Alors, existera-t-il une différence statistique dû au sexe cette fois-ci ?

1. Choix du seuil de signification α : α = 5 %

2. Formulation des hypothèses : H0 : a - b ≈ 0 H1 bilatérale : a - b ≠ 0

3. Choix du test statistique à utiliser : il s’agit de comparer deux pourcentages

observés dans deux échantillons dépendants, on choisit le test z pour séries appariées.

4. Vérification des conditions d’application :

nombre de paires (a + b) ≥ 10

5. Exécution du test et interprétation des

résultats : z =

= 1,3

a et b sont les couples de différences entre groupes

Finalement H0 est retenue, z (1,3) < zα : la prévalence de l'obésité n'est pas

significativement différente entre les deux groupes.

Page 9: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

7

5. Comparaison d’un pourcentage observé à un pourcentage théorique

Situation dans laquelle on compare un pourcentage observé sur un échantillon à une

prévalence connue d’une population de référence, locale, régionale, nationale ou étrangère.

5.1 Le test de l'écart réduit :

Lorsqu’on veut comparer un pourcentage observé p, à un pourcentage de référence P.

Principe :

Si H0 est vraie, p est l’une des valeurs possibles d’une variable normale centrée autour de P.

La différence │p - P│ suit une loi normale de moyenne 0.

H0 : p ≈ P H1 bilatérale : p ≠ P

Si H0 est vraie, z suit une loi z normale centrée réduite : z =

𝑷 𝑸

𝒏

On compare ensuite le z calculé à celui de la table de la loi correspondante.

Exemple :

Dans la continuité de l’exemple des sections précédentes, sur l'étude du surpoids d'un

échantillon, on veut comparer maintenant la prévalence du surpoids dans notre échantillon

issu d’une commune, à celui de la population nationale.

Pour cela, on fait des recherches bibliographiques afin de trouver des chiffres qui

pourraient aider à déterminer la prévalence de l'obésité au niveau national.

Echantillon : p = 25 % n = 100

Population : P = 20 %

La prévalence de l'obésité de l'échantillon est-elle différente de celle de la population de

référence ?

Existera-t-il une différence statistique de l’échantillon cette fois-ci ?

1. Choix du seuil de signification α : α = 5 %

2. Formulation des hypothèses : H0 : p ≈ P H1 bilatérale : p ≠ P

3. Choix du test statistique à utiliser : il s’agit de comparer un pourcentage observé à

un pourcentage de référence, on choisit le test z.

4. Vérification des conditions d’application : Grand échantillon : ≥ 30, n P n Q ≥ 5

5. Exécution du test et interprétation :

z =

𝑷 𝑸

𝒏

=

= 1,25

Le poids de notre échantillon n'est pas statistiquement différent de celui de la population

de référence. H0 est retenue.

Page 10: LA COMPARAISON DE DEUX POURCENTAGESfacmed-univ-oran.dz/ressources/fichiers_produits/fichier_produit_3040.pdfLe test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de

8

La table est conçue pour un test bilatéral, elledonne la probabilité p ou α que la valeurabsolue de z soit supérieure à une valeurdonnée. Pour un test unilatéral, on divise laprobabilité p par 2.

En conclusion :

Ce tableau synoptique résume les principaux tests de comparaison de deux pourcentages

et leurs conditions :