Post on 08-Feb-2016
description
1
Comparaison de deux pourcentages observés
• Situation du problème :– 2 Variables qualitatives dichotomiques
• La première permet de caractériser chaque groupe
• La seconde est le critère de jugement
– Comparaison de pourcentage dans deux groupes indépendants
• En fait,– On dispose de deux échantillons (A et
B) sur lesquels on a mesuré une variable qualitative binaire
– Ces deux échantillons peuvent-ils être considérés comme étant issus de la même population ? (Les deux pourcentages (Pa, Pb sont ils deux estimateurs du même pourcentage P ?)
– Problème très fréquent– Exemple : On traite deux groupes de souris
par deux goudrons par tirage au sort et on observe le pourcentage de survenue de cancers à 6 mois dans chaque groupe.
2
Comparaison de deux pourcentages observés
• Hypothèses– Hypothèse nulle H0 :
• Les 2 échantillons peuvent être considérés comme issus d ’une population ayant comme pourcentage P
– Pa et Pb sont deux estimateurs de Ptha et Pthb avec Ptha = Pthb = P
– Hypothèses alternatives :• Test bilatéral
– Ptha # Pthb
• Test unilatéral– Ptha > Pthb ou (exclusif) Ptha< Pthb
• Eléments nécessaires au calcul :– Na , Nb = Effectifs de chaque groupe– Pa et Pb = Pourcentage observé dans chaque groupe
• Autres éléments : – Na+ , Nb+ = Effectifs présentant le caractère dans
chaque groupe Na+ + Nb+Na + Nb
= Pourcentage commun qui serait observé sous l’hypothèse nulle par réunion des deux groupes
–P =
3
Comparaison de deux pourcentages observés
• Statistiques utilisables– Khi 2– Epsilon ou u (Loi normale)– Remarque : ces deux tests sont
équivalents et ont les mêmes conditions d ’application :
• Na * P > 5; Nb * P > 5
• Na *(1-P) >5; Nb *(1-P)
– On approche une loi binomiale par une loi normale
– Si les conditions ne sont pas remplies on prend une autre méthode
4
Comparaison de deux pourcentages observés
• Utilisation du KHI2. Test Bilatéral (unilatéral possible mais moins habituel)– Tableau des valeurs observées :
–Sous l’hypothèse nulle:– on aurait dû observer pour le groupe 1 :Effectif attendu de cancer : P * Na
Nombre de souris avec
cancer
Nombre de souris sans
cancerGroupe 1 : Goudron A Na+ = A B Na = A+BGroupe 2 : Goudron B Nb+ = C D Nb = C+D
A+C B+D N = A+B+C+D
Ath=A + C
A + B + C + D* (A + B) =
(A + C) * (A + B)
N
–Remarque : – Quand on a calculé un effectif théorique, on obtient les autres par différence avec les effectifs marginaux.– Pour chaque case, la différence entre l’effectif théorique et l’effectif observé est la même.
5
Comparaison de deux pourcentages observés
• Utilisation du KHI2.– Tableau des valeurs observées et
théoriques :
Nombre de souris avec
cancer
Nombre de souris sans
cancer
Groupe 1 : Goudron A Na = A+B
Groupe 1 : Goudron A Nb = C+D
A+C B+D N = A+B+C+D
A Ath
B Bth
C Cth
D Dth
–Statistique :
Khi 2 = (A- Ath)
2
Ath
+
DDL = 1
(B- Bth)2
Bth
+(C- Cth)
2
Cth
+(D- Dth)
2
Dth
+
Khi 2 =[(A*D)-(B*C)] * N
2
(A+C) * (B+D) *(A+C) *(C+D)
Remarque : La première formulation permet de vérifier les conditions d’application : Ath ,Bth ,Cth ,Dth doivent être supérieurs à 5
6
Comparaison de deux pourcentages observés
• Utilisation du KHI2.– Décision :
• Valeur critique : table du Khi 2– Pour alpha = 0,05 Khi2 à 1 DLL = 3,84
Khi 2< Khi2 alpha
Il existe une différence statistiquement significative au seuil de risque alpha. On lit dans la table le seuil de significativité p
Khi 2 > Khi2 alpha
On accepte H0. Attention au risque Bêta
–
–
Remarque : les conditions d’applications sont discutées par les différents auteurs. On sera d’autant plus prudent qu’au moins un effectif théorique est proche de 5 et que le résultat est proche de la signification.
7
Comparaison de deux pourcentages observés
• Exemple : On dispose de 100 souris qui sont réparties par tirage au sort en deux groupes de 50 souris. Le premier groupe est soumis à la fumée de cigarettes et le second à celle de cigares. On observe un pourcentage de cancer de 20% dans le groupe cigarettes et de 12% des cas dans le groupe cigare. Cette différence est-elle significative au seuil de risque 5% ?
• Hypothèses– HO :
• La différence observée est due au hasard. Pa = 0,20 et Pb = 0,12 sont des estimateurs de Path et Pbthtel que Path = Pbth = P
– H1 : test bilatéral• Path # Pbth
• Récapitulatifs des données• Pa = 0,20 , Pb = 0,12
• Na = 50; Na+ = 50 * 0,2 = 10
• Nb = 50; Nb+ = 50* 0,12= 6• P = 0,16 = (10+6)/(50+50)
8
Comparaison de deux pourcentages observés
• Utilisation du KHI2.– Tableau des valeurs observées et
théoriques :Nombre de souris avec
cancer
Nombre de souris sans
cancer
Cigarettes10 40
50
Cigares6 44
50
16 84 1008
42
42
8
Tous les effectifs théoriques sont supérieurs à 5 => Les conditions d’application sont remplies
Khi 2 = (10- 8)
2
8+
DDL = 1
(6- 8)2
8+
(40- 42)2
42+
(44- 42)2
42+
•Khi 2 = 1,19 Khi 2 alpha 5% DDL 1 = 3,84 => La différence n’est pas significative au seuil de risque 5%
9
Comparaison de deux pourcentages observés
• Utilisation d’une variable normale centrée réduite : u ou epsilon. Test bilatéral ou unilatéral.– Sous H0 on aurait dû observer un
pourcentage théorique dont le meilleur estimateur est obtenu en regroupant les observations
• Soit les données :– Na = Effectif du groupe 1
– Na+ = Effectif présentant le caractère dans le groupe 1
– Nb = Effectif du groupe 2
– Nb+ = Effectif présentant le caractère dans le groupe 1
– Pa = Pa = P =
Na+
Nb
Nb+
Na
(Na+) + (Nb+)
Na + Nb
10
Comparaison de deux pourcentages observés
• u ou epsilon :u =
|Pa - Pb |
P * (1-P) P * (1-P)+
Na Nb
• u alpha est lu dans la table de l’epsilon.•u 5% = 1,96•Décision
•Si u > ualpha on rejette H0. Il existe une différence statistiquement significative. On cherche le degré de signification p•Si u < ualpha on ne peut pas rejeter H0. Attention au risque Beta.
•Remarque : le u est la racine carrée du khi 2 que l’on aurait pu calculer.
11
Comparaison de deux pourcentages observés
• Exemple : On dispose de 100 souris qui sont réparties par tirage au sort en deux groupes de 50 souris. Le premier groupe est soumis à la fumée de cigarettes et le second à celle de cigares. On observe un pourcentage de cancer de 20% dans le groupe cigarettes et de 12% des cas dans le groupe cigare. Cette différence est-elle significative au seuil de risque 5% ?
• Hypothèses– HO :
• La différence observée est due au hasard. Pa = 0,20 et Pb = 0,12 sont des estimateurs de Path et Pbthtel que Path = Pbth = P
– H1 : test bilatéral• Path # Pbth
• Récapitulatifs des données• Pa = 0,20 , Pb = 0,12
• Na = 50; Na+ = 50 * 0,2 = 10
• Nb = 50; Nb+ = 50* 0,12= 6• P = 0,16 = (10+6)/(50+50)
12
Comparaison de deux pourcentages observés
• u ou epsilon :u =
|0,20 -0,12|
0,16 * 0,84 +50 50
0,16 * 0,84
u = 1,091
• u 5% = 1,96
• => La différence n’est pas significative au seuil de risque 5%
• Remarque : 1,091 est la racine carrée de 1,19 valeur du khi 2 précédent.