Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à...
-
Upload
benezet-grandjean -
Category
Documents
-
view
105 -
download
1
Transcript of Statistique 51-601-02 Cours #2 et #3 Avons-nous des conditions gagnantes? Prise de décision à...
Statistique 51-601-02Statistique 51-601-02 Cours #2 et #3Cours #2 et #3
Avons-nous des conditions Avons-nous des conditions gagnantes?gagnantes?
Prise de décision à partir d’inférencePrise de décision à partir d’inférence
22
Bien souvent, une décision se prend à la suite Bien souvent, une décision se prend à la suite d’une analyse quantitative de certains d’une analyse quantitative de certains
paramètres.paramètres.
Exemples:Exemples: Deux concepts publicitaires vous sont proposés Deux concepts publicitaires vous sont proposés
pour lancer un nouveau produit. Vous choisirez pour lancer un nouveau produit. Vous choisirez celui qui obtiendra le meilleur score d’efficacité celui qui obtiendra le meilleur score d’efficacité dans votre marché cible.dans votre marché cible.
Si la résistance ou durabilité moyenne d’un Si la résistance ou durabilité moyenne d’un nouveau produit est significativement plus nouveau produit est significativement plus grande que celle du meilleur produit concurrent, grande que celle du meilleur produit concurrent, vous mettrez ce produit sur le marché.vous mettrez ce produit sur le marché.
Si les « conditions gagnantes » sont réunies et Si les « conditions gagnantes » sont réunies et que plus de 50% des Québécois votaient oui à que plus de 50% des Québécois votaient oui à un référendum sur la souveraineté, alors Bernard un référendum sur la souveraineté, alors Bernard Landry prendrait la décision d ’en faire un.Landry prendrait la décision d ’en faire un.
33
En général, les paramètres qui nous En général, les paramètres qui nous intéressent sont estimés à l ’aide d ’un intéressent sont estimés à l ’aide d ’un
échantillon et notre décision sera prise à la échantillon et notre décision sera prise à la suite d’un test d’hypothèse.suite d’un test d’hypothèse.
Exemple: Exemple: On demande à 1000 Québécois, On demande à 1000 Québécois, choisit au hasard et ayant le droit de choisit au hasard et ayant le droit de vote, s ’ ils voteraient oui, vote, s ’ ils voteraient oui, aujourd’hui, à un référendum sur la aujourd’hui, à un référendum sur la souveraineté du Québec.souveraineté du Québec.
44
Que fait Bernard Landry siQue fait Bernard Landry si::
432 électeurs votaient oui? 432 électeurs votaient oui? (432/1000 = 43,2%)(432/1000 = 43,2%) il ne fait définitivement pas un référendum.il ne fait définitivement pas un référendum.
517 électeurs votaient oui? 517 électeurs votaient oui? (517/1000 = 51,7%)(517/1000 = 51,7%) est-ce que 51,7 % est significativement plus grand que 50%?est-ce que 51,7 % est significativement plus grand que 50%?
612 électeurs votaient oui? 612 électeurs votaient oui? (612/1000 = 61,2%)(612/1000 = 61,2%) 61.2% est fort probablement significativement plus grand que 61.2% est fort probablement significativement plus grand que
50%. Donc il prend la décision de faire un référendum sur la 50%. Donc il prend la décision de faire un référendum sur la souveraineté du Québec.souveraineté du Québec.
55
Notions de base des tests Notions de base des tests d’hypothèsesd’hypothèses
Pour nous aider à prendre une décision (surtout Pour nous aider à prendre une décision (surtout dans le cas 2 de la diapositive précédente), nous dans le cas 2 de la diapositive précédente), nous essayerons de quantifier le terme essayerons de quantifier le terme «significativement différent », statistiquement «significativement différent », statistiquement parlant, en y associant une probabilité d’erreur. parlant, en y associant une probabilité d’erreur.
En d’autres termes, nous voulons savoir, à partir En d’autres termes, nous voulons savoir, à partir des résultats obtenus dans l ’échantillon, quelle est des résultats obtenus dans l ’échantillon, quelle est la probabilité que le Premier Ministre a de se la probabilité que le Premier Ministre a de se tromper en prenant la décision de faire un tromper en prenant la décision de faire un référendum sur la souveraineté.référendum sur la souveraineté.
66
Notions de base des tests Notions de base des tests d’hypothèses (suite)d’hypothèses (suite)
Si la probabilité de se tromper est petite Si la probabilité de se tromper est petite (disons inférieure à 5%, par exemple) alors (disons inférieure à 5%, par exemple) alors il prendra la décision de faire un il prendra la décision de faire un référendum sur la souveraineté bientôt. référendum sur la souveraineté bientôt.
Si cette probabilité est grande (disons Si cette probabilité est grande (disons supérieure à 5%, par exemple) alors il supérieure à 5%, par exemple) alors il attendra encore un certain temps pour attendra encore un certain temps pour avoir des « conditions gagnantes » et faire avoir des « conditions gagnantes » et faire un référendum .un référendum .
77
Notions de base des tests Notions de base des tests d’hypothèses (suite)d’hypothèses (suite)
• Il y a essentiellement deux possibilités:Il y a essentiellement deux possibilités: 50% ou moins des électeurs voteraient oui si un 50% ou moins des électeurs voteraient oui si un
référendum avait lieu aujourd’hui;référendum avait lieu aujourd’hui; plus de 50% des électeurs voteraient oui.plus de 50% des électeurs voteraient oui.
La première possibilité est appelée hypothèse La première possibilité est appelée hypothèse nulle (nulle (notée Hnotée H00).).
La deuxième possibilité est appelée la contre-La deuxième possibilité est appelée la contre-hypothèse (hypothèse (notée Hnotée H11).).
88
Notation:Notation:
Soit « p » la vraie proportion d’électeurs qui Soit « p » la vraie proportion d’électeurs qui voteraient oui à un référendum, alors on a les deux voteraient oui à un référendum, alors on a les deux possibilités suivantes:possibilités suivantes: HH00: p : p 50% vs 50% vs HH11: p > 50%: p > 50%
Règle générale, la contre-hypothèse est ce que l’on Règle générale, la contre-hypothèse est ce que l’on veut montrer « hors de tout doute raisonnable! » c.-veut montrer « hors de tout doute raisonnable! » c.-à-d. on veut que la probabilité de se tromper en à-d. on veut que la probabilité de se tromper en prenant la décision Hprenant la décision H11, à partir des résultats de , à partir des résultats de
l ’échantillon, soit petite.l ’échantillon, soit petite.
99
Les erreurs possibles lors d’une prise de Les erreurs possibles lors d’une prise de décision à partir d ’un échantillon:décision à partir d ’un échantillon:
Erreur de Type I:Erreur de Type I: Rejeter HRejeter H00 en faveur de H en faveur de H11 (c.-à-d. prendre la décision H (c.-à-d. prendre la décision H11) )
lorsque en réalité Hlorsque en réalité H00 est vraie. est vraie.
La probabilité d ’une erreur de Type I est la probabilité qu’on La probabilité d ’une erreur de Type I est la probabilité qu’on a d ’observer la « valeur » obtenue dans notre échantillon, a d ’observer la « valeur » obtenue dans notre échantillon, ou une valeur encore plus « éloignée » de Hou une valeur encore plus « éloignée » de H00 , si H , si H00 est est
vraie. Cette probabilité est souvent appelée «p-value » dans vraie. Cette probabilité est souvent appelée «p-value » dans le jargon statistique. le jargon statistique.
Erreur de Type II:Erreur de Type II: Ne pas rejeter HNe pas rejeter H00 en faveur de H en faveur de H11 lorsque en réalité H lorsque en réalité H11 est est
vraie.vraie.
1010
Est-ce que l’accusé est Est-ce que l’accusé est coupable ou non coupable?coupable ou non coupable?
Vérité
H0 non
coupable
H1 coupable
H0 non
coupable
Erreur de
Type II
Décision du jury H1
coupable
Erreur de
Type I
1111
Contrôle des erreurs de Type I et IIContrôle des erreurs de Type I et II
Étant donné les résultats obtenus dans Étant donné les résultats obtenus dans l ’échantillon, je calcule la probabilité de l ’échantillon, je calcule la probabilité de commettre une erreur de Type I (commettre une erreur de Type I (p-valuep-value).).
Si cette probabilité est relativement petite (Si cette probabilité est relativement petite (p-p-value value < 5% par exemple), alors on rejettera < 5% par exemple), alors on rejettera HH00 pour prendre la décision H pour prendre la décision H11. Sinon on ne . Sinon on ne
rejettera pas Hrejettera pas H00. .
1212
P-valueP-value Mesure la confiance que l’on a en HMesure la confiance que l’on a en H00
Une petite value de la p-value indique que vous Une petite value de la p-value indique que vous devriez être moins confiant en Hdevriez être moins confiant en H00
Combien la p-value doit-elle être petite pour Combien la p-value doit-elle être petite pour rejeter Hrejeter H00 en faveur de H en faveur de H11??
Cela dépend de vous…Cela dépend de vous…
1313
Contrôle des erreurs de Type I et II Contrôle des erreurs de Type I et II (suite)(suite)
Pour une erreur de Type I fixée à l’avance Pour une erreur de Type I fixée à l’avance (ex. 5%), on contrôle l’erreur de Type II avant (ex. 5%), on contrôle l’erreur de Type II avant de mener l ’étude à l’aide de la taille de de mener l ’étude à l’aide de la taille de l’échantillon.l’échantillon.
On définit la puissance d’un test d’hypothèse On définit la puissance d’un test d’hypothèse comme la quantité:comme la quantité:((1- probabilité de commettre une erreur de Type II).1- probabilité de commettre une erreur de Type II).
1414
Dans les prochaines minutes, nous Dans les prochaines minutes, nous verrons cinq tests statistiques de base:verrons cinq tests statistiques de base:
1.1. test sur une proportiontest sur une proportion2.2. test sur une moyennetest sur une moyenne3.3. test sur la différence entre deux test sur la différence entre deux
proportionsproportions4.4. test sur la différence entre deux test sur la différence entre deux
moyennes pour deux échantillons moyennes pour deux échantillons indépendantsindépendants
5.5. test sur la différence entre deux test sur la différence entre deux moyennes pour un même échantillon moyennes pour un même échantillon
1515
1.1. Test sur une proportion:Test sur une proportion:
Exemple: Exemple:
Il y a deux ans, une entreprise a mis sur Il y a deux ans, une entreprise a mis sur le marché un nouveau produit. La le marché un nouveau produit. La direction de l’entreprise envisage direction de l’entreprise envisage d’augmenter les dépenses publicitaires d’augmenter les dépenses publicitaires pour ce produit si moins de 70% de la pour ce produit si moins de 70% de la population connaît le produit. population connaît le produit.
1616
Quelles sont les hypothèses possibles que Quelles sont les hypothèses possibles que nous voulons confronter?nous voulons confronter?
Soit « p » la vraie proportion d’individus dans la Soit « p » la vraie proportion d’individus dans la population qui connaissent le produit et « ppopulation qui connaissent le produit et « p0 0 » la » la valeur qui correspond à notre hypothèse ou prise de valeur qui correspond à notre hypothèse ou prise de décision (pdécision (p0 0 = 70% dans l’exemple précédent). On a = 70% dans l’exemple précédent). On a le choix entre:le choix entre:
HH00 : p : p p p00 vs H vs H11 : p > p : p > p00 (test unilatéral à droite)(test unilatéral à droite)
HH00 : p : p p p00 vs H vs H11 : p < p : p < p00 (test unilatéral à gauche)(test unilatéral à gauche)
HH00 : p = p : p = p00 vs H vs H11 : p : p p p00 (test bilatéral)(test bilatéral)
1717
Procédure :Procédure :
On prélève un échantillon de On prélève un échantillon de nn individus dans la individus dans la population cible, et on calcule la proportion d’individus population cible, et on calcule la proportion d’individus qui connaissent le produit.qui connaissent le produit.
On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si on a , si on a
suffisamment de preuve contre celle-ci, c.-à-d. suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la contre-suffisamment d’évidence en faveur de la contre-hypothèse Hhypothèse H11, c.-à-d. p-value < , c.-à-d. p-value < . .
1818
La statistique du test est donné par:La statistique du test est donné par:
Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie et que la taille de est vraie et que la taille de l’échantillon est grande, la statistique l’échantillon est grande, la statistique zz suivra suivra approximativement une loi normale avec moyenne approximativement une loi normale avec moyenne 0 et variance 1 [ notée N(0,1) ].0 et variance 1 [ notée N(0,1) ].
1919
Afin de prendre une décision, on calcule le seuil Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de expérimental (p-value), c.-à-d. la probabilité de
commettre une erreur de Type I.commettre une erreur de Type I.
Test unilatéral à droite:Test unilatéral à droite: p-value = Prob[N(0,1) > z]p-value = Prob[N(0,1) > z]
Test unilatéral à gauche:Test unilatéral à gauche: p-value = Prob[N(0,1) < z]p-value = Prob[N(0,1) < z]
Test bilatéral:Test bilatéral: p-value = 2 x Prob[N(0,1) > |z|]p-value = 2 x Prob[N(0,1) > |z|]
Pur le calculs nous utiliserons Pur le calculs nous utiliserons proportion-1t.proportion-1t.xlsxls
2020
L’entreprise commande une enquête L’entreprise commande une enquête téléphonique auprès de 500 personnes faisant téléphonique auprès de 500 personnes faisant
partie de la population cible.partie de la population cible. 372 individus répondent qu’ils connaissent le 372 individus répondent qu’ils connaissent le
produit (372/500 = 74,4%). produit (372/500 = 74,4%). HH00: p = 70% vs : p = 70% vs HH11: p : p 70% 70%
p-valuep-value = 2xProb[N(0,1) > |2,147|] = = 2xProb[N(0,1) > |2,147|] = 0,0317930,031793
On rejettera HOn rejettera H00 au niveau 5%. au niveau 5%.De plus, puisque 74.4% > 70%, on prendra De plus, puisque 74.4% > 70%, on prendra
la décision de réduire le budget publicitaire la décision de réduire le budget publicitaire pour ce produit.pour ce produit.
2121
Correspondance entre le test bilatéral et Correspondance entre le test bilatéral et l ’intervalle de confiance:l ’intervalle de confiance:
Intervalle de confiance au niveau 95% pour Intervalle de confiance au niveau 95% pour la proportion la proportion d’individus dans la population qui connaissent le produit :d’individus dans la population qui connaissent le produit :
I.C. au niveau 95% : (0,706 ; 0,782)I.C. au niveau 95% : (0,706 ; 0,782) Puisque l ’intervalle de confiance au niveau 95% ne contient Puisque l ’intervalle de confiance au niveau 95% ne contient
pas la valeur pas la valeur pp0 0 = 70% , on rejettera H= 70% , on rejettera H00 au niveau 5%. au niveau 5%.
En affirmant que la vraie proportion des gens qui En affirmant que la vraie proportion des gens qui connaissent le produit se situe entre 70,6% et 78,2%, on a connaissent le produit se situe entre 70,6% et 78,2%, on a seulement 5% de chance de se tromper.seulement 5% de chance de se tromper.
2222
Exemple des intentions de vote:Exemple des intentions de vote:
On demande à 1000 Québécois, choisit au hasard et ayant le On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 517 électeurs sur la souveraineté. Dans l ’échantillon, 517 électeurs répondent qu’ils voteraient oui.répondent qu’ils voteraient oui. HH00: p : p 50% vs 50% vs HH11: p > 50%: p > 50%
p-value = 0.1411p-value = 0.1411 On ne rejettera pas HOn ne rejettera pas H00 au niveau 5% au niveau 5% Bernard Landry ne fera pas de référendum prochainementBernard Landry ne fera pas de référendum prochainement
2323
Exemple des intentions de vote:Exemple des intentions de vote:
On demande à 1000 Québécois, choisit au hasard et ayant le On demande à 1000 Québécois, choisit au hasard et ayant le droit de vote, s ’ils voteraient oui aujourd’hui à un référendum droit de vote, s ’ils voteraient oui aujourd’hui à un référendum sur la souveraineté. Dans l ’échantillon, 612 électeurs sur la souveraineté. Dans l ’échantillon, 612 électeurs répondent qu’ils voteraient oui.répondent qu’ils voteraient oui. HH00: p : p 50% vs 50% vs HH11: p > 50%: p > 50%
p-value = p-value = 7.08E-137.08E-13 On rejettera HOn rejettera H00 au niveau 5% au niveau 5% Bernard Landry ferait un référendum prochainement.Bernard Landry ferait un référendum prochainement.
2424
Test vs intervalle de confianceTest vs intervalle de confiance
Tester HTester H00 : p = p : p = p0 0 vs H vs H1 1 : p : p p p0 0 revient à revient à
construire un intervalle de confiance pour construire un intervalle de confiance pour pp00. .
On rejette HOn rejette H00 si p si p00 n’est pas dans n’est pas dans
l’intervalle.l’intervalle.
2525
2.2. Test sur une moyenneTest sur une moyenne Exemple:Exemple:Vous êtes en charge du département qui fabrique Vous êtes en charge du département qui fabrique et met en sac de 170 grammes la marque de chips et met en sac de 170 grammes la marque de chips Lay’s. Pour vérifier si le procédé de remplissage Lay’s. Pour vérifier si le procédé de remplissage se maintient à 170 grammes, en moyenne, chaque se maintient à 170 grammes, en moyenne, chaque jour un de vos employés est responsable de jour un de vos employés est responsable de prélever un échantillon aléatoire de 100 sacs et le prélever un échantillon aléatoire de 100 sacs et le poids moyen de l ’échantillon est calculé. Le poids moyen de l ’échantillon est calculé. Le procédé de remplissage sera arrêté si le poids procédé de remplissage sera arrêté si le poids moyen est significativement différent de 170 moyen est significativement différent de 170 grammes.grammes.
2626
Quelles sont les hypothèses possibles Quelles sont les hypothèses possibles que nous voulons confronter?que nous voulons confronter?
Soit « Soit « » la vraie moyenne d ’une caractéristique dans la population. Cette » la vraie moyenne d ’une caractéristique dans la population. Cette moyenne est inconnue, de même que la variance moyenne est inconnue, de même que la variance 22. Soit « . Soit « 0 0 » la valeur de » la valeur de
la moyenne qui correspond à notre hypothèse ou prise de décision ( la moyenne qui correspond à notre hypothèse ou prise de décision ( 0 0 = =
170g dans l’exemple précédent). On a le choix entre:170g dans l’exemple précédent). On a le choix entre:
HH00 : : 00 vs H vs H11 : : > > 00 (test unilatéral à droite)(test unilatéral à droite)
HH00 : : 00 vs H vs H11 : : < < 00 (test unilatéral à gauche)(test unilatéral à gauche)
HH00 : : = = 00 vs H vs H11 : : 00 (test bilatéral)(test bilatéral)
2727
Procédure:Procédure:
On prélève un échantillon de taille On prélève un échantillon de taille nn dans la dans la population cible et on calcule la moyenne et population cible et on calcule la moyenne et l’écart type l’écart type s.s.
On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si , si on a suffisamment de preuve contre celle-ci, c.-à-on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la la d. suffisamment d’évidence en faveur de la la contre-hypothèse Hcontre-hypothèse H11, c.-à-d. p-value < , c.-à-d. p-value < . .
2828
La statistique du test est donné par:La statistique du test est donné par:
Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie, la est vraie, la statistique statistique tt suivra une loi de Student suivra une loi de Student avec avec n-1n-1 degrés de liberté [ notée degrés de liberté [ notée t(n-t(n-1)1) ]. ].
2929
Afin de prendre une décision, on calcule le seuil Afin de prendre une décision, on calcule le seuil expérimental (p-value), c.-à-d. la probabilité de expérimental (p-value), c.-à-d. la probabilité de
commettre une erreur de Type I.commettre une erreur de Type I.
Test unilatéral à droite:Test unilatéral à droite: p-value=Prob[ p-value=Prob[ t(n-1)t(n-1) > t ] > t ]
Test unilatéral à gauche:Test unilatéral à gauche: p-value=Prob[ p-value=Prob[ t(n-1)t(n-1) < t ] < t ]
Test bilatéral:Test bilatéral:
p-value= 2 x Prob[ p-value= 2 x Prob[ t(n-1)t(n-1) > |t| ] > |t| ]
Intervalle de confiance pour Intervalle de confiance pour au niveau (1- au niveau (1-))
Nous calculerons la p-value avec Nous calculerons la p-value avec moyenne-1t.moyenne-1t.xlsxls
3030
ExempleExemple:: La moyenne de l’échantillon de 100 sacs de chips est La moyenne de l’échantillon de 100 sacs de chips est
de 169,9 grammes et l’écart type de 169,9 grammes et l’écart type ss =0,27. =0,27.HH00: : = 170g vs = 170g vs HH11: : 170g 170g
p-value = 0,0003p-value = 0,0003On rejettera HOn rejettera H00 ici sans avoir peur de se tromper! ici sans avoir peur de se tromper!
Intervalle de confiance pour Intervalle de confiance pour au niveau 95%: au niveau 95%: [169,846 ; 169,953][169,846 ; 169,953]L ’intervalle ne contient pas la valeur 170 L ’intervalle ne contient pas la valeur 170 on on rejette Hrejette H00 au niveau 5% au niveau 5%
3131
Si la moyenne de l’échantillon de 100 sacs de chips est Si la moyenne de l’échantillon de 100 sacs de chips est de 170.011 grammes et l’écart type de 170.011 grammes et l’écart type ss = 0,27. = 0,27.HH00: : = 170g vs = 170g vs HH11: : 170g 170g
p-value = 0,69p-value = 0,69On ne rejettera pas HOn ne rejettera pas H00
Intervalle de confiance pour Intervalle de confiance pour au niveau 95%: au niveau 95%: [169,957 ; 170,064][169,957 ; 170,064]
L’intervalle contient la valeur 170 L’intervalle contient la valeur 170 on ne rejette pas on ne rejette pas H H00 au niveau 5% au niveau 5%
3232
Test vs intervalle de confianceTest vs intervalle de confiance
Tester HTester H00 : : vs H vs H1 1 : : revient revient
à construire un intervalle de confiance à construire un intervalle de confiance pour pour
On rejette HOn rejette H00 si si n’est pas dans n’est pas dans
l’intervalle.l’intervalle.
3333
Étude de casÉtude de cas
Le salaire annuel moyen d'un groupe de Le salaire annuel moyen d'un groupe de travailleurs d'une ville est de 45000$. Lors de travailleurs d'une ville est de 45000$. Lors de la négociation d'une nouvelle convention la négociation d'une nouvelle convention collective, vous affirmez que votre groupe collective, vous affirmez que votre groupe d'employés est moins bien payé que dans les d'employés est moins bien payé que dans les autres villes. autres villes.
On décide alors de tester cette hypothèse. Si On décide alors de tester cette hypothèse. Si vous avez raison, en prenant un risque de 5%, vous avez raison, en prenant un risque de 5%, la ville fera en sorte que vous ne soyez plus la ville fera en sorte que vous ne soyez plus sous-payés. sous-payés.
3434
Étude de cas (suite)Étude de cas (suite)
On choisit au hasard 50 villes comparables et on note On choisit au hasard 50 villes comparables et on note pour chacune le salaire annuel moyen. La moyenne pour chacune le salaire annuel moyen. La moyenne des résultats est de 50000$, et l'écart type des salaires des résultats est de 50000$, et l'écart type des salaires est de 16000$.est de 16000$.
a)a) Quelle est la probabilité critique?Quelle est la probabilité critique? b)b) Quelle est votre conclusion?Quelle est votre conclusion? c)c) L La ville vous propose d'augmenter le salaire annuel a ville vous propose d'augmenter le salaire annuel
moyen à 46500$. Le négociateur a-t-il respecté sa moyen à 46500$. Le négociateur a-t-il respecté sa promesse?promesse?
3535
3.3. Test sur la différence entre deux Test sur la différence entre deux proportionsproportions
Exemple:Exemple:Dans deux municipalités avoisinantes, on a Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion effectué un sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des déchets. Si site pour l ’enfouissement des déchets. Si une municipalité a une proportion de une municipalité a une proportion de contribuables en faveur significativement contribuables en faveur significativement plus élevée que dans l ’autre municipalité, plus élevée que dans l ’autre municipalité, alors le site sera fort probablement aménagé alors le site sera fort probablement aménagé dans cette municipalité.dans cette municipalité.
3636
Quelles sont les hypothèses possibles Quelles sont les hypothèses possibles que nous voulons confronter?que nous voulons confronter?
Soit « pSoit « p11 » la vraie proportion d’individus en faveur dans » la vraie proportion d’individus en faveur dans
la population 1 et « pla population 1 et « p22 » la vraie proportion d’individus en » la vraie proportion d’individus en
faveur dans la population 2. On a le choix entre:faveur dans la population 2. On a le choix entre:
HH00 : p : p11 p p22 vs H vs H11 : p : p11 > p > p22 (test unilatéral)(test unilatéral)
HH00 : p : p11 p p22 vs H vs H11 : p : p11 < p < p22 (test unilatéral)(test unilatéral)
HH00 : p : p11 = p = p22 vs H vs H11 : p : p11 p p22 (test bilatéral)(test bilatéral)
3737
On prélève un échantillon aléatoire de taille On prélève un échantillon aléatoire de taille nn11 dans la population 1 et de taille dans la population 1 et de taille nn22 dans la dans la
population 2. population 2.
On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si , si on a suffisamment de preuve contre celle-ci, c.-on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la à-d. suffisamment d’évidence en faveur de la contre-hypothèse Hcontre-hypothèse H11, c.-à-d. p-value < , c.-à-d. p-value < ..
La statistique du test est donné par:La statistique du test est donné par:
3838
oùoù
Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie et que les tailles des est vraie et que les tailles des
deux échantillons sont suffisamment grandes, la deux échantillons sont suffisamment grandes, la statistique du test statistique du test zz suivra approximativement une loi suivra approximativement une loi normale avec moyenne 0 et variance 1.normale avec moyenne 0 et variance 1.
Ceci nous sert à calculer le « Ceci nous sert à calculer le « p-valuep-value » afin de » afin de prendre notre décision.prendre notre décision.
3939
Un échantillon de 150 individus ont répondu au Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en sondage dans la municipalité 1 et 84 étaient en faveur (56%) tandis que 124 individus ont répondu faveur (56%) tandis que 124 individus ont répondu dans la municipalité 2 et 62 étaient en faveur dans la municipalité 2 et 62 étaient en faveur (50%).(50%).
HH00 : p : p11 = p = p22 vs H vs H11 : p : p11 p p22 (test bilatéral)(test bilatéral)
p-value = 2xProb[N(0,1) > |0,99|]p-value = 2xProb[N(0,1) > |0,99|] = = 0,3220,322On ne rejettera pas HOn ne rejettera pas H00 au niveau 5% au niveau 5%
4040
4.4. Test sur la différence entre Test sur la différence entre deux moyennesdeux moyennes
Exemple:Exemple:
Un nouveau procédé technique a été Un nouveau procédé technique a été recommandé par une firme de consultants recommandé par une firme de consultants pour réduire le niveau de pollution de l ’air pour réduire le niveau de pollution de l ’air dans l ’environnement d ’une usine. dans l ’environnement d ’une usine. L ’objectif est de réduire le taux de L ’objectif est de réduire le taux de monoxide de carbone dans l ’air. Des monoxide de carbone dans l ’air. Des essais indépendants ont été effectués avec essais indépendants ont été effectués avec le procédé actuel et le nouveau produit.le procédé actuel et le nouveau produit.
4141
Quelles sont les hypothèses possibles Quelles sont les hypothèses possibles que nous voulons confronter?que nous voulons confronter?
Soit « Soit « 11 » la vraie moyenne de la caractéristique dans la » la vraie moyenne de la caractéristique dans la
population 1 et « population 1 et « 22 » la vraie moyenne de la » la vraie moyenne de la
caractéristique dans la population 2. On a le choix entre:caractéristique dans la population 2. On a le choix entre:
HH00 : : 11 22 vs H vs H11 : : 11 > > 22 (test unilatéral)(test unilatéral)
HH00 : : 11 22 vs H vs H11 : : 11 < < 22 (test unilatéral)(test unilatéral)
HH00 : : 11 = = 22 vs H vs H11 : : 11 22 (test bilatéral)(test bilatéral)
4242
On prélève un échantillon aléatoire de taille On prélève un échantillon aléatoire de taille nn11 dans la population 1 et , de taille dans la population 1 et , de taille nn22 dans dans
la population 2. la population 2.
On rejettera l’hypothèse nulle HOn rejettera l’hypothèse nulle H00, au niveau , au niveau , si , si on a suffisamment de preuve contre celle-ci, c.-on a suffisamment de preuve contre celle-ci, c.-à-d. suffisamment d’évidence en faveur de la à-d. suffisamment d’évidence en faveur de la contre-hypothèse Hcontre-hypothèse H11, c.-à-d. , c.-à-d. p-valuep-value < < . .
1) 1) Cas où les variances des 2 populations sont Cas où les variances des 2 populations sont égaleségales
La statistique du test est donné par:La statistique du test est donné par:
4343
2) 2) Cas où les variances des 2 Cas où les variances des 2 populations sont inégalespopulations sont inégales
La statistique du test est donné par:La statistique du test est donné par:
Si l’hypothèse nulle HSi l’hypothèse nulle H00 est vraie, la est vraie, la statistique du test statistique du test tt suivra une loi de suivra une loi de Student. Student.
Ceci nous sert à calculer le « Ceci nous sert à calculer le « p-valuep-value » afin » afin de prendre notre décision.de prendre notre décision.
4444
La firme de consultants a fait 48 essais avec le procédé actuel et 55 avec le nouveau produit. Voici les résultats:
1) Test pour l ’égalité des variances:
Le p-value pour le test bilatéral d ’égalité des variances est égal à 2x0,000049 = 0,000098 => on rejette l ’hypothèse d ’égalité des variances.
4545
2) Test pour l ’égalité des moyennes lorsque les variances sont inégales:
H0 : actuel nouveau vs H1 : actuel > nouveau
4646
5.5. Test sur la différence de deux Test sur la différence de deux moyennes pour un même échantillonmoyennes pour un même échantillon
Exemple:Exemple:La directrice des ressources humaines d ’une entreprise veut La directrice des ressources humaines d ’une entreprise veut suggérer à la direction de mettre en œuvre un programme suggérer à la direction de mettre en œuvre un programme spécial d ’apprentissage pour les employés affectés au spécial d ’apprentissage pour les employés affectés au département d ’assemblage. Pour évaluer l ’efficacité de ce département d ’assemblage. Pour évaluer l ’efficacité de ce programme d ’une durée de 3 semaines, on a choisit au programme d ’une durée de 3 semaines, on a choisit au hasard 15 employés et on a observé le nombre de pièces hasard 15 employés et on a observé le nombre de pièces assemblées durant une certaine période de temps. Par la assemblées durant une certaine période de temps. Par la suite, ces 15 employés ont suivi le programme suite, ces 15 employés ont suivi le programme d ’apprentissage et on a observé à nouveau le nombre de d ’apprentissage et on a observé à nouveau le nombre de pièces assemblées durant la même période de temps.pièces assemblées durant la même période de temps.
4747
Les résultats obtenus se présentent comme suit (Les résultats obtenus se présentent comme suit (hrhr..xlsxls) ) ::
individu avant après différenceindividu avant après différence
1 15 17 2 2 13 16 3 3 8 10 2 4 9 9 0 5 7 9 2 6 12 13 1 7 11 14 3 8 12 15 3 9 11 14 3 10 9 11 2 11 10 14 4 12 12 11 -1 13 11 13 2 14 7 10 3 15 12 13 1
4848
Les résultats de l ’analyse statistique à l ’aide de Les résultats de l ’analyse statistique à l ’aide de Excel se présentent comme suit:Excel se présentent comme suit:
4949
Donc, la productivité moyenne est significativement supérieure après le programme. Si les coûts du programme d’apprentissage sont moindres que les gains en productivité, alors on adoptera le programme.
Ce test est équivalent au test sur une moyenne pourla variable différence entre après et avant:
X-bar Mu0 n s Statistique t p-value Niveau de IC: borne inf. IC: borne sup.test bilatéral confiance
2 0 15 1,309 5,917 0,0000 95,0% 1,3 2,7p-value
pour H1: Mu > Mu0
0,0000p-value
pour H1: Mu < Mu0
1,0000
Test T pour une moyenne (sigma inconnu)
Analyse de données Analyse de données qualitativesqualitatives
5151
Exemple:Exemple:
Une étude a été effectuée par le département des ressources humaines d’une grande entreprise multinationale sur le niveau de satisfaction des employés par rapport à leur emploi.
Un total de 527 employés ont participé à cet étude.
5252
Voici, sous forme de tableau, les résultats Voici, sous forme de tableau, les résultats obtenus:obtenus:
EMPLOI(emploi) SATIS(satisfaction)
Fréquence |non |satisfait| Total |satisfait| |---------------------------------------------professionnel/ | 17 | 62 | 79cadre | | |---------------------------------------------col blanc | 50 | 112 | 162---------------------------------------------col bleu | 99 | 187 | 286---------------------------------------------Total | 166 | 361 | 527
5353
Question:Question: est-ce qu’il y a un lien entre le est-ce qu’il y a un lien entre le type d’emploi et la satisfaction dans cette type d’emploi et la satisfaction dans cette
entreprise?entreprise?
La variable «La variable « type d ’emploi type d ’emploi » est une » est une variable qualitative à trois niveaux c.-à-d. à variable qualitative à trois niveaux c.-à-d. à trois catégories.trois catégories.
La variable « La variable « satisfactionsatisfaction » est également » est également qualitative dans cet exemple et à deux qualitative dans cet exemple et à deux niveaux.niveaux.
5454
Il est plus facile de répondre à la question, de Il est plus facile de répondre à la question, de façon descriptive, avec des pourcentages:façon descriptive, avec des pourcentages:
EMPLOI(emploi) SATIS(satisfaction)
Fréquence |% |% ligne |% colonne |non |satisfait| Total |satisfait| |---------------------------------------------professionnel/ | 17 | 62 | 79cadre | 3.23 | 11.76 | 14.99 | 21.52 | 78.48 | | 10.24 | 17.17 |---------------------------------------------col blanc | 50 | 112 | 162 | 9.49 | 21.25 | 30.74 | 30.86 | 69.14 | | 30.12 | 31.02 |---------------------------------------------col bleu | 99 | 187 | 286 | 18.79 | 35.48 | 54.27 | 34.62 | 65.38 | | 59.64 | 51.80 |---------------------------------------------Total | 166 | 361 | 527 | 31.50 | 68.50 | 100.00
5555
Les tableaux croisés permettent:Les tableaux croisés permettent:
de synthétiser et présenter l’informationde synthétiser et présenter l’information de décrire la présence ou l’absence de lien entre de décrire la présence ou l’absence de lien entre
deux variables qualitatives (nominales et/ou deux variables qualitatives (nominales et/ou ordinales)ordinales)
de vérifier, à l’aide d’un test d’hypothèse, s’il de vérifier, à l’aide d’un test d’hypothèse, s’il existe un lien statistiquement significatif entre existe un lien statistiquement significatif entre deux variables qualitativesdeux variables qualitatives
5656
Les deux hypothèses possibles que l’on veut Les deux hypothèses possibles que l’on veut confronter sont:confronter sont:
H0: Il n ’y a pas de lien entre les deux variables qualitatives c.-à-d. les deux variables sont indépendantes
H1: Il y a un lien entre les deux variables qualitatives c.-à-d. les deux variables sont dépendantes
Lorsque les deux variables sont indépendantes, la distribution des pourcentages des catégories d’une variable est identique (semblable) pour chaque catégorie de l’autre variable.
5757
Pour illustrer le concept du test d’indépendance entre deux variables Pour illustrer le concept du test d’indépendance entre deux variables qualitatives, reprenons notre exemple et supposons que nous avons les qualitatives, reprenons notre exemple et supposons que nous avons les
effectifs suivants afin de faciliter les calculs:effectifs suivants afin de faciliter les calculs:
EMPLOI(emploi) SATIS(satisfaction)
Fréquence |non |satisfait| Total |satisfait| |---------------------------------------------professionnel/ | 0 | 100 | 100cadre | | |---------------------------------------------col blanc | 100 | 200 | 300---------------------------------------------col bleu | 300 | 300 | 600---------------------------------------------Total | 400 | 600 | 1000
5858
La distribution des pourcentages est:La distribution des pourcentages est:EMPLOI(emploi) SATIS(satisfaction)
Fréquence ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 0 ‚ 100 ‚ 100cadre ‚ 0.00 ‚ 10.00 ‚ 10.00 ‚ 0.00 ‚ 100.00 ‚ ‚ 0.00 ‚ 16.67 ‚---------------------------------------------col blanc ‚ 100 ‚ 200 ‚ 300 ‚ 10.00 ‚ 20.00 ‚ 30.00 ‚ 33.33 ‚ 66.67 ‚ ‚ 25.00 ‚ 33.33 ‚---------------------------------------------col bleu ‚ 300 ‚ 300 ‚ 600 ‚ 30.00 ‚ 30.00 ‚ 60.00 ‚ 50.00 ‚ 50.00 ‚ ‚ 75.00 ‚ 50.00 ‚---------------------------------------------Total 400 600 1000 40.00 60.00 100.00
5959
Dans le tableau précédent, les deux variables Dans le tableau précédent, les deux variables sont dépendantes car:sont dépendantes car:
pour chaque type d’emploi, la distribution de la pour chaque type d’emploi, la distribution de la satisfaction des employés est différente. En effet, 100% satisfaction des employés est différente. En effet, 100% des professionnels/cadres sont satisfaits des professionnels/cadres sont satisfaits comparativement à 67% pour les cols blancs et comparativement à 67% pour les cols blancs et seulement 50% pour les cols bleus (% ligne);seulement 50% pour les cols bleus (% ligne);
ou bien, pour chaque catégorie de satisfaction, la ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est différente. En effet, chez distribution du type d’emploi est différente. En effet, chez les non satisfaits, 0% sont professionnels/cadres, 25% col les non satisfaits, 0% sont professionnels/cadres, 25% col blanc et 75% col bleu, comparativement à 17%, 33% et blanc et 75% col bleu, comparativement à 17%, 33% et 50% respectivement chez les satisfaits (% colonne).50% respectivement chez les satisfaits (% colonne).
6060
Dans le cas où les deux variables seraient complètement indépendantes, Dans le cas où les deux variables seraient complètement indépendantes, nous aurions les fréquences suivantes dans les cellules du tableau nous aurions les fréquences suivantes dans les cellules du tableau
(remarque: les totaux pour les lignes et les colonnes sont inchangés):(remarque: les totaux pour les lignes et les colonnes sont inchangés):
EMPLOI(emploi) SATIS(satisfaction)
Fréquence |non |satisfait| Total |satisfait| |----------------------------------------------professionnel/ | 40 | 60 | 100cadre | | |----------------------------------------------col blanc | 120 | 180 | 300----------------------------------------------col bleu | 240 | 360 | 600----------------------------------------------Total | 400 | 600 | 1000
6161
La distribution des pourcentages est:La distribution des pourcentages est:
EMPLOI(emploi) SATIS(satisfaction)
Fréquence ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 40 ‚ 60 ‚ 100cadre ‚ 4.00 ‚ 6.00 ‚ 10.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 10.00 ‚ 10.00 ‚---------------------------------------------col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 12.00 ‚ 18.00 ‚ 30.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 30.00 ‚ 30.00 ‚---------------------------------------------col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 24.00 ‚ 36.00 ‚ 60.00 ‚ 40.00 ‚ 60.00 ‚ ‚ 60.00 ‚ 60.00 ‚---------------------------------------------Total 400 600 1000 40.00 60.00 100.00
6262
Dans le tableau précédent, les deux variables Dans le tableau précédent, les deux variables sont indépendantes car:sont indépendantes car:
pour chaque type d’emploi, la distribution de la pour chaque type d’emploi, la distribution de la satisfaction des employés est la même, c.-à-d. satisfaction des employés est la même, c.-à-d. 60% des employés sont satisfaits et 40% sont 60% des employés sont satisfaits et 40% sont non satisfaits (% ligne).non satisfaits (% ligne).
ou bien, pour chaque catégorie de satisfaction, ou bien, pour chaque catégorie de satisfaction, la distribution du type d’emploi est la même, c.-la distribution du type d’emploi est la même, c.-à-d. 10% sont professionnel/cadre, 30% col à-d. 10% sont professionnel/cadre, 30% col blanc et 60% col bleu (% colonne).blanc et 60% col bleu (% colonne).
6363
Les cellules ij du tableau précédent sont Les cellules ij du tableau précédent sont composées de fréquences « théoriques », c.-à-d. composées de fréquences « théoriques », c.-à-d. les fréquences qu’on devrait avoir si les deux les fréquences qu’on devrait avoir si les deux variables étaient parfaitement indépendantes.variables étaient parfaitement indépendantes.
Si l’hypothèse d ’indépendance est vraie, les Si l’hypothèse d ’indépendance est vraie, les fréquences théoriques pour chaque cellule du fréquences théoriques pour chaque cellule du tableau croisé sont trouvées comme suit:tableau croisé sont trouvées comme suit:
ffthéothéo cellule ij = (total rangée i) x (total colonne j) / totalcellule ij = (total rangée i) x (total colonne j) / total
6464
Tester l’indépendance entre deux variables Tester l’indépendance entre deux variables qualitatives revient à tester la différence entre qualitatives revient à tester la différence entre les fréquences observées et les fréquences les fréquences observées et les fréquences théoriques.théoriques.
Si les deux variables sont indépendantes, les Si les deux variables sont indépendantes, les fréquences observées devraient être proche fréquences observées devraient être proche des fréquences théoriques.des fréquences théoriques.
La statistique du test est donnée par:La statistique du test est donnée par:
22obs obs = somme [(f= somme [(fobsobs-f-fthéothéo))22/f/fthéothéo]]
6565
On rejettera l’hypothèse d’indépendance si la valeur de la On rejettera l’hypothèse d’indépendance si la valeur de la statistique statistique 22
obs obs est grande. est grande.
Le calcul du seuil expérimental (p-value) se fait à l’aide de Le calcul du seuil expérimental (p-value) se fait à l’aide de la loi de probabilité du khi-deux avec le nombre de degrés la loi de probabilité du khi-deux avec le nombre de degrés de liberté donné par (#lignes-1)x(#colonnes-1) de liberté donné par (#lignes-1)x(#colonnes-1) dans le tableau croisé.dans le tableau croisé.
Remarque: ce test est valide seulement pour les grands Remarque: ce test est valide seulement pour les grands échantillons, c.-à-d. lorsque toutes les fréquences échantillons, c.-à-d. lorsque toutes les fréquences théoriques sont théoriques sont 5 (ou presque). 5 (ou presque).
On peut démontrer que 0 On peut démontrer que 0 22obs obs n(m-1), où n(m-1), où
m=minimum (# lignes, # colonnes).m=minimum (# lignes, # colonnes).
6666
La valeur de la statistique La valeur de la statistique 22obs obs vaut 0 lorsque les deux variables vaut 0 lorsque les deux variables
sont parfaitement indépendantes. Elle atteint sa borne supérieure sont parfaitement indépendantes. Elle atteint sa borne supérieure lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.lorsqu’une dépendance fonctionnelle lie une des variables à l’autre.
Le coefficient de Cramer se définit à partir de la statistique Le coefficient de Cramer se définit à partir de la statistique 22obs obs et et
sert à mesurer l’intensité du lien de dépendance entre deux sert à mesurer l’intensité du lien de dépendance entre deux variables qualitatives dans un tableau de contingence (croisé). variables qualitatives dans un tableau de contingence (croisé).
Coefficient de Cramer:Coefficient de Cramer:
Si les deux variables sont indépendantes, V= 0 ; si une des Si les deux variables sont indépendantes, V= 0 ; si une des variables dépend fonctionnellement de l ’autre, V= 1.variables dépend fonctionnellement de l ’autre, V= 1.
6767
Exemple: dépendance (lien fonctionnel)
EMPLOI(emploi) SATIS(satisfaction) Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 0 ‚ 100 ‚ 100 cadre ‚ 0.00 ‚ 100.00 ‚ --------------------------------------------- col blanc ‚ 0 ‚ 300 ‚ 300 ‚ 0.00 ‚ 100.00 ‚ --------------------------------------------- col bleu ‚ 600 ‚ 0 ‚ 600 ‚ 100.00 ‚ 0.00 ‚ --------------------------------------------- Total 600 400 1000
Statistique DL Valeur P-value ------------------------------------------------ Khi-deux 2 1000.000 0.000
6868
Exemple: indépendance EMPLOI(emploi) SATIS(satisfaction)
Fréquence ‚non ‚satisfait‚ Total % ligne ‚satisfait‚ ‚ --------------------------------------------- professionnel/ ‚ 40 ‚ 60 ‚ 100 cadre ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- col blanc ‚ 120 ‚ 180 ‚ 300 ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- col bleu ‚ 240 ‚ 360 ‚ 600 ‚ 40.00 ‚ 60.00 ‚ --------------------------------------------- Total 400 600 1000
Statistique DL Valeur P-value --------------------------------------------------- Khi-deux 2 0.000 1.000
6969
Exemple:
EMPLOI(emploi) SATIS(satisfaction)
Fréquence obs. ‚Fréquence théo. ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 17 ‚ 62 ‚ 79cadre ‚ 24.884 ‚ 54.116 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚---------------------------------------------col blanc ‚ 50 ‚ 112 ‚ 162 ‚ 51.028 ‚ 110.97 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚---------------------------------------------col bleu ‚ 99 ‚ 187 ‚ 286 ‚ 90.087 ‚ 195.91 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚---------------------------------------------Total 166 361 527 31.50 68.50 100.00
7070
Résultats du test statistique: (obtenu Résultats du test statistique: (obtenu avec avec tctc..xlsxls))
Donc, on ne rejettera pas l’hypothèse d ’indépendance au niveau =5% car le « p-value » est > 5%.
Statistique du chi-deux: 4.964
2
0.084
Degrés de liberté:
P-value:
7171
Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que Qu ’arrive-t-il au « p-value » si la taille de l ’échantillon augmente mais que les distributions sont les mêmes?les distributions sont les mêmes?
EMPLOI(emploi) SATIS(satisfaction)
Fréquence obs. ‚Fréquence théo. ‚% ‚% ligne ‚% colonne ‚non ‚satisfait‚ Total ‚satisfait‚ ‚---------------------------------------------professionnel/ ‚ 34 ‚ 124 ‚ 158cadre ‚ 49.769 ‚ 108.23 ‚ ‚ 3.23 ‚ 11.76 ‚ 14.99 ‚ 21.52 ‚ 78.48 ‚ ‚ 10.24 ‚ 17.17 ‚---------------------------------------------col blanc ‚ 100 ‚ 224 ‚ 324 ‚ 102.06 ‚ 221.94 ‚ ‚ 9.49 ‚ 21.25 ‚ 30.74 ‚ 30.86 ‚ 69.14 ‚ ‚ 30.12 ‚ 31.02 ‚---------------------------------------------col bleu ‚ 198 ‚ 374 ‚ 572 ‚ 180.17 ‚ 391.83 ‚ ‚ 18.79 ‚ 35.48 ‚ 54.27 ‚ 34.62 ‚ 65.38 ‚ ‚ 59.64 ‚ 51.80 ‚---------------------------------------------Total 332 722 1054 31.50 68.50 100.00
7272
Résultats du test statistique:Résultats du test statistique:
Donc, on rejettera l’hypothèse d’indépendance au niveau =5% car le « p-value » est < 5%!!
Statistique du chi-deux: 9.928
2
0.007
Degrés de liberté:
P-value:
7373
Application: test sur la différence entre deux Application: test sur la différence entre deux proportionsproportions
Dans deux municipalités avoisinantes, on a effectué un Dans deux municipalités avoisinantes, on a effectué un sondage pour connaître l’opinion des contribuables sur sondage pour connaître l’opinion des contribuables sur l ’aménagement d ’un site pour l ’enfouissement des l ’aménagement d ’un site pour l ’enfouissement des déchets. Si une municipalité a une proportion de déchets. Si une municipalité a une proportion de contribuables en faveur significativement plus élevée que contribuables en faveur significativement plus élevée que dans l ’autre municipalité, alors le site sera probablement dans l ’autre municipalité, alors le site sera probablement aménager dans cette municipalité. Dans la municipalité 1 , aménager dans cette municipalité. Dans la municipalité 1 , nn11 individus ont répondu au sondage scientifique et n individus ont répondu au sondage scientifique et n22 individus dans la municipalité 2.individus dans la municipalité 2.
7474
Un échantillon de 150 individus ont répondu au sondage dans la municipalité 1 et 84 étaient en faveur (56%), tandis que 124 individus ont répondu dans la municipalité2 et 62 étaient en faveur (50%).
H0 : p1 = p2 vs H1 : p1 p2 (test bilatéral)
Remarque: on peut poser le problème de la façon suivante: est-ce qu ’il y a un lien entre la variable municipalité et l’opinion sur l’aménagement d ’un site pour l’enfouissement des déchets.
7575
MUNI(municipalité) OPINIONFréquence‚Fréq th. ‚% ‚% ligne ‚% colonne‚non ‚en ‚ Total ‚favorable‚faveur ‚------------------------------------1 ‚ 66 ‚ 84 ‚ 150 ‚ 70.073 ‚ 79.927 ‚ ‚ 24.09 ‚ 30.66 ‚ 54.74 ‚ 44.00 ‚ 56.00 ‚ ‚ 51.56 ‚ 57.53 ‚------------------------------------2 ‚ 62 ‚ 62 ‚ 124 ‚ 57.927 ‚ 66.073 ‚ ‚ 22.63 ‚ 22.63 ‚ 45.26 ‚ 50.00 ‚ 50.00 ‚ ‚ 48.44 ‚ 42.47 ‚------------------------------------Total 128 146 274 46.72 53.28 100.00
Statistique DL Valeur P-value----------------------------------------------------Khi-deux 1 0.982 0.322
7676
En utilisant le test d’indépendance, on trouve une p-value de 0.32, ce qui nous amène à accepter l’hypothèse nulle d’indépendance. Les deux proportions ne sont pas significativement différentes.
Statistique du chi-deux: 0.982
1
0.32176588
Degrés de liberté:
P-value: