loi normale

48
1.1. Loi normale ou de Gauss Supposons que nous tirions des échantillons aléatoires d'une population dont la taille moyenne est de 170 cm, avec un écart type de 10 cm. Traçons l'histogramme de la taille, avec des classes de 5cm de large. Examinons l’aspect de ces histogrammes. Echantillon de 10 individus Echantillon de 100 individus Echantillon de 1000 individus Echantillon de 10.000 individus

description

 

Transcript of loi normale

Page 1: loi normale

1.1. Loi normale ou de GaussSupposons que nous tirions des échantillons aléatoires d'une population dont la taille moyenne est de 170 cm, avec un écart type de 10 cm.Traçons l'histogramme de la taille, avec des classes de 5cm de large.Examinons l’aspect de ces histogrammes.

Echantillon de 10 individus Echantillon de 100 individus

Echantillon de 1000 individus Echantillon de 10.000 individus

Page 2: loi normale

Echantillon de 100.000 individus. (ici, les classes sont de 2 cm)

Au fur et à mesure que la taille de l'échantillon augmente (et que la taille des classes diminue), l'histogramme devient de plus en plus régulier et se rapproche d'une courbe en cloche, appelée loi normale.Loi normale

La loi normale est la loi statistique la plus répandue et la plus utile.Elle représente beaucoup de phénomènes aléatoires.De plus, de nombreuses autres lois statistiques peuvent être approchées par la loi normale, tout spécialement dans le cas des grands échantillons.

Page 3: loi normale

Son expression mathématique est la suivante:

est la moyenne l’écart type n le nombre total d’individus dans l’échantillon n(x) le nombre d’individus pour lesquels la grandeur analysée a la

valeur x. Lorsque la distribution des individus dans une population obéit à la loi normale, on trouve :A. 50 % des individus en dessous de la moyenne et 50 % au-dessus (la

loi normale est symétrique)

Page 4: loi normale

B. 68 % des individus entre et

C. 95 % des individus entre -1,96 et +1,96, que nous arrondirons à l’intervalle 2,

D. 99,7 % des individus entre et (il y a donc très peu de chances qu’un individu s’écarte de la moyenne de plus de 3).

1.2. Calcul des probabilitésPour calculer les probabilités associées à la loi normale, on utilise généralement la loi normale réduite : c’est une loi normale pour laquelle et .La table suivante permet de déterminer la probabilité que la variable x s’écarte de la moyenne de plus de z0 vers le haut.Pour obtenir z0, on calcule l’écart par rapport à la moyenne : x - ,

puis on divise par l’écart type :

Page 5: loi normale

2ème décimale de z0

Z0 0 1 2 3 4 5 6 7 8 9

0.0 .500 .496 .492 .488 .484 .480 .476 .472 .468 .4640.1 .460 .456 .452 .448 .444 .440 .436 .433 .429 .4250.2 .421 .417 .413 .409 .405 .401 .397 .394 .390 .3860.3 .382 .378 .374 .371 .367 .363 .359 .356 .352 .3480.4 .345 .341 .337 .334 .330 .326 .323 .319 .316 .312

0.5 .309 .305 .302 .298 .295 .291 .288 .284 .281 .2780.6 .274 .271 .268 .264 .261 .258 .255 .251 .248 .2450.7 .242 .239 .236 .233 .230 .227 .224 .221 .218 .2150.8 .212 .209 .206 .203 .200 .198 .195 .192 .189 .1870.9 .184 .181 .179 .176 .174 .171 .169 .166 .164 .161

1.0 .159 .156 .154 .152 .149 .147 .145 .142 .140 .1381.1 .136 .133 .131 .129 .127 .125 .123 .121 .119 .1171.2 .115 .113 .111 .109 .107 .106 .104 .102 .100 .0991.3 .097 .095 .093 .092 .090 .089 .087 .085 .084 .0821.4 .081 .079 .078 .076 .075 .074 .072 .071 .069 .068

1.5 .067 .066 .064 .063 .062 .061 .059 .058 .057 .0561.6 .055 .054 .053 .052 .051 .049 .048 .047 .046 .0461.7 .045 .044 .043 .042 .041 .040 .039 .038 .038 .0371.8 .036 .035 .034 .034 .033 .032 .031 .031 .030 .0291.9 .029 .028 .027 .027 .026 .026 .025 .024 .024 .023

2.0 .023 .022 .022 .021 .021 .020 .020 .019 .019 .0182.1 .018 .017 .017 .017 .016 .016 .015 .015 .015 .0142.2 .014 .014 .013 .013 .013 .012 .012 .012 .011 .0112.3 .011 .010 .010 .010 .010 .009 .009 .009 .009 .0082.4 .008 .008 .008 .008 .007 .007 .007 .007 .007 .006

2.5 .006 .006 .006 .006 .006 .005 .005 .005 .005 .0052.6 .005 .005 .004 .004 .004 .004 .004 .004 .004 .0042.7 .003 .003 .003 .003 .003 .003 .003 .003 .003 .0032.8 .003 .002 .002 .002 .002 .002 .002 .002 .002 .0022.9 .002 .002 .002 .002 .002 .002 .002 .001 .001 .001

Lorsque l’on doit déterminer une probabilité à partir de la loi normale, on essaie de se ramener à une probabilité considérée dans la table.

Page 6: loi normale

Quelques cas concrets sont illustrés ci-dessous.1) x > + z0

2) x < - z0

3) x plus éloigné de que z0

4) x plus proche de que z0

5) x z0

Page 7: loi normale

Exemples : Le poids des tomates produites par un jardinier obéit à une loi normale de moyenne 200 gr et d'écart type 40 gr.a. Calculez la probabilité que le poids d'une tomate excède 250 gr.

Solution:

b. Calculez la probabilité que le poids d'une tomate soit inférieur à 100 gr.

Solution: la loi normale est symétrique on ne s'occupe pas du signe

moins de 100 gr: on s'écarte donc de la valeur moyenne = 200 gr de plus de z0

c. Calculez la probabilité que le poids d'une tomate soit inférieur à 230 gr.

Solution:

L’intervalle ( 230 gr) considéré contient la valeur moyenne (200 gr) on prend 1 – Prob(table):

d. Calculez la probabilité que le poids d’une tomate ne s’écarte pas de la valeur moyenne de plus de 20 gr.

Solution: on calcule d’abord la probabilité que le poids s’écarte de plus de 20 gr, vers le haut ou vers le bas :

On doit multiplier par 2 car on considère les deux côtés Prob = 2 0,309 = 0,618On a donc une prob. de 0,618 que le poids s'écarte de µ de plus de 20 gr, et donc une prob. 1-0,618 que le poids ne s'écarte pas de plus de 20 gr.Réponse: 0,382 = 38,2 %

1.3. Forme de la distribution d'échantillonnageSupposons que nous analysions une population quelconque à partir d'un ensemble d'échantillons.Pour chacun de ces échantillons, nous calculons une valeur moyenne X qui est une estimation de la moyenne de la population .Bien entendu, les estimations X différeront généralement de la vraie moyenne .Nous désirons savoir comment les différentes déterminations X vont se distribuer autour de la vraie moyenne .

Page 8: loi normale

Traçons l'histogramme des valeurs moyennes, c'est-à-dire le nombre d'échantillons pour lesquels la valeur moyenne X prend une certaine valeur (se situe dans une certaine classe).

La figure suivante montre l’histogramme des valeurs moyennes X pour des échantillons de tailles croissantes tirés des populations indiquées sur la première ligne.

Page 9: loi normale

Lorsque la taille de l'échantillon est suffisamment grande, (n 10) la distribution de la moyenne a une forme approximativement normale.

L'écart type sur la moyenne est:

Quelle que soit la population sous-jacente, si on utilise des échantillons suffisamment grands (au moins 10 à 20 individus), la précision de la valeur moyenne peut être calculée à partir de la loi normale.

Page 10: loi normale

Il y a 68 % (2/3) de chances que la vraie moyenne soit dans l'intervalle compris entre X- et X+.

Il y a 95 % de chances que la vraie moyenne soit dans l'intervalle compris entre X-2 et X+2.

Exemples1. Une organisation de consommateurs désire savoir si le poids réel des

pains de 800gr produits dans une boulangerie est bien conforme au poids annoncé.Pour cela, elle prélève 100 pains au hasard. Elle obtient un poids moyen de 780 gr, avec un écart type de 80 gr.Quelle est la probabilité que le boulanger triche en moyenne sur le poids de ses pains?

Ecart type de X:

Il n'y a pas tricherie si est de 800 gr au moins, c'est-à-dire 20 gr au-dessus de X.

D'après la table, la probabilité que soit supérieur à X d'au moins 2,5 ( X ) est de 0,006.

100 - 100 0,006 = 100 - 0,6 = 99,4Il y a 99,4 % de chance pour que le boulanger triche on peut raisonnablement conclure à la tricherie !

2. Dans une autre boulangerie, l’échantillon de 100 pains conduit au résultat suivant :

Page 11: loi normale

D’après la table, la probabilité que soit supérieur ou égal à 800 gr est de 0,159.Il y a donc 84,1 % de chances que ce boulanger triche.Même si la présomption est forte, ce n’est pas vraiment suffisant pour conclure à la tricherie !

3. Dans une troisième boulangerie, on obtient :

D'après la table, la probabilité que soit inférieur ou égal à 800 gr est de 0,023.Il n'y a que 2,3 % de chances que ce boulanger triche.On peut conclure qu'il est honnête !

4. Le revenu moyen d'un échantillon représentatif de 16 ménages s'élève à 62 000 F net par mois, avec un écart type de 16 000 F.a. Quelle est la probabilité que le revenu moyen de l'ensemble de la

population soit inférieur à 60 000 F ?Solution:

< 60 000: s'écarte de X de plus de 0,5( X ) on prend la valeur de la tableProb = 0,309 = 30,6 %

b. Quelle est la probabilité que le revenu moyen de la population soit inférieur à 65 000 F ?Solution:

< 65000: ne s'écarte pas de X de plus de 0,75 ( X ) vers le haut on prend la valeur p de la table et on calcule 1-p

p = 0,2271-p = 0,773 = 77,3 %

5.4. Intervalles de confianceNous avons vu que la moyenne X d'un échantillon aléatoire permet d'estimer la vraie moyenne de la population.Nous voudrions estimer également la précision de cette moyenne, c'est-à-dire donner une marge d'erreur ou un intervalle de confiance.

Page 12: loi normale

Nous pouvons utiliser les tables de la loi normale pour estimer ces intervalles de confiance.En général nous adopterons l'intervalle de confiance à 95%, soit à 2( X ).Nous pourrons donc écrire, soit:

soit, plus explicitement:Il y a 95 chances sur 100 que se situe entre

Si nous tirons une série d’échantillons aléatoires de la population, dans 19 cas sur 20 (en moyenne), se trouvera dans l’intervalle de confiance X ( X ).

Page 13: loi normale

Exemples :1. La taille moyenne d'un échantillon de 51 filles de 2ème candi. commu.

est de 167,9 cm.L'écart type de cet échantillon est de 5,3 cm.Si nous supposons que cet échantillon est représentatif de la taille des filles belges âgées d'une vingtaine d'années, nous pouvons calculer la taille moyenne de cette population, avec sa marge d'erreur :

Avec 95 % de confiance, nous pouvons donc dire que la taille moyenne de la population vaut:

= 167,9 1,5 cmce qui revient à dire qu'il y a 95 chances sur 100 pour que la taille moyenne des filles belges de 20 ans se situe entre 166,4 et 169,4 cm.

2. La taille moyenne d'un échantillon de 35 garçons de 2ème candi. commu. est de 182,9 cmEn supposant de même l'échantillon représentatif, nous pouvons donner un intervalle de confiance pour la taille des garçons belges de 20 ans.

Avec 95 % de confiance, on a donc: = 182,9 2,3 cm

5.5. Comparaison de deux échantillons indépendantsDes échantillons sont indépendants lorsqu’une modification dans l’un d’eux n’a pas d’influence sur les autres.Par exemple, un échantillon de filles et un échantillon de garçons sélectionnés pour déterminer le poids moyen des filles et celui des garçons sont indépendants.Par contre, les personnes qui affirment voter pour un parti A ou pour un parti B dans un sondage politique ne forment pas deux échantillons indépendants car si une personne de plus déclare voter pour A, il y a un électeur potentiel en moins pour B (les résultats de A et B s’influencent).La différence moyenne est simplement:

Son écart type est donné par:

(formule approchée, mais suffisamment précise)Pour la taille des filles et des garçons:

Page 14: loi normale

L'intervalle de confiance à 95 % est de:2 1,35 = 2,7 cm

XD = 15,0 2,7 cmSi nous désirons maintenant répondre à la question suivante: les garçons sont-ils plus grands, en moyenne, que les filles?

différence moyenne de taille: XD = 15,0 cm écart type de cette différence: D = 1,35 cm nombre d'écarts types au-dessus de 0 cm (0 cm pas de

différence de taille)

Dans une distribution normale, la probabilité d'avoir une valeur qui s'écarte de la moyenne de plus de 11 est inférieure à 2.10-28 et donc complètement négligeable.Si nos échantillons sont représentatifs, il n'y a donc aucune chance que la différence de taille soit due au hasard.Sur base de nos échantillons, nous sommes donc pratiquement certains que les garçons sont, en moyenne, plus grands que les filles.

Page 15: loi normale

ExempleOn sélectionne un échantillon de 25 paysans syldaves. La superficie de leurs terres s'élève à 24 hectares en moyenne, avec un écart type de 5 hectares.Pour un échantillon de 16 paysans bordures, la superficie moyenne des terres est de 26 hectares, avec un écart type de 8 hectares.Quelle est la probabilité que les paysans syldaves aient, en moyenne, plus de terres que les bordures ?Solution:Ces échantillons sont indépendants. échantillon syldave:

écart type sur la moyenne:

échantillon bordure:

écart type sur la moyenne:

différence moyenne: (syldave-bordure):

écart type sur la différence:

les syldaves ont plus de terre en moyenne que les bordures si la différence est >0s'écarte de la valeur moyenne calculée de plus de 2

tableProb = 0,187 = 18,7 % de chances que la superficie moyenne soit supérieure en Syldavie.

6 Les proportions

6.1. Ecart type pour les proportionsConsidérons le cas d’un sondage politique.Ici, on ne désire plus estimer la moyenne d'une grandeur sur une population, mais la proportion des individus de cette population qui se rangent dans une catégorie (p.ex., qui déclarent voter pour le P.U.B.).ExempleUn institut de sondage interroge un échantillon représentatif de 200 électeurs, qui ont le choix entre 4 partis politiques.Les résultats du sondage sont les suivants:

parti nombre d’intentions de votePUB 24PET 35PAF 69PIF 61

ne se prononcent pas 11Notons p la proportion d'individus d'une classe dans l'échantillon

Page 16: loi normale

Si n1 est le nombre d'individus dans la classe 1 et n le nombre total d'individus dans l'échantillon, on a :

et de même

Page 17: loi normale

Dans notre sondage, les proportions sont les suivantes:

parti proportionPUB 0,120PET 0,175PAF 0,345PIF 0,305

n.s.p. 0,055Si l'échantillon est représentatif, la proportion p dans l'échantillon est une approximation de la proportion dans la population.Pour des échantillons suffisamment grands, les proportions suivent une loi normale, avec un écart type d'échantillon de:

En général, la proportion dans la population n'est pas connue. On la remplace alors par la proportion p dans l'échantillon

Les proportions obéissent à des lois comparables à celles des moyennes.Une différence importante est que l'écart type peut être calculé à partir des proportions (pour les moyennes, il devait être connu par ailleurs).Nous pouvons donc calculer les intervalles de confiance à 95 % sur les intentions de vote.

Les intervalles de confiance à 95 % sont de 2P

Page 18: loi normale

Les résultats du sondage sont les suivants:

parti intentions de vote

PUB 12,0 4,6 %PET 17,5 5,4 %PAF 34,5 6,8 %PIF 30,5 6,6 %

6.2. Les proportions sont des moyennesConsidérons une élection opposant deux partis A et B.Considérons la grandeur x = nombre de voix qu’un électeur apporte au parti B.C’est une variable discrète qui peut prendre deux valeurs :

x = 0 si l’électeur vote pour Ax= 1 si l’électeur vote pour B

Soient

nA le nombre d’électeurs votant pour AnB le nombre d’électeurs votant pour Bn le nombre total d’électeursp la proportion d’électeurs votant pour B

Calculons la valeur moyenne de x :

La proportion est donc la moyenne de x.

Page 19: loi normale

Calculons l’écart type sur x (ou plutôt son carré, appelé variance) :

On a donc

Et donc,

6.3. ExemplesExemple 1 :

* Quand il n'y a que deux choix possibles, et pas d'abstentions, on a et l'incertitude sur n2 est forcément la même que sur n1. Ce n'est

plus vrai à partir de 3 choix.On ne peut pas calculer

car les 2 échantillons ne sont pas indépendants !Le parti 1 gagne les élections si p1>0,5

Page 20: loi normale

table Prob = 0,021il y a 2,1 % de chances que p1 < 0,5il y a 100-2,1 = 97,9 % de chances que le parti 1 remporte les électionsExemple 2 :On constate un défaut dans 20 % des voitures d’un modèle. Un garagiste, qui a vendu 50 voitures de ce modèle, fait revenir tous ses clients afin de remplacer une pièce aux voitures défectueuses. Pour cela, il a commandé 12 pièces de rechange.Quelle est la probabilité qu’il n’ait pas suffisamment de pièces ?Solution :La proportion de voitures défectueuses vaut .Dans l’échantillon de 50 voitures, on s’attend à la même proportion, avec un écart type :

Il n’aura pas suffisamment de pièces si le nombre de voitures défectueuses est supérieur à 12, ou au moins égal à 13.On a le choix entre deux critères :

Dans ce cas, on obtient un meilleur résultat en appliquant la correction de continuité et en choisissant 12,5 plutôt que 12 ou 13.Nous retiendrons donc

Pour qu’il n’ait pas assez de pièces de rechange, il faut donc que la proportion s’écarte de la valeur moyenne de plus de On obtient donc :

La probabilité d’avoir un écart au moins aussi élevé est, d’après la table de la loi normale, de 0,189.

Page 21: loi normale

Il y a donc 18,9 % de risques que le garagiste n’ait pas assez de pièces de rechange.

6.4. Illustration : test de la fiabilité des horoscopesLors de deux leçons, nous organisons un test destiné à mesurer la fiabilité des horoscopes.Dans ce but, nous distribuons des feuilles reprenant les horoscopes de la semaine précédente.Chaque étudiant présent lit ces horoscopes et indique :

son signe astrologique ; lequel de ces horoscopes correspond le mieux à ce qui lui est

arrivé lors de la semaine écoulée.Pour le premier test, les signes astrologiques sont indiqués.Dans le second test, ces signes ne sont pas indiqués et l’ordre en est modifié.Ce test a pour but de répondre à deux questions :

les horoscopes sont-ils fiables ? la connaissance du signe a-t-elle une influence sur les réponses

des individus testés ?Nous désignerons par « coïncidences positives » (CP) les cas où l’étudiant a reconnu son signe, c’est-à-dire les cas où l’horoscope qu’il a sélectionné correspond bien à son signe.Les résultats des tests effectués de 1998 à 2004 sont résumés dans le tableau suivants :

année signes connus signes inconnusn CP n CP

1998 69 8 67 21999 - - 78 52000 - - 65 122001 76 19 65 32002 71 9 71 92003 57 10 72 52004 81 15 44 2total 354 61 418462 38

6.4.1. Test de la fiabilité des horoscopes.Nous considérons l’ensemble des quatre années et retenons les tests où les signes n’étaient pas connus, afin d'éviter des biais éventuels.Nous avons un échantillon de 462 réponses, avec 38 coïncidences positives.Si ces coïncidences positives étaient dues au hasard uniquement, c’est-à-dire si chaque individu répondait au hasard, il aurait une chance sur 12 de choisir l’horoscope correspondant à son signe.Par le hasard seul, nous nous attendrions donc à

Page 22: loi normale

Or, nous avons 38 CP, ce qui est pratiquement égal au nombre attendu par l’action du hasard.C’est très mauvais signe pour la fiabilité des horoscopes !Nous allons cependant utiliser nos connaissances en statistique pour analyser ces tests de manière plus quantitative.

Page 23: loi normale

(a) le nombre de coïncidences positives est compatible avec l’action du hasard seul.

Dans le cas d’une répartition au hasard, le nombre de CP doit être, en

moyenne, du nombre de réponses.

La proportion de CP, p+ , vaut donc :

avec un écart type

L’intervalle de confiance à 95 % vaut donc :0,083 ± 0,026

ou encore :[0,057 ; 0,109]

La valeur obtenue par l’étude de notre échantillon vaut : Elle se trouve dans l’intervalle de confiance pour une répartition due au hasard.On peut donc conclure que la petite différence entre la valeur mesurée et la valeur attendue est parfaitement compatible avec le hasard : c’est ce qu’on appelle une fluctuation statistique.Exemple de fluctuation statistique.Si on lance une pièce de monnaie, on s’attend à avoir, en moyenne, autant de « pile » que de « face ».Sur 100 lancers, on n’aura que rarement 50 « pile » et 50 « face » exactement. Les écarts par rapport à ce nombre moyen sont les fluctuations statistiques.ex : 47 pile et 53 face,

52 pile et 48 face,…(b) Avec quelle confiance pouvons-nous conclure à la non-fiabilité

des horoscopes ?Nous devons tout d’abord définir ce que nous entendons par fiabilité des horoscopes.Si l’astrologie était une science exacte, elle devrait être capable de prédire avec certitude ce qui va nous arriver.Toutefois, nous ne lui en demanderons pas tant.Nous dirons que les horoscopes sont fiables à 50 % si les prédictions concernant notre signe sont celles qui correspondent le mieux à ce qui nous arrive, dans au moins un cas sur deux.Dans ce cas, au moins la moitié des individus devraient reconnaître leur signe.

Page 24: loi normale

Remarque : cette définition est très peu contraignante pour l’astrologie. En effet :

nous ne lui demandons pas de prédire avec précision ce qui va nous arriver, mais seulement que la prédiction concernant notre signe soit la plus proche de ce qui va nous arriver, parmi les 12 prédictions.

nous ne demandons pas que cela se produise pour tous les individus, mais seulement pour la moitié d’entre eux.

Soit p+ la proportion des individus qui reconnaissent leur signe.Dans notre échantillon, nous avons :

avec un écart type :

Pour que les horoscopes soient fiables à 50 %, il faudrait, dans la population, une proportion p+ 0.5, donc un écart minimum avec notre valeur d’échantillon :

et donc :

Cette valeur est si grande qu’elle ne figure pas dans notre table de la loi normale.En fait, il n’y a pas une chance sur des milliards de milliards pour que les horoscopes testés soient fiables à 50 %.Notre échantillon nous permet d’exclure cette hypothèse avec une certitude quasi absolue.Les horoscopes pourraient-ils être fiables à 25 % ?Pourrait-il y avoir une chance sur 4 pour que la prédiction qui correspond le mieux à un individu soit celle de son signe ?

Page 25: loi normale

Dans ce cas, au moins un quart des individus devraient reconnaître leur signe.Il faudrait donc p+ 0.25, et donc un écart 

et :

Cette valeur est, une fois de plus, en dehors de la table de la loi normale.Notre test nous permet d’exclure avec une quasi certitude que les horoscopes testés soient fiables une fois sur 4.Tester une fiabilité plus faible n’a pas beaucoup de sens car :

être fiable moins d’une fois sur 4, c’est plutôt être non fiable. le hasard seul donne une fiabilité d’une fois sur 12on risque

évidemment de trouver que les horoscopes sont fiables une fois sur 12 !

En résumé :Nous pouvons conclure que la fiabilité des horoscopes testés est nulle, puisque l’on obtiendrait le même résultat en choisissant les signes au hasard.Si vous lisez les horoscopes, rien ne sert de connaître votre signe. Les prévisions des autres signes s’appliquent tout aussi bien (ou plutôt : tout aussi mal) à vous !6.4.2. La connaissance du signe a-t-elle influencé les réponses ?Nous allons tâcher de déterminer si les individus testés se sont laissé influencer par la connaissance de leur signe, lorsque celui-ci était indiqué.Dans les tests avec signes connus, nous avons 61 coïncidences positives sur 354 réponses, soit une proportion:

avec un écart type:

Page 26: loi normale

Avec les signes inconnus, nous avons 38 coïncidences positives sur 462 réponses, soit une proportion:

avec un écart type:

On a donc une proportion plus grande de coïncidences positives lorsque les signes sont connus, ce qui laisse supposer que certains individus se sont laissé influencer par la connaissance de leur signe .Cette différence est-elle statistiquement significatives ?Avec quelle confiance pouvons-nous affirmer que cette différence ne peut pas être due à l'action du hasard (fluctuation statistique).Nous pouvons supposer que les deux échantillons sont indépendants car nous ne voyons pas comment la réponse à un des test pourrait influencer la réponse à l'autre.Nous avons une différence de proportion:

entre les CP avec signes connus et inconnus.L'écart type sur cette différence vaut:

Nous obtenons donc:

D'après la loi normale, la probabilité qu'un tel écart soit dû au hasard est de 0,0001.Nous pouvons donc conclure avec 99,99 % de confiance que la connaissance du signe a effectivement influencé les réponses.Ce résultat illustre l'importance de réaliser les tests "à l'aveugle", sans que les sujets testés puissent se laisser influencer par la connaissance d'informations de nature à influencer le résultat. Même en essayant de ne pas tenir compte de ces informations, on risque fort de se laisser influencer.

7Corrélation

7.1. Corrélation entre deux variablesJusqu'à présent, nous nous sommes intéressés à des questions du type: quelle est la taille moyenne des garçons belges âgés d'une vingtaine

d'années ? quelle est la probabilité pour qu'un médicament soit efficace ?

Page 27: loi normale

quel pourcentage de voix un parti politique recueillera-t-il aux prochaines élections ?

quelle fraction des barres métalliques produites par une usine sera-t-elle rejetée par le client ?

le poids moyen des pains produits dans une boulangerie est-il supérieur à 800 grammes ?

Dans toutes ces questions, nous étudions le comportement statistique d'une seule variable: taille, efficacité du médicament, pourcentage de voix, longueur des barres, poids des pains.Il existe cependant toute une gamme de problèmes statistiques où l'on s'intéresse à la relation entre plusieurs variables.Exemples: les individus les plus grands sont-ils les plus lourds ? le revenu d'une famille a-t-il une influence sur les résultats scolaires

des enfants ? y a-t-il une relation entre le tabagisme et les cancers du poumon ? le rendement en céréales dépend-il de la quantité d'engrais utilisée ? la productivité d'une entreprise est-elle liée au salaire des ouvriers ou

employés ?Dans ces questions, nous désirons savoir si le comportement d'une variable est influencé par la valeur d'une autre variable:

tailletabagisme

poidscancer

revenurendement

résultatsengrais

La relation peut être causale ou nonPour étudier les relations ou corrélations entre deux variables statistiques, on peut les porter sur un graphique.Exemple: relation entre la taille et le poids des individuspour chaque individu de l'échantillon, on porte sur un graphique: sa taille en abscisse (l'abscisse d'un point correspond à sa projection

sur l'axe horizontal) son poids en ordonnée (l'ordonnée d'un point correspond à sa

projection sur l'axe vertical)chaque individu est donc, dans ce graphique, représenté par un point (point représentatif)soit un individu mesurant 172 cm et pesant 66 kg:

Page 28: loi normale

Dans le graphe, il y aura donc autant de points qu'il y a d'individus dans l'échantillon.

On peut (par la pensée ou réellement) tracer une droite qui passe au mieux par ces points (au milieu du "nuage" de points).

Page 29: loi normale

Si cette droite "monte", on dira qu'il y a corrélation positive entre les deux variables.Si elle "descend", c'est une corrélation négative.Si elle est "horizontale", ou si on ne peut pas décider, c'est qu'il y a absence de corrélation.Corrélation positive:

Corrélation négative:

Absence de corrélation:

La qualité de la corrélation entre deux variables peut se mesure par la dispersion des points autour de la relation moyenne.Corrélation parfaite:

Page 30: loi normale

Bonne corrélation (corrélation forte):

Mauvaise corrélation (corrélation faible):

Page 31: loi normale

Exemple:1. Corrélation entre le poids et la taille pour les garçons de 2ème

candidature communication (1998).

On constate une augmentation du poids avec la taille (corrélation positive): les garçons les plus grands sont généralement les plus lourds.Mais la dispersion des points est assez grande: la corrélation est assez faible.

2. Corrélation entre le poids et la taille pour les filles de 2ème candi. commu.

On ne constate pas de relation entre le poids et la taille (absence de corrélation): le poids des filles est indépendant de leur taille.

Page 32: loi normale

(Les filles les plus grandes sont donc les plus minces)

7.2. Méthode des moindres carrésSi on se contente de tracer à main levée la droite qui "passe au mieux" par les points représentatifs, différentes personnes vont obtenir des résultats différents.Il existe une méthode mathématique pour déterminer la "meilleure" droite: c'est la méthode des moindres carrés.Elle consiste, dans sa version la plus simple, à trouver la droite qui minimise les carrés des écarts des points représentatifs à cette droite.

Trouver la droite telle que la somme des carrés des écarts d1, d2,… soit minimale:

Soit

l'équation de la droite cherchée (droite de régression)Les coefficients a et b peuvent être calculés à partir des formules suivantes:Pente:

ou:

Page 33: loi normale

Ordonnée à l'origine:

Rappels:

7.3. Coefficient de corrélationLe signe de la pente a donne le sens de corrélation, mais pas sa qualité.a > 0 corrélation positivea < 0 corrélation négativea = 0 pas de corrélationLa qualité de la corrélation peut être mesurée par un coefficient de corrélation r

Le coefficient de corrélation est compris entre 1 et +1.Plus il s'éloigne de zéro, meilleure est la corrélationr = +1 corrélation positive parfaiter = 1 corrélation négative parfaiter = 0 absence totale de corrélation

Page 34: loi normale

Quelques exemples de corrélation(le coefficient de corrélation r est indiqué dans chaque cas)

Page 35: loi normale

Exemples:1. Supposons un échantillon aléatoire de 4 firmes pharmaceutiques présentant les dépenses de

recherche X et les profits Y suivants (en milliers de dollars):

X Y40 5040 6030 4050 50

Trouvez la droite de régression et le coefficient de corrélation.Calculons tout d'abord X et Y:

Complétons le tableau suivant:

40 50 0 0 0 0 040 60 0 +10 0 +100 030 40 10 10 +100 +100 +10050 50 +10 0 +100 0 0

On a donc:

Les coefficients de la droite de régression sont:

Et le coefficient de corrélation:

Page 36: loi normale

La corrélation est positive et de qualité moyenne

2. La corrélation entre la taille (X) et le poids (Y) pour les garçons de 2ème candi. commu. donne les résultats suivants:(a) droite de régression Y = aX + b

a = 0,816 b = -77,0(b) coefficient de corrélation

r = 0,61la corrélation est donc positive, de qualité moyenne

3. De la même manière, pour les filles, on obtient:(a) droite de régression

a = 0,239 b = 16,6(b) coefficient de corrélation

r = 0,20la corrélation est positive (les filles les plus grandes tendent à être les plus lourdes), mais de très mauvaise qualité (r proche de zéro).

Remarques:1. Le coefficient de corrélation nous donne des informations sur

l'existence d'une relation linéaire (sous forme d'une droite) entre les deux grandeurs considérées.Un coefficient de corrélation nul ne signifie pas l'absence de toute relation entre les deux grandeurs. Il peut exister une relation non linéaire entre elles.(cf. exemple (f) ci-dessus: la connaissance de X nous donne des informations sur la valeur de Y).

Page 37: loi normale

2. Il ne faut pas confondre corrélation et relation causale.Une bonne corrélation entre deux grandeurs peut révéler une relation de cause à effet entre elles, mais pas nécessairement.Exemples:1. Si on compare la durée de vie des individus à la quantité de

médicaments pour le cœur qu'ils ont absorbée, on observera probablement une corrélation négative. Il serait imprudent de conclure que la prise de médicaments pour le cœur abrège la vie des individus…(en fait, dans ce cas, la corrélation est l'indice d'une cause commune: la maladie de cœur).

2. Le soleil tire son énergie de réactions nucléaires transformant l'hydrogène en hélium. Notre société tire une bonne part de son énergie de la combustion du pétrole. Si on compare, année après année, la quantité d'hélium contenue dans le soleil au prix moyen du pétrole, on obtiendra une bonne corrélation positive, sans qu'il y ait la moindre relation de cause à effet, ni aucune cause commune.

3. Depuis une dizaine d'années, la taille de mon fils cadet, né en 1989, est très bien corrélée avec la puissance de calcul des ordinateurs personnels. Cette excellente corrélation ne révèle bien évidemment aucune relation de cause à effet, ni cause commune.

L'existence d'une corrélation, aussi bonne soit elle, n'est jamais la preuve d'une relation de cause à effet.